Cara Menggunakan Alat 'Ngram Viewer' di Google Buku

A Ngram, juga biasa disebut N-gram adalah analisis statistik teks atau konten pidato untuk menemukan n (angka) dari beberapa jenis item dalam teks. Bisa jadi segala macam hal, seperti fonem, prefiks, frasa, atau huruf. Meskipun N-gram agak tidak jelas di luar peneliti, itu sebenarnya digunakan dalam berbagai bidang, dan itu memiliki banyak implikasi bagi orang-orang yang membuat program komputer yang memahami dan merespons dengan bahasa lisan alami. Singkatnya, itu akan menjadi minat Google pada ide itu.

Dalam kasus Google Books Ngram Viewer, teks yang akan dianalisis berasal dari sejumlah besar buku yang telah dipindai Google dari perpustakaan umum untuk mengisi mesin pencarian Google Buku mereka. Untuk Google Books Ngram Viewer, mereka merujuk pada teks yang akan Anda cari sebagai "corpus." Kopral di Ngram Viewer dibagi berdasarkan bahasa, meskipun Anda dapat menganalisis Inggris Inggris dan Amerika secara terpisah atau menyatukannya. Itu menjadi sangat menarik untuk beralih dari penggunaan istilah Inggris ke Amerika dan melihat perubahan bagan.

Bagaimana Ngram Bekerja

  1. Buka Penampil Ngram Google Buku di books.google.com/ngrams.
  2. Item peka huruf besar kecil, tidak seperti penelusuran Web Google, jadi pastikan untuk menggunakan kata benda yang tepat.
  3. Ketikkan frasa atau frasa apa pun yang ingin Anda analisis. Pastikan untuk memisahkan setiap frasa dengan koma. Google menyarankan, "Albert Einstein, Sherlock Holmes, Frankenstein" untuk memulai.
  4. Selanjutnya, ketik rentang tanggal. Standarnya adalah 1800 hingga 2000, tetapi ada buku-buku yang lebih baru (2011 adalah yang paling baru terdaftar di dokumentasi Google, tapi itu mungkin telah berubah.)
  5. Pilih korpus. Anda dapat mencari teks bahasa asing atau bahasa Inggris, dan selain pilihan standar, Anda mungkin memperhatikan hal-hal seperti "Bahasa Inggris (2009) atau Bahasa Inggris Amerika (2009)" di bagian bawah. Ini adalah korpora lama yang sejak itu diperbarui oleh Google, tetapi Anda mungkin memiliki beberapa alasan untuk membuat perbandingan Anda terhadap kumpulan data lama. Sebagian besar pengguna dapat mengabaikannya dan fokus pada korpora terbaru.
  6. Atur tingkat perataan Anda. Smoothing mengacu pada seberapa halus grafik di bagian akhir. Representasi yang paling akurat adalah tingkat perataan 0, tetapi itu mungkin sulit dibaca. Standarnya diatur ke 3. Biasanya, Anda tidak perlu menyesuaikan ini.
  1. Tekan tombol Cari banyak buku . (Anda juga dapat menekan enter pada permintaan pencarian.)

Apa itu Menampilkan Ngram?

Google Books Ngram Viewer akan menampilkan grafik yang merepresentasikan penggunaan frasa tertentu dalam buku sepanjang waktu. Jika Anda memasukkan lebih dari satu kata atau frasa, Anda akan melihat garis-garis berkode warna untuk membedakan istilah pencarian yang berbeda. Ini sangat mirip dengan Google Trends , hanya pencarian mencakup jangka waktu yang lebih lama.

Inilah contoh kehidupan nyata. Kami ingin tahu tentang kue cuka baru-baru ini. Mereka disebutkan di Laura Ingalls Wilder's Little House pada seri Prairie , tetapi kami belum pernah mendengar hal semacam itu. Kami pertama kali menggunakan pencarian Web Google untuk mempelajari lebih lanjut tentang kue cuka. Rupanya, mereka dianggap bagian dari masakan Selatan Amerika dan benar-benar terbuat dari cuka. Mereka mendengarkan kembali saat-saat ketika tidak semua orang memiliki akses ke produk segar setiap saat sepanjang tahun. Apakah itu keseluruhan cerita?

Kami mencari Google Ngram Viewer, dan ada beberapa penyebutan pai di awal tahun 1800-an, banyak yang disebutkan pada tahun 1940-an, dan semakin banyak disebutkan dalam beberapa waktu terakhir (mungkin beberapa nostalgia pie). Nah, ada beberapa masalah dengan data pada tingkat penghalusan 3. Ada dataran tinggi di atas menyebutkan pada 1800-an. Tentunya tidak ada jumlah yang sama menyebutkan satu pai tertentu setiap tahun selama lima tahun? Apa yang terjadi adalah karena tidak banyak buku yang diterbitkan selama waktu itu, dan karena data kami disetel menjadi halus, itu mendistorsikan gambar. Mungkin ada satu buku yang menyebutkan kue cuka, dan itu hanya dirata-ratakan untuk menghindari lonjakan. Dengan mengatur smoothing ke 0, kita dapat melihat bahwa ini persis seperti itu. Pusat lonjakan pada 1869, dan ada lonjakan lain pada 1897 dan 1900.

Apakah tidak ada yang berbicara tentang cuka pai sisa waktu? Mereka mungkin membicarakan tentang pai itu. Mungkin ada resep yang mengambang di semua tempat. Mereka tidak menulis tentang mereka di buku, dan itu adalah keterbatasan dari pencarian Ngram ini.

Penelusuran Ngram Lanjutan

Ingat bagaimana kami mengatakan bahwa Ngram dapat terdiri dari semua jenis pencarian teks yang berbeda? Google memungkinkan Anda untuk menelusuri sedikit dengan Ngram Viewer juga. Jika Anda ingin mencari ikan kata kerja, bukan ikan kata benda, Anda dapat melakukannya dengan menggunakan tag. Dalam hal ini, Anda akan menelusuri "fish_VERB"

Google menyediakan daftar lengkap perintah yang dapat Anda gunakan dan dokumentasi lanjutan lainnya di situs web mereka.