Apa yang Harus Anda Ketahui Tentang Pemfilteran Spam Bayesian

by Heinz Tschabitscher

Cari tahu bagaimana statistik membantu menjaga kotak masuk Anda tetap bersih

Filter spam Bayesian menghitung kemungkinan pesan menjadi spam berdasarkan isinya. Tidak seperti filter berbasis konten yang sederhana, pemfilteran spam Bayesian belajar dari spam dan dari email yang baik, menghasilkan pendekatan anti-spam yang sangat kuat, adaptif, dan efisien yang, terbaik dari semuanya, mengembalikan hampir semua kesalahan positif.

Bagaimana Anda Mengenali Email Sampah?

Pikirkan tentang cara Anda mendeteksi spam . Pandangan sekilas saja sudah cukup. Anda tahu apa yang tampak seperti spam, dan Anda tahu seperti apa email yang baik itu.

Kemungkinan spam terlihat seperti surat yang baik adalah sekitar ... nol.

Mencetak Filter Berbasis Konten Tidak Beradaptasi

Bukankah lebih bagus lagi jika filter spam otomatis bekerja seperti itu juga?

Mencetak filter spam berbasis konten coba saja itu. Mereka mencari kata-kata dan karakteristik lain yang khas dari spam. Setiap elemen karakteristik diberi skor, dan skor spam untuk keseluruhan pesan dihitung dari skor individu. Beberapa filter penilaian juga mencari karakteristik surat yang sah, menurunkan skor akhir pesan.

Pendekatan filter penskalaan berfungsi, tetapi juga memiliki beberapa kelemahan:

Daftar karakteristik dibangun dari spam (dan surat baik) yang tersedia bagi para insinyur filter. Untuk mendapatkan pemahaman yang baik tentang spam khas yang mungkin didapatkan siapa pun, surat harus dikumpulkan di ratusan alamat email. Ini melemahkan efisiensi filter, terutama karena karakteristik surat yang baik akan berbeda untuk setiap orang , tetapi ini tidak diperhitungkan.
Ciri-ciri untuk mencari lebih atau kurang diatur dalam batu . Jika spammer melakukan upaya untuk beradaptasi (dan membuat spam mereka terlihat seperti email yang bagus ke filter), karakteristik penyaringan harus disesuaikan secara manual - upaya yang lebih besar.
Skor yang ditetapkan untuk setiap kata mungkin didasarkan pada perkiraan yang baik, tetapi itu masih sewenang-wenang. Dan seperti daftar karakteristik, ia tidak beradaptasi baik terhadap dunia spam yang berubah secara umum maupun kebutuhan pengguna individu.

Bayesian Spam Filter Tweak Sendiri, Semakin Baik dan Lebih Baik

Filter spam Bayesian juga sejenis filter berbasis konten. Pendekatan mereka menyingkirkan masalah filter spam skoring sederhana, meskipun, dan itu melakukannya secara radikal. Karena kelemahan filter pemberian skor ada dalam daftar karakteristik yang dibuat secara manual dan nilainya, daftar ini dihilangkan.

Sebaliknya, filter spam Bayesian membangun daftar itu sendiri. Idealnya, Anda mulai dengan sekelompok email besar yang telah diklasifikasikan sebagai spam, dan sekumpulan email bagus lainnya. Filter melihat keduanya dan menganalisis email yang sah serta spam untuk menghitung kemungkinan berbagai karakteristik yang muncul dalam spam, dan dalam surat yang baik.

Bagaimana Filter Spam Bayesian Memeriksa Email

Karakteristik yang bisa dilihat oleh filter spam Bayesian adalah:

kata-kata di tubuh pesan, tentu saja, dan
headernya (pengirim dan jalur pesan , misalnya!), tetapi juga
aspek lain seperti kode HTML / CSS (seperti warna dan format lainnya), atau bahkan
pasangan kata, frasa, dan
informasi meta (di mana frasa tertentu muncul, misalnya).

Jika sebuah kata, "Cartesian" misalnya, tidak pernah muncul dalam spam tetapi sering kali di email sah yang Anda terima, kemungkinan bahwa "Cartesian" menunjukkan bahwa spam mendekati nol. "Toner", di sisi lain, muncul secara eksklusif, dan seringkali, dalam spam. "Toner" memiliki kemungkinan yang sangat tinggi ditemukan dalam spam, tidak banyak di bawah 1 (100%).

Ketika pesan baru tiba, itu dianalisa oleh filter spam Bayesian, dan kemungkinan pesan lengkap sebagai spam dihitung menggunakan karakteristik individu.

Asumsikan pesan berisi "Cartesian" dan "toner". Dari kata-kata ini saja belum jelas apakah kami memiliki spam atau surat yang sah. Karakteristik lain akan (semoga dan kemungkinan besar) menunjukkan kemungkinan yang memungkinkan filter untuk mengklasifikasikan pesan baik sebagai spam atau surat yang baik.

Bayesian Spam Filters Dapat Dipelajari Secara Otomatis

Sekarang kita memiliki klasifikasi, pesan dapat digunakan untuk melatih filter itu sendiri lebih jauh. Dalam hal ini, kemungkinan "Cartesian" menunjukkan email yang baik diturunkan (jika pesan yang berisi "Cartesian" dan "toner" ditemukan sebagai spam), atau kemungkinan "toner" menunjukkan spam harus dipertimbangkan kembali.

Dengan menggunakan teknik adaptasi otomatis ini, filter Bayesian dapat belajar dari keputusan mereka sendiri dan pengguna (jika dia secara manual mengoreksi kesalahan penilaian oleh filter). Kemampuan adaptasi pemfilteran Bayesian juga memastikan mereka paling efektif untuk masing-masing pengguna email. Meskipun sebagian besar spam orang memiliki karakteristik yang serupa, email yang sah secara karakteristik berbeda untuk semua orang.

Bagaimana Cara Para Spammer Mendapat Filter Bayesian Lalu?

Karakteristik email yang sah sama pentingnya untuk proses pemfilteran spam Bayesian karena spam tersebut. Jika filter dilatih khusus untuk setiap pengguna, spammer akan memiliki waktu yang lebih sulit untuk bekerja di sekitar filter spam semua orang (atau bahkan kebanyakan orang), dan filter dapat beradaptasi dengan hampir semua spammer yang mencoba.

Spammer hanya akan berhasil melewati filter Bayesian yang terlatih dengan baik jika mereka membuat pesan spam mereka terlihat sempurna seperti email biasa yang mungkin didapatkan semua orang.

Spammer biasanya tidak mengirim email biasa seperti itu. Mari kita asumsikan ini karena email ini tidak berfungsi sebagai email sampah. Jadi, kemungkinan mereka tidak akan melakukannya ketika biasa, email membosankan adalah satu-satunya cara untuk melewati filter spam.

Namun, jika pelaku spam beralih ke sebagian besar email yang tampak biasa, kami akan melihat banyak spam di Kotak Masuk kami lagi, dan email dapat menjadi frustasi seperti saat pra-Bayesian (atau bahkan lebih buruk). Ini juga akan merusak pasar untuk sebagian besar jenis spam, meskipun, dan dengan demikian tidak akan bertahan lama.

Indikator Kuat Dapat Menjadi Filter & Penyalahgunaan Spam Bayesian # 39; Tumit

Satu pengecualian dapat dianggap bagi spammer untuk bekerja dengan cara mereka melalui filter Bayesian bahkan dengan konten biasa mereka. Ini adalah sifat statistik Bayesian bahwa satu kata atau karakteristik yang sangat sering muncul dalam surat yang baik dapat sangat signifikan untuk mengubah pesan apa pun dari tampak seperti spam untuk dinilai sebagai ham oleh filter.

Jika pelaku spam menemukan cara untuk menentukan kata-kata baik Anda yang baik-dengan kata kunci — dengan menggunakan tanda terima pengembalian HTML untuk melihat pesan yang Anda buka, misalnya—, mereka dapat menyertakan salah satu pesan itu dalam surat sampah dan menghubungi Anda bahkan melalui filter Bayesian terlatih.

John Graham-Cumming telah mencoba ini dengan membiarkan dua filter Bayesian bekerja melawan satu sama lain, yang "buruk" beradaptasi dengan pesan yang ditemukan untuk melewati filter "baik". Dia mengatakan itu berhasil, meskipun prosesnya memakan waktu dan rumit. Kami tidak berpikir kita akan melihat banyak dari ini terjadi, setidaknya tidak dalam skala besar, dan tidak disesuaikan dengan karakteristik email individu. Spammer dapat (mencoba) mencari tahu beberapa kata kunci untuk organisasi (sesuatu seperti "Almaden" untuk beberapa orang di IBM mungkin?) Sebagai gantinya.

Biasanya, spam akan selalu (secara signifikan) berbeda dari surat biasa atau tidak akan menjadi spam.

The Bottom Line: Kekuatan Penyaringan Bayesian Dapat Menjadi Kelemahannya

Filter spam Bayesian adalah filter berbasis konten yang:

secara khusus dilatih untuk mengenali spam dan email baik pengguna email individu , membuatnya sangat efektif dan sulit untuk diadaptasi bagi spammer.
dapat terus dan tanpa banyak usaha atau analisis manual beradaptasi dengan trik terbaru para spammer.
mempertimbangkan setiap surat baik pengguna individu dan memiliki tingkat kesalahan positif yang sangat rendah .
Sayangnya, jika ini menyebabkan kepercayaan buta pada filter anti-spam Bayesian, itu membuat kesalahan sesekali bahkan lebih serius . Efek sebaliknya dari negatif palsu (spam yang terlihat persis seperti surat biasa) memiliki potensi untuk mengganggu dan menggagalkan pengguna.