Klasifikasi dalam Data Mining

Klasifikasi adalah teknik penambangan data yang menugaskan kategori ke kumpulan data untuk membantu dalam prediksi dan analisis yang lebih akurat. Disebut juga kadang-kadang disebut Pohon Keputusan , klasifikasi adalah salah satu dari beberapa metode yang dimaksudkan untuk membuat analisis kumpulan data yang sangat besar menjadi efektif.

Mengapa Klasifikasi?

Database yang sangat besar menjadi norma di dunia "big data" saat ini. Bayangkan sebuah database dengan beberapa terabyte data - terabyte adalah satu triliun byte data.

Facebook sendiri menghabiskan 600 terabyte data baru setiap hari (pada 2014, terakhir kali ia melaporkan spesifikasi ini). Tantangan utama dari data besar adalah bagaimana memahaminya.

Dan volume belaka bukanlah satu-satunya masalah: data besar juga cenderung beragam, tidak terstruktur dan cepat berubah. Pertimbangkan data audio dan video, posting media sosial, data 3D atau data geospasial. Jenis data ini tidak mudah dikategorikan atau diorganisasikan.

Untuk menghadapi tantangan ini, berbagai metode otomatis untuk mengekstraksi informasi yang berguna telah dikembangkan, di antaranya klasifikasi .

Bagaimana Klasifikasi Bekerja

Dalam bahaya bergerak terlalu jauh ke dalam pembicaraan teknologi, mari kita diskusikan bagaimana klasifikasi bekerja. Tujuannya adalah untuk membuat seperangkat aturan klasifikasi yang akan menjawab pertanyaan, membuat keputusan, atau memprediksi perilaku. Untuk memulai, satu set data pelatihan dikembangkan yang berisi serangkaian atribut tertentu serta kemungkinan hasilnya.

Pekerjaan dari algoritma klasifikasi adalah untuk menemukan bagaimana set atribut tersebut mencapai kesimpulannya.

Skenario : Mungkin perusahaan kartu kredit sedang mencoba untuk menentukan prospek mana yang harus menerima tawaran kartu kredit.

Ini mungkin kumpulan data pelatihannya:

Data pelatihan
Nama Usia Jenis kelamin Pendapatan tahunan Penawaran Kartu Kredit
John Doe 25 M $ 39,500 Tidak
Jane Doe 56 F $ 125.000 iya nih

Kolom "prediktor" Usia , Jenis Kelamin , dan Penghasilan Tahunan menentukan nilai "prediktor atribut" Penawaran Kartu Kredit . Dalam satu set pelatihan, atribut prediktor diketahui. Algoritme klasifikasi kemudian mencoba untuk menentukan bagaimana nilai dari atribut prediktor tercapai: hubungan apa yang ada antara prediktor dan keputusan? Ini akan mengembangkan seperangkat aturan prediksi, biasanya pernyataan IF / THEN, misalnya:

IF (Usia> 18 ATAU Usia <75) DAN Penghasilan Tahunan> 40.000 MAKA Penawaran Kartu Kredit = ya

Jelas, ini adalah contoh sederhana, dan algoritma akan membutuhkan sampling data yang jauh lebih besar daripada dua catatan yang ditunjukkan di sini. Lebih lanjut, aturan prediksi cenderung jauh lebih kompleks, termasuk sub-aturan untuk menangkap detail atribut.

Selanjutnya, algoritma ini diberi "set prediksi" data untuk dianalisis, tetapi set ini tidak memiliki atribut prediksi (atau keputusan):

Data Prediktor
Nama Usia Jenis kelamin Pendapatan tahunan Penawaran Kartu Kredit
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0

Data prediktor ini membantu memperkirakan keakuratan aturan prediksi, dan aturan kemudian disesuaikan hingga pengembang menganggap prediksi efektif dan berguna.

Contoh Hari ke Hari Klasifikasi

Klasifikasi, dan teknik penambangan data lainnya, berada di balik sebagian besar pengalaman sehari-hari kami sebagai konsumen.

Prediksi cuaca mungkin menggunakan klasifikasi untuk melaporkan apakah hari akan hujan, cerah atau mendung. Profesi medis mungkin menganalisis kondisi kesehatan untuk memprediksi hasil medis. Jenis metode klasifikasi, Naive Bayesian, menggunakan probabilitas bersyarat untuk mengkategorikan email spam. Dari deteksi penipuan hingga penawaran produk, klasifikasi berada di belakang layar setiap hari menganalisis data dan menghasilkan prediksi.