Apa itu k-means Clustering?

Penambangan data dengan algoritma k-means

Algoritma k- means clustering adalah penambangan data dan alat pembelajaran mesin yang digunakan untuk mengelompokkan pengamatan ke dalam kelompok pengamatan terkait tanpa pengetahuan sebelumnya tentang hubungan tersebut. Dengan sampling, algoritma mencoba untuk menunjukkan di mana kategori, atau cluster, data milik, dengan jumlah cluster yang didefinisikan oleh nilai k.

Algoritma k- means adalah salah satu teknik pengelompokan yang paling sederhana dan umumnya digunakan dalam pencitraan medis, biometrik, dan bidang terkait. Keuntungan dari k- means clustering adalah bahwa ia menceritakan tentang data Anda (menggunakan bentuk tanpa pengawasannya) daripada Anda harus menginstruksikan algoritma tentang data di awal (menggunakan bentuk yang diawasi dari algoritma).

Kadang-kadang disebut sebagai Algoritma Lloyd, khususnya dalam lingkaran ilmu komputer karena algoritma standar pertama kali diusulkan oleh Stuart Lloyd pada tahun 1957. Istilah "k-means" diciptakan pada tahun 1967 oleh James McQueen.

Bagaimana Fungsi Algoritma k-means

Algoritma k- means adalah algoritma evolusioner yang mendapatkan namanya dari metode operasinya. Algoritma pengelompokan pengamatan menjadi kelompok k , di mana k disediakan sebagai parameter input. Ini kemudian menetapkan setiap pengamatan ke kelompok berdasarkan kedekatan pengamatan dengan rerata cluster. Maksud cluster kemudian dihitung ulang dan prosesnya dimulai lagi. Beginilah cara kerja algoritme:

  1. Algoritme secara sewenang-wenang memilih poin k sebagai pusat kluster awal (sarana).
  2. Setiap titik dalam dataset ditetapkan ke cluster tertutup, berdasarkan jarak Euclidean antara setiap titik dan setiap pusat cluster.
  3. Setiap pusat klaster dikomputasi ulang sebagai rata-rata poin dalam klaster tersebut.
  4. Langkah 2 dan 3 ulangi sampai kelompok berkumpul. Konvergensi dapat didefinisikan secara berbeda tergantung pada implementasi, tetapi biasanya berarti bahwa tidak ada pengamatan yang mengubah kluster ketika langkah 2 dan 3 diulang, atau bahwa perubahan tidak membuat perbedaan material dalam definisi kluster.

Memilih Jumlah Cluster

Salah satu kelemahan utama untuk k- berarti pengelompokan adalah kenyataan bahwa Anda harus menentukan jumlah kelompok sebagai masukan ke algoritma. Seperti yang dirancang, algoritma ini tidak mampu menentukan jumlah cluster yang sesuai dan bergantung pada pengguna untuk mengidentifikasi ini sebelumnya.

Sebagai contoh, jika Anda memiliki sekelompok orang yang akan dikelompokkan berdasarkan identitas jender biner sebagai pria atau wanita, memanggil algoritma k- means menggunakan input k = 3 akan memaksa orang menjadi tiga kelompok ketika hanya dua, atau masukan dari k = 2, akan memberikan kesesuaian yang lebih alami.

Demikian pula, jika sekelompok individu mudah dikelompokkan berdasarkan keadaan rumah dan Anda memanggil algoritma k- means dengan input k = 20, hasilnya mungkin terlalu umum untuk menjadi efektif.

Karena alasan ini, sering kali adalah ide yang bagus untuk bereksperimen dengan nilai k yang berbeda untuk mengidentifikasi nilai yang paling sesuai dengan data Anda. Anda juga mungkin ingin menjelajahi penggunaan algoritma penggalian data lainnya dalam pencarian Anda untuk pengetahuan yang dipelajari mesin.