Mendefinisikan Model Statistik Regresi

Regresi Analisis Hubungan Antara Variabel

Regresi adalah teknik penambangan data yang digunakan untuk memprediksi berbagai nilai numerik (juga disebut nilai kontinyu ), diberikan dataset tertentu. Sebagai contoh, regresi dapat digunakan untuk memprediksi biaya suatu produk atau layanan, mengingat variabel lain.

Regresi digunakan di berbagai industri untuk perencanaan bisnis dan pemasaran, peramalan keuangan, pemodelan lingkungan, dan analisis tren.

Regresi Vs. Klasifikasi

Regresi dan klasifikasi adalah teknik penambangan data yang digunakan untuk memecahkan masalah yang sama, tetapi mereka sering bingung. Keduanya digunakan dalam analisis prediksi, tetapi regresi digunakan untuk memprediksi nilai numerik atau berkelanjutan sementara klasifikasi memberikan data ke dalam kategori diskrit.

Sebagai contoh, regresi akan digunakan untuk memprediksi nilai rumah berdasarkan lokasi, kaki persegi, harga ketika terakhir dijual, harga rumah serupa, dan faktor lainnya. Klasifikasi akan dilakukan jika Anda ingin mengatur rumah ke dalam kategori, seperti walkability, ukuran lot atau tingkat kejahatan.

Jenis Teknik Regresi

Bentuk regresi yang paling sederhana dan paling tua adalah regresi linier yang digunakan untuk memperkirakan hubungan antara dua variabel. Teknik ini menggunakan rumus matematika dari garis lurus (y = mx + b). Secara sederhana, ini berarti bahwa, dengan grafik dengan Y dan sumbu X, hubungan antara X dan Y adalah garis lurus dengan sedikit pencilan. Sebagai contoh, kita dapat berasumsi bahwa, dengan peningkatan populasi, produksi pangan akan meningkat pada tingkat yang sama - ini membutuhkan hubungan linear yang kuat antara kedua angka tersebut. Untuk memvisualisasikan ini, pertimbangkan grafik di mana sumbu Y melacak peningkatan populasi, dan X-axis melacak produksi makanan. Ketika nilai Y meningkat, nilai X akan meningkat pada tingkat yang sama, membuat hubungan antara mereka menjadi garis lurus.

Teknik tingkat lanjut, seperti regresi berganda, memprediksi hubungan antara beberapa variabel - misalnya, apakah ada korelasi antara pendapatan, pendidikan, dan di mana orang memilih untuk hidup? Penambahan lebih banyak variabel sangat meningkatkan kompleksitas prediksi. Ada beberapa jenis teknik regresi berganda termasuk standar, hierarkis, setwise dan bertahap, masing-masing dengan aplikasi sendiri.

Pada titik ini, penting untuk memahami apa yang kami coba ramalkan (variabel dependen atau prediksi ) dan data yang kami gunakan untuk membuat prediksi (variabel independen atau variabel prediktor ). Dalam contoh kami, kami ingin memprediksi lokasi di mana orang memilih untuk hidup (variabel yang diprediksi ) diberi penghasilan dan pendidikan (keduanya variabel prediktor ).