getting close to your data…

Pemodelan Klasifikasi dengan Kelas Tidak Seimbang #1

January 5th, 2018 · No Comments

Apa itu?

Beberapa analis mendapati data yang digunakan pada saat menyusun model klasifikasi memiliki proporsi kelas yang timpang antara satu dengan yang lain.  Misalnya saja, dalam pembuatan model credit scoring, banyaknya nasabah yang BAD dalam data barangkali hanya 1% hingga 5% saja sedangkan sisanya adalah nasabah GOOD.  Dengan kata lain perbandingan antara kelas BAD:GOOD = 1:99 atau 5:95.  Kasus serupa juga dihadapi oleh para peneliti di bidang epidemologi, dimana kejadian individu yang mengalami penyakit tertentu sangat kecil.  Perbandingan antara yang sakit dan tidak bisa jadi adalah 1:100 atau bahkan lebih kecil lagi yaitu 1:1000.

Kelas dengan proporsi yang kecil dikenal sebagai kelas minoritas, sedangkan kelas yang dominan disebut kelas mayoritas

 

Masalahnya apa?

Penerapan secara langsung teknik-teknik pemodelan klasifikasi seperti regresi logistik, analisis diskriminan, dan classification tree umumnya akan gagal memperoleh model yang mampu memprediksi kejadian minoritas.  Kejadian ini kadang-kadang tidak disadari oleh analis karena mereka menggunakan kriteria akurasi sebagai kebaikan model.  Lihat bahwa pada kondisi perbandingan BAD:GOOD adalah 1:99, jika model memprediksi seluruhnya adalah GOOD, maka akurasi atau ketepatan prediksi dari model tersebut adalah 99%.  Terlihat besar dan memuaskan…. tapi kenyataannya model itu gagal mengidentifikasi kondisi yang BAD.  Seluruhnya terprediksi dengan salah.  Situasi ini yang dikenal sebagai accuracy paradox.

 

Solusinya?

Ada beberapa hal bisa dikerjakan dan secara empirik membantu memperoleh model yang lebih baik.  Solusi tersebut akan dipaparkan pada tulisan berikutnya….

 

 

 

Tags: Data Mining · Data Science · Statistics

0 responses so far ↓

  • There are no comments yet...Kick things off by filling out the form below.

Leave a Comment