getting close to your data…

Entries from January 2018

Pemodelan Klasifikasi dengan Kelas Tidak Seimbang #2

January 8th, 2018 · No Comments

imbalance

Ini merupakan lanjutan dari http://bagusco.staff.ipb.ac.id/2018/01/05/kelas-tidak-seimbang-part1/

 

Cara pertama

Hal pertama yang dapat dilakukan adalah dengan melihat kemungkinan apakah kita dapat melakukan penambahan data.  Memperbanyak data memungkinkan untuk menyebabkan proporsi yang tidak seimbang menjadi (sedikit) lebih seimbang.  Tentu saja ini tidak selalu berhasil dengan beberapa alasan, yaitu (1) Tidak ada waktu lagi untuk menambah data… sudah mepet waktunya untuk segera menghasilkan model, (2) Proporsi yang minoritas memang sangat kecil, mau nambah data berapapun maka proporsinya tidak akan meningkat, (3) Tidak ada data lagi, itu saja yang tersedia saat ini.

 

Cara Kedua…

Lakukan penyeimbangan data dengan melakukan resampling, yaitu menarik sampel dari data yang ada.  Proses penarikan sampel dilakukan dalam dua cara yaitu (1) undersampling, dan (2) oversampling.  Dua proses ini adalah penarikan sampel secara tidak proporsional.

Yang dimaksud dengan undersampling adalah mengambil sampel sedemikian rupa sehingga proporsi kelas mayoritas tidak sebesar (menjadi lebih kecil) proporsi aslinya.  Sering dikerjakan bahwa amatan kelas minoritas dipilih semuanya, sedangkan amatan kelas mayoritas diambil secara acak sebagian saja.  Dengan cara ini maka ketimpangan proporsi mayoritas dan minoritas menjadi berkurang.

Cara lain adalah oversampling.  Secara umum teknik ini adalah mengambil kelas minoritas sedemikian rupa sehingga proporsinya dalam sample lebih besar dibandingkan proporsi asalnya.   Yang dilakukan umumnya pada kasus pemodelan klasifikasi adalah dengan cara menduplikasi amatan minoritas.

 

Cara lain…. kita lanjutkan pada postingan berikutnya

 

 

Tags: Uncategorized

Pemodelan Klasifikasi dengan Kelas Tidak Seimbang #1

January 5th, 2018 · No Comments

Apa itu?

Beberapa analis mendapati data yang digunakan pada saat menyusun model klasifikasi memiliki proporsi kelas yang timpang antara satu dengan yang lain.  Misalnya saja, dalam pembuatan model credit scoring, banyaknya nasabah yang BAD dalam data barangkali hanya 1% hingga 5% saja sedangkan sisanya adalah nasabah GOOD.  Dengan kata lain perbandingan antara kelas BAD:GOOD = 1:99 atau 5:95.  Kasus serupa juga dihadapi oleh para peneliti di bidang epidemologi, dimana kejadian individu yang mengalami penyakit tertentu sangat kecil.  Perbandingan antara yang sakit dan tidak bisa jadi adalah 1:100 atau bahkan lebih kecil lagi yaitu 1:1000.

Kelas dengan proporsi yang kecil dikenal sebagai kelas minoritas, sedangkan kelas yang dominan disebut kelas mayoritas

 

Masalahnya apa?

Penerapan secara langsung teknik-teknik pemodelan klasifikasi seperti regresi logistik, analisis diskriminan, dan classification tree umumnya akan gagal memperoleh model yang mampu memprediksi kejadian minoritas.  Kejadian ini kadang-kadang tidak disadari oleh analis karena mereka menggunakan kriteria akurasi sebagai kebaikan model.  Lihat bahwa pada kondisi perbandingan BAD:GOOD adalah 1:99, jika model memprediksi seluruhnya adalah GOOD, maka akurasi atau ketepatan prediksi dari model tersebut adalah 99%.  Terlihat besar dan memuaskan…. tapi kenyataannya model itu gagal mengidentifikasi kondisi yang BAD.  Seluruhnya terprediksi dengan salah.  Situasi ini yang dikenal sebagai accuracy paradox.

 

Solusinya?

Ada beberapa hal bisa dikerjakan dan secara empirik membantu memperoleh model yang lebih baik.  Solusi tersebut akan dipaparkan pada tulisan berikutnya….

 

 

 

Tags: Data Mining · Data Science · Statistics