getting close to your data…

and let them speak…

 

Random Forest

 

Repost…  salinan dari e-mail tanggal 8 Dec 2009

Dear all,
sekedar berbagi informasi, terutama untuk teman2 yang gemar melakukan analisis data atau pekerjaan-pekerjaan datamining.

Saya yakin, tidak sedikit teman2 di forum ini yang mengenal teknik analisis yang bernama TREE (baik itu classification tree maupun regression tree).  Teknik ini menjadi populer karena mampu mengatasi ketidaklinearan hubungan antara X dan Y di dalam model yang seringkali gagal kita antisipasi menggunakan model-model regresi konvensional.  Selain itu, penyajian visual berupa pohon memberikan kemudahan interpretasi dan pemahaman terhadap analisis yang sedang dilakukan.

Sejalan dengan perkembangan teknologi komputasi, berkembanglah teknik ini dengan munculnya konsep BAGGING (Bootsrap + AGGreatING).  Secara teori dapat ditunjukkan bahwa penggunaan bagging mampu mengurangi “standard error” tanpa mengusik sifat “biasedness” .  Dengan teknik ini, dari satu data tidak hanya dihasilkan satu buah pohon (tree), tetapi dihasilkan ratusan atau ribuan dari data yang di-resampling (bootstrap-ing) .  Dari ratusan atau ribuan pohon tadi selanjutnya dilakukan pengumpulan informasi.  Teknik yang umum dilakukan adalah menggunakan rata-rata untuk kasus prediksi di regression tree, dan teknik “majority vote” pada kasus prediksi di classification tree.  Beberapa orang menyebut bahwa teknik ini termasuk kelompok ENSEMBLE model, karena menggabungkan beberapa model jadi satu.  yang dimaksud model pada kasus ini adalah tree.

Juga muncul teknik BOOSTING (yang paling terkenal adalah algoritma Ada-Boost) dalam pembentukan tree.  Teknik ini bekerja dengan memberi bobot kepada data yang “sulit” diprediksi.  Dengan teknik ini diharapkan tingkat kesalahan prediksi bisa dikurangi.  Dan… ini berhasil di banyak kasus.

Awal tahun-tahun 2000/2001, muncul teknik analisis yang disebut RANDOM FOREST.  Sesuai namanya… forest merupakan kumpulan tree.  Konsepnya mirip dengan bagging.  Serupa dengan bagging, data yang digunakan pada masing2 tree merupakan resample dari data lengkap.  Namun, RF menggunakan sebagian variabel independen saja dalam pembentukan tree.  Jadi bisa dibayangkan, ratusan atau ribuan tree pada suatu random forest akan memiliki ukuran yang berbeda-beda.  Ada yang kecil, ada yang tinggi menjulang, ada yang rimbun, dan lain-lain.  Prediksi dilakukan dengan cara yang sama yaitu menggunakan rata-rata atau majority vote seperti pada teknik bagging.

Yang sudah terbiasa melakukan analisis dengan TREE… tidak ada salahnya mencoba RANDOM FOREST.

 

No Responses to “Random Forest”

 

Leave a Reply