getting close to your data…

Pengenalan Algoritma Genetik untuk Pemilihan Peubah Penjelas

February 24th, 2011 · No Comments

Algoritma genetik (genetics algorithm) telah menjadi salah satu algoritma optimasi yang banyak digunakan di berbagai permasalahan.  Tulisan ini memaparkan ide dasar algoritma genetik dan penerapannya dalam pemilihan peubah dalam analisis regresi.  Untuk tujuan memudahkan memahami jalannya penerapan algoritma, ditampilkan pula program sederhana menggunakan SAS/IML yang dengan mudah dapat dimodifikasi pada beberapa bagian.

selengkapnya di FSK 2010 – GA (Pengenalan Algoritma Genetik untuk Pemilihan Peubah Penjelas dalam Model Regresi menggunakan SAS/IML)

→ No CommentsTags: Data Mining

Pohon Gabungan — Ensemble Tree

February 24th, 2011 · No Comments

Pohon regresi dan pohon klasifikasi telah menjadi salah satu teknik analisis prediktif yang banyak digunakan dalam berbagai bidang.  Metode pohon gabungan muncul sebagai pengembangan dari teknik pohon yang diharapkan dapat mengatasi kelemahan-kelemahan yang ada pada analisis pohon tunggal.  Pada prinsipnya pohon gabungan melakukan prediksi dengan menggabungkan nilai-nilai prediksi dari banyak pohon tunggal.  Tulisan ini dimaksudkan sebagai tulisan perkenalan untuk memberikan gambaran singkat metode pohon gabungan yang tersedia dengan rinci di berbagai bahan bacaan.

Selengkapnya di FSK 2010 – Ensemble Tree (METODE POHON GABUNGAN: SOLUSI PILIHAN UNTUK MENGATASI KELEMAHAN POHON REGRESI DAN KLASIFIKASI TUNGGAL)

→ No CommentsTags: Data Mining

Klasifikasi rancangan percobaan faktorial pecahan strength-three

January 7th, 2011 · No Comments

Peneliti seyogyanya memilih dengan baik rancangan percobaan yang akan digunakan. Kegiatan klasifikasi bertujuan untuk memperoleh rancangan yang terbaik berdasarkan kriteria tertentu. Paper berikut mengulas berbagai teknik klasifikasi rancangan percobaan yang berguna untuk kasus rancangan orthogonal strength-three:
classification-st3

→ No CommentsTags: Design of Experiments

Menduga dan Menguji Koefisien Regresi Logistik Biner Menggunakan Solver di MS Excel

January 7th, 2011 · No Comments

Tulisan lama berjudul “Menduga dan Menguji Koefisien Regresi Logistik Biner Menggunakan Solver di MS Excel” yang terinspirasi pertanyaan seorang teman tentang penghitungan koefisien regresi logistik. Beberapa hal
dalam tulisan ini overlap dengan tulisan banyak orang. Selengkapnya di link berikut: logistic-solver

→ No CommentsTags: Data Mining · Statistics

Non-Regular Fractional Factorial Designs

January 6th, 2011 · No Comments

Pengenalan mengenai Non-Regular Fractional Factorial Designs (rancangan faktorial pecahan tak-reguler), dapat dilihat pada file berikut ini: Non-Regular FF Design

→ No CommentsTags: Design of Experiments

Regular Fractional Factorial Designs

January 6th, 2011 · No Comments

Pengenalan mengenai Regular Fractional Factorial Designs (rancangan faktorial pecahan reguler), dapat dilihat pada file berikut ini: FF Design

→ No CommentsTags: Design of Experiments

passion

April 2nd, 2010 · No Comments

Mengajar di kelas bukan hanya menyampaikan isi buku teks kepada mahasiswa.  Kalimat ini berulang kali pernah saya dengar, baik ketika mengikuti workshop-workshop mengenai strategi pembelajaran maupun saat berbincang dengan rekan-rekan pengajar lainnya.  Hal serupa kembali diingatkan oleh tulisan Easterling (2010) di The American Statistician yang saya baca kemarin.

Beliau sangat menekankan perlunya menumbuhkan “passion” pada mahasiswa sehingga selepas dari bangku kuliah pun apa yang kita diskusikan di kelas masih menempel.  Bahkan sangat mungkin gara-gara “passion” tersebut, mereka mampu mengembangkan ke berbagai hal yang lain.  Saya jadi bertanya apakah selama ini saya telah mampu melakukan itu.

Easterling (2010) menyebutkan bahwa salah satu hal penting untuk mampu membuat mahasiswa bergairah belajar statistika adalah adanya “real-life illustration” yang tepat, baik dari sisi konteks kasusnya maupun teknik statistika yang digunakan.  Beliau dengan sangat gamblang menjelaskan bahwa konteks harus mengawali pemilihan dan penggunaan teknik analisis.  Dalam bahasa lain disebutkan bahwa tindakan tergantung pada apa yang dihadapi.  Pada titik ini, dosen dituntut untuk mampu memilih dengan baik ilustrasi yang digunakan.  Tidak sekedar ada data kemudian dibuat histogram, atau dilakukan uji-t, dan sebagainya.  Ilustrasi yang kurang pas akan menyebabkan “passion” mahasiswa tidak muncul dan berujung pada ungkapan: “Oh ya… saya dulu pernah ambil mata kuliah MetStat… sama sekali gak menarik dan membosankan… masih untung dapat C…”

Eiitt… tentu saja “passion” itu juga harus dimiliki dosennya…

→ No CommentsTags: Teaching Statistics

Random Forest

March 25th, 2010 · No Comments

Repost…  salinan dari e-mail tanggal 8 Dec 2009

Dear all,
sekedar berbagi informasi, terutama untuk teman2 yang gemar melakukan analisis data atau pekerjaan-pekerjaan datamining.

Saya yakin, tidak sedikit teman2 di forum ini yang mengenal teknik analisis yang bernama TREE (baik itu classification tree maupun regression tree).  Teknik ini menjadi populer karena mampu mengatasi ketidaklinearan hubungan antara X dan Y di dalam model yang seringkali gagal kita antisipasi menggunakan model-model regresi konvensional.  Selain itu, penyajian visual berupa pohon memberikan kemudahan interpretasi dan pemahaman terhadap analisis yang sedang dilakukan.

Sejalan dengan perkembangan teknologi komputasi, berkembanglah teknik ini dengan munculnya konsep BAGGING (Bootsrap + AGGreatING).  Secara teori dapat ditunjukkan bahwa penggunaan bagging mampu mengurangi “standard error” tanpa mengusik sifat “biasedness” .  Dengan teknik ini, dari satu data tidak hanya dihasilkan satu buah pohon (tree), tetapi dihasilkan ratusan atau ribuan dari data yang di-resampling (bootstrap-ing) .  Dari ratusan atau ribuan pohon tadi selanjutnya dilakukan pengumpulan informasi.  Teknik yang umum dilakukan adalah menggunakan rata-rata untuk kasus prediksi di regression tree, dan teknik “majority vote” pada kasus prediksi di classification tree.  Beberapa orang menyebut bahwa teknik ini termasuk kelompok ENSEMBLE model, karena menggabungkan beberapa model jadi satu.  yang dimaksud model pada kasus ini adalah tree.

Juga muncul teknik BOOSTING (yang paling terkenal adalah algoritma Ada-Boost) dalam pembentukan tree.  Teknik ini bekerja dengan memberi bobot kepada data yang “sulit” diprediksi.  Dengan teknik ini diharapkan tingkat kesalahan prediksi bisa dikurangi.  Dan… ini berhasil di banyak kasus.

Awal tahun-tahun 2000/2001, muncul teknik analisis yang disebut RANDOM FOREST.  Sesuai namanya… forest merupakan kumpulan tree.  Konsepnya mirip dengan bagging.  Serupa dengan bagging, data yang digunakan pada masing2 tree merupakan resample dari data lengkap.  Namun, RF menggunakan sebagian variabel independen saja dalam pembentukan tree.  Jadi bisa dibayangkan, ratusan atau ribuan tree pada suatu random forest akan memiliki ukuran yang berbeda-beda.  Ada yang kecil, ada yang tinggi menjulang, ada yang rimbun, dan lain-lain.  Prediksi dilakukan dengan cara yang sama yaitu menggunakan rata-rata atau majority vote seperti pada teknik bagging.

Yang sudah terbiasa melakukan analisis dengan TREE… tidak ada salahnya mencoba RANDOM FOREST.

→ No CommentsTags: Data Mining

Welcome

March 24th, 2010 · No Comments

I am really appreciating your visit to this site. Keep coming… and let me know how your impression is.

→ No CommentsTags: Uncategorized