01 June 2012

DATA MINING MENGGUNAKAN WEKA

Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin keakuratan formulasi yang diharapkan.

Empat tombol diatas dapat digunakan untuk menjalanankan Aplikasi : 

  1. Explorer digunkan untuk menggali lebih jauh data dengan aplikasi WEKA 
  2. Experimenter digunakan untuk melakukan percobaan dengan pengujian statistic skema belajar 
  3. Knowledge Flow digunakan untuk pengetahuan pendukung 
  4. Simple CLI antar muka dengan menggunakan tampilan command-line yang memungkinkan langsung mengeksekusi perintah weka untuk Sistem Operasi yg tidak menyediakan secara langsung
Pada bagian atas window, tepatnya pada bawah judul bar. Terdapat deretan data, seperti Prepocess,Classify,Cluster,Associate,Select Attributes Visualize. Namun yang aktif hanya Prepocess ini dikarenakan sebelum menggunakan algoritma diatas pastikan sudah melakukan set file yang akan dieksekusi Berikut langkah-langkahnya :
Buka file yang akan dieksekusi oleh Weka, pergunakan extensi file .csv (Command Separated Values). Perlu diingat bahwa sebelumnya kita sudah harus menyediakan data-data pada file tersebut. Disini menggunakan contoh TRANSAKSI.csv sebagai berikut

Disini terdapat atribut sebagai berikut ini :
Kode_pelanggan, 
warna merah, putih, pink, biru, hitam, 
ukuran small, medium, large, extra-large, 
bahan cotton, wol, 
harga 15.000, 15.000-20.000, 20.000-25.000, 30.000.
Kemudian pilih algoritma yang akan digunakan seperti tampilan berikut ini :
Algoritma yang akan digunakan adalah J48. Perbedaan ID3, C4.5 dan J48 sebagai berikut ini:
ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan, dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon. ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3.
Idenya, adalah membuat pohon dengan percabangan awal adalah atribut yang paling signifikan. Maksudnya signifikan adalah yang paling bisa mempartisi antara iya dan tidak. 
Bisa dilihat, bahwa atribut “patron” membagi 3, dimana hasil pembagiannya cukup ideal. Maksudnya ideal adalah setiap cabang terdiri dari hijau saja atau merah saja. Memang, untuk cabang “full” tidak satu warna (hijau saja atau merah saja). Tapi, pemilihan atribut patron jelas lebih baik daripada atribut type.
Untuk menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang pohon, digunakanlah teori informasi. 
Pada WEKA, ada pilihan untuk menggunakan ID3 ini, dengan nama yang sama. Namun, jelas semua atribut harus bertipe nominal, dan tidak boleh ada yang kosong
Sedangkan, C4.5 merupakan pengembangan dari ID3. Beberapa perbedaannya antara lain :
1. Mampu  menangani atribut dengan tipe diskrit atau kontinu.
2. Mampu  menangani atribut yang kosong (missing value)
3. Bisa memangkas cabang.
Dan J48 merupakan implementasi C4.5 di WEKA.
Jadi, ketika ingin melakukan klasifikasi dengan menggunakan WEKA, akan ada 4 (empat) buah pilihan, yang disebut dengan test options. Test options ini digunakan untuk mengetes hasil dari klasifikasi yang telah dilakukan. Berikut penjelasan mengenai masing-masing option.
1. Use training set
Pengetesan dilakukan dengan menggunakan data training itu sendiri.
2. Supplied test set
Pengetesan dilakukan dengan menggunakan data lain. Dengan menggunakan option inilah, kita bisa melakukan prediksi terhadap data tes.
3. Cross-validation
Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Nilai default-nya adalah 10. Mekanisme-nya adalah sebagai berikut:
Data training dibagi menjadi k buah subset (subhimpunan). Dimana k adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali.
Kemudian, error dari k tes tersebut akan dihitung rata-ratanya.
4. Percentage split
Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k merupakan masukan dari user.
Untuk melihat decision tree-nya liat tampilan sebagai berikut ini :
Akan muncul decision sebagai berikut ini :
Penjelasan :
Bahwa dari decision tree tersebut maka root node pada pink menunjukkan cabang sebelah kiri untuk False dengan harga 15000-20000, dimana yang true dengan harga tersebut adalah kode pelanggan dengan A05 sebanyak 4 dan false dengan kode pelanggan A01 sebanyak 6.
Sedangkan disebelah kanan menunjukkan True dengan warna node selanjutnya putih dimana disebelah kiri dengan node warna merah yang disebelah kiri menunjukkan True untuk kode pelanggan A04 sebanyak 2, dan sebelah kanan menunjukkan False dengan kode pelanggan A03 sebanyak 3. Artinya bahwa pelanggan lebih menyukai warna pink kemudian diikuti warna putih selanjutnya diikuti dengan warna merah dimana tidak dengan harga 15000-20000 per pakaian.


15 komentar:

blh minta dataset nya gan?
kirim email aja ke elfbeauty53@gmail.com

Tks pencerahanx...blh minta datasetx bang? Jika berkenan kirim ke email p3ai_ustj@yahoo.co.id

Tks pencerahanx...blh minta datasetx bang? Jika berkenan kirim ke email p3ai_ustj@yahoo.co.id

Tks pencerahanx...blh minta datasetx bang? Jika berkenan kirim ke email p3ai_ustj@yahoo.co.id

Terimakasih pecerahannya ..gan
Jika berkenan minta databasenya kirim ke email ini
zainudin.dinata1@gmail.com

sip, kalo berkenan saya juga minta gan sent to email : tiyok213@gmail.com

terimahkasih pencerahannya gan

kirim keaku juga ya di anis.rohmadi@gmail.com

Makasih penjelasannya.kalo boleh saya minta databasenya kirim ke email ndaties@gmail.com

siang mas bro, boleh minta mentahanya ngak mas bro? kalo boleh bisa dikirimkan ke rendnata@gmail.com terima kasih banyak mas bro..

Misi mas bro, sis. Kalo boleh minta mentahannya sama minta data setnya dong hehe. Yg berkenan bisa dikirim ke bimowinset@gmail.com
Makasih

Assalamualaikum.... Mas boleh minta tolong....

Saya sedang ada tugas komparasi data mining antara rapid miner dan weka....

Tugas saya menjabarkan kenapa hasil dari rapid miner n weka bisa berbeda walalupun menggunakan algortima yang sama( kasus saya:decision tree n naive bayes

Assalamualaikum.... Mas boleh minta tolong....

Saya sedang ada tugas komparasi data mining antara rapid miner dan weka....

Tugas saya menjabarkan kenapa hasil dari rapid miner n weka bisa berbeda walalupun menggunakan algortima yang sama( kasus saya:decision tree n naive bayes

Assalamualaikum.... Mas boleh minta tolong....

Saya sedang ada tugas komparasi data mining antara rapid miner dan weka....

Tugas saya menjabarkan kenapa hasil dari rapid miner n weka bisa berbeda walalupun menggunakan algortima yang sama( kasus saya:decision tree n naive bayes

Post a Comment