Jumat, 25 Januari 2013

Classification And Regression Trees (CART)



Classification and Regression Tree (CART) dikembangkan oleh Breiman dkk (1993) merupakan metodologi statistika nonparametrik berdasarkan kaidah pohon keputusan, baik untuk peubah respon kategorik maupun kontinyu. Apabila variabel respon data berupa kontinyu maka akan diperoleh model pohon regresi, sedangkan apabila data variabel respon berskala kategorik maka akan diperoleh model pohon klasifikasi.
      Adapun beberapa kelebihan metode klasifikasi pohon antara lain :
1.      Metode ini bersifat nonparametrik sehingga tidak memerlukan asumsi-asumsi yang mengikat seperti asumsi distribusi normal untuk variabel prediktor.
2.      Struktur data dapat dilihat secara visual sehingga memudahkan eksplorasi dan pengambilan keputusan berdasarkan model yang diperoleh.
3.      Tidak hanya memberikan klasifikasi, namun juga estimasi probabilitas kesalahan pengklasifikasian.
4.      Mampu mengidentifikasi interaksi antar variabel prediktor yang berpengaruh secara lokal akibat diterapkannya pengambilan keputusan secara bertahap dalam himpunan-himpunan bagian data pengukuran yang kompleks.
5.      Hasil klarifikasi akhir berbentuk sederhana dan mengklarifikasikan data baru secara efisien.
6.      Kemudahan dalam interpretasi hasil.
      Pembentukan pohon klasifikasi pada dasarnya hampir sama dengan pembentukan pohon regresi di mana simpul utama dipilah menjadi simpul anak kiri (left child node) dan simpul anak kanan (right child node), demikian seterusnya hingga didapatkan suatu simpul akhir (terminal node).
     Tujuan utama pembentukan pohon klasifikasi adalah menghasilkan pengklasifikasian yang akurat dan menentukan prediksi struktur data (Breiman dkk,1993). Pengklasifikasian dengan metode klasifikasi pohon terdiri dari empat komponen. Komponen pertama yaitu variabel respon yang berbentuk kategori, variabel ini akan diprediksi berdasarkan variabel prediktor. Komponen kedua yaitu variabel prediktor yang berskala kategori, kontinyu atau campuran. Komponen ketiga yaitu data learning yang terdiri dari variabel respon dan prediktor. Komponen keempat yaitu data testing untuk keakuratan hasil prediksi.

Tidak ada komentar:

Posting Komentar