Pengantar Data Mining

Bahasannya mencakup : pendahuluan, pengertian DaMing, DaMing dalam KDD, Arrsitektur DaMing, Data mining tasks, aplikasi daMing.

 

Pendahuluan

  • Masalah Eksplorasi Data. Penumpukan data dalam database, data warehouse, dll.   “Kita telah tenggelam dalam data, tetapi kelaparan untuk mendapatkan pengetahuan/informasi!”
  • Solusi : data warehousing dan data mining –>  ekstraksi pengetahuan yang menarik dari basis data berukuran besar
  • mencari informasi ‘tersembunyi’ dari data (kita belum tahu hasilnya apa, tidak seperti meng-query)
  • untuk menganalisis data (data tidak hanya dikumpulkan)

 

Pengertian Data Mining

 Ekstraksi Informasi/Pola yang menarik dalam basis data berukuran besar

istilah lain: Knowledge Discovery in Database, knowledge extraction, bussiness intelligence, dll.

berikut ini bukan termasuk data mining task :

  • Pemrosesan (deduktif) Queri
  • Sistem Pakar

Data mining berkaitan erat dengan machine learning, AI, statistika, dan sistem basis data.  Katanya buku, 

Secara khusus, data mining menggunakan ide-ide seperti (1) pengambilan contoh, estimasi, dan pengujian hipotesis, dari statistika dan (2) algoritme pencarian, teknik pemodelan, dan teori pembelajaran dari kecerdasan buatan, pengenalan pola, dan machine learning.

 

 

Data Mining sebagai proses dalam Knowledge Discovery in Data (KDD)

Data mining adalah elemen utama dalam proses knowledge discovery, lengkapnya sbb..

 

Data Mining dalam proses KDD

Data Mining dalam proses KDD

 Proses dalam KDD

  1. Data cleaning. menghilangkan noise.
  2. Integrasi Data.
  3. Seleksi
  4. Transformasi Data
  5. Data Mining
  6. Evaluasi Pola
  7. Presentasi Pengetahuan

 

 

Arsitektur Data Mining

Arsitektur Data Mining

Arsitektur Data Mining

 

 

Data Mining Tasks– Tugas-tugas Data Mining

Tugas-tugas dalam data mining secara umum dibagi ke dalam dua ketegori utama :

  • Prediktif. Memprediksi atribut target (variabel tak bebas) berdasarkan atribut-atribut lainnya (variabel bebas/explanatory)
  • Deskriptif. Menemukan pola-pola yang meringkas hubungan dalam data.

 

Tugas-tugas dalam data mining :

  • Asosiasi (correlation dan causality)/(hubungan dan sebab-akibat).
  • Klasifikasi dan Prediksi. Menemukan model (fungsi) yang membedakan kelas untuk prediksi mendatang.
  • Analisis Cluster. Label kelas tidak diketahui. Prinsip : memaksimumkan kemiripan intra(di dalam)kelas, dan meminimumkan kemiripan interkelas.

Aplikasi

Contohnya diantaranya: segmentasi pasar, direct marketing, penempatan barang di supermarket.  Contoh penempatan barang di supermarket:  dari data pembelian dapat dicari pengetahuan mengenai barang apa yang dibeli oleh pembeli saat ia membeli barang X, penempatan barang itu dapat diatur di dekat untuk kenyamanan pembeli.

 

*sumber : catatan, slide, diktat bab1.  Mohon merujuk ke sumber yang lebih terpercaya..*

: )

Ngomongin K-Nearest Neighbor

 T :  KNN, apaan tu?

J  :  KNN atau K-Nearest Neigbor secara harfiahnya berarti k-tetangga terdekat…  

T  : yah ini lagi cuman ngartiin kata-katanya doang, kalo bahasa Inggris mah little-little i can lah.. maksudnya KNN tu buat apa?

J :  sabar dikit napa c  T ni juga mo jelasin…,  jadi, KNN itu salah satu algoritma untuk klasifikasi.. tau kan klasifikasi apa, apa bedanya sama klustering?

T: hm,, iya kalo itu c inget. kalo kelasifikasi kan kelas targetnya dah ditentuin terlebih dahulu gitu ya, apa tuh istilah kerennya…

J :   supervised learning..

T :   nah, iya ntu.  Kalo klustering belum ditentuin kelas targetnya, berarti unsupervised learning, ya kan?

J :   siip..

T :   yaudah, lanjut-lanjut. hm,, jadi KNN tu buat klasifikasi, terus napa tu namanya unik banget.. k-tetangga terdekat.. tinggal di komplek apa tu dia, ampe disebut begono

J :  haha. ya enggaklah. makanya lanjut dulu pengertiannya ya.  Jadi konsep dasar c KNN tu, kita ngambil sebanyak k titik yang paling deket dengan titik queri…

T :   pit.. pit… dulu.   titik queri maksudnya apa Bos?

J :  titik queri itu titik yang mo kita cari dia masuk ke kelas mana.  

T : ooo..

J : oke, lanjut.  Kita ngambil sebanyak k titik yang paling deket dengan titik queri,  kita sebut dia sebagai k-tetangga terdekat. Terus kita liat deh tetangga-tetangga itu, mereka mayoritas masuk kelas apa.   Nah, si titik queri ini akan masuk ke kelas mayoritas itu.

T :   hm hm hm…  simpel juga kayanya,

J : yap, intinya c algortima ini ada dua langkah.  Pertama, cari k- tetangga terdekat.  Tentu sebelumnya kita dah nentuian nilai k-nya, artinya kita dah tentuin dulu berapa tetagga terdekat nih yang diambil…

T : lah terus cara nyarinya gimana. Gimana kita tau kalo mereka adalah our nearest neighbor, halah..

J :  Ah elu.  Masa gitu aja nanya c..  ya pake jarak dong. 

T :  xixixi.. oh iye ye. 

J :  Hitung jarak antara titik queri dengan titik-titik training…

T :  titik training tu berarti titik yang udah kita tau kelasnya apa kan? kayak data training gitu.

J : yap, encer juga tu otak kadang2..

T :   eerrggh..

J : he… sori, ngocol dikit. yawdah lanjut. hitung jarak antara titik queri dengan titik-titik training..   Caranya ngitung jarak,  bisa pake fungsi2 yang uda pernah dibahas di kulian metkuan, inget? ada jarak Euclidean,  jarak Mahlanobis, dll…

T :  oo.. yayaya, kayaknya pernah denger tu.

J :  itu kan ada di kuliah metkuan

T : ah, elu suka pura-pura gak tau, gw kan suka sambil tidur kalo belajar di kelas.

J : hahaha.. emang bisa ya.  yawdah lanjut..  Udah dapet ni perhitungan jaraknya, abis itu kita ambilin yang paling kecil, ambil k titik yang nilainya paling kecil.  caranya? urutin dari kecil ke gede, ambil k baris pertama. Itulah our k-nearest neighbor.

T : hm…

J : sip, langkah pertama beres.  Sekarang kita dah punya k-tetangga terdekat..

T : lanjut..

J : langkah kedua;    dari k-tetangga terdekat tadi, kita liat mayoritas pada masuk kelas apa, misal masuk kelas x. yaudah, berarti titik queri kita juga masuk kelas x. beres deh klasifikasi kita.. !   :)

T :  hooo… bingung. 

J :   lha?  hm, emang lebih jelas langsung pake contoh c. yawda, coba unduh (maaf untuk saat ini belum ada link nya) hand-outnya aja kalo gitu.

T:  ok ok..

J :  Sebenernya… katanya c, algoritma ini juga bisa dipake buat interpolasi ma ekstrapolasi. 

T:  apalagi tu? kalo interpolasi c gw tau dikit. yang kayak di anum kan? nge-fit titik-titik gitu pake polinom or fungsi2 lain..

J : yap.. interpolasi tu untuk smoothing, kalo ekstrapolasi buat cari nilai di luar rentang nilai data yang diketahui… istiahnya… prediction

T : hm,, 

J : bedanya dengan klasifikasi yang tadi, kalo klasifikasi yang tadi kan nilai targetnya berupa data kategorik (dia masuk ke kelas 1 kelas 2 dst…), kalo smoothing ma prediction itu  nilai targetnya kuantitatif.. bingung?

T :  he em uy..

J  :  sama.. hehehe… nti kalo sempet kita bahas lagi… yawdah. otak gw dah ngebul ni. udahan dulu ye..

T :  ok makasi. kapan-kapan kita nge-gosip lagi ya…!!

 

* mohon rujuk kembali ke sumber yang lebih terpercaya… he.. :) *