Balaibahasajateng, Data Mining: Metode, Pengertian, jenis, Proses, Langkah dan Contohnya – Apakah kalian sudah pernah mendengar istilah yang satu ini? atau mungkin sudah pernah mempraktikkan metode data mining ini? ya, memang benar pada masa sekarang metode ini sangat banyak digunakan dan sangat membantu untuk mempermudah berbagai aktivitas manusia sehari-hari.
Pada artikel ini akan saya jelaskan tentang mulai dari pengertian dari data mining itu sendiri, jenis-jenisnya, metode-metodenya, hingga sampai langkah yang benar untuk menggunakan data mining.
Oke langsung saja yuk sobat ilmunik, mari masuk pembahasan utama kita.
Pengertian Metode Data Mining
Metode data mining adalah sebuah istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database.
Tujuan metode data mining adalah analisis otomatis atau semi-otomatis jumlah besar data untuk mengestrak pola yang menarik yang sebelumnya todak diketahui seperti kelompok catatan data (analisis cluster), catatan yang tidak biasa (deteksi anomali) dan dependensi (aturan asosiasi pertambangan).
Pada hal ini umumnya melibatkan teknik database seperti indeks spesial.
Bentuk ini kemudian dapat dilihat sebagai seperti ringkasan dari input data, dan dapat digunakan pada analisis lebih lanjut atau contohnya dalam pembelajaran mesin dan analisis prediktif.
Contoh kecilnya, langkah data mining mungkin mengidentifikasi beberapa kelompok dalam data, lalu kemudian dapat digunakan untuk memperoleh hasil perkiraan yang lebih akurat oleh sistem pendukung keputusan.
Pengumpulan data, penyusunan data, atau interpretasi hasil dan pelaporan merupakan bagian dari langkah data mining, namun memiliki proses KDD (Knowledge Discovery Database) secara keseluruhan sebagai langkah-langkah tambahan.
Pengertian Data Mining Menurut Para Ahli
Selain dari pengertian secara garis besar diatas, banyak juga pengertian metode data mining dari beberapa ahli sebagai berikut:
Hoffer dan McFadden
Mendefinisikan bahwa data mining adalah penemuan pengetahuan dengan menggunakan teknik-teknik yang tergabung dari statistik, tradisional, kecerdasan, dan grafik komputer.
Jiawei
Mendefinisikan data mining sebagai metode pemilihan atau menggali pengetahuan dari jumlah data yang banyak.
Pramudiono (2006)
Mendefinisikan metode data mining sebagai serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Berry
Mendefinisikan data mining sebagai aktivitas mengeksplorasi dan menganalisis data jumlah yang besar untuk menemukan pola (pattern) dan aturan (rule) yang berarti.
Turban (2005)
Mengartikan data mining sebagai suatu proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan mesin learnng untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait berbagai database besar.
Larose
Mengartikan data mining sebagai bidang yang digabung dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk pengenalan permasalahan pengambilan informasi dari database yang besar.
Wikipedia
Mendefinisakan data mining sebagai ekstraksi pola yang menarik dari data dalam jumlah besar. Pada suatu pola bisa dikatakan menarik jika pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya dan berguna.
Pola yang disuguhkan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru.
Baca Juga: Metode Penelitian Deskriptif
Jensi-Jenis Data Mining
Metode data mining memiliki beberapa jenis antara lain:
1. Cluster Detection
Terdapat dua pendekatan untuk clustering. Yang pertama adalah dengan mengasumsikan bahwa sejumlah cluster sudah tersimpan dalam data. Tujuan dari pendekatan pertama ini adalah untuk memecah data ke dalam cluster.
Pendekatan yang kedua disebut juga cluster agglomerative, dengan anggapan keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item keluar di cluster sendiri, dan proses terjadi berulang-ulang yang berusaha untuk menggabungkan cluster, meskipun proses komputasi sama.
2. Neural Networks
Jenis data mining yang satu ini memiliki model prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan neural yang terdapat pada makhluk hidup.
Hal ini dapat menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan juga untuk mengestrak pola dan mendeteksi tren-tren yang sangat kompleks untuk dibicarakan, baik oleh manusia ataupun teknik komputer lainnya.
3. Link Analysis
Pada jenis ini adalah mencari dan membangun hubungan antara objek, dalam kumpulan data juga mencirikan sifat yang terkait dengan hubungan antara dua objek. Pada Link Analysis berguna untuk aplikasi analitis yang mengandalkan teori grafik untuk mengambil kesimpulan. Jenis data mining ini juga berguna untuk proses optimasi.
4. Market Basket Analysis
Jenis ini mengumpulkan data yang digunakan sebagai objek penelitian pada masa data mining. Jenis Market Basket Analysis adalah proses untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang belanjaannya.
Pada jenis ini memanfaatkan data transaksi penjualan untuk dianalisis, sehingga dapat ditemukan pola berupa item-item yang cenderung muncul bersama dalam sebuah transaksi.
Nah, selanjutnya dalam pola yang ditemukan dapat dimanfaatkan untuk menyusun strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan ke dalam sebuah masa yang berdekatan, merancang tampilan item-item di katalog, merancang kupon diskon, merancang penjualan item-item dalam bentuk paket, dan sebagainya.
5. Rule Induction
Pada jenis ini, ekstraksi aturan sebab-akibat dari data secara statistik, identifikasi aturan bisnis yang tersimpan di dalam data. Cara berhubungan dengan induksi aturan yang digunakan untuk proses penemuan. Misalnya, pendekatan untuk penemuan aturan data mining ini adalah menggunakan pohon keputusan.
6. Based Reasoning
Sistem klasifikasi yang digabungkan dengan penalaran berbasis memori. Proses menggunakan satu set data untuk membuat model dari prediksi atau anggapan-anggapan yang dapat dibuat tentang objek baru yang diperkenalkan.
Terdapat dua komponen dasar untuk metode ini. Pertama adalah kesamaan fungsi, yang mengukur bagaimana anggota yang sama dari setiap pasangan objek satu sama lain. Kedua, adalah fungsi kombinasi yang digunakan untuk menggabungkan hasil dari himpunan tetangga untuk sampai pada keputusan.
Metode-Metode Data Mining
Dalam data mining terdapat metode-metode yang terdapat di dalamnya, antara lain sebagai berikut:
1. Metode Data Mining Clustering
Metode data mining clustering sering disebut sebagai segmentation. Metode ini dipakai untuk mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Metode ini mempunyai dua atribut pengelompokan yaitu,umur (age) dan pendapatan (income).
Pada algoritma clustering mengelompokkan data pada tiga segment berdasarkan kedua atribut ini.
- Bagian cluster 1 berisi populasi berusia muda dengan pendapatan rendah.
- Bagian cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi.
- Bagian cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.
Metode clustering adalah metode data mining yang unsupervised, sebab tidak ada satu atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan sama.
Umumnya algoritma clustering membangun sebuah model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan dari segmentasi sudah stabil).
2. Metode Data Mining Regression
Metode data mining regression mirip dengan metode classification, yang membedakan adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai kelas (class). Metode ini bertujuan untuk mencari pola dan menentukan sebuah nilai numerik.
Bentuk teknik linear line-fitting sederhana adalah sebuah contoh dari regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari input.
Namun, bentuk yang lebih hebat dari regression sudah mendukung input berupa kategori, jadi tidak hanya input berupa numerik. Untuk teknik paling popular yang digunakan untuk regression adalah linear regression dan logistic regression. Teknik lainnya yang didukung oleh SQL server data mining adalah regression trees (bagian dari dari algoritma Microsoft Decission Trees) dan neural network.
Metode regression digunakan untuk memecahkan banyak problem bisnis, contohnya untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban.
3. Metode Data Mining Squence Analysis
Metode data mining sequence anlysis digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan sequence. Misalnya sebuah DNA terdiri dari rangkaian bagian: A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Saat kejadian nyata kailan mungkin memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data, rangkaian tersebut adalah:
- Untuk pertama, seorang pelanggan membeli komputer.
- Lalu membeli speaker.
- Pada akhirnya membeli sebuah webcam.
Baik metode sequence ataupun time-series data memiliki kemiripan, mereka sama-sama berisi pengamatan berdekatan yang urutannya bergantung. Namun, yang membedakan adalah pada time-series berisi data bertipe numerik, tetapi pada sequence series berisi bagian yang khas.
4. Metode Data Mining Deviation Analysis
Metode data mining deviation analysis digunakan untuk mencari kasus yang memiliki tingkat yang berbeda dari umumnya. Metode data mining ini untuk penggunanya sangat luas, yang paling umum menggunakan metode ini adalah pendeteksian penyalah gunaan kartu kredit.
Meneliti kasus yang tidak normal diantara jutaan transaksi adalah pekerjaan yang sangat menantang. Untuk penggunaan yang lainnya misalnya, pendeteksian gangguan jaringan komputer, analisa kesalahan produksi, dan lain-lain.
Namun, tidak ada teknik standar dalam deviation analysis. Tetapi, hanya saja umumnya para analisis menggunakan decision trees, clustering atau neural network untuk pekerjaan ini.
5. Metode Data Mining Classification
Metode data mining classification adalah metode yang paling sering digunakan pada data mining. Misalnya, dalam persoalan bisnis seperti churn analysis, dan risk management biasanya melibatkan metode classification ini.
Metode classification merupakan tindakan untuk memberikan kelompok pada setiap keadaan. Pada setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini digunakan untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.
Class merupakan attribute collegeplans yang berisi dua pernyataan, Yes dan No.
Pada sebuah classification model akan menggunakan atribut lain dari kasus tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk dapat menentukan pola (pattern) class (output attribute; yaitu kolom collegeplans yang berisi Yes atau No).
Untuk algoritma pada data mining yang memerlukan variabel target untuk belajar (hingga mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan sebutan supervised algorithm. Decision Trees, Neural Network dan Naives Bayes adalah termasuk pada classification algorithm.
6. Metode Data Mining Association
Metode data mining association sering disebut juga dengan market basket analysis. Sebuah masalah bisnis yang khas adalah menganalisa tabel dari transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh pembeli.
Misalnya ketika orang membeli sambal, umumnya mereka juga membeli kecap, kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi, berguna untuk kepentingan cross-selling.
Dalam metode data mining association mempunyai dua tujuan yaitu:
- Berguna untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.
- Berguna untuk mencari produk apa yang biasanya terjual bersamaan.
7. Metode Data Mining Forecasting
Metode yang satu ini adalah metode data mining yang sangat penting. Misalnya untuk menjawab pertanyaan seperti dibawah ii:
- Seberapa banyak apa penjualan produk tertentu pada bulan depan?
- Bagaimana jadinya nilai saham dari Microsoft Corporation (pada NASDAQ, disimbolkan sebagai MSFT) pada keesokan hari?
Metode data mining forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Untuk inputnya metode forecasting akan mengambil sederetan angka yang menunjukkan nilai yang berjalan seiring waktu dan kemudian metode forecasting ini akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend, dan noise pada data.
Baca Juga: Metode Penulisan Makalah
Langkah-Langkah Pada Data Mining
- Pembersihan data, umumnya terdapat data yang kurang bagus untuk dimasukkan dalam kelengkapan data perusahaan karena hanya akan dianggap tidak valid bahkan untuk data yang hilang. Oleh sebab itu, sebaiknya data yang seperti itu lebih baik dibuang.
- Integrasi data, yaitu menggabungkan berbagai sumber data.
- Transformasi data, umumnya berupa teknik data mining memerlukan format data yang khusus sebelum dapat diterapkan dan disebarluaskan. Pada tahap ini, dilakukan juga pemilihan data yang dibutuhkan oleh teknik data mining yang akan digunakan. Pada tahap inilah yang akan menentukan kualitas dari data mining.
- Aplikasi teknik data mining, merupakan salah satu langkah dari proses data mining. Usahakan gunakan teknik data mining yang sesuai dengan hasil yang dibutuhkan.
- Evaluasi pola yang ditemukan, untuk tahap ini hasil dari teknik data mining berupa pola-pola yang spesial ataupun model prediksi dievaluasi untuk menilai apakah hipotesis yang ada memang tercapai.
- Presentasi pola, tahap terakhir dari proses data mining adalah bagaimana formulasi keputusan atau aksi dari hasil analisis dari data mining itu sendiri. Pada saat presentasi, visualisasi juga dapat membantu mengkomunikasikan hasil data mining atau pola ke pengguna.
Teknik Penggalian Data Mining
Pada umumnya, penggalian data mining dapat dibedakan menjadi dua fungsional, yaitu deskripsi dan prediksi. Berikut ini adalah teknik yang sering digunakan untuk penggalian data pada metode data mining:
- Klasifikasi, yaitu membangun suatu model yang dapat mengklasifikasikan suatu objek berdasarkan atribut-atributnya. Target kelas sudah ada dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada, supaya klasifikator dapat mengklasifikasikan sendiri.
- Prediksi, yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.
- Karakterisasi dan Diskriminasi, merupakan teknik menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
- Penggalian pola berulang, yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
- Penggugusan, yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Untuk kelas target tidak tersedia pada data sebelumnya, oleh sebab itu, fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antar kelas.
- Analisis outlier, yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Misalnya, mengenali noise dan pengecualian dalam data.
- Analisis trend dan evolusi, meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.
Proses Data Mining
Larose (2006), mengatakan terdapat enam fase CRISP-DM (Cross Industry Standart Process for Data Mining) sebagai berikut:
1. Fase Pemahaman Data (Data Understanding Phase)
- Mengumpulkan data.
- Menerapkan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.
- Apabila diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan.
- Mengevaluasi kualitas data.
2. Fase Pemodelan (Modeling Phase)
- Kalibrasi aturan model untuk mengoptimalkan hasil.
- Apabila diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.
- Pilih dan aplikasikan teknik pemodelan yang sesuai.
- Harus diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama.
3. Fase Penyebaran (Deployment Phase)
- Contoh rumit fase penyebaran, penerapan proses data mining secara paralel pada departemen lain.
- Menggunakan model yang dihasilkan. Untuk terbentuknya model tidak menandakan telah terselesaikannya proyek.
- Contoh sederhana fase penyebaran, pembuatan laporan.
4. Fase Pemahaman Bisnis (Business Understanding Phase)
- Mengartikan tujuan dan batasan menjadi formula dari permasalahan data mining.
- Menyiapkan strategi awal untuk mencapai tujuan.
- Pemilihan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan.
5. Fase Pengolahan Data (Data Preparation Phase)
- Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan.
- Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.
- Siapkan data awal sehingga siap untuk perangkat pemodelan.
- Lakukan perubahan pada beberapa variabel jika dibutuhkan.
6. Fase Evaluasi (Evaluation Phase)
- Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal.
- Menetapkan keputusan berkaitan dengan penggunaan hasil dari data mining.
- Melakukan evaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.
- Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik.
Baca Juga: Metode Penelitian Kualitatif dan Kuantitatif
Contoh Penerapan Data Mining
Berikut ini adalah penerapan data mining dalam kehidupan sehari-hari:
Bidang Perkantoran
Alat absensi pegawai elektronik yaitu finger print.
Bidang Telekomunikasi
Sebagai alat peranan untuk mencatat kepadatan jumlah penelepon di jam tertentu (jam sibuk / bukan) oleh sebab itu operator dapat memberikan tarif tertentu bagi pelanggan.
Bidang Olahraga
Sebagai sarana pengawasan atau alat untuk mencatat jumlah statistik pada statistik sepak bola, basket, tenis, voli, dll.
Bidang Kesehatan
Pada saat ini sistem informasi rumah sakit mulai menggunakan sistem informasi berbasis komputer untuk mendukung manajemen keuangan, khususnya dipakai untuk billing systems (sistem pembayaran).
Penutup
Nah, mungkin hanya itu saja yang dapat saya jelaskan tentang metode data mining untuk sobat semua. Semoga dengan sedikit keterangan diatas dapat membantu dan menambah pengetahuan Anda.