Tahap awal dan sekaligus tahap yang paling penting dalam data mining adalah ‘data preprocessing’. Apa saja bentuk atau teknik dalam data preprocessing?
by Ria Liuswani - 1501144950
Pre processing dapat dilakukan dengan beberapa teknik yaitu:
- Cleaning memperkecil jumlah data yang hilang atau berbeda, dapat dilakukan dengan:
- Mengisi data yang hilang dengan default value
- Mengisi data secara manual, misal: trace ulang transaksi untuk mengetahui data yang hilang
- Mengisi dengan rata-rata atribut tersebut, misal: gaji pegawai yang kosong diisi dengan rata-rata gaji pegawai
- Mengisi dengan rata-rata suatu atribut untuk kelas yang sama, misal: gaji pegawai yang kosong diisi dengan rata-rata gaji pegawai yang memiliki jabatan yang sama
- Menggunakan regresi, prediksi berdasarkan dua variabel yang lain, misal: mengisi gaji pegawai yang kosong dengan nilai prediksi dengan regresi berdasarkan jabatan dan lama masa kerja
- Menghilangkan baris yang mengandung data yang hilang. misal: menghilangkan data pegawai yang gaji pegawainya kosong
- Binning by means, menggunakan rata-rata pengelompokkan. misal: sorted data dibagi menjadi beberapa kelompok, dan dicari rata-rata masing2 kelompok untuk mengganti setiap data yang ada, sesuai dengan kelompoknya. misal data dari kelompok A diganti dengana rata-rata kelompok A
- Binning by range boundries, menggunakan batas terdekat suatu kelompok data, misal: sorted data dibagi menjadi beberapa kelompok, di cari nilai minimum dan maximum dari masing-masing kelompok, lalu gantikan tiap nilai di suatu kelompok dengan batas atas atau batas bawah kelompoknya, sesuai dengan yang paling dekat.
- Mencari dan menghilangkan outlier dengan pengelompokan atau regresi
Binning mengganti suatu nilai outlier dengan nilai yang lebih sesuai dengan data lain yang ada di sekitar data outlier tersebut (local smoothing)
- Integrasi menggabungkan beberapa sumber data sehingga dapat saling melengkapi. data perlu digabungkan dengan key yang sesuai. key ini mungkin memiliki nama yang berbeda di sumber data yang berbeda. misal di tabel a menggunakan nama atribut ‘id’, di tabel b menggunakan nama atribut ‘nomor’, atau satuan yang digunakan untuk konsep yang sama (misal harga) disimpan dalam juta dan ribu.
- Transformasi mengubah data yang kompleks dengan tidak menghilangkan isi, sehingga lebih mudah diolah, dilakukan dengan cara:
- smoothing (binning, clustering dan regresi)
- agregasi (summarize, menggunakaan dimensi yang lebih general (cube construction ))
- generalisasi, misal menggunakan dimensi propinsi daripada kabupaten atau grouping (hirarki konsep)
- normalisasi, mengelompokkan data sesuai skala tertentu, misal IPK.
- normalisasi min-max, standarisasi data dengan menempatkan data dalam range 0 sampai 1, nilai terkecil sebagai 0, dan nilai terbesar sebagai 1. Jadi, nilai baru = ((nilai lama – nilai minimal) / (nilai maksimal – nilai minimal)) (range maksimal – range minimal) + minimal baru. Apabila misalkan range minimal = 0, range maksimal = 1.
- normalisasi z-index, nilai baru = (nilai lama – rata-rata)/standar deviasi
- normalisasi skala desimal, nilai baru = nilai lama / 10 ^ x,
- Reduksi mengurangi jumlah data sehingga resource yang digunakan lebih sedikit, sehingga prosesnya dapat lebih cepat dilakukan dengan cara:
- Sampling/generalisasi,
- Agregasi, seperti agregasi pada transformasi. Data ribuan memiliki volume byte yang lebih kecil daripada data jutaan
- Mengurangi atribut yang tidak perlu (korelasi yang rendah terhadap keseluruhan data), misal nomor telepon, nama ibu atau nama jalan. Jika data set memiliki atribut sejumlah n, maka ada 2^n kemungkinan korelasi antar atribut
- Kompresi data
Data Cleaning
Data cleaning merupakan masalah krusial dalam data warehousing. Data cleaning meliputi mengisi nilai yang hilang, menentukan data yang tidak wajar dan menormalkan data yang noisy.mengumpulkan data yang tidak konsisten, dan menyelesaikan data yang berulang (redundancy) yang diakibatkan oleh integrasi data.
Incomplete Data
Data tidak selalu tersedia, banyak tuples tidak mempunyai nilai untuk beberapa attribute, misalnya pendapatan pelanggan pada data penjualan.
ketika memilih pendekatan untuk menyelesaikan masalah data yang hilang atau tidak lengkap, perlu diperhatikan hasil yang sesuai dengan bentuk distribusi dari rasional.
Little and Rubin mendefinisikan 3 tipe data yang hilang (missing data mechanisms )
- Missing Completely at Random (MCAR) kasus dimana data yang lengkap mempunyai kesamaan dengan kasus data yang hilang.
- Mising at random (MAR) kasus dimana data yang lengkap berbeda dengan kasus data yang lengkap.
- Nonignorable pola dari data yang hilang tidaklah acak dan tidak dapat diprediksi dari variable lain didalam database.
Dalam praktiknya data yang memenuhi asumsi MCAR sangatlah jarang, asusmsi MAR lebih sering muncul. Terdapat tool yang mengunakan model statistika untuk memprediksi data yang hilang tersebut, yaitu:
- Listwise or casewise data deletion : jika ada data yang hilang untuk satu variable yang digunakan pada suatu analisis, seluruh data tersebut di diacuhkan dalam proses analisis.
- Mean substitution : melakukan perhitungan rata-rata untuk mengganti nilai yang hilang.
- Regression methods : mengembangkan notasi regresi berdasarkan kasus data lengkap dengan variable tertentu.memperlakukan hasilnya sebagai nilai predictor terhadap data yang hilang.
- Hot deck imputation : membandingkan kasus data yang hilang dengan kasus yang mempunyai kemiripan dan memberikan nilai data yang hilang.
- Expectation Maximization (EM) approach : langkah iterative yang meliputi 2 tahapan, tahapan pertama menghitung nilai yang diprediksi dari data berdasarkan log likelihood. Langkah kedua memberi nilai berdasarkan perhitungan pada tahapan pertaman.
- Raw maximum likelihood methods : mengunakan semua data untuk mengeneratemaximum likelihood-based sufficient statistics
Noisy Data
Ketidak sempurnaan pada data bisa berasal dari salah perhitungan, kesalahan manusia, kesalahan dalam menklasifikasikan data training dalam expert judgement. Konsekuensinya adalah tingkat akurasi yang rendah pada hasil analisa serta hipotesa yang susah diinterpertasikan dan dimengerti oleh user. Salah satu metode untuk menangani noisy data adalah dengan background atau prior knowledge yang belajar dari domain tertentu, misalnya belajar dari data numerik.selain itu noisy data juga bisa muncul dari overfitting data yang merusak keaslian data, untuk itu overfitting harus dihindari dengan mengunakan metode tertentu.
Inconsistency Data
Untuk beberapa alasan database tertentu mungkin tidak memenuhi integrity constraints, misalnya, saat ini adalah hasil dari integrasi beberapa sumber data independen. Namun, kemungkinan besar, informasi di dalamnya masih konsisten dengan integrity constraints, dan masih bisa memberikan jawaban sesuai dengan query yang diminta dengan sedikit perbaikan pada database.
No comments:
Post a Comment