·
Basis data relasional
Dewasa ini, hampir semua
Data bisnis disimpan dalam basis data relasional. Sebuah model basis data
relasional dibangun dari serangkaian tabel, setiap tabel disimpan sebagai
sebuah file. Sebuah tabel relasional terdiri dari baris dan kolom. Kebanyakan model
basis data relasional saat ini dibangun diatas lingkungan OLTP. OLTP (Online Transaction
Processing ) adalah tipe akses yang digunakan oleh bisnis yang membutuhkan
transaksi konkuren dalam jumlah besar. Bentuk data yang tersimpan dalam basis data relasional inilah yang dapat
diolah oleh sistem data mining.
·
Ekstraksi data
Data-data yang dikumpulkan dalam proses transaksi seringkali
ditempatkan pada lokasi yang berbeda-beda. Maka dari itu dibutuhkan kemampuan
dari sistem utuk dapat mengumpulkan data dengan cepat. Jika data tersebut
disimpan dalam kantor regional, seringkali data tersebut di upload ke sebuah
server yang lebih terpusat. Ini bisa dilakukan secara harian, mingguan, atau bulanan
tergantung jumlah .data, keamanan dan biaya. Data dapat diringkas dulu sebelum
dikirimkan ke tempat penyimpanan pusat.
·
Transformasi data
Transformasi data melakukan peringkasan data dengan mengasumsikan
bahwa data telah tersimpan dalam tempat penyimpanan tunggal. Pada langkah
terakhir, data telah di ekstrak dari banyak basis data ke dalam basis data
tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan peringkasan
yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan memilih untuk meringkas
data dalam sebuah tempat penyimpanan tunggal. Fungsi fungsi Agregate yang
sering digunakan antara lain: summarizations, averages, minimum, maximum, dan
count.
·
Pembersihan data
Data-data yang telah terkumpul selanjutnya akan mengalami proses
pembersihan.
Proses pembersihan data dilakukan untuk membuang record yang
keliru, menstandarkan attribut-attribut, merasionalisasi struktur data, dan
mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan
membuat hasil data mining tidak akurat. Adalah sangat penting untuk membuat
data konsisten dan seiagam. Pembersihan data juga dapat membantu perusahaan
untuk mengkonsolidasikan record. ini sangat berguna ketika sebuah perusahaan
mempunyai banyak record untuk seorang pelanggan.Setiap record atau file
pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap
filenya berbeda.
·
Bentuk standar
Selanjutnya setelah data mengalami proses pembersihan maka data
ditranfer kedalam bentuk standar. Bentuk standar adalah adalah bentuk data yang
akan diakses oleh algoritma data mining. Bentuk standar ini biasanya dalam
bentuk spreadsheet like. Bentuk spreadsheet bekerja dengan baik karena baris
merepresentasikan kasus dan kolom merepresentasikan feature.
·
Reduksi dan Feature
Setelah data berada dalam bentuk standar spreadsheet perlu
dipertimbangkan untuk mereduksi jumlah feature. Ada beberapa alasan untuk mengurangi jumlah
feature dalam spreadsheet kita. Sebuah bank mungkin mempunyai ratusan feature
ketika hendak memprediksi resiko kredit. Hal ini berarti perusahaan mempunyai data
dalam jumlah yang sangat besar. Bekerja dengan data sebanyak ini membuat
algoritma prediksi menurun kinerjanya.
·
Menjalankan Algoritma
Setelah semua proses diatas dikerjakan, maka algoritma
data mining sudah siap untuk dijalankan.
0 komentar:
Posting Komentar