Pages

Subscribe:

Labels

Minggu, 27 Januari 2013

Tahapan Data Mining


·         Basis data relasional
Dewasa ini, hampir semua Data bisnis disimpan dalam basis data relasional. Sebuah model basis data relasional dibangun dari serangkaian tabel, setiap tabel disimpan sebagai sebuah file. Sebuah tabel relasional terdiri dari baris dan kolom. Kebanyakan model basis data relasional saat ini dibangun diatas lingkungan OLTP. OLTP (Online Transaction Processing ) adalah tipe akses yang digunakan oleh bisnis yang membutuhkan transaksi konkuren dalam jumlah besar. Bentuk data yang tersimpan dalam basis data relasional inilah yang dapat diolah oleh sistem data mining. 

·         Ekstraksi data
Data-data yang dikumpulkan dalam proses transaksi seringkali ditempatkan pada lokasi yang berbeda-beda. Maka dari itu dibutuhkan kemampuan dari sistem utuk dapat mengumpulkan data dengan cepat. Jika data tersebut disimpan dalam kantor regional, seringkali data tersebut di upload ke sebuah server yang lebih terpusat. Ini bisa dilakukan secara harian, mingguan, atau bulanan tergantung jumlah .data, keamanan dan biaya. Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat.
·         Transformasi data
Transformasi data melakukan peringkasan data dengan mengasumsikan bahwa data telah tersimpan dalam tempat penyimpanan tunggal. Pada langkah terakhir, data telah di ekstrak dari banyak basis data ke dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan memilih untuk meringkas data dalam sebuah tempat penyimpanan tunggal. Fungsi fungsi Agregate yang sering digunakan antara lain: summarizations, averages, minimum, maximum, dan count.
·         Pembersihan data
Data-data yang telah terkumpul selanjutnya akan mengalami proses pembersihan.
Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan attribut-attribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat. Adalah sangat penting untuk membuat data konsisten dan seiagam. Pembersihan data juga dapat membantu perusahaan untuk mengkonsolidasikan record. ini sangat berguna ketika sebuah perusahaan mempunyai banyak record untuk seorang pelanggan.Setiap record atau file pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap filenya berbeda.
·         Bentuk standar
Selanjutnya setelah data mengalami proses pembersihan maka data ditranfer kedalam bentuk standar. Bentuk standar adalah adalah bentuk data yang akan diakses oleh algoritma data mining. Bentuk standar ini biasanya dalam bentuk spreadsheet like. Bentuk spreadsheet bekerja dengan baik karena baris merepresentasikan kasus dan kolom merepresentasikan feature.
·         Reduksi dan Feature
Setelah data berada dalam bentuk standar spreadsheet perlu dipertimbangkan untuk mereduksi jumlah feature. Ada beberapa alasan untuk mengurangi jumlah feature dalam spreadsheet kita. Sebuah bank mungkin mempunyai ratusan feature ketika hendak memprediksi resiko kredit. Hal ini berarti perusahaan mempunyai data dalam jumlah yang sangat besar. Bekerja dengan data sebanyak ini membuat algoritma prediksi menurun kinerjanya.
·         Menjalankan Algoritma
Setelah semua proses diatas dikerjakan, maka algoritma data mining sudah siap untuk dijalankan.

0 komentar:

Posting Komentar