Rabu, 20 April 2011

MATERI DATA & WAREHOUSING

Data Mining

Definisi Data Mining 
 •Data mining adalah proses yang  memperkerjakan satu atau lebih teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.
 
 •Data mining merupakan proses iteratif dan interaktif untuk menemukan pola atau model yang baru, bermanfaat, dan dimengerti dalam suatu database yang sangat besar (massive databases). 

 •Data mining merupakan serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data 

 •Data mining menggunakan berbagai perangkat lunak analisis data untuk menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi dengan tepat 

Kebutuhan akan Data Mining Disebabkan karena : 
•Ketersediaan data yang melimpah, kebutuhan akan informasi  (pengetahuan) sebagai pendukung pengambilan keputusan untuk membuat solusi bisnis 
•Ketersediaan data transaksi dalam volume yang besar 
•Informasi yang penting melahirkan gudang data yang mengintegrasikan informasi dari sistem yang tersebar untuk mendukung pengambilan keputusan 
•Ketersediaan teknologi informasi yang terjangkau dan dapat diadopsi secara luas. 

Ilmu-ilmu yang berkaitan dengan Data Mining 
•Database                             
•Information science                     
•High performance computing
•Visualization 
•Machine learning 
•Statistics 
•Artificial Neural networks 
•Mathematical modeling 
 Information retrieval           
•Pattern recognition

Penerapan Data Mining 

Analisa Pasar dan Manajemen 
- Menebak target pasar 
- Melihat pola beli pemakai dari waktu ke waktu
- Cross Market Analysis 
- Profil Customer 
- Identifikasi Kebutuhan Customer 
- Menilai loyalitas customer 
- Informasi summary 

Analisa Perusahaan dan Manajemen Resiko 
- Merencanakan Keuangan dan Evaluasi Aset 
- Merencanakan Sumber Daya (Resource Planning) 
- Memonitor Persaingan (Competition) 
Telekomunikasi 
- Melihat jutaan transaksi yang masuk dengan 
- tujuan menambah layanan otomatis 
Keuangan 
- Mendeteksi transaksi-transaksi keuangan yang mencurigakan dimana akan susah dilakukan jika menggunakan analisis standar. 
Asuransi 
-Digunakan Australian Health Insurance Commision untuk mengidentifikasi layanan kesehatan dan berhasil menghemat satu juta dollar pertahun 
Olah raga 
- Digunakan IBM Advanced Scout untuk menganalisis statistik permainan NBA dalam rangka competitive advantage untuk tim New York Knicks 
Internet Web Surf-Aid 
-Digunakan IBM Surf-Aid untuk mendata akses halaman Web khususnya berkaitan dengan pemasaran melalui web. 

Knowledge Discovery in Databases (KDD) 
Definisi Knowledge Discovery in Database (KDD) 
- Knowledge discovery in databases (KDD) adalah keseluruhan proses untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan dapat bermanfaat dan dapat dimengerti. 
- KDD berhubungan dengan teknik integrasi,interpretasi dan visualisasi dari pola pola sejumlah kumpulan data. 

















Tahapan Proses KDD 
1. Data Selection 
- Menciptakan himpunan data target,pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan. 
- Hasil seleksi disimpan dalam suatu berkas, terpisah dari basis data operasional. 

2. Pre-processing / Cleaning 
- Pre-processing dan cleaning data merupakan operasi dasar yang dilakukan seperti penghapusan noise.
- Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak 
- Data bisa diperkaya dengan data atau informasi ekternal yang relevan 

3. Transformation 
- Merupakan proses integrasi pada data yang telah dipilih, sehingga data sesuai untuk proses data mining. 
-Merupakan proses yang sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data 

4. Data mining 
- Pemilihan tugas data mining merupakan pemilihan goal dari proses KDD misalnya karakterisasi, klasifikasi, regresi,clustering, asosiasi, dll. 
- Proses Data Mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik, metode atau algoritma tertentu yang bervariasi 
- Pemilihan teknik, metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.  

5. Interpretation/ Evaluation 
- Yaitu penerjemahan pola-pola yang dihasilkan dari data mining.
- Pola informasi yang dihasilkan perlu ditampilkan dalam bentuk yang mudah dimengerti 
- Tahap ini melakukan pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. 

 Data Pre-processing
Beberapa alat dan metode yang digunakan seperti :
- Sampling : menyeleksi subset representatif dari populasi data yang besar. 
- Transformation : memanipulasi data mentah untuk menghasilkan input tunggal. 
- Denoising : menghilangkan noise dari data 
- Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik 
- Feature Extraction : membuka spesifikasi data yang signifikan dalam konteks tertentu. 

 Data Reduction
- Data reduction merupakan teknik yang digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih berguna. Sebagai contoh groupping, counting, summing dan averaging data.
- Data reduction dilakukan untuk mengatasi ukuran data yang terlalu besar yang dapat menimbulkan ketidakefisienan proses dan peningkatan biaya pemrosesan.

 OLAP (On-Line Analytical Processing)
- OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung proses analisis kompleks dalam rangka mengungkapkan kecenderungan pasar dan faktor-faktor penting dalam bisnis
- Kemampuan OLAP yaitu bisa menaikkan atau  menurunkan dimensi data sehingga kita dapat menggali data sampai detail dan memperoleh pandangan yang luas mengenai objek yang sedang dianalisis.

OLAP (On-Line Analytical Processing) 
- OLAP dapat digunakan membuat rangkuman baru dari multidimensi data yang berbeda, dan dapat merespon secara online, dan memberikan view dua dimensi pada data cube multidimensi secara interaktif.

ARSITEKTUR & MODEL DATA MINING

Data Warehouse
Definisi :
Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung  DSS (Decision Suport System) dan EIS (Executive Information System). Salinan dari transaksi data yang terstruktur secara spesifik pada query dan analisa. Salinan dari transaksi data yang terstruktur spesifik untuk query dan laporan

Tujuan :
Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi  ke pemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah. 

Ciri-ciri Data Warehouse
Terdapat 4 karateristik data warehouse
1. Subject oriented
- Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemprosesan decision support.
- Database yang semua informasi yang tersimpan di kelompokkan berdasarkan subyek tertentu misalnya: pelanggan, gudang, pasar, dsb.
- Semua Informasi tersebut disimpan dalam suatu sistem data warehouse.
- Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya : periode waktu, produk,  wilayah, dsb, sehingga  dapatmemberikan nilai sejarah untuk bahan analisa.  

2. Integrated
- Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu lingkungan operasional, encoding data sering tidak seragam sehinggga bila data dipindahkan ke data warehouse maka coding akan diasumsikan sama seperti lazimnya.

3. Time-variant
- Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui.

4. Non volatile
- Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat.

Masalah-masalah dalam menerapkan Data warehouse :
- Dokumentasi dan pengelolaan metadata dari data warehouse.
- Penentuan aturan dalam proses transformasi untuk memetakan  berbagai sumber legacy data yang akan dimasukkan ke dalam data warehouse.
- Pencapaian proses pengembangan yang handal, baik dalam membangun, mempimplementasikan, maupun memelihara data warehouse.



















Data Mart Definisi Data Mart
- Data Mart adalah subset dari data warehouse yang mendukung kebutuhan informasi dari departemen atau fungsi bisnis tertentu.
- Data Mart adalah struktur data yang cakupannya lebih kecil dari data warehouse dimana data dibagi berdasarkan kebutuhan informasi setiap departemen


















Data Warehouse / Data Mart VS OLAP
OLAP adalah teknologi yang memproses data di dalam Data Warehouse / Data Mart dalam struktur multidimensi, menyediakan jawaban yang cepat untuk query analisis yang kompleks









































 Keterangan :
1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise)
2. Data integration  : penggabungan data dari beberapa sumber
3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining
4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base
5. Graphical User Interface (GUI) : untuk end user
Semua tahap bersifat interaktif di mana user terlibat langsung atau dengan perantaraan knowledge base

Model Data Mining  
Prediction Methods
- Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang.
Description Methods
- Mendapatkan pola penafsiran (human-interpretable patterns) untuk menjelaskan data.
















Klasifikasi
- Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk dapat memprediksi kelas dari suatu objek yang labelnya tidak diketahui
- Contoh : Mendeteksi Penipuan
- Tujuan : Memprediksi kasus kecurangan transaksi  kartu kredit.
Pendekatan :
- Menggunakan transaksi kartu kredit dan informasi dilihat dari atribut account holder
- Kapan cutomer melakukan pembelian, Dengan cara apa customer membayar, sebarapa sering customer membayar secara tepat waktu, dll
- Beri nama/tanda transaksi yang telah dilaksanakan sebagai transaksi yang curang atau yang baik. Ini sebagai atribut klass ( the class attribute.)
- Pelajari model untuk class transaksi
- Gunakan model ini untuk mendetekdi kecurangan dengan meneliti transaksi kartu kredit pada account.

Classification Techniques
- Decision Tree based Methods
- Neural Networks
- Rule-based Methods
- Memory based reasoning
- Naïve Bayes and Bayesian Belief Networks
- Support Vector Machines

Regression
- Digunakan untuk memetakan data dengan prediksi atribut bernilai real
Contoh:
- Memprediksi jumlah penjualan produk baru pada advertising expenditure.
- Memprediksi kecepatan memutar (wind velocities) pada fungsi temperatur, tekanan udara , dll

Examples of Regression Task
- Memprediksi jumlah penjualan produk baru pada advertising expenditure (belanja iklan).
- Memprediksi kecepatan memutar (wind velocities) pada fungsi temperatur, tekanan udara , dll
- Memperkirakan metode distribusi dan kapasitas distribusi

Regression Techniques
- Linear Regression
- Logistic Regression
- SQL Server Data Mining mendukung teknik :
Regression Trees (bagian Microsoft Decission Trees)
- Neural Network
- Oracle Data Mining mendukung teknik :
Generalized Linear Models (GLM)
Support Vector Machines (SVM

Decision tree (Pohon keputusan)
- Salah satu model klasifikasi yang mudah di interpretasikan
- Contoh : identifikasi pembeli komputer ( dari decision tree di bawah ini ternyata salah satu kelompok yang potensial adalah orang yang berusia < 30 dan pelajar

Deviation Detection / Deviation Analysis
- Digunakan untuk mencari kasus yang bertindak sangat berbeda dari normalnya
- Mengidentifikasi kasus yang tidak normal diantara jutaan transaksi

Examples of Deviation Analysis Task
- Pendeteksian penyalah gunaan Kartu kredit.
- Pendeteksian gangguan jaringan komputer
- Analisa kesalahan produksi, dll
Deviation Analysis Techniques
- Decision trees
- Neural networ

Neural Network (Jaringan syaraf tiruan) 
- Jaringan syaraf buatan di mulai dengan layer input, dimana tiap simpul berkorespondensi dengan variabel prediktor.
- Simpul- simpul input ini terhubung kebeberapa simpul dalam hidden layer.
- Dan simpul dalam hidden layer dapat terhubung ke simpul  lain dalam hidden layer atau ke output layer.
- Output layer terdiri dari satu atau beberapa variable respon

Clustering
- Disebut juga sebagai Segmentation
- Clustering adalah suatu alat untuk analisa data, yang memecahkan permasalahan penggolongan
- Clustering mendistribusikan obyek ke dalam kelompok, sehingga :
  - derajat tingkat keterhubungan antar anggota cluster yang sama adalah kuat dan
  - derajat tingkat keterhubungan antar anggota cluster yang berbeda adalah lemah
- Sehingga, kita lihat bahwa clustering bermakna menggolongkan data atau membagi satuan data yang besar ke dalam satuan data yang lebih kecil yang memiliki kesamaan. Algoritma clustering tercakup dalam aplikasi BI2M. Lihat contoh dari penggunaan clustering dalam BI2M.

Gambar dibawah ini menunjukkan kelompok data pelanggan yang berisi dua atribut, yaitu Age (Umur) dan Income (Pendapatan).



















Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.
- Cluster 1 berisi populasi berusia muda dengan pendapatan rendah
- Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi
- Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.

Outline
Teknik-teknik data mining terdiri dari :
• Analisis cluster
• Induksi (pohon keputusan dan aturan induksi)
• Jaringan syaraf buatan (Neural Network)
• Online Analytical Processing (OLAP)
• Visualisasi data

Analisis Cluster

• Dalam lingkungan ‘unsupervised learning’, sistem harus mendapatkan klas2nya sendiri dan ini dilakukan dengan mengcluster data dalam database seperti tergambar pada gambar 1. 
• Langkah pertama adalah dengan mendapatkan subset2 dari objek2 yang terhubung, kemudian mencari deskripsinya cth, D1, D2, D3,dst., yang menggambarkan masing2 subset.












• Clustering dan segmentasi sebenarnya mempartisi database, karena itu setiap partisi atau group adalah sama menurut kriteria atau metrik tertentu. Jika pengukuran kesamaan tersedia, maka terdapat sejumlah teknik untuk membentuk cluster.
• Kebanyakan aplikasi2 data mining menggunakan clusteing menurut similarity (kesamaan), contohnya segmentasi basis klien.

Clustering menurut optimasi dari sekumpulan fungsi-fungsi digunakan pada analisis data, misalnya ketika mensetting tarif asuransi klien dapat disegmentasi menurut sejumlah parameter.
• Contoh aplikasi :
  –  Perangkat ‘stand-alone’ : explore data distribution
  –  Langkah preprocessing untuk algoritma lain
  –  Pengenalan pola, analisis data spasial, pengenalan citra, market
     research, WWW, …
     • clustering dokumen2
     • clustering data log web untuk mendapatkan group dengan pola akses yang sama

Apa itu Clustering ?
• Penggelompokkan data ke cluster2
  – Data yang sama satu sama lain berada pada cluster yang sama
  – Yang tidak sama berada pada cluster lain
  – ‘Unsupervised learning’: klas2 yang belum ditentukan

                                     
Clustering Yang Baik
• Intraclass similarity (Kesamaan di dalam klas) yang tinggi dan interclass similarity (kesamaan antar klas) yang rendah
  – Bergantung pada pengukuran kesamaan
• Kemampuan untuk memdapatkan beberapa atau semua pola yang tersembunyi

 Kebutuhan Clustering
• Scalability
• Kemampuan mengerjakan atribut2 dari berbagai tipe
• Penemuan clusters dengan bentuk yang tidak tentu
• Kebutuhan minimal untuk pengetahuan domain untuk menentukan parameter input
• Dapat menerima noise dan outlier
• Tidak mengindahkan susunan record dari input
• Dimensi yang tinggi
• Menyatu dengan batasan yang dispesifikasikan oleh user
• Interpretability and usability

 Tipe-tipe Data pada Clustering
• Variabel2 berskala interval
• Variabel biner
• Variabel nominal, ordinal dan rasio
• Variable2 dari berbagai tipe variabel

Kategori Pendekatan Clustering
• Algoritma Partisi
  – Mempartisi objek2 ke dalam k cluster
  – Realokasi objek2 secara iteratif untuk memperbaiki clustering
• Algoritma Hirarkis
  – Agglomerative: setiap objek merupakan cluster, gabungan dari cluster2 membentuk cluster yang besar
  – Divisive: semua objek berada dalam suatu cluster, pembagian cluster tsb membentuk cluster2 yang kecil
• Metode berbasis densitas
  – Berbasis koneksitas dan fungsi densitas
  – Noise disaring, kemudian temukan cluster2 dalam bentuk sembarang
• Metode berbasis grid
  – Kuantisasi ruang objek ke dalam struktur grid
• Berbasis Model
  – Gunakan model untuk menemukan keadaan data yang baik

Algoritma Partisi : Konsep Dasar
• Partisi n objek ke dalam k cluster
  – Optimasi kriteria partisi yang dipilih
• Global optimal: dicoba semua partisi
  –  (kn-(k-1),,,-1) partisi yang mungkin
•   Metode heuristik : k-means dan k-medoids
  – K-means: cluster direpresentasikan oleh pusat
  – K-medoids or PAM (partition around medoids): setiap cluster direpresentasikan oleh salah satu objek pada cluster

K-means
• Pilih k objek sembarang sebagai inisial pusat cluster
• Sampai tidak ada perubahan, kerjakan
  – Tunjukkan setiap objek pada cluster dimana objeknya hampir sama, berdasarkan nilai tengah dari objek2 pada cluster
  – Update the cluster means, i.e., calculate the mean value of the objects for each cluster
















Induksi
• Induksi merupakan salah satu teknik inferensi informasi pada database.
• Ada dua teknik inferensi yakni
  – Induksi merupakan teknik inferensi informasi yang digeneralisasi dari database, contohnya setiap pegawai mempunyai manajer.
  – Deduksi merupakan teknik inferensi informasi dari konsekuensi logis  informasi pada database, contohnya operasi join pada dua tabel; dimana yang pertama mengenai pegawai dan departemen sedangkan yang kedua mengenai departemen dan manajer, menghasilkan relasi Antara pegawai dan manajer.

Pohon Keputusan
• Pohon keputusan merupakan representasi pengetahuan yang simpel. Pohon keputusan ini mengklasifikasikan contoh2 pada klas2 dengan angka finit, node diberi nama atribut, edge di beri nilai atribut sedangkan leave diberi nama klas. Objek2 diklasifikasikan dengan struktur pohon, dengan menggunakan dahan2nya sebagai nilai atribut dari objek.

• Gambar berikut mengenai keadaan cuaca. Objek2 berisikan informasi mengenai suasana cuaca, kelembaban dll. Beberapa objek merupakan contoh positif dinotasikan dengan P sedangkan yang lain negatif atau N.















Induksi Aturan
• Sistem data mining harus dapat menyimpulkan suatu model dari database dimana model ini mendefinisikan klas2 seperti halnya database yang terdiri atas satu atau lebih atribut yang menunjukkan klas dari tupel. Klas dapat didefinisikan oleh kondisi atribut.
• Aturan produksi dipergunakan untuk merepresentasikan pengetahuan sistem pakar dan keuntungannya mudah diinterpretasikan oleh kepakaran manusia dikarenakan modularitas yakni aturan yang tunggal dapat dipahami dengan sendirinya dan tidak perlu referensi aturan lain.
                           
Jaringan Syaraf Buatan

• Merupakan pendekatan perhitungan yang melibatkan pengembangan struktur secara matematis dengan kemampuan untuk ‘belajar’.
• Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrakpola  dan mendeteksi tren2 yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya.
•  Jaringan syaraf buatan yang terlatih dapat dianggap sebagai ‘pakar’ dalam kategori informasi yang akan dianalisis.  Pakar ini dapat digunakan untuk  memproyeksi situasi  baru  dari  ketertarikan dan jawaban dari pertanyaan ‘what if’               
• Dikarenakan jaringan syaraf buatan adalah terbaik dalam mengidentifikasikan pola atau tren dalam data, maka cocok pula digunakan untuk kebutuhan memprediksi antara lain:
  – Prediksi penjualan
  – Pengontrolan proses industri
  – Riset Pelanggan
  – Validasi data
  – Manajemen resiko
  – Pemasaran target      
• Jaringan ini menggunakan sekumpulan elemen2 pemrosesan (node) analog pada syaraf otak manusia.  Elemen2 pemrosesan ini terhubung dalam jaringan dimana dapat mengidentifikasikan pola2 dalam data sewaktu dipertunjukkan pada data, artinya jaringan belajar dari pengalaman seperti halnya manusia.
• Pada gambar 5, layer bawah adalah lapisan input dengan x1 – x5. Layer tengah disebut juga layer tersembunyi dengan sejumlah variabel node. Layer atas merupakan layer output dengan node z1 – z2 yang diperoleh dari input yang dicobakan.
• Contoh, prediksi penjualan (output) berdasarkan penjualan lama, harga dan cuaca (input).

                           


















• Setiap node yang ada pada layer tersembunyi, secara keseluruhan terhubung dengan input, berarti setiap yg dipelajari didasarkan pada semua input yg diambil bersamaan. 
Hal ini terlihat pada gambar 6.

• Pada gambar 7. dijelaskan mengenai jaringan syaraf buatan The Clementine User Guide untuk mengidentifikasikan resiko kanker dari berbagai faktor input.

      


       
OLAP (On-line Analytical Processing)
Definisi Menurut E.F. Codd
• OLAP atau On line Analytical Processing merupakan salah satu aplikasi database untuk memproses database yang sangat besar dengan data yang kompleks.
• OLAP didefinisikan oleh E.F. Codd (1993) sebagai sintesis dinamik, analisis dan konsolidasi dari data multidimensional yang sangat besar.
• Aturan atau kebutuhan dari sistem OLAP :
  - View konseptual multidimensional            
  - Transparansi                                
  - Aksesibilitas                               
  - Kinerja reporting yang konsisten             
  - Arsitektur client/server                     
  - Dimensionalitas generik                    
  - Penanganan dynamic sparse matrix                                
  - Pendukung multi-user                                
  - Operasi unrestricted cross dimensional              
  - Manipulasi data intuitif                    
  - Reporting yang fleksibel
  - Level agregasi dan dimensi yang tidak terbatas                 

Definisi OLAP Menurut Nigel Pendse
•   OLAP didefinisikan oleh Nigel Pendse sebagai Fast Analysis of Shared Multidimensional Information, artinya
- Fast dimana pemakai memperoleh respon dalam detik sehingga tidak  terputus rantai pemikirannya
- Analysis dimana sistem menyediakan fungsi2 analisis dan lingkup intuitif dan fungsi2 ini dapat mensuplai logika bisnis dan analisis statistikal yang relevan dengan aplikasi user
- Shared dimana sistem mendukung user yang banyak secara konkurensi
- Multidimensional merupakan kebutuhan utama sehingga sistem mensuplai view konseptual multidimensional dari data termasuk pendukung untuk hirarki multiple
-  Information merupakan data dan informasi yang diwariskan, dimana dibutuhkan oleh aplikasi user

Komponen OLAP Menurut Kirk Cruikshank
• Kirk Cruikshank dari Arbor Software mengidentifikasikan ada 3 komponen OLAP :
  - Database multidimensional harus dapat mengekspresikankalkulasi bisnis yang kompleks dengan mudah. Data harus bereferensi dan didefinisikan matematis
  - Navigasi intuitatif dalam penyusunan data ‘roam around’ yang mana membutuhkan hirarki mining
  - Respons instan, yang artinya kebutuhan untuk memberi user informasi secepat mungkin

Contoh OLAP
• Contoh database OLAP misalnya data penjualan yang dikumpulkan dari region, tipe produk dan cabang penjualan.
• Queri OLAP harus mengakses database penjualan yang lebih dari satu tahun dan multi-gigabyte untuk menemukan penjualan

produk di setiap region per-tipe produk.
• Queri OLAP dapat dikarakterisasikan sebagai transaksi online yang
  - Mengakses data dalam jumlah besar, mis: data penjualan beberapa tahun
  - Menganalisis relationship antara tipe elemen bisnis mis: penjualan, wilayah, produk dan cabang
  - Melibatkan data yang terkumpul mis: volume penjualan, dollar yang dianggarkan dan dollar yang dihabiskan
  - Menyajikan data dalam berbagai perspektif, mis: penjualan berdasarkan wilayah vs penjualan berdasarkan cabang dari produk dalam setiap wilayah
  - Membandingkan data yang terkumpul dalam periode waktu secara
   hirarki, mis: bulanan, tahunan
  - Melibatkan kalkulasi kompleks antara elemen data , mis: keuntungan yang diharapkan sebagai fungsi dari pendapatan penjualan untuk setiap tipe dari cabang penjualan dalam suatu wilayah tertentu.
  - Dapat merespon permohonan user secara cepat sehingga user dapat mengikuti proses pemikiran yang analitik tanpa masuk pada sistem

Visualisasi Data
• Visualisasi data memungkinkan si analis menperoleh pemahaman yang dalam dan lebih intuitif mengenai data dan dapat bekerja sebaik mungkin pada data mining.
• Data mining memperbolehkan si analis memfokuskan pola2 dan trend2 tertentu dan menjelajahi ke dalam menggunakan visualisasi.

                             


























































































1 komentar:

  1. permisi gan, saya baru saja menulis tentang fungsi autocorrelation untuk penentuan pola data time series apakah musiman, tren, atau stationer, di artikel berikut: http://datacomlink.blogspot.com/2015/12/data-mining-identifikasi-pola-data-time.html yang ingin saya tanyakan, apakah ada teknik lain untuk mencari pola data time series selain fungsi autocorrelation ya gan? terima kasih

    BalasHapus