Langsung ke konten utama

Pertemuan 10 Data Mining

 

Supervised learning mengacu pada sebuah teknologi kecerdasan buatan tergolong ke dalam kategori machine learning, di mana teknologi ini melatih algoritma dari perangkat komputer pada proses input data yang telah diberi label untuk output tertentu. Singkatnya, perancangan jenis learning ini khusus untuk melatih input data.
Algoritma komputer dilatih sampai mendapat hasil yakni dapat melakukan deteksi pola serta hubungan mendasar antara input data dan output label. Nantinya, hal itu akan memungkinkan penyajian dengan hasil pelabelan yang akurat. Pembelajaran satu ini dapat membantu perusahaan dalam memecahkan masalah berskala besar.
Jenis machine learning ini cocok untuk menyelesaikan masalah klasifikasi maupun regresi, seperti melakukan penentuan terhadap kategori yang ada pada artikel maupun melakukan prediksi terkait dengan volume penjualan pada waktu tertentu di masa mendatang. Tujuan jenis learning satu ini adalah untuk memperdalam pemahaman data dalam konteks pertanyaan.
Supervised learning bertujuan untuk membangun sebuah model guna membuat suatu prediksi berdasarkan bukti. Saat algoritma mendeteksi pola dalam data itu, komputer akan melakukan pembelajaran dari sebuah pengamatan. Saat melakukan lebih banyak pengamatan dalam waktu tertentu, komputer akan secara otomatis melakukan peningkatan pada kinerja prediktifnya.
Konsep pembelajaran yang berkebalikan dengan pembelajaran ini adalah unsupervised learning. Pada pendekatan ini, algoritma akan disajikan data tanpa label dan dirancang secara khusus untuk melakukan deteksi pada pola maupun kesamaannya.
Bagaimana Supervised Learning Bekerja?
Pada dasarnya, supervised learning bekerja layaknya machine learning lainnya, yakni berbasis pada proses pembelajaran atau pelatihan. Saat memasuki fase pembelajaran atau pelatihan itu, sistem akan menerima suatu rangkaian data dengan label yang akan memberi instruksi pada sistem. Model ini nantinya tersaji bersamaan dengan data uji.
Tujuan dari pengujian adalah untuk melakukan pengukuran tentang tingkat keakuratan algoritma yang akan tampil pada data tidak berlabel. Proses pembelajaran yang diawasi akan ditingkatkan dengan cara melakukan pengukuran terus-menerus terhadap output yang dihasilkan dari model serta melakukan penyempurnaan terhadap sistem agar mendekati tingkat akurasi target. Faktor yang mempengaruhi tingkat akurasi adalah data dengan label dan juga algoritma yang digunakan.
Dalam caranya bekerja, pembelajaran satu ini dibedakan menjadi dua jenis, yakni:

1. Klasifikasi
Algoritma berfungsi untuk melakukan penetapan data uji secara akurat ke dalam kategori tertentu. Algoritma nantinya akan mengenali entitas dalam data-data serta mencoba untuk menyimpulkan tentang apa atau bagaimana pemberian label atau pendefinisian entitas itu nantinya.

2. Regresi
Jenis ini berguna untuk memperdalam pemahaman yang berkorelasi dengan hubungan antara variabel terikat dan variabel bebas. Selain itu, regresi dapat juga berguna untuk melakukan pembuatan proyeksi seperti pendapatan penjualan dalam proses bisnis. Algoritma regresi yang populer adalah regresi linier, logistik, dan polinomial.

Kelebihan dan Kekurangan Supervised Learning
Daripada model pembelajaran lainnya, model supervised learning memiliki beberapa keuntungan. Namun, tentu saja pada kenyataannya mereka tetap memiliki kekurangan. Pembelajaran satu ini cenderung melakukan penilaian yang dapat berkaitan dengan manusia.
Namun, dalam kasus tertentu, sistem ini mengalami kesulitan dalam penanganan informasi baru. Jika sistem dengan kategori mobil disajikan dengan sepeda, maka sistem itu harus dikelompokkan dalam satu kategori maupun kategori lainnya. Di sisi lain, jika sistem kecerdasan buatan memiliki sifat generatif, sistem itu mungkin saja tidak mengetahui apa data itu.
Selain itu, sistem juga membutuhkan data dalam jumlah besar yang telah memiliki label secara tepat dan benar guna mencapai tingkat kinerja target. Masalahnya, data itu mungkin saja tidak selalu ada. Berbeda dengan hal itu, unsuprevised learning tidak akan pernah mengalaminya karena mereka dapat bekerja dengan data yang tidak ada labelnya.


30 Algoritma Prediksi
  1. Linear Regression
  2. Logistic Regression
  3. Decision Trees
  4. Random Forest
  5. Gradient Boosting Machines (GBM)
  6. XGBoost
  7. LightGBM
  8. CatBoost
  9. Support Vector Machines (SVM)
  10. K-Nearest Neighbors (K-NN)
  11. Naive Bayes
  12. Artificial Neural Networks (ANN)
  13. Convolutional Neural Networks (CNN)
  14. Recurrent Neural Networks (RNN)
  15. Long Short-Term Memory (LSTM)
  16. Gated Recurrent Unit (GRU)
  17. Autoencoders
  18. Bayesian Networks
  19. Gaussian Processes
  20. ARIMA (AutoRegressive Integrated Moving Average)
  21. Prophet
  22. Kalman Filters
  23. Holt-Winters Exponential Smoothing
  24. Hidden Markov Models (HMM)
  25. Extreme Learning Machines (ELM)
  26. Quantile Regression
  27. Elastic Net Regression
  28. Ridge Regression
  29. Lasso Regression
  30. K-means Clustering


Setiap algoritma ini memiliki keunggulan dan kelemahan masing-masing, serta cocok untuk berbagai jenis data dan masalah prediksi.

Komentar

Postingan populer dari blog ini

SEMMA (Sample, Explore, Modify, Model, Assess)

  SEMMA adalah singkatan dari Sample, Explore, Modify, Model, dan Assess. Ini adalah sebuah model proses yang dikembangkan oleh SAS Institute, salah satu produsen perangkat lunak statistik dan bisnis intelligence. Model ini membimbing pelaksanaan proyek data mining dengan menekankan pada pengembangan dan penilaian model. Berikut adalah penjelasan singkat tentang masing-masing tahap SEMMA: Sample : Tahap ini bersifat opsional, yaitu mengambil sampel data dari kumpulan data yang besar untuk menampung informasi yang signifikan, namun dapat dimanipulasi dengan cepat. Explore : Tahap ini adalah mengeksplorasi data yang sudah dikumpulkan dengan mencari tren dan anomali yang tak terduga dalam rangka untuk mendapatkan pemahaman dan ide-ide. Modify : Tahap ini adalah memodifikasi data dengan menciptakan, menyeleksi, dan mentransformasi variabel-variabel untuk fokus pada proses pemilihan model. Model : Tahap ini adalah memodelkan data yang sudah dimodifikasi dengan menggunakan perangkat lun...

Data Visualization

  Data Visualization atau Visualisasi Data adalah representasi grafis dari informasi dan data. Dengan visualisasi data, informasi yang kompleks dapat disajikan dalam format yang lebih mudah dipahami dan diinterpretasikan. Tujuan utama visualisasi data adalah untuk mengomunikasikan informasi secara jelas dan efisien kepada pengguna. Beberapa tipe visualisasi data yang umum digunakan: Grafik Batang (Bar Chart) : Digunakan untuk membandingkan nilai-nilai dari beberapa kategori atau kelompok data. Grafik Garis (Line Chart) : Menampilkan perubahan data dalam rentang waktu atau urutan tertentu. Grafik Pie (Pie Chart) : Menunjukkan proporsi atau persentase dari keseluruhan data dalam bentuk lingkaran. Histogram : Menggambarkan distribusi frekuensi data dalam bentuk batang. Peta (Maps) : Memvisualisasikan data berdasarkan lokasi geografis. Scatter Plot : Menunjukkan hubungan antara dua set data numerik. Treemap : Menampilkan hierarki data dalam bentuk persegi panjang bersarang. Vis...

CRISP-DM( Cross-Industry Standard Process for Data Mining)

  CRISP-DM (Cross-Industry Standard Process for Data Mining) adalah sebuah model proses standar yang menggambarkan pendekatan-pendekatan umum yang digunakan oleh para ahli data mining. Model ini adalah model analitik yang paling banyak digunakan. CRISP-DM terdiri dari enam tahap, yaitu: Pemahaman bisnis: menentukan tujuan dan persyaratan proyek data mining sesuai dengan kebutuhan bisnis. Pemahaman data: mengumpulkan, menjelajah, dan menganalisis data yang relevan dengan tujuan data mining. Persiapan data: membersihkan, mengintegrasikan, dan mentransformasi data agar siap untuk pemodelan. Pemodelan: membuat dan menguji beberapa model data dengan menggunakan algoritma-algoritma yang sesuai. Evaluasi: mengevaluasi kinerja dan validitas model data yang dibuat dan memilih model terbaik. Penyebaran: menyajikan atau mengimplementasikan hasil data mining kepada pihak-pihak yang terkait.