Langsung ke konten utama

Data Preparation

 

 
Data Preparation adalah proses mengubah data mentah menjadi format yang dapat dianalisis dan diproses dengan lebih efisien. Berikut adalah penjelasan tentang konsep-konsep yang terkait dengan Data Preparation: 

  1. Raw Data (Data Mentah): Ini adalah data dalam format aslinya, seperti yang diperoleh dari sumber data. Data mentah belum diproses atau diubah dan mungkin berisi kesalahan, nilai yang hilang, atau format yang tidak konsisten.
  2. Structured Data (Data Terstruktur): Data yang diorganisir dalam format tertentu, seperti baris dan kolom dalam tabel relasional atau dokumen dengan skema tetap. Structured data memudahkan analisis dan pemrosesan lebih lanjut.
  3. Data Preprocessing (Pemrosesan Awal Data): Ini adalah langkah awal dalam Data Preparation, di mana data mentah diubah menjadi format yang lebih bersih dan terstruktur. Ini meliputi tugas seperti pembersihan data, penanganan nilai yang hilang, penghapusan duplikat, dan normalisasi data.
  4. Exploratory Data Analysis (EDA): Setelah preprocessing, EDA dilakukan untuk memahami karakteristik data, mengidentifikasi pola, dan menemukan wawasan awal. EDA melibatkan visualisasi data, perhitungan statistik deskriptif, dan analisis korelasi.
  5. Insight, Report & Visual Graph: Insight atau Wawasan adalah pemahaman atau wawasan yang diperoleh dari analisis data. Ini dapat berupa pola, tren, hubungan, atau penemuan lain yang relevan dengan tujuan analisis. Laporan atau Report adalah cara untuk mengomunikasikan insight yang diperoleh dari analisis data. Laporan dapat berupa dokumen tertulis, presentasi, atau dashboard yang berisi ringkasan, visualisasi, dan rekomendasi. Visual Graph atau Grafik Visual adalah representasi visual dari data, seperti grafik batang, garis, lingkaran, atau plot. Grafik visual membantu mengomunikasikan informasi dan pola dalam data dengan cara yang mudah dipahami secara visual.

Dalam proses Data Preparation, data mentah diubah menjadi data terstruktur melalui langkah-langkah preprocessing. Setelah itu, Exploratory Data Analysis dilakukan untuk memperoleh wawasan awal. Insight yang diperoleh kemudian dikomunikasikan melalui laporan dan grafik visual untuk membantu pengambilan keputusan atau tindakan lebih lanjut.

Komentar

Postingan populer dari blog ini

SEMMA (Sample, Explore, Modify, Model, Assess)

  SEMMA adalah singkatan dari Sample, Explore, Modify, Model, dan Assess. Ini adalah sebuah model proses yang dikembangkan oleh SAS Institute, salah satu produsen perangkat lunak statistik dan bisnis intelligence. Model ini membimbing pelaksanaan proyek data mining dengan menekankan pada pengembangan dan penilaian model. Berikut adalah penjelasan singkat tentang masing-masing tahap SEMMA: Sample : Tahap ini bersifat opsional, yaitu mengambil sampel data dari kumpulan data yang besar untuk menampung informasi yang signifikan, namun dapat dimanipulasi dengan cepat. Explore : Tahap ini adalah mengeksplorasi data yang sudah dikumpulkan dengan mencari tren dan anomali yang tak terduga dalam rangka untuk mendapatkan pemahaman dan ide-ide. Modify : Tahap ini adalah memodifikasi data dengan menciptakan, menyeleksi, dan mentransformasi variabel-variabel untuk fokus pada proses pemilihan model. Model : Tahap ini adalah memodelkan data yang sudah dimodifikasi dengan menggunakan perangkat lun...

Data Visualization

  Data Visualization atau Visualisasi Data adalah representasi grafis dari informasi dan data. Dengan visualisasi data, informasi yang kompleks dapat disajikan dalam format yang lebih mudah dipahami dan diinterpretasikan. Tujuan utama visualisasi data adalah untuk mengomunikasikan informasi secara jelas dan efisien kepada pengguna. Beberapa tipe visualisasi data yang umum digunakan: Grafik Batang (Bar Chart) : Digunakan untuk membandingkan nilai-nilai dari beberapa kategori atau kelompok data. Grafik Garis (Line Chart) : Menampilkan perubahan data dalam rentang waktu atau urutan tertentu. Grafik Pie (Pie Chart) : Menunjukkan proporsi atau persentase dari keseluruhan data dalam bentuk lingkaran. Histogram : Menggambarkan distribusi frekuensi data dalam bentuk batang. Peta (Maps) : Memvisualisasikan data berdasarkan lokasi geografis. Scatter Plot : Menunjukkan hubungan antara dua set data numerik. Treemap : Menampilkan hierarki data dalam bentuk persegi panjang bersarang. Vis...

CRISP-DM( Cross-Industry Standard Process for Data Mining)

  CRISP-DM (Cross-Industry Standard Process for Data Mining) adalah sebuah model proses standar yang menggambarkan pendekatan-pendekatan umum yang digunakan oleh para ahli data mining. Model ini adalah model analitik yang paling banyak digunakan. CRISP-DM terdiri dari enam tahap, yaitu: Pemahaman bisnis: menentukan tujuan dan persyaratan proyek data mining sesuai dengan kebutuhan bisnis. Pemahaman data: mengumpulkan, menjelajah, dan menganalisis data yang relevan dengan tujuan data mining. Persiapan data: membersihkan, mengintegrasikan, dan mentransformasi data agar siap untuk pemodelan. Pemodelan: membuat dan menguji beberapa model data dengan menggunakan algoritma-algoritma yang sesuai. Evaluasi: mengevaluasi kinerja dan validitas model data yang dibuat dan memilih model terbaik. Penyebaran: menyajikan atau mengimplementasikan hasil data mining kepada pihak-pihak yang terkait.