# WS-11: Data Validation & Integrity > **Bab 11 — Validasi Data & Integritas** --- ## Ringkasan Materi ### Data Trust Model ``` Raw Data → Data Cleaning → Consistency Check → Validation Process → Trusted Data ``` Data mentah belum bisa dipercaya. Harus melewati pipeline validasi sebelum siap untuk analisis statistik. ### Empat Pilar Data Quality | Pilar | Deskripsi | Contoh Pelanggaran | |-------|----------|-------------------| | **Accuracy** | Nilai dalam range masuk akal | Akurasi = 1.5 (di luar [0,1]) | | **Consistency** | Format seragam di semua run | Run 1: CSV, Run 2: JSON | | **Completeness** | Tidak ada data hilang dari plan | 97 dari 100 run tercatat | | **Validity** | Data sesuai desain eksperimen | Parameter baseline tercampur treatment | ### Proses Validasi Progresif 1. **Format validation** — Tipe file, header, kolom 2. **Range validation** — Nilai dalam batas logis 3. **Consistency validation** — Format seragam antar-run 4. **Logic validation** — Data cocok dengan desain eksperimen Jika gagal di langkah awal → tidak perlu lanjut. ### Anomaly Detection — 3 Jenis | Jenis | Deskripsi | Deteksi | |-------|----------|---------| | **Statistical outlier** | Nilai di luar distribusi normal | IQR: < Q1-1.5×IQR atau > Q3+1.5×IQR | | **Contextual anomaly** | Normal absolut, abnormal dalam konteks | Run 1-10: ~91%, Run 11-20: ~88% | | **Pattern anomaly** | Pola sistematis (bukan random) | Performa menurun berurutan | **Prinsip:** Detect → Investigate → Document → Decide — **JANGAN langsung hapus.** ### Engineering vs Research Validation | Aspek | Engineering | Research | |-------|-----------|---------| | Tujuan | Data sesuai spesifikasi bisnis | Data layak untuk analisis statistik | | Missing data | Impute / set default | Investigasi penyebab → dokumentasi | | Outlier | Bug → fix | Mungkin temuan → investigasi | | Dokumentasi | Minimal (log error) | Komprehensif (anomali + keputusan) | ### Jebakan Kognitif 1. "Logging otomatis ≠ data benar" → bisa ada bug di logger 2. "Outlier = hapus" → bisa jadi temuan penting 3. "Dataset kecil tidak perlu validasi" → justru lebih rentan 4. "Mean normal = data benar" → [94, 95, 93, **44**, 94] → mean 84% terlihat wajar --- ## Template A.11 — Data Validation Checklist ``` DATA VALIDATION CHECKLIST Completeness: [ ] Semua skenario tercakup [ ] Jumlah run sesuai rencana [ ] Tidak ada file output hilang Missing: ____ dari ____ data points Format Consistency: [ ] Semua file format sama (CSV/JSON/...) [ ] Header konsisten [ ] Tipe data konsisten (numerik tetap numerik) Range & Logic: [ ] Nilai dalam range masuk akal [ ] Tidak ada waktu negatif [ ] Metrik 0–100%, tidak di luar range Anomali ditemukan: ____________________ Cross-Validation: [ ] Run identik → hasil mendekati [ ] Trend konsisten dengan ekspektasi teori Keputusan: [ ] Data siap analisis [ ] Perlu cleaning [ ] Perlu re-run (skenario: ____) ``` --- ## Latihan 1 — Completeness Check Verifikasi apakah semua data yang direncanakan sudah terkumpul. | Skenario | Run Direncanakan | Run Tercatat | Missing | Alasan | |----------|-----------------|-------------|---------|--------| | *Contoh: BERT, DS-1* | *10* | *10* | *0* | *—* | | *LSTM, DS-3* | *10* | *8* | *2* | *OOM pada run 7 & 9* | | | | | | | | | | | | | **Total expected:** ____ | **Total actual:** ____ | **Missing:** ____ **Keputusan untuk data missing:** > ___________________________________________________ --- ## Latihan 2 — Anomaly Investigation Periksa data Anda untuk anomali. Gunakan metode IQR atau z-score. **Dataset sampel (atau data Anda sendiri):** | Run | Accuracy (%) | |-----|-------------| | 1 | *91.2* | | 2 | *90.8* | | 3 | *91.5* | | 4 | *78.3* | | 5 | *91.0* | **Deteksi outlier:** - Q1 = ____ | Q3 = ____ | IQR = ____ - Batas bawah (Q1 - 1.5×IQR) = ____ - Batas atas (Q3 + 1.5×IQR) = ____ - Outlier terdeteksi: ____ **Investigasi (untuk setiap outlier):** | Outlier | Nilai | Kemungkinan Penyebab | Keputusan | |---------|-------|---------------------|-----------| | *Run 4* | *78.3* | *Contoh: thermal throttling setelah 3 run berturut* | *Re-run dengan cooling interval* | --- ## Latihan 3 — Validation Report Buat laporan validasi ringkas untuk dataset eksperimen Anda. **1. Completeness:** ____% data terkumpul **2. Format:** [ ] Konsisten / [ ] Ada inkonsistensi: ____ **3. Range check (anomali):** ____ **4. Logic check:** [ ] Parameter sesuai plan / [ ] Ada ketidaksesuaian: ____ **Kesimpulan:** [ ] Data siap analisis / [ ] Perlu tindakan: ____ --- ## Refleksi > Apa perbedaan antara "data yang benar" dan "data yang dipercaya"? Mengapa proses validasi formal diperlukan meskipun data dikumpulkan secara otomatis? > ___________________________________________________ > ___________________________________________________