Each worksheet now includes Ringkasan Materi, Template A.x, 3 exercises with example answers, and reflection prompts. Synced from rti-20252 student repo.
4.8 KiB
WS-11: Data Validation & Integrity
Bab 11 — Validasi Data & Integritas
Ringkasan Materi
Data Trust Model
Raw Data → Data Cleaning → Consistency Check → Validation Process → Trusted Data
Data mentah belum bisa dipercaya. Harus melewati pipeline validasi sebelum siap untuk analisis statistik.
Empat Pilar Data Quality
| Pilar | Deskripsi | Contoh Pelanggaran |
|---|---|---|
| Accuracy | Nilai dalam range masuk akal | Akurasi = 1.5 (di luar [0,1]) |
| Consistency | Format seragam di semua run | Run 1: CSV, Run 2: JSON |
| Completeness | Tidak ada data hilang dari plan | 97 dari 100 run tercatat |
| Validity | Data sesuai desain eksperimen | Parameter baseline tercampur treatment |
Proses Validasi Progresif
- Format validation — Tipe file, header, kolom
- Range validation — Nilai dalam batas logis
- Consistency validation — Format seragam antar-run
- Logic validation — Data cocok dengan desain eksperimen
Jika gagal di langkah awal → tidak perlu lanjut.
Anomaly Detection — 3 Jenis
| Jenis | Deskripsi | Deteksi |
|---|---|---|
| Statistical outlier | Nilai di luar distribusi normal | IQR: < Q1-1.5×IQR atau > Q3+1.5×IQR |
| Contextual anomaly | Normal absolut, abnormal dalam konteks | Run 1-10: ~91%, Run 11-20: ~88% |
| Pattern anomaly | Pola sistematis (bukan random) | Performa menurun berurutan |
Prinsip: Detect → Investigate → Document → Decide — JANGAN langsung hapus.
Engineering vs Research Validation
| Aspek | Engineering | Research |
|---|---|---|
| Tujuan | Data sesuai spesifikasi bisnis | Data layak untuk analisis statistik |
| Missing data | Impute / set default | Investigasi penyebab → dokumentasi |
| Outlier | Bug → fix | Mungkin temuan → investigasi |
| Dokumentasi | Minimal (log error) | Komprehensif (anomali + keputusan) |
Jebakan Kognitif
- "Logging otomatis ≠ data benar" → bisa ada bug di logger
- "Outlier = hapus" → bisa jadi temuan penting
- "Dataset kecil tidak perlu validasi" → justru lebih rentan
- "Mean normal = data benar" → [94, 95, 93, 44, 94] → mean 84% terlihat wajar
Template A.11 — Data Validation Checklist
DATA VALIDATION CHECKLIST
Completeness:
[ ] Semua skenario tercakup
[ ] Jumlah run sesuai rencana
[ ] Tidak ada file output hilang
Missing: ____ dari ____ data points
Format Consistency:
[ ] Semua file format sama (CSV/JSON/...)
[ ] Header konsisten
[ ] Tipe data konsisten (numerik tetap numerik)
Range & Logic:
[ ] Nilai dalam range masuk akal
[ ] Tidak ada waktu negatif
[ ] Metrik 0–100%, tidak di luar range
Anomali ditemukan: ____________________
Cross-Validation:
[ ] Run identik → hasil mendekati
[ ] Trend konsisten dengan ekspektasi teori
Keputusan:
[ ] Data siap analisis
[ ] Perlu cleaning
[ ] Perlu re-run (skenario: ____)
Latihan 1 — Completeness Check
Verifikasi apakah semua data yang direncanakan sudah terkumpul.
| Skenario | Run Direncanakan | Run Tercatat | Missing | Alasan |
|---|---|---|---|---|
| Contoh: BERT, DS-1 | 10 | 10 | 0 | — |
| LSTM, DS-3 | 10 | 8 | 2 | OOM pada run 7 & 9 |
Total expected: ____ | Total actual: ____ | Missing: ____
Keputusan untuk data missing:
Latihan 2 — Anomaly Investigation
Periksa data Anda untuk anomali. Gunakan metode IQR atau z-score.
Dataset sampel (atau data Anda sendiri):
| Run | Accuracy (%) |
|---|---|
| 1 | 91.2 |
| 2 | 90.8 |
| 3 | 91.5 |
| 4 | 78.3 |
| 5 | 91.0 |
Deteksi outlier:
- Q1 = ____ | Q3 = ____ | IQR = ____
- Batas bawah (Q1 - 1.5×IQR) = ____
- Batas atas (Q3 + 1.5×IQR) = ____
- Outlier terdeteksi: ____
Investigasi (untuk setiap outlier):
| Outlier | Nilai | Kemungkinan Penyebab | Keputusan |
|---|---|---|---|
| Run 4 | 78.3 | Contoh: thermal throttling setelah 3 run berturut | Re-run dengan cooling interval |
Latihan 3 — Validation Report
Buat laporan validasi ringkas untuk dataset eksperimen Anda.
1. Completeness: ____% data terkumpul 2. Format: [ ] Konsisten / [ ] Ada inkonsistensi: ____ 3. Range check (anomali): ____ 4. Logic check: [ ] Parameter sesuai plan / [ ] Ada ketidaksesuaian: ____
Kesimpulan: [ ] Data siap analisis / [ ] Perlu tindakan: ____
Refleksi
Apa perbedaan antara "data yang benar" dan "data yang dipercaya"? Mengapa proses validasi formal diperlukan meskipun data dikumpulkan secara otomatis?