riset-teknologi-informasi/worksheets/ws-11-data-validation.md
hb_alim b488de8a09 feat: rewrite all 16 worksheets with full learning material
Each worksheet now includes Ringkasan Materi, Template A.x,
3 exercises with example answers, and reflection prompts.
Synced from rti-20252 student repo.
2026-03-31 10:58:25 +07:00

161 lines
4.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# WS-11: Data Validation & Integrity
> **Bab 11 — Validasi Data & Integritas**
---
## Ringkasan Materi
### Data Trust Model
```
Raw Data → Data Cleaning → Consistency Check → Validation Process → Trusted Data
```
Data mentah belum bisa dipercaya. Harus melewati pipeline validasi sebelum siap untuk analisis statistik.
### Empat Pilar Data Quality
| Pilar | Deskripsi | Contoh Pelanggaran |
|-------|----------|-------------------|
| **Accuracy** | Nilai dalam range masuk akal | Akurasi = 1.5 (di luar [0,1]) |
| **Consistency** | Format seragam di semua run | Run 1: CSV, Run 2: JSON |
| **Completeness** | Tidak ada data hilang dari plan | 97 dari 100 run tercatat |
| **Validity** | Data sesuai desain eksperimen | Parameter baseline tercampur treatment |
### Proses Validasi Progresif
1. **Format validation** — Tipe file, header, kolom
2. **Range validation** — Nilai dalam batas logis
3. **Consistency validation** — Format seragam antar-run
4. **Logic validation** — Data cocok dengan desain eksperimen
Jika gagal di langkah awal → tidak perlu lanjut.
### Anomaly Detection — 3 Jenis
| Jenis | Deskripsi | Deteksi |
|-------|----------|---------|
| **Statistical outlier** | Nilai di luar distribusi normal | IQR: < Q1-1.5×IQR atau > Q3+1.5×IQR |
| **Contextual anomaly** | Normal absolut, abnormal dalam konteks | Run 1-10: ~91%, Run 11-20: ~88% |
| **Pattern anomaly** | Pola sistematis (bukan random) | Performa menurun berurutan |
**Prinsip:** Detect → Investigate → Document → Decide — **JANGAN langsung hapus.**
### Engineering vs Research Validation
| Aspek | Engineering | Research |
|-------|-----------|---------|
| Tujuan | Data sesuai spesifikasi bisnis | Data layak untuk analisis statistik |
| Missing data | Impute / set default | Investigasi penyebab → dokumentasi |
| Outlier | Bug → fix | Mungkin temuan → investigasi |
| Dokumentasi | Minimal (log error) | Komprehensif (anomali + keputusan) |
### Jebakan Kognitif
1. "Logging otomatis ≠ data benar" → bisa ada bug di logger
2. "Outlier = hapus" → bisa jadi temuan penting
3. "Dataset kecil tidak perlu validasi" → justru lebih rentan
4. "Mean normal = data benar" → [94, 95, 93, **44**, 94] → mean 84% terlihat wajar
---
## Template A.11 — Data Validation Checklist
```
DATA VALIDATION CHECKLIST
Completeness:
[ ] Semua skenario tercakup
[ ] Jumlah run sesuai rencana
[ ] Tidak ada file output hilang
Missing: ____ dari ____ data points
Format Consistency:
[ ] Semua file format sama (CSV/JSON/...)
[ ] Header konsisten
[ ] Tipe data konsisten (numerik tetap numerik)
Range & Logic:
[ ] Nilai dalam range masuk akal
[ ] Tidak ada waktu negatif
[ ] Metrik 0100%, tidak di luar range
Anomali ditemukan: ____________________
Cross-Validation:
[ ] Run identik → hasil mendekati
[ ] Trend konsisten dengan ekspektasi teori
Keputusan:
[ ] Data siap analisis
[ ] Perlu cleaning
[ ] Perlu re-run (skenario: ____)
```
---
## Latihan 1 — Completeness Check
Verifikasi apakah semua data yang direncanakan sudah terkumpul.
| Skenario | Run Direncanakan | Run Tercatat | Missing | Alasan |
|----------|-----------------|-------------|---------|--------|
| *Contoh: BERT, DS-1* | *10* | *10* | *0* | *—* |
| *LSTM, DS-3* | *10* | *8* | *2* | *OOM pada run 7 & 9* |
| | | | | |
| | | | | |
**Total expected:** ____ | **Total actual:** ____ | **Missing:** ____
**Keputusan untuk data missing:**
> ___________________________________________________
---
## Latihan 2 — Anomaly Investigation
Periksa data Anda untuk anomali. Gunakan metode IQR atau z-score.
**Dataset sampel (atau data Anda sendiri):**
| Run | Accuracy (%) |
|-----|-------------|
| 1 | *91.2* |
| 2 | *90.8* |
| 3 | *91.5* |
| 4 | *78.3* |
| 5 | *91.0* |
**Deteksi outlier:**
- Q1 = ____ | Q3 = ____ | IQR = ____
- Batas bawah (Q1 - 1.5×IQR) = ____
- Batas atas (Q3 + 1.5×IQR) = ____
- Outlier terdeteksi: ____
**Investigasi (untuk setiap outlier):**
| Outlier | Nilai | Kemungkinan Penyebab | Keputusan |
|---------|-------|---------------------|-----------|
| *Run 4* | *78.3* | *Contoh: thermal throttling setelah 3 run berturut* | *Re-run dengan cooling interval* |
---
## Latihan 3 — Validation Report
Buat laporan validasi ringkas untuk dataset eksperimen Anda.
**1. Completeness:** ____% data terkumpul
**2. Format:** [ ] Konsisten / [ ] Ada inkonsistensi: ____
**3. Range check (anomali):** ____
**4. Logic check:** [ ] Parameter sesuai plan / [ ] Ada ketidaksesuaian: ____
**Kesimpulan:** [ ] Data siap analisis / [ ] Perlu tindakan: ____
---
## Refleksi
> Apa perbedaan antara "data yang benar" dan "data yang dipercaya"? Mengapa proses validasi formal diperlukan meskipun data dikumpulkan secara otomatis?
> ___________________________________________________
> ___________________________________________________