riset-teknologi-informasi/worksheets/ws-07-experiment-design.md
hb_alim b488de8a09 feat: rewrite all 16 worksheets with full learning material
Each worksheet now includes Ringkasan Materi, Template A.x,
3 exercises with example answers, and reflection prompts.
Synced from rti-20252 student repo.
2026-03-31 10:58:25 +07:00

160 lines
5.6 KiB
Markdown

# WS-07: Experimental Design & Validity
> **Bab 7 — Experimental Design & Validity**
---
## Ringkasan Materi
### Correlation ≠ Causality
Kausalitas membutuhkan 3 syarat:
1. **Covariance** — X dan Y bergerak bersama
2. **Temporal precedence** — X berubah sebelum Y
3. **Elimination of alternatives** — Tidak ada faktor lain yang menjelaskan Y
Controlled experiment adalah satu-satunya metode yang bisa membuktikan kausalitas.
### Empat Jenis Validitas
| Jenis | Pertanyaan | Ancaman Umum |
|-------|-----------|-------------|
| **Internal** | Apakah hubungan IV→DV nyata? | Confounding variable, selection bias |
| **External** | Apakah bisa digeneralisasi? | Dataset terlalu spesifik |
| **Construct** | Apakah mengukur konsep yang benar? | Metrik tidak sesuai |
| **Conclusion** | Apakah kesimpulan statistik valid? | Sample size kecil, uji salah |
Internal dan external validity sering berkonflik: semakin terkontrol (internal kuat) → semakin artificial (external lemah).
### Tiga Tipe Eksperimen dalam Riset TI
| Tipe | Deskripsi | Kapan Digunakan |
|------|----------|----------------|
| **Comparison Study** | Metode A vs B pada kondisi identik | Membandingkan pendekatan berbeda |
| **Ablation Study** | Full system → lepas komponen satu per satu | Mengukur kontribusi tiap komponen |
| **Parameter Study** | Variasikan satu parameter, amati dampak | Uji sensitifitas/robustness |
### Fairness dalam Perbandingan
Perbandingan yang adil = **kondisi identik** untuk semua metode: dataset sama, preprocessing sama, tuning effort sebanding, environment sama, metrik sama.
Contoh tidak adil: Transformer (30 fitur tambahan + Bayesian optimization) vs RF (default params) → hasilnya misleading.
### Threats to Validity = Diidentifikasi Sebelum Eksperimen
Ancaman validitas harus diidentifikasi **sebelum** eksperimen dan mitigasinya dirancang sebagai bagian dari desain — bukan ditulis sebagai boilerplate setelah selesai.
### Research vs Engineering
| Aspek | Engineering | Research |
|-------|------------|----------|
| Tujuan testing | Memastikan sistem memenuhi requirement | Membuktikan hubungan kausal antar variabel |
| Baseline | Versi sebelumnya (last release) | Metode tervalidasi dari literatur |
| Kegagalan | Bug → fix → release | H₀ tidak ditolak → tetap kontribusi ilmiah |
| Sukses | 100% test pass | Evidence valid — mendukung atau menolak hipotesis |
### Istilah Penting
- **Causality** — Hubungan sebab-akibat (covariance + temporal + elimination)
- **Controlled Experiment** — Ubah satu variabel, kontrol sisanya, amati efek
- **Fairness** — Semua metode diuji pada kondisi yang benar-benar identik
- **Threats to Validity** — Faktor yang bisa melemahkan kesimpulan jika tidak dimitigasi
- **Conclusion Validity** — Validitas statistik: power, sample size, uji yang tepat
---
## Template A.7 — Desain Eksperimen Lengkap
```
EXPERIMENT DESIGN
Research Question : ____________________
Hypothesis : ____________________
Tipe Eksperimen : [ ] Comparison [ ] Ablation [ ] Parameter
Kondisi Eksperimen:
| Kondisi | Deskripsi | IV Value | CV Settings |
|---------|-----------|----------|-------------|
| Control | | | |
| Treatment | | | |
Fairness Checklist:
[ ] Dataset identik untuk semua kondisi
[ ] Preprocessing setara
[ ] Tuning effort setara
[ ] Environment identik
[ ] Metrik evaluasi sama
Threat Analysis:
| Threat Type | Ancaman Spesifik | Mitigasi |
|-------------|-----------------|----------|
| Internal | | |
| External | | |
| Construct | | |
| Conclusion | | |
Statistical Plan:
Uji statistik : ____________________
Justifikasi : ____________________
Alpha : ____________________
Effect size min : ____________________
```
---
## Latihan 1 — Desain Eksperimen
Susun desain eksperimen berdasarkan RQ, variabel, dan sistem dari WS-04 sampai WS-06.
**RQ:** __________________________________________________
**Tipe eksperimen:** [ ] Comparison / [ ] Ablation / [ ] Parameter
| Kondisi | Deskripsi | IV Value | CV Settings |
|---------|-----------|----------|-------------|
| Control | *Contoh: RF baseline dari literatur* | *RF* | *Dataset X, 80:20 split, seed 42* |
| Treatment | | | |
---
## Latihan 2 — Fairness Checklist
Evaluasi apakah desain eksperimen di Latihan 1 sudah fair.
| Kriteria | Status | Detail |
|----------|--------|--------|
| Dataset identik | *Contoh: ✅ — sama-sama pakai CIC-MalMem-2022* | |
| Preprocessing setara | | |
| Tuning effort setara | | |
| Environment identik | | |
| Metrik evaluasi sama | | |
**Ada yang tidak fair?** [ ] Ya / [ ] Tidak
> Jika ya, bagaimana cara memperbaikinya? ________________
---
## Latihan 3 — Threat Analysis
Identifikasi ancaman validitas untuk desain eksperimen ini.
| Threat Type | Ancaman Spesifik | Mitigasi |
|-------------|-----------------|----------|
| Internal | *Contoh: Data leakage antara train-test* | *Contoh: Gunakan stratified split, validasi tidak ada overlap* |
| External | | |
| Construct | | |
| Conclusion | | |
**Ancaman mana yang paling sulit dimitigasi?** _____________
**Mengapa?**
> ___________________________________________________
---
## Refleksi
> Sebuah paper melaporkan "metode kami mengalahkan semua baseline." Apa 3 pertanyaan pertama yang harus diajukan untuk mengevaluasi klaim ini?
**Jawaban:**
1. ___________________________________________________
2. ___________________________________________________
3. ___________________________________________________