Each worksheet now includes Ringkasan Materi, Template A.x, 3 exercises with example answers, and reflection prompts. Synced from rti-20252 student repo.
160 lines
5.6 KiB
Markdown
160 lines
5.6 KiB
Markdown
# WS-07: Experimental Design & Validity
|
|
|
|
> **Bab 7 — Experimental Design & Validity**
|
|
|
|
---
|
|
|
|
## Ringkasan Materi
|
|
|
|
### Correlation ≠ Causality
|
|
|
|
Kausalitas membutuhkan 3 syarat:
|
|
1. **Covariance** — X dan Y bergerak bersama
|
|
2. **Temporal precedence** — X berubah sebelum Y
|
|
3. **Elimination of alternatives** — Tidak ada faktor lain yang menjelaskan Y
|
|
|
|
Controlled experiment adalah satu-satunya metode yang bisa membuktikan kausalitas.
|
|
|
|
### Empat Jenis Validitas
|
|
|
|
| Jenis | Pertanyaan | Ancaman Umum |
|
|
|-------|-----------|-------------|
|
|
| **Internal** | Apakah hubungan IV→DV nyata? | Confounding variable, selection bias |
|
|
| **External** | Apakah bisa digeneralisasi? | Dataset terlalu spesifik |
|
|
| **Construct** | Apakah mengukur konsep yang benar? | Metrik tidak sesuai |
|
|
| **Conclusion** | Apakah kesimpulan statistik valid? | Sample size kecil, uji salah |
|
|
|
|
Internal dan external validity sering berkonflik: semakin terkontrol (internal kuat) → semakin artificial (external lemah).
|
|
|
|
### Tiga Tipe Eksperimen dalam Riset TI
|
|
|
|
| Tipe | Deskripsi | Kapan Digunakan |
|
|
|------|----------|----------------|
|
|
| **Comparison Study** | Metode A vs B pada kondisi identik | Membandingkan pendekatan berbeda |
|
|
| **Ablation Study** | Full system → lepas komponen satu per satu | Mengukur kontribusi tiap komponen |
|
|
| **Parameter Study** | Variasikan satu parameter, amati dampak | Uji sensitifitas/robustness |
|
|
|
|
### Fairness dalam Perbandingan
|
|
|
|
Perbandingan yang adil = **kondisi identik** untuk semua metode: dataset sama, preprocessing sama, tuning effort sebanding, environment sama, metrik sama.
|
|
|
|
Contoh tidak adil: Transformer (30 fitur tambahan + Bayesian optimization) vs RF (default params) → hasilnya misleading.
|
|
|
|
### Threats to Validity = Diidentifikasi Sebelum Eksperimen
|
|
|
|
Ancaman validitas harus diidentifikasi **sebelum** eksperimen dan mitigasinya dirancang sebagai bagian dari desain — bukan ditulis sebagai boilerplate setelah selesai.
|
|
|
|
### Research vs Engineering
|
|
|
|
| Aspek | Engineering | Research |
|
|
|-------|------------|----------|
|
|
| Tujuan testing | Memastikan sistem memenuhi requirement | Membuktikan hubungan kausal antar variabel |
|
|
| Baseline | Versi sebelumnya (last release) | Metode tervalidasi dari literatur |
|
|
| Kegagalan | Bug → fix → release | H₀ tidak ditolak → tetap kontribusi ilmiah |
|
|
| Sukses | 100% test pass | Evidence valid — mendukung atau menolak hipotesis |
|
|
|
|
### Istilah Penting
|
|
|
|
- **Causality** — Hubungan sebab-akibat (covariance + temporal + elimination)
|
|
- **Controlled Experiment** — Ubah satu variabel, kontrol sisanya, amati efek
|
|
- **Fairness** — Semua metode diuji pada kondisi yang benar-benar identik
|
|
- **Threats to Validity** — Faktor yang bisa melemahkan kesimpulan jika tidak dimitigasi
|
|
- **Conclusion Validity** — Validitas statistik: power, sample size, uji yang tepat
|
|
|
|
---
|
|
|
|
## Template A.7 — Desain Eksperimen Lengkap
|
|
|
|
```
|
|
EXPERIMENT DESIGN
|
|
|
|
Research Question : ____________________
|
|
Hypothesis : ____________________
|
|
Tipe Eksperimen : [ ] Comparison [ ] Ablation [ ] Parameter
|
|
|
|
Kondisi Eksperimen:
|
|
| Kondisi | Deskripsi | IV Value | CV Settings |
|
|
|---------|-----------|----------|-------------|
|
|
| Control | | | |
|
|
| Treatment | | | |
|
|
|
|
Fairness Checklist:
|
|
[ ] Dataset identik untuk semua kondisi
|
|
[ ] Preprocessing setara
|
|
[ ] Tuning effort setara
|
|
[ ] Environment identik
|
|
[ ] Metrik evaluasi sama
|
|
|
|
Threat Analysis:
|
|
| Threat Type | Ancaman Spesifik | Mitigasi |
|
|
|-------------|-----------------|----------|
|
|
| Internal | | |
|
|
| External | | |
|
|
| Construct | | |
|
|
| Conclusion | | |
|
|
|
|
Statistical Plan:
|
|
Uji statistik : ____________________
|
|
Justifikasi : ____________________
|
|
Alpha : ____________________
|
|
Effect size min : ____________________
|
|
```
|
|
|
|
---
|
|
|
|
## Latihan 1 — Desain Eksperimen
|
|
|
|
Susun desain eksperimen berdasarkan RQ, variabel, dan sistem dari WS-04 sampai WS-06.
|
|
|
|
**RQ:** __________________________________________________
|
|
**Tipe eksperimen:** [ ] Comparison / [ ] Ablation / [ ] Parameter
|
|
|
|
| Kondisi | Deskripsi | IV Value | CV Settings |
|
|
|---------|-----------|----------|-------------|
|
|
| Control | *Contoh: RF baseline dari literatur* | *RF* | *Dataset X, 80:20 split, seed 42* |
|
|
| Treatment | | | |
|
|
|
|
---
|
|
|
|
## Latihan 2 — Fairness Checklist
|
|
|
|
Evaluasi apakah desain eksperimen di Latihan 1 sudah fair.
|
|
|
|
| Kriteria | Status | Detail |
|
|
|----------|--------|--------|
|
|
| Dataset identik | *Contoh: ✅ — sama-sama pakai CIC-MalMem-2022* | |
|
|
| Preprocessing setara | | |
|
|
| Tuning effort setara | | |
|
|
| Environment identik | | |
|
|
| Metrik evaluasi sama | | |
|
|
|
|
**Ada yang tidak fair?** [ ] Ya / [ ] Tidak
|
|
> Jika ya, bagaimana cara memperbaikinya? ________________
|
|
|
|
---
|
|
|
|
## Latihan 3 — Threat Analysis
|
|
|
|
Identifikasi ancaman validitas untuk desain eksperimen ini.
|
|
|
|
| Threat Type | Ancaman Spesifik | Mitigasi |
|
|
|-------------|-----------------|----------|
|
|
| Internal | *Contoh: Data leakage antara train-test* | *Contoh: Gunakan stratified split, validasi tidak ada overlap* |
|
|
| External | | |
|
|
| Construct | | |
|
|
| Conclusion | | |
|
|
|
|
**Ancaman mana yang paling sulit dimitigasi?** _____________
|
|
**Mengapa?**
|
|
> ___________________________________________________
|
|
|
|
---
|
|
|
|
## Refleksi
|
|
|
|
> Sebuah paper melaporkan "metode kami mengalahkan semua baseline." Apa 3 pertanyaan pertama yang harus diajukan untuk mengevaluasi klaim ini?
|
|
|
|
**Jawaban:**
|
|
1. ___________________________________________________
|
|
2. ___________________________________________________
|
|
3. ___________________________________________________
|