Each worksheet now includes Ringkasan Materi, Template A.x, 3 exercises with example answers, and reflection prompts. Synced from rti-20252 student repo.
5.6 KiB
WS-07: Experimental Design & Validity
Bab 7 — Experimental Design & Validity
Ringkasan Materi
Correlation ≠ Causality
Kausalitas membutuhkan 3 syarat:
- Covariance — X dan Y bergerak bersama
- Temporal precedence — X berubah sebelum Y
- Elimination of alternatives — Tidak ada faktor lain yang menjelaskan Y
Controlled experiment adalah satu-satunya metode yang bisa membuktikan kausalitas.
Empat Jenis Validitas
| Jenis | Pertanyaan | Ancaman Umum |
|---|---|---|
| Internal | Apakah hubungan IV→DV nyata? | Confounding variable, selection bias |
| External | Apakah bisa digeneralisasi? | Dataset terlalu spesifik |
| Construct | Apakah mengukur konsep yang benar? | Metrik tidak sesuai |
| Conclusion | Apakah kesimpulan statistik valid? | Sample size kecil, uji salah |
Internal dan external validity sering berkonflik: semakin terkontrol (internal kuat) → semakin artificial (external lemah).
Tiga Tipe Eksperimen dalam Riset TI
| Tipe | Deskripsi | Kapan Digunakan |
|---|---|---|
| Comparison Study | Metode A vs B pada kondisi identik | Membandingkan pendekatan berbeda |
| Ablation Study | Full system → lepas komponen satu per satu | Mengukur kontribusi tiap komponen |
| Parameter Study | Variasikan satu parameter, amati dampak | Uji sensitifitas/robustness |
Fairness dalam Perbandingan
Perbandingan yang adil = kondisi identik untuk semua metode: dataset sama, preprocessing sama, tuning effort sebanding, environment sama, metrik sama.
Contoh tidak adil: Transformer (30 fitur tambahan + Bayesian optimization) vs RF (default params) → hasilnya misleading.
Threats to Validity = Diidentifikasi Sebelum Eksperimen
Ancaman validitas harus diidentifikasi sebelum eksperimen dan mitigasinya dirancang sebagai bagian dari desain — bukan ditulis sebagai boilerplate setelah selesai.
Research vs Engineering
| Aspek | Engineering | Research |
|---|---|---|
| Tujuan testing | Memastikan sistem memenuhi requirement | Membuktikan hubungan kausal antar variabel |
| Baseline | Versi sebelumnya (last release) | Metode tervalidasi dari literatur |
| Kegagalan | Bug → fix → release | H₀ tidak ditolak → tetap kontribusi ilmiah |
| Sukses | 100% test pass | Evidence valid — mendukung atau menolak hipotesis |
Istilah Penting
- Causality — Hubungan sebab-akibat (covariance + temporal + elimination)
- Controlled Experiment — Ubah satu variabel, kontrol sisanya, amati efek
- Fairness — Semua metode diuji pada kondisi yang benar-benar identik
- Threats to Validity — Faktor yang bisa melemahkan kesimpulan jika tidak dimitigasi
- Conclusion Validity — Validitas statistik: power, sample size, uji yang tepat
Template A.7 — Desain Eksperimen Lengkap
EXPERIMENT DESIGN
Research Question : ____________________
Hypothesis : ____________________
Tipe Eksperimen : [ ] Comparison [ ] Ablation [ ] Parameter
Kondisi Eksperimen:
| Kondisi | Deskripsi | IV Value | CV Settings |
|---------|-----------|----------|-------------|
| Control | | | |
| Treatment | | | |
Fairness Checklist:
[ ] Dataset identik untuk semua kondisi
[ ] Preprocessing setara
[ ] Tuning effort setara
[ ] Environment identik
[ ] Metrik evaluasi sama
Threat Analysis:
| Threat Type | Ancaman Spesifik | Mitigasi |
|-------------|-----------------|----------|
| Internal | | |
| External | | |
| Construct | | |
| Conclusion | | |
Statistical Plan:
Uji statistik : ____________________
Justifikasi : ____________________
Alpha : ____________________
Effect size min : ____________________
Latihan 1 — Desain Eksperimen
Susun desain eksperimen berdasarkan RQ, variabel, dan sistem dari WS-04 sampai WS-06.
RQ: __________________________________________________ Tipe eksperimen: [ ] Comparison / [ ] Ablation / [ ] Parameter
| Kondisi | Deskripsi | IV Value | CV Settings |
|---|---|---|---|
| Control | Contoh: RF baseline dari literatur | RF | Dataset X, 80:20 split, seed 42 |
| Treatment |
Latihan 2 — Fairness Checklist
Evaluasi apakah desain eksperimen di Latihan 1 sudah fair.
| Kriteria | Status | Detail |
|---|---|---|
| Dataset identik | Contoh: ✅ — sama-sama pakai CIC-MalMem-2022 | |
| Preprocessing setara | ||
| Tuning effort setara | ||
| Environment identik | ||
| Metrik evaluasi sama |
Ada yang tidak fair? [ ] Ya / [ ] Tidak
Jika ya, bagaimana cara memperbaikinya? ________________
Latihan 3 — Threat Analysis
Identifikasi ancaman validitas untuk desain eksperimen ini.
| Threat Type | Ancaman Spesifik | Mitigasi |
|---|---|---|
| Internal | Contoh: Data leakage antara train-test | Contoh: Gunakan stratified split, validasi tidak ada overlap |
| External | ||
| Construct | ||
| Conclusion |
Ancaman mana yang paling sulit dimitigasi? _____________ Mengapa?
Refleksi
Sebuah paper melaporkan "metode kami mengalahkan semua baseline." Apa 3 pertanyaan pertama yang harus diajukan untuk mengevaluasi klaim ini?
Jawaban: