# WS-07: Experimental Design & Validity > **Bab 7 — Experimental Design & Validity** --- ## Ringkasan Materi ### Correlation ≠ Causality Kausalitas membutuhkan 3 syarat: 1. **Covariance** — X dan Y bergerak bersama 2. **Temporal precedence** — X berubah sebelum Y 3. **Elimination of alternatives** — Tidak ada faktor lain yang menjelaskan Y Controlled experiment adalah satu-satunya metode yang bisa membuktikan kausalitas. ### Empat Jenis Validitas | Jenis | Pertanyaan | Ancaman Umum | |-------|-----------|-------------| | **Internal** | Apakah hubungan IV→DV nyata? | Confounding variable, selection bias | | **External** | Apakah bisa digeneralisasi? | Dataset terlalu spesifik | | **Construct** | Apakah mengukur konsep yang benar? | Metrik tidak sesuai | | **Conclusion** | Apakah kesimpulan statistik valid? | Sample size kecil, uji salah | Internal dan external validity sering berkonflik: semakin terkontrol (internal kuat) → semakin artificial (external lemah). ### Tiga Tipe Eksperimen dalam Riset TI | Tipe | Deskripsi | Kapan Digunakan | |------|----------|----------------| | **Comparison Study** | Metode A vs B pada kondisi identik | Membandingkan pendekatan berbeda | | **Ablation Study** | Full system → lepas komponen satu per satu | Mengukur kontribusi tiap komponen | | **Parameter Study** | Variasikan satu parameter, amati dampak | Uji sensitifitas/robustness | ### Fairness dalam Perbandingan Perbandingan yang adil = **kondisi identik** untuk semua metode: dataset sama, preprocessing sama, tuning effort sebanding, environment sama, metrik sama. Contoh tidak adil: Transformer (30 fitur tambahan + Bayesian optimization) vs RF (default params) → hasilnya misleading. ### Threats to Validity = Diidentifikasi Sebelum Eksperimen Ancaman validitas harus diidentifikasi **sebelum** eksperimen dan mitigasinya dirancang sebagai bagian dari desain — bukan ditulis sebagai boilerplate setelah selesai. ### Research vs Engineering | Aspek | Engineering | Research | |-------|------------|----------| | Tujuan testing | Memastikan sistem memenuhi requirement | Membuktikan hubungan kausal antar variabel | | Baseline | Versi sebelumnya (last release) | Metode tervalidasi dari literatur | | Kegagalan | Bug → fix → release | H₀ tidak ditolak → tetap kontribusi ilmiah | | Sukses | 100% test pass | Evidence valid — mendukung atau menolak hipotesis | ### Istilah Penting - **Causality** — Hubungan sebab-akibat (covariance + temporal + elimination) - **Controlled Experiment** — Ubah satu variabel, kontrol sisanya, amati efek - **Fairness** — Semua metode diuji pada kondisi yang benar-benar identik - **Threats to Validity** — Faktor yang bisa melemahkan kesimpulan jika tidak dimitigasi - **Conclusion Validity** — Validitas statistik: power, sample size, uji yang tepat --- ## Template A.7 — Desain Eksperimen Lengkap ``` EXPERIMENT DESIGN Research Question : ____________________ Hypothesis : ____________________ Tipe Eksperimen : [ ] Comparison [ ] Ablation [ ] Parameter Kondisi Eksperimen: | Kondisi | Deskripsi | IV Value | CV Settings | |---------|-----------|----------|-------------| | Control | | | | | Treatment | | | | Fairness Checklist: [ ] Dataset identik untuk semua kondisi [ ] Preprocessing setara [ ] Tuning effort setara [ ] Environment identik [ ] Metrik evaluasi sama Threat Analysis: | Threat Type | Ancaman Spesifik | Mitigasi | |-------------|-----------------|----------| | Internal | | | | External | | | | Construct | | | | Conclusion | | | Statistical Plan: Uji statistik : ____________________ Justifikasi : ____________________ Alpha : ____________________ Effect size min : ____________________ ``` --- ## Latihan 1 — Desain Eksperimen Susun desain eksperimen berdasarkan RQ, variabel, dan sistem dari WS-04 sampai WS-06. **RQ:** __________________________________________________ **Tipe eksperimen:** [ ] Comparison / [ ] Ablation / [ ] Parameter | Kondisi | Deskripsi | IV Value | CV Settings | |---------|-----------|----------|-------------| | Control | *Contoh: RF baseline dari literatur* | *RF* | *Dataset X, 80:20 split, seed 42* | | Treatment | | | | --- ## Latihan 2 — Fairness Checklist Evaluasi apakah desain eksperimen di Latihan 1 sudah fair. | Kriteria | Status | Detail | |----------|--------|--------| | Dataset identik | *Contoh: ✅ — sama-sama pakai CIC-MalMem-2022* | | | Preprocessing setara | | | | Tuning effort setara | | | | Environment identik | | | | Metrik evaluasi sama | | | **Ada yang tidak fair?** [ ] Ya / [ ] Tidak > Jika ya, bagaimana cara memperbaikinya? ________________ --- ## Latihan 3 — Threat Analysis Identifikasi ancaman validitas untuk desain eksperimen ini. | Threat Type | Ancaman Spesifik | Mitigasi | |-------------|-----------------|----------| | Internal | *Contoh: Data leakage antara train-test* | *Contoh: Gunakan stratified split, validasi tidak ada overlap* | | External | | | | Construct | | | | Conclusion | | | **Ancaman mana yang paling sulit dimitigasi?** _____________ **Mengapa?** > ___________________________________________________ --- ## Refleksi > Sebuah paper melaporkan "metode kami mengalahkan semua baseline." Apa 3 pertanyaan pertama yang harus diajukan untuk mengevaluasi klaim ini? **Jawaban:** 1. ___________________________________________________ 2. ___________________________________________________ 3. ___________________________________________________