riset-teknologi-informasi/worksheets/ws-07-experiment-design.md
hb_alim b488de8a09 feat: rewrite all 16 worksheets with full learning material
Each worksheet now includes Ringkasan Materi, Template A.x,
3 exercises with example answers, and reflection prompts.
Synced from rti-20252 student repo.
2026-03-31 10:58:25 +07:00

5.6 KiB

WS-07: Experimental Design & Validity

Bab 7 — Experimental Design & Validity


Ringkasan Materi

Correlation ≠ Causality

Kausalitas membutuhkan 3 syarat:

  1. Covariance — X dan Y bergerak bersama
  2. Temporal precedence — X berubah sebelum Y
  3. Elimination of alternatives — Tidak ada faktor lain yang menjelaskan Y

Controlled experiment adalah satu-satunya metode yang bisa membuktikan kausalitas.

Empat Jenis Validitas

Jenis Pertanyaan Ancaman Umum
Internal Apakah hubungan IV→DV nyata? Confounding variable, selection bias
External Apakah bisa digeneralisasi? Dataset terlalu spesifik
Construct Apakah mengukur konsep yang benar? Metrik tidak sesuai
Conclusion Apakah kesimpulan statistik valid? Sample size kecil, uji salah

Internal dan external validity sering berkonflik: semakin terkontrol (internal kuat) → semakin artificial (external lemah).

Tiga Tipe Eksperimen dalam Riset TI

Tipe Deskripsi Kapan Digunakan
Comparison Study Metode A vs B pada kondisi identik Membandingkan pendekatan berbeda
Ablation Study Full system → lepas komponen satu per satu Mengukur kontribusi tiap komponen
Parameter Study Variasikan satu parameter, amati dampak Uji sensitifitas/robustness

Fairness dalam Perbandingan

Perbandingan yang adil = kondisi identik untuk semua metode: dataset sama, preprocessing sama, tuning effort sebanding, environment sama, metrik sama.

Contoh tidak adil: Transformer (30 fitur tambahan + Bayesian optimization) vs RF (default params) → hasilnya misleading.

Threats to Validity = Diidentifikasi Sebelum Eksperimen

Ancaman validitas harus diidentifikasi sebelum eksperimen dan mitigasinya dirancang sebagai bagian dari desain — bukan ditulis sebagai boilerplate setelah selesai.

Research vs Engineering

Aspek Engineering Research
Tujuan testing Memastikan sistem memenuhi requirement Membuktikan hubungan kausal antar variabel
Baseline Versi sebelumnya (last release) Metode tervalidasi dari literatur
Kegagalan Bug → fix → release H₀ tidak ditolak → tetap kontribusi ilmiah
Sukses 100% test pass Evidence valid — mendukung atau menolak hipotesis

Istilah Penting

  • Causality — Hubungan sebab-akibat (covariance + temporal + elimination)
  • Controlled Experiment — Ubah satu variabel, kontrol sisanya, amati efek
  • Fairness — Semua metode diuji pada kondisi yang benar-benar identik
  • Threats to Validity — Faktor yang bisa melemahkan kesimpulan jika tidak dimitigasi
  • Conclusion Validity — Validitas statistik: power, sample size, uji yang tepat

Template A.7 — Desain Eksperimen Lengkap

EXPERIMENT DESIGN

Research Question : ____________________
Hypothesis        : ____________________
Tipe Eksperimen   : [ ] Comparison  [ ] Ablation  [ ] Parameter

Kondisi Eksperimen:
| Kondisi | Deskripsi | IV Value | CV Settings |
|---------|-----------|----------|-------------|
| Control |           |          |             |
| Treatment |         |          |             |

Fairness Checklist:
  [ ] Dataset identik untuk semua kondisi
  [ ] Preprocessing setara
  [ ] Tuning effort setara
  [ ] Environment identik
  [ ] Metrik evaluasi sama

Threat Analysis:
| Threat Type | Ancaman Spesifik | Mitigasi |
|-------------|-----------------|----------|
| Internal    |                 |          |
| External    |                 |          |
| Construct   |                 |          |
| Conclusion  |                 |          |

Statistical Plan:
  Uji statistik   : ____________________
  Justifikasi      : ____________________
  Alpha            : ____________________
  Effect size min  : ____________________

Latihan 1 — Desain Eksperimen

Susun desain eksperimen berdasarkan RQ, variabel, dan sistem dari WS-04 sampai WS-06.

RQ: __________________________________________________ Tipe eksperimen: [ ] Comparison / [ ] Ablation / [ ] Parameter

Kondisi Deskripsi IV Value CV Settings
Control Contoh: RF baseline dari literatur RF Dataset X, 80:20 split, seed 42
Treatment

Latihan 2 — Fairness Checklist

Evaluasi apakah desain eksperimen di Latihan 1 sudah fair.

Kriteria Status Detail
Dataset identik Contoh: — sama-sama pakai CIC-MalMem-2022
Preprocessing setara
Tuning effort setara
Environment identik
Metrik evaluasi sama

Ada yang tidak fair? [ ] Ya / [ ] Tidak

Jika ya, bagaimana cara memperbaikinya? ________________


Latihan 3 — Threat Analysis

Identifikasi ancaman validitas untuk desain eksperimen ini.

Threat Type Ancaman Spesifik Mitigasi
Internal Contoh: Data leakage antara train-test Contoh: Gunakan stratified split, validasi tidak ada overlap
External
Construct
Conclusion

Ancaman mana yang paling sulit dimitigasi? _____________ Mengapa?



Refleksi

Sebuah paper melaporkan "metode kami mengalahkan semua baseline." Apa 3 pertanyaan pertama yang harus diajukan untuk mengevaluasi klaim ini?

Jawaban: