--- marp: true paginate: true class: bagian-ii header: 'RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen' footer: 'Helmi Bahar Alim, S.Kom., M.Kom. | 2026' --- # Bab 7 — Experimental Design & Validity ## Membangun Bukti yang Dapat Dipercaya *Pertemuan 7 (M7)  |  Sub-CPMK 2.3  |  CPMK02  |  CPL06* Fase: **Designing** (M5–M7)  ·  Bagian II: Measurement & Design **Universitas Putra Bangsa**  |  Fak. Sains & Teknologi  ·  Prodi Teknik Informatika --- ## Agenda Pertemuan 7 1. Tujuan eksperimen: bukan "menjalankan program" 2. Experimental Validity Model 3. Kausalitas vs Korelasi — perbedaan mendasar 4. Empat jenis validitas eksperimen 5. Tiga jenis eksperimen: Comparison, Ablation, Parameter Study 6. Prinsip Controlled Experiment 7. Dokumen Desain Eksperimen — struktur lengkap 8. Cognitive Traps & Studi Kasus 9. Output Praktis: Desain Eksperimen Lengkap --- ## Capaian Pembelajaran Setelah pertemuan ini, mahasiswa mampu: - Menjelaskan perbedaan **kausalitas vs korelasi** dan implikasinya pada klaim riset - Mendefinisikan 4 jenis **validitas eksperimen**: internal, external, construct, conclusion - Merancang **controlled experiment** dengan memisahkan variabel independen dan kontrol - Memilih jenis eksperimen yang tepat: **Comparison, Ablation Study, Parameter Study** - Menyusun **dokumen desain eksperimen** yang lengkap dan reproducible > Sub-CPMK 2.3 → Merancang eksperimen yang valid dan terkontrol (CPL06) --- ## Apa Tujuan Eksperimen? **Bukan:** "Menjalankan program dan melihat hasilnya" **Bukan:** "Mendapatkan angka untuk dimasukkan ke laporan" **Ya:** Membangun **bukti empiris** yang menjawab hipotesis secara terkontrol, sehingga klaim dapat diverifikasi oleh peneliti lain.
**Hipotesis (H0/H1)** ↓ Rancang kondisi yang mengisolasi variabel ↓ Kumpulkan data di bawah kondisi terkontrol ↓ Analisis statistik ↓ **Kesimpulan dengan tingkat kepercayaan terukur**
> Eksperimen yang tidak dirancang dengan baik tidak bisa di-*peer review* — karena tidak ada yang bisa direplikasi. --- ## Experimental Validity Model *Pipeline dari RQ ke Kesimpulan yang Valid* ``` RQ → Hypothesis → Variable Design → Controlled Experiment → Data → Analysis → Conclusion (with Validity Level) ``` | Tahap | Kegagalan Tipikal | |-------|------------------| | Variable Design | Variabel tidak operasional (tidak terukur) | | Controlled Experiment | Terlalu banyak variabel berubah sekaligus | | Data | Tidak representatif, bias sampling | | Analysis | Asumsi statistik dilanggar | | Conclusion | Overgeneralisasi dari satu dataset | > Setiap kegagalan di satu tahap merusak validitas seluruh rantai. --- ## Kausalitas vs Korelasi **Korelasi:** Dua variabel berubah bersamaan — tidak ada klaim tentang sebab-akibat. **Kausalitas:** Variabel A menyebabkan perubahan pada variabel B — membutuhkan kontrol eksperimental. | | Korelasi | Kausalitas | |--|----------|-----------| | **Claim** | "A dan B berhubungan" | "A menyebabkan B" | | **Bukti** | Observasi | Controlled Experiment | | **Ancaman** | Spurious correlation, confounders | Lebih sulit dipastikan, tapi lebih kuat | | **Contoh riset TI** | "Model dengan lebih banyak parameter punya akurasi lebih tinggi" | "Menambahkan attention mechanism (dengan kondisi lain dikontrol) meningkatkan F1-score" | > Banyak paper TI mengklaim kausalitas berdasarkan korelasi. Validitas klaim bergantung pada kualitas desain eksperimen. --- ## Empat Jenis Validitas Eksperimen *(Shadish, Cook & Campbell, 2002)* | Validitas | Pertanyaan | Ancaman Utama | Cara Memperkuat | |-----------|-----------|--------------|----------------| | **Internal** | Apakah hubungan kausal benar? | Confounders, history effect | Randomisasi, kontrolling variabel | | **External** | Bisa digeneralisasi ke populasi lain? | Single dataset, narrow scope | Multiple dataset, diverse contexts | | **Construct** | Kita mengukur konsep yang tepat? | Metrik tidak representatif | Justifikasi operasionalisasi | | **Conclusion** | Bukti statistik cukup? | Underpowered test, alpha ≠ 0.05 | Power analysis, laporan effect size | > Setiap eksperimen menghadapi trade-off antar jenis validitas. Dokumentasikan dan akui keterbatasannya secara eksplisit. --- ## Tiga Jenis Eksperimen ### 1. Comparison Experiment **Tujuan:** Membandingkan dua atau lebih metode/kondisi **Contoh:** "BERT vs IndoBERT vs mBERT untuk sentimen Bahasa Indonesia" **Persyaratan:** Semua metode diuji pada **kondisi yang identik** ### 2. Ablation Study **Tujuan:** Mengidentifikasi kontribusi setiap komponen terhadap performa keseluruhan **Contoh:** "Full model vs tanpa attention vs tanpa dropout vs tanpa pretrained" **Persyaratan:** Satu komponen dihilangkan per eksperimen ### 3. Parameter Study **Tujuan:** Menentukan nilai optimal untuk hyperparameter tertentu **Contoh:** "Learning rate: 1e-3, 1e-4, 1e-5 → mana yang optimal?" **Persyaratan:** Satu parameter bervariasi, semua yang lain dikontrol --- ## Prinsip Controlled Experiment **Aturan Emas: Ubah SATU variabel, kontrol SEMUA yang lain** **Checklist desain controlled experiment:** | Item | Pertanyaan | Jawaban Anda | |------|-----------|-------------| | Random seed | Apakah seed ditetapkan untuk semua library? | `seed=42` di numpy, torch, sklearn | | Dataset split | Apakah split identik untuk semua kondisi? | Stratified split, fixed index | | Preprocessing | Apakah pipeline preprocessing sama? | Shared preprocessing module | | Hardware | Apakah hardware sama untuk semua kondisi? | Catat GPU, RAM, OS | | Evaluation | Apakah metrik dihitung dengan cara yang sama? | Shared evaluation module | | Number of runs | Apakah diulang untuk statistical stability? | Minimal 5 runs, laporkan mean ± std | --- ## Dokumen Desain Eksperimen — Struktur *Template yang wajib ada sebelum eksperimen dimulai:* ``` 1. TUJUAN EKSPERIMEN - RQ yang akan dijawab - Hipotesis yang diuji (H0/H1) 2. VARIABEL - Independent: [nama, nilai yang diuji] - Dependent: [nama, metrik, cara ukur] - Control: [nama, nilai yang dikontrol] 3. SKENARIO EKSPERIMEN - Skenario 1: [kondisi] → [apa yang berubah] - Skenario 2: ... 4. DATA - Dataset: [nama, sumber, split ratio, jumlah] - Preprocessing: [langkah-langkah] 5. VALIDITY THREATS & MITIGATION - Internal: [ancaman] → [mitigasi] - External: [ancaman] → [mitigasi] ``` --- # Cognitive Traps ## Bab 7 — Experimental Design --- ## Cognitive Traps — Bab 7 **"Eksperimen = menjalankan program dan mencatat hasilnya"** Eksperimen ilmiah membutuhkan: hipotesis yang ditetapkan sebelumnya, variabel yang terisolasi, kondisi yang dikontrol, dan jumlah run yang cukup untuk analisis statistik. **"Korelasi itu sudah cukup untuk klaim kausalitas"** Korelasi hanya menunjukkan hubungan. Kausalitas membutuhkan isolasi variabel melalui controlled experiment. Tanpa kontrol, tidak ada yang bisa menjamin yang mana penyebabnya. **"Baseline tidak perlu fair — yang penting ada pembanding"** Baseline yang tidak fair (versi lama, kondisi berbeda, hiperparameter tidak optimal) itu merugikan pembaca. Reviewer akan menolak paper dengan baseline yang unfair. --- ## Studi Kasus 1 — Eksperimen Tanpa Kontrol (Basic) **Konteks:** Peneliti membandingkan model A (baru) vs model B (baseline). **Masalah — tidak terkontrol:** - Model A dilatih lebih lama (100 epoch vs 50 epoch) - Model A menggunakan data preprocessing yang lebih agresif - Dataset split berbeda - Hardware berbeda (GPU vs CPU) **Hasil:** Model A lebih baik 12%. Tapi **mengapa?** Tidak bisa diketahui. **Solusi — controlled comparison:** | Item | Model A | Model B | |------|---------|---------| | Epoch | 50 | 50 | | Preprocessing | Identik | Identik | | Dataset split | Fixed seed 42 | Fixed seed 42 | | Hardware | GPU RTX 3090 | GPU RTX 3090 | *Sekarang perbedaan performa bisa dikaitkan ke variabel yang benar-benar berbeda.* --- ## Studi Kasus 2 — Baseline Tidak Fair (Advanced) **Konteks:** Paper mengklaim metode baru 23% lebih baik. Baseline: BERT 2019. **Masalah:** - BERT 2019 tanpa fine-tuning vs metode baru dengan fine-tuning → tidak fair - Baseline diuji pada dataset yang berbeda dari yang digunakan untuk training - Hyperparameter baseline menggunakan default tanpa tuning **Pertanyaan reviewer:** "Apakah 23% benar-benar karena metode baru, atau karena baseline-nya dipersiapkan dengan buruk?" **Standar fair comparison:** 1. Semua metode di-fine-tune dengan kondisi identik 2. Hyperparameter baseline di-tune setidaknya dengan grid search 3. Dataset split identik 4. Evaluasi dengan metrik yang sama 5. Multiple runs (5+) → laporkan mean ± std --- ## Research vs Engineering — Experimental Design | Aspek | Engineering | Research | |-------|------------|---------| | Pengujian | Functional testing, UAT | Controlled experiment dengan statistik | | Jumlah run | 1 run (jika berhasil, selesai) | Multiple runs (minimal 5 untuk stat) | | Baseline | Tidak ada (sistem baru) | Wajib, fair, state-of-the-art | | Variabel | Semua bisa berganti | Satu berganti, semua lain dikontrol | | Kegagalan | Diperbaiki | Dilaporkan dan dianalisis | | Dokumentasi | "Sistem sudah jalan" | Reproducible setup untuk replikasi | --- ## Ringkasan Pertemuan 7 | Konsep | Inti | |--------|------| | Tujuan Eksperimen | Membangun bukti empiris yang reproducible — bukan sekadar menjalankan program | | Kausalitas vs Korelasi | Kausalitas butuh kontrol experimental; korelasi hanya observasi | | 4 Validitas | Internal · External · Construct · Conclusion | | 3 Jenis Eksperimen | Comparison · Ablation Study · Parameter Study | | Controlled Experiment | Ubah 1 variabel, kontrol semua yang lain | | Dokumen Desain | RQ → Variabel → Skenario → Data → Validity Threats | --- ## Final Statement & Output Praktis
"Eksperimen bukan sekadar menjalankan sistem, tetapi membangun bukti yang dapat dipercaya."
### Output Praktis M7 Buat **Dokumen Desain Eksperimen** yang mencakup: 1. Tujuan eksperimen & hipotesis yang diuji 2. Tabel variabel (independent, dependent, control) 3. Skenario eksperimen (minimal 2 skenario) 4. Spesifikasi dataset (split, ukuran, sumber) 5. Validity threats & strategi mitigasi 6. Statistical test yang direncanakan (+ alpha level) *Dokumen ini = bab Metodologi bagian "Experiment Design" dalam laporan riset.* --- ## Referensi Utama — Bab 7 - Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). *Experimental and quasi-experimental designs for generalized causal inference*. Houghton Mifflin. - Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). *Experimentation in software engineering*. Springer. - Ko, A. J., LaToza, T. D., & Burnett, M. M. (2015). A practical guide to controlled experiments of software engineering tools with human participants. *Empirical Software Engineering, 20*(1), 110–141. - Juristo, N., & Moreno, A. M. (2001). *Basics of software engineering experimentation*. Springer.