---
marp: true
paginate: true
class: bagian-ii
header: 'RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen'
footer: 'Helmi Bahar Alim, S.Kom., M.Kom. | 2026'
---
# Bab 7 — Experimental Design & Validity
## Membangun Bukti yang Dapat Dipercaya
*Pertemuan 7 (M7) | Sub-CPMK 2.3 | CPMK02 | CPL06*
Fase: **Designing** (M5–M7) · Bagian II: Measurement & Design
**Universitas Putra Bangsa** | Fak. Sains & Teknologi · Prodi Teknik Informatika
---
## Agenda Pertemuan 7
1. Tujuan eksperimen: bukan "menjalankan program"
2. Experimental Validity Model
3. Kausalitas vs Korelasi — perbedaan mendasar
4. Empat jenis validitas eksperimen
5. Tiga jenis eksperimen: Comparison, Ablation, Parameter Study
6. Prinsip Controlled Experiment
7. Dokumen Desain Eksperimen — struktur lengkap
8. Cognitive Traps & Studi Kasus
9. Output Praktis: Desain Eksperimen Lengkap
---
## Capaian Pembelajaran
Setelah pertemuan ini, mahasiswa mampu:
- Menjelaskan perbedaan **kausalitas vs korelasi** dan implikasinya pada klaim riset
- Mendefinisikan 4 jenis **validitas eksperimen**: internal, external, construct, conclusion
- Merancang **controlled experiment** dengan memisahkan variabel independen dan kontrol
- Memilih jenis eksperimen yang tepat: **Comparison, Ablation Study, Parameter Study**
- Menyusun **dokumen desain eksperimen** yang lengkap dan reproducible
> Sub-CPMK 2.3 → Merancang eksperimen yang valid dan terkontrol (CPL06)
---
## Apa Tujuan Eksperimen?
**Bukan:** "Menjalankan program dan melihat hasilnya"
**Bukan:** "Mendapatkan angka untuk dimasukkan ke laporan"
**Ya:** Membangun **bukti empiris** yang menjawab hipotesis secara terkontrol, sehingga klaim dapat diverifikasi oleh peneliti lain.
**Hipotesis (H0/H1)** ↓ Rancang kondisi yang mengisolasi variabel ↓ Kumpulkan data di bawah kondisi terkontrol ↓ Analisis statistik ↓ **Kesimpulan dengan tingkat kepercayaan terukur**
> Eksperimen yang tidak dirancang dengan baik tidak bisa di-*peer review* — karena tidak ada yang bisa direplikasi.
---
## Experimental Validity Model
*Pipeline dari RQ ke Kesimpulan yang Valid*
```
RQ → Hypothesis → Variable Design → Controlled Experiment
→ Data → Analysis → Conclusion (with Validity Level)
```
| Tahap | Kegagalan Tipikal |
|-------|------------------|
| Variable Design | Variabel tidak operasional (tidak terukur) |
| Controlled Experiment | Terlalu banyak variabel berubah sekaligus |
| Data | Tidak representatif, bias sampling |
| Analysis | Asumsi statistik dilanggar |
| Conclusion | Overgeneralisasi dari satu dataset |
> Setiap kegagalan di satu tahap merusak validitas seluruh rantai.
---
## Kausalitas vs Korelasi
**Korelasi:** Dua variabel berubah bersamaan — tidak ada klaim tentang sebab-akibat.
**Kausalitas:** Variabel A menyebabkan perubahan pada variabel B — membutuhkan kontrol eksperimental.
| | Korelasi | Kausalitas |
|--|----------|-----------|
| **Claim** | "A dan B berhubungan" | "A menyebabkan B" |
| **Bukti** | Observasi | Controlled Experiment |
| **Ancaman** | Spurious correlation, confounders | Lebih sulit dipastikan, tapi lebih kuat |
| **Contoh riset TI** | "Model dengan lebih banyak parameter punya akurasi lebih tinggi" | "Menambahkan attention mechanism (dengan kondisi lain dikontrol) meningkatkan F1-score" |
> Banyak paper TI mengklaim kausalitas berdasarkan korelasi. Validitas klaim bergantung pada kualitas desain eksperimen.
---
## Empat Jenis Validitas Eksperimen
*(Shadish, Cook & Campbell, 2002)*
| Validitas | Pertanyaan | Ancaman Utama | Cara Memperkuat |
|-----------|-----------|--------------|----------------|
| **Internal** | Apakah hubungan kausal benar? | Confounders, history effect | Randomisasi, kontrolling variabel |
| **External** | Bisa digeneralisasi ke populasi lain? | Single dataset, narrow scope | Multiple dataset, diverse contexts |
| **Construct** | Kita mengukur konsep yang tepat? | Metrik tidak representatif | Justifikasi operasionalisasi |
| **Conclusion** | Bukti statistik cukup? | Underpowered test, alpha ≠ 0.05 | Power analysis, laporan effect size |
> Setiap eksperimen menghadapi trade-off antar jenis validitas. Dokumentasikan dan akui keterbatasannya secara eksplisit.
---
## Tiga Jenis Eksperimen
### 1. Comparison Experiment
**Tujuan:** Membandingkan dua atau lebih metode/kondisi
**Contoh:** "BERT vs IndoBERT vs mBERT untuk sentimen Bahasa Indonesia"
**Persyaratan:** Semua metode diuji pada **kondisi yang identik**
### 2. Ablation Study
**Tujuan:** Mengidentifikasi kontribusi setiap komponen terhadap performa keseluruhan
**Contoh:** "Full model vs tanpa attention vs tanpa dropout vs tanpa pretrained"
**Persyaratan:** Satu komponen dihilangkan per eksperimen
### 3. Parameter Study
**Tujuan:** Menentukan nilai optimal untuk hyperparameter tertentu
**Contoh:** "Learning rate: 1e-3, 1e-4, 1e-5 → mana yang optimal?"
**Persyaratan:** Satu parameter bervariasi, semua yang lain dikontrol
---
## Prinsip Controlled Experiment
**Aturan Emas: Ubah SATU variabel, kontrol SEMUA yang lain**
**Checklist desain controlled experiment:**
| Item | Pertanyaan | Jawaban Anda |
|------|-----------|-------------|
| Random seed | Apakah seed ditetapkan untuk semua library? | `seed=42` di numpy, torch, sklearn |
| Dataset split | Apakah split identik untuk semua kondisi? | Stratified split, fixed index |
| Preprocessing | Apakah pipeline preprocessing sama? | Shared preprocessing module |
| Hardware | Apakah hardware sama untuk semua kondisi? | Catat GPU, RAM, OS |
| Evaluation | Apakah metrik dihitung dengan cara yang sama? | Shared evaluation module |
| Number of runs | Apakah diulang untuk statistical stability? | Minimal 5 runs, laporkan mean ± std |
---
## Dokumen Desain Eksperimen — Struktur
*Template yang wajib ada sebelum eksperimen dimulai:*
```
1. TUJUAN EKSPERIMEN
- RQ yang akan dijawab
- Hipotesis yang diuji (H0/H1)
2. VARIABEL
- Independent: [nama, nilai yang diuji]
- Dependent: [nama, metrik, cara ukur]
- Control: [nama, nilai yang dikontrol]
3. SKENARIO EKSPERIMEN
- Skenario 1: [kondisi] → [apa yang berubah]
- Skenario 2: ...
4. DATA
- Dataset: [nama, sumber, split ratio, jumlah]
- Preprocessing: [langkah-langkah]
5. VALIDITY THREATS & MITIGATION
- Internal: [ancaman] → [mitigasi]
- External: [ancaman] → [mitigasi]
```
---
# Cognitive Traps
## Bab 7 — Experimental Design
---
## Cognitive Traps — Bab 7
**"Eksperimen = menjalankan program dan mencatat hasilnya"**
Eksperimen ilmiah membutuhkan: hipotesis yang ditetapkan sebelumnya, variabel yang terisolasi, kondisi yang dikontrol, dan jumlah run yang cukup untuk analisis statistik.
**"Korelasi itu sudah cukup untuk klaim kausalitas"**
Korelasi hanya menunjukkan hubungan. Kausalitas membutuhkan isolasi variabel melalui controlled experiment. Tanpa kontrol, tidak ada yang bisa menjamin yang mana penyebabnya.
**"Baseline tidak perlu fair — yang penting ada pembanding"**
Baseline yang tidak fair (versi lama, kondisi berbeda, hiperparameter tidak optimal) itu merugikan pembaca. Reviewer akan menolak paper dengan baseline yang unfair.
---
## Studi Kasus 1 — Eksperimen Tanpa Kontrol (Basic)
**Konteks:** Peneliti membandingkan model A (baru) vs model B (baseline).
**Masalah — tidak terkontrol:**
- Model A dilatih lebih lama (100 epoch vs 50 epoch)
- Model A menggunakan data preprocessing yang lebih agresif
- Dataset split berbeda
- Hardware berbeda (GPU vs CPU)
**Hasil:** Model A lebih baik 12%. Tapi **mengapa?** Tidak bisa diketahui.
**Solusi — controlled comparison:**
| Item | Model A | Model B |
|------|---------|---------|
| Epoch | 50 | 50 |
| Preprocessing | Identik | Identik |
| Dataset split | Fixed seed 42 | Fixed seed 42 |
| Hardware | GPU RTX 3090 | GPU RTX 3090 |
*Sekarang perbedaan performa bisa dikaitkan ke variabel yang benar-benar berbeda.*
---
## Studi Kasus 2 — Baseline Tidak Fair (Advanced)
**Konteks:** Paper mengklaim metode baru 23% lebih baik. Baseline: BERT 2019.
**Masalah:**
- BERT 2019 tanpa fine-tuning vs metode baru dengan fine-tuning → tidak fair
- Baseline diuji pada dataset yang berbeda dari yang digunakan untuk training
- Hyperparameter baseline menggunakan default tanpa tuning
**Pertanyaan reviewer:** "Apakah 23% benar-benar karena metode baru, atau karena baseline-nya dipersiapkan dengan buruk?"
**Standar fair comparison:**
1. Semua metode di-fine-tune dengan kondisi identik
2. Hyperparameter baseline di-tune setidaknya dengan grid search
3. Dataset split identik
4. Evaluasi dengan metrik yang sama
5. Multiple runs (5+) → laporkan mean ± std
---
## Research vs Engineering — Experimental Design
| Aspek | Engineering | Research |
|-------|------------|---------|
| Pengujian | Functional testing, UAT | Controlled experiment dengan statistik |
| Jumlah run | 1 run (jika berhasil, selesai) | Multiple runs (minimal 5 untuk stat) |
| Baseline | Tidak ada (sistem baru) | Wajib, fair, state-of-the-art |
| Variabel | Semua bisa berganti | Satu berganti, semua lain dikontrol |
| Kegagalan | Diperbaiki | Dilaporkan dan dianalisis |
| Dokumentasi | "Sistem sudah jalan" | Reproducible setup untuk replikasi |
---
## Ringkasan Pertemuan 7
| Konsep | Inti |
|--------|------|
| Tujuan Eksperimen | Membangun bukti empiris yang reproducible — bukan sekadar menjalankan program |
| Kausalitas vs Korelasi | Kausalitas butuh kontrol experimental; korelasi hanya observasi |
| 4 Validitas | Internal · External · Construct · Conclusion |
| 3 Jenis Eksperimen | Comparison · Ablation Study · Parameter Study |
| Controlled Experiment | Ubah 1 variabel, kontrol semua yang lain |
| Dokumen Desain | RQ → Variabel → Skenario → Data → Validity Threats |
---
## Final Statement & Output Praktis
"Eksperimen bukan sekadar menjalankan sistem, tetapi membangun bukti yang dapat dipercaya."
### Output Praktis M7
Buat **Dokumen Desain Eksperimen** yang mencakup:
1. Tujuan eksperimen & hipotesis yang diuji
2. Tabel variabel (independent, dependent, control)
3. Skenario eksperimen (minimal 2 skenario)
4. Spesifikasi dataset (split, ukuran, sumber)
5. Validity threats & strategi mitigasi
6. Statistical test yang direncanakan (+ alpha level)
*Dokumen ini = bab Metodologi bagian "Experiment Design" dalam laporan riset.*
---
## Referensi Utama — Bab 7
- Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). *Experimental and quasi-experimental designs for generalized causal inference*. Houghton Mifflin.
- Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). *Experimentation in software engineering*. Springer.
- Ko, A. J., LaToza, T. D., & Burnett, M. M. (2015). A practical guide to controlled experiments of software engineering tools with human participants. *Empirical Software Engineering, 20*(1), 110–141.
- Juristo, N., & Moreno, A. M. (2001). *Basics of software engineering experimentation*. Springer.