riset-teknologi-informasi/slide/slide-07-experiment-design.md
hb_alim e3e1e8db41 feat: add slide deck and book prompt template
- slide/: 16 Marp slide files with inline UPB CSS theme
  (slide-01 through slide-16, covering all RTI-20252 topics)
- slide/theme/: upb.css canonical theme + logo-upb.png
- docs/AI-BOOK-PROMPT-TEMPLATE.md: RTI-20252 book authoring prompt
2026-04-13 15:04:45 +07:00

41 KiB
Raw Blame History

marp paginate class header footer
true true bagian-ii RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen Helmi Bahar Alim, S.Kom., M.Kom. | 2026

Bab 7 — Experimental Design & Validity

Membangun Bukti yang Dapat Dipercaya

Pertemuan 7 (M7)  |  Sub-CPMK 2.3  |  CPMK02  |  CPL06

Fase: Designing (M5M7)  ·  Bagian II: Measurement & Design

Universitas Putra Bangsa  |  Fak. Sains & Teknologi  ·  Prodi Teknik Informatika


Agenda Pertemuan 7

  1. Tujuan eksperimen: bukan "menjalankan program"
  2. Experimental Validity Model
  3. Kausalitas vs Korelasi — perbedaan mendasar
  4. Empat jenis validitas eksperimen
  5. Tiga jenis eksperimen: Comparison, Ablation, Parameter Study
  6. Prinsip Controlled Experiment
  7. Dokumen Desain Eksperimen — struktur lengkap
  8. Cognitive Traps & Studi Kasus
  9. Output Praktis: Desain Eksperimen Lengkap

Capaian Pembelajaran

Setelah pertemuan ini, mahasiswa mampu:

  • Menjelaskan perbedaan kausalitas vs korelasi dan implikasinya pada klaim riset
  • Mendefinisikan 4 jenis validitas eksperimen: internal, external, construct, conclusion
  • Merancang controlled experiment dengan memisahkan variabel independen dan kontrol
  • Memilih jenis eksperimen yang tepat: Comparison, Ablation Study, Parameter Study
  • Menyusun dokumen desain eksperimen yang lengkap dan reproducible

Sub-CPMK 2.3 → Merancang eksperimen yang valid dan terkontrol (CPL06)


Apa Tujuan Eksperimen?

Bukan: "Menjalankan program dan melihat hasilnya" Bukan: "Mendapatkan angka untuk dimasukkan ke laporan"

Ya: Membangun bukti empiris yang menjawab hipotesis secara terkontrol, sehingga klaim dapat diverifikasi oleh peneliti lain.

Hipotesis (H0/H1) ↓ Rancang kondisi yang mengisolasi variabel ↓ Kumpulkan data di bawah kondisi terkontrol ↓ Analisis statistik ↓ Kesimpulan dengan tingkat kepercayaan terukur

Eksperimen yang tidak dirancang dengan baik tidak bisa di-peer review — karena tidak ada yang bisa direplikasi.


Experimental Validity Model

Pipeline dari RQ ke Kesimpulan yang Valid

RQ → Hypothesis → Variable Design → Controlled Experiment
   → Data → Analysis → Conclusion (with Validity Level)
Tahap Kegagalan Tipikal
Variable Design Variabel tidak operasional (tidak terukur)
Controlled Experiment Terlalu banyak variabel berubah sekaligus
Data Tidak representatif, bias sampling
Analysis Asumsi statistik dilanggar
Conclusion Overgeneralisasi dari satu dataset

Setiap kegagalan di satu tahap merusak validitas seluruh rantai.


Kausalitas vs Korelasi

Korelasi: Dua variabel berubah bersamaan — tidak ada klaim tentang sebab-akibat.

Kausalitas: Variabel A menyebabkan perubahan pada variabel B — membutuhkan kontrol eksperimental.

Korelasi Kausalitas
Claim "A dan B berhubungan" "A menyebabkan B"
Bukti Observasi Controlled Experiment
Ancaman Spurious correlation, confounders Lebih sulit dipastikan, tapi lebih kuat
Contoh riset TI "Model dengan lebih banyak parameter punya akurasi lebih tinggi" "Menambahkan attention mechanism (dengan kondisi lain dikontrol) meningkatkan F1-score"

Banyak paper TI mengklaim kausalitas berdasarkan korelasi. Validitas klaim bergantung pada kualitas desain eksperimen.


Empat Jenis Validitas Eksperimen

(Shadish, Cook & Campbell, 2002)

Validitas Pertanyaan Ancaman Utama Cara Memperkuat
Internal Apakah hubungan kausal benar? Confounders, history effect Randomisasi, kontrolling variabel
External Bisa digeneralisasi ke populasi lain? Single dataset, narrow scope Multiple dataset, diverse contexts
Construct Kita mengukur konsep yang tepat? Metrik tidak representatif Justifikasi operasionalisasi
Conclusion Bukti statistik cukup? Underpowered test, alpha ≠ 0.05 Power analysis, laporan effect size

Setiap eksperimen menghadapi trade-off antar jenis validitas. Dokumentasikan dan akui keterbatasannya secara eksplisit.


Tiga Jenis Eksperimen

1. Comparison Experiment

Tujuan: Membandingkan dua atau lebih metode/kondisi Contoh: "BERT vs IndoBERT vs mBERT untuk sentimen Bahasa Indonesia" Persyaratan: Semua metode diuji pada kondisi yang identik

2. Ablation Study

Tujuan: Mengidentifikasi kontribusi setiap komponen terhadap performa keseluruhan Contoh: "Full model vs tanpa attention vs tanpa dropout vs tanpa pretrained" Persyaratan: Satu komponen dihilangkan per eksperimen

3. Parameter Study

Tujuan: Menentukan nilai optimal untuk hyperparameter tertentu Contoh: "Learning rate: 1e-3, 1e-4, 1e-5 → mana yang optimal?" Persyaratan: Satu parameter bervariasi, semua yang lain dikontrol


Prinsip Controlled Experiment

Aturan Emas: Ubah SATU variabel, kontrol SEMUA yang lain

Checklist desain controlled experiment:

Item Pertanyaan Jawaban Anda
Random seed Apakah seed ditetapkan untuk semua library? seed=42 di numpy, torch, sklearn
Dataset split Apakah split identik untuk semua kondisi? Stratified split, fixed index
Preprocessing Apakah pipeline preprocessing sama? Shared preprocessing module
Hardware Apakah hardware sama untuk semua kondisi? Catat GPU, RAM, OS
Evaluation Apakah metrik dihitung dengan cara yang sama? Shared evaluation module
Number of runs Apakah diulang untuk statistical stability? Minimal 5 runs, laporkan mean ± std

Dokumen Desain Eksperimen — Struktur

Template yang wajib ada sebelum eksperimen dimulai:

1. TUJUAN EKSPERIMEN
   - RQ yang akan dijawab
   - Hipotesis yang diuji (H0/H1)

2. VARIABEL
   - Independent: [nama, nilai yang diuji]
   - Dependent: [nama, metrik, cara ukur]
   - Control: [nama, nilai yang dikontrol]

3. SKENARIO EKSPERIMEN
   - Skenario 1: [kondisi] → [apa yang berubah]
   - Skenario 2: ...

4. DATA
   - Dataset: [nama, sumber, split ratio, jumlah]
   - Preprocessing: [langkah-langkah]

5. VALIDITY THREATS & MITIGATION
   - Internal: [ancaman] → [mitigasi]
   - External: [ancaman] → [mitigasi]

Cognitive Traps

Bab 7 — Experimental Design


Cognitive Traps — Bab 7

"Eksperimen = menjalankan program dan mencatat hasilnya" Eksperimen ilmiah membutuhkan: hipotesis yang ditetapkan sebelumnya, variabel yang terisolasi, kondisi yang dikontrol, dan jumlah run yang cukup untuk analisis statistik.

"Korelasi itu sudah cukup untuk klaim kausalitas" Korelasi hanya menunjukkan hubungan. Kausalitas membutuhkan isolasi variabel melalui controlled experiment. Tanpa kontrol, tidak ada yang bisa menjamin yang mana penyebabnya.

"Baseline tidak perlu fair — yang penting ada pembanding" Baseline yang tidak fair (versi lama, kondisi berbeda, hiperparameter tidak optimal) itu merugikan pembaca. Reviewer akan menolak paper dengan baseline yang unfair.


Studi Kasus 1 — Eksperimen Tanpa Kontrol (Basic)

Konteks: Peneliti membandingkan model A (baru) vs model B (baseline).

Masalah — tidak terkontrol:

  • Model A dilatih lebih lama (100 epoch vs 50 epoch)
  • Model A menggunakan data preprocessing yang lebih agresif
  • Dataset split berbeda
  • Hardware berbeda (GPU vs CPU)

Hasil: Model A lebih baik 12%. Tapi mengapa? Tidak bisa diketahui.

Solusi — controlled comparison:

Item Model A Model B
Epoch 50 50
Preprocessing Identik Identik
Dataset split Fixed seed 42 Fixed seed 42
Hardware GPU RTX 3090 GPU RTX 3090

Sekarang perbedaan performa bisa dikaitkan ke variabel yang benar-benar berbeda.


Studi Kasus 2 — Baseline Tidak Fair (Advanced)

Konteks: Paper mengklaim metode baru 23% lebih baik. Baseline: BERT 2019.

Masalah:

  • BERT 2019 tanpa fine-tuning vs metode baru dengan fine-tuning → tidak fair
  • Baseline diuji pada dataset yang berbeda dari yang digunakan untuk training
  • Hyperparameter baseline menggunakan default tanpa tuning

Pertanyaan reviewer: "Apakah 23% benar-benar karena metode baru, atau karena baseline-nya dipersiapkan dengan buruk?"

Standar fair comparison:

  1. Semua metode di-fine-tune dengan kondisi identik
  2. Hyperparameter baseline di-tune setidaknya dengan grid search
  3. Dataset split identik
  4. Evaluasi dengan metrik yang sama
  5. Multiple runs (5+) → laporkan mean ± std

Research vs Engineering — Experimental Design

Aspek Engineering Research
Pengujian Functional testing, UAT Controlled experiment dengan statistik
Jumlah run 1 run (jika berhasil, selesai) Multiple runs (minimal 5 untuk stat)
Baseline Tidak ada (sistem baru) Wajib, fair, state-of-the-art
Variabel Semua bisa berganti Satu berganti, semua lain dikontrol
Kegagalan Diperbaiki Dilaporkan dan dianalisis
Dokumentasi "Sistem sudah jalan" Reproducible setup untuk replikasi

Ringkasan Pertemuan 7

Konsep Inti
Tujuan Eksperimen Membangun bukti empiris yang reproducible — bukan sekadar menjalankan program
Kausalitas vs Korelasi Kausalitas butuh kontrol experimental; korelasi hanya observasi
4 Validitas Internal · External · Construct · Conclusion
3 Jenis Eksperimen Comparison · Ablation Study · Parameter Study
Controlled Experiment Ubah 1 variabel, kontrol semua yang lain
Dokumen Desain RQ → Variabel → Skenario → Data → Validity Threats

Final Statement & Output Praktis

"Eksperimen bukan sekadar menjalankan sistem, tetapi membangun bukti yang dapat dipercaya."

Output Praktis M7

Buat Dokumen Desain Eksperimen yang mencakup:

  1. Tujuan eksperimen & hipotesis yang diuji
  2. Tabel variabel (independent, dependent, control)
  3. Skenario eksperimen (minimal 2 skenario)
  4. Spesifikasi dataset (split, ukuran, sumber)
  5. Validity threats & strategi mitigasi
  6. Statistical test yang direncanakan (+ alpha level)

Dokumen ini = bab Metodologi bagian "Experiment Design" dalam laporan riset.


Referensi Utama — Bab 7

  • Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.

  • Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). Experimentation in software engineering. Springer.

  • Ko, A. J., LaToza, T. D., & Burnett, M. M. (2015). A practical guide to controlled experiments of software engineering tools with human participants. Empirical Software Engineering, 20(1), 110141.

  • Juristo, N., & Moreno, A. M. (2001). Basics of software engineering experimentation. Springer.