hb_alim e3e1e8db41 feat: add slide deck and book prompt template

- slide/: 16 Marp slide files with inline UPB CSS theme
  (slide-01 through slide-16, covering all RTI-20252 topics)
- slide/theme/: upb.css canonical theme + logo-upb.png
- docs/AI-BOOK-PROMPT-TEMPLATE.md: RTI-20252 book authoring prompt

2026-04-13 15:04:45 +07:00

41 KiB

Raw Blame History

marp	paginate	class	header	footer
true	true	bagian-ii	RTI — Riset Teknologi Informasi \| Universitas Putra Bangsa Kebumen	Helmi Bahar Alim, S.Kom., M.Kom. \| 2026

Bab 7 — Experimental Design & Validity

Membangun Bukti yang Dapat Dipercaya

Pertemuan 7 (M7) | Sub-CPMK 2.3 | CPMK02 | CPL06

Fase: Designing (M5–M7) · Bagian II: Measurement & Design

Universitas Putra Bangsa | Fak. Sains & Teknologi · Prodi Teknik Informatika

Agenda Pertemuan 7

Tujuan eksperimen: bukan "menjalankan program"
Experimental Validity Model
Kausalitas vs Korelasi — perbedaan mendasar
Empat jenis validitas eksperimen
Tiga jenis eksperimen: Comparison, Ablation, Parameter Study
Prinsip Controlled Experiment
Dokumen Desain Eksperimen — struktur lengkap
Cognitive Traps & Studi Kasus
Output Praktis: Desain Eksperimen Lengkap

Capaian Pembelajaran

Setelah pertemuan ini, mahasiswa mampu:

Menjelaskan perbedaan kausalitas vs korelasi dan implikasinya pada klaim riset
Mendefinisikan 4 jenis validitas eksperimen: internal, external, construct, conclusion
Merancang controlled experiment dengan memisahkan variabel independen dan kontrol
Memilih jenis eksperimen yang tepat: Comparison, Ablation Study, Parameter Study
Menyusun dokumen desain eksperimen yang lengkap dan reproducible

Sub-CPMK 2.3 → Merancang eksperimen yang valid dan terkontrol (CPL06)

Apa Tujuan Eksperimen?

Bukan: "Menjalankan program dan melihat hasilnya" Bukan: "Mendapatkan angka untuk dimasukkan ke laporan"

Ya: Membangun bukti empiris yang menjawab hipotesis secara terkontrol, sehingga klaim dapat diverifikasi oleh peneliti lain.

Hipotesis (H0/H1) ↓ Rancang kondisi yang mengisolasi variabel ↓ Kumpulkan data di bawah kondisi terkontrol ↓ Analisis statistik ↓ Kesimpulan dengan tingkat kepercayaan terukur

Eksperimen yang tidak dirancang dengan baik tidak bisa di-peer review — karena tidak ada yang bisa direplikasi.

Experimental Validity Model

Pipeline dari RQ ke Kesimpulan yang Valid

RQ → Hypothesis → Variable Design → Controlled Experiment
   → Data → Analysis → Conclusion (with Validity Level)

Tahap	Kegagalan Tipikal
Variable Design	Variabel tidak operasional (tidak terukur)
Controlled Experiment	Terlalu banyak variabel berubah sekaligus
Data	Tidak representatif, bias sampling
Analysis	Asumsi statistik dilanggar
Conclusion	Overgeneralisasi dari satu dataset

Setiap kegagalan di satu tahap merusak validitas seluruh rantai.

Kausalitas vs Korelasi

Korelasi: Dua variabel berubah bersamaan — tidak ada klaim tentang sebab-akibat.

Kausalitas: Variabel A menyebabkan perubahan pada variabel B — membutuhkan kontrol eksperimental.

	Korelasi	Kausalitas
Claim	"A dan B berhubungan"	"A menyebabkan B"
Bukti	Observasi	Controlled Experiment
Ancaman	Spurious correlation, confounders	Lebih sulit dipastikan, tapi lebih kuat
Contoh riset TI	"Model dengan lebih banyak parameter punya akurasi lebih tinggi"	"Menambahkan attention mechanism (dengan kondisi lain dikontrol) meningkatkan F1-score"

Banyak paper TI mengklaim kausalitas berdasarkan korelasi. Validitas klaim bergantung pada kualitas desain eksperimen.

Empat Jenis Validitas Eksperimen

(Shadish, Cook & Campbell, 2002)

Validitas	Pertanyaan	Ancaman Utama	Cara Memperkuat
Internal	Apakah hubungan kausal benar?	Confounders, history effect	Randomisasi, kontrolling variabel
External	Bisa digeneralisasi ke populasi lain?	Single dataset, narrow scope	Multiple dataset, diverse contexts
Construct	Kita mengukur konsep yang tepat?	Metrik tidak representatif	Justifikasi operasionalisasi
Conclusion	Bukti statistik cukup?	Underpowered test, alpha ≠ 0.05	Power analysis, laporan effect size

Setiap eksperimen menghadapi trade-off antar jenis validitas. Dokumentasikan dan akui keterbatasannya secara eksplisit.

Tiga Jenis Eksperimen

1. Comparison Experiment

Tujuan: Membandingkan dua atau lebih metode/kondisi Contoh: "BERT vs IndoBERT vs mBERT untuk sentimen Bahasa Indonesia" Persyaratan: Semua metode diuji pada kondisi yang identik

2. Ablation Study

Tujuan: Mengidentifikasi kontribusi setiap komponen terhadap performa keseluruhan Contoh: "Full model vs tanpa attention vs tanpa dropout vs tanpa pretrained" Persyaratan: Satu komponen dihilangkan per eksperimen

3. Parameter Study

Tujuan: Menentukan nilai optimal untuk hyperparameter tertentu Contoh: "Learning rate: 1e-3, 1e-4, 1e-5 → mana yang optimal?" Persyaratan: Satu parameter bervariasi, semua yang lain dikontrol

Prinsip Controlled Experiment

Aturan Emas: Ubah SATU variabel, kontrol SEMUA yang lain

Checklist desain controlled experiment:

Item	Pertanyaan	Jawaban Anda
Random seed	Apakah seed ditetapkan untuk semua library?	`seed=42` di numpy, torch, sklearn
Dataset split	Apakah split identik untuk semua kondisi?	Stratified split, fixed index
Preprocessing	Apakah pipeline preprocessing sama?	Shared preprocessing module
Hardware	Apakah hardware sama untuk semua kondisi?	Catat GPU, RAM, OS
Evaluation	Apakah metrik dihitung dengan cara yang sama?	Shared evaluation module
Number of runs	Apakah diulang untuk statistical stability?	Minimal 5 runs, laporkan mean ± std

Dokumen Desain Eksperimen — Struktur

Template yang wajib ada sebelum eksperimen dimulai:

1. TUJUAN EKSPERIMEN
   - RQ yang akan dijawab
   - Hipotesis yang diuji (H0/H1)

2. VARIABEL
   - Independent: [nama, nilai yang diuji]
   - Dependent: [nama, metrik, cara ukur]
   - Control: [nama, nilai yang dikontrol]

3. SKENARIO EKSPERIMEN
   - Skenario 1: [kondisi] → [apa yang berubah]
   - Skenario 2: ...

4. DATA
   - Dataset: [nama, sumber, split ratio, jumlah]
   - Preprocessing: [langkah-langkah]

5. VALIDITY THREATS & MITIGATION
   - Internal: [ancaman] → [mitigasi]
   - External: [ancaman] → [mitigasi]

Cognitive Traps

Bab 7 — Experimental Design

Cognitive Traps — Bab 7

"Eksperimen = menjalankan program dan mencatat hasilnya" Eksperimen ilmiah membutuhkan: hipotesis yang ditetapkan sebelumnya, variabel yang terisolasi, kondisi yang dikontrol, dan jumlah run yang cukup untuk analisis statistik.

"Korelasi itu sudah cukup untuk klaim kausalitas" Korelasi hanya menunjukkan hubungan. Kausalitas membutuhkan isolasi variabel melalui controlled experiment. Tanpa kontrol, tidak ada yang bisa menjamin yang mana penyebabnya.

"Baseline tidak perlu fair — yang penting ada pembanding" Baseline yang tidak fair (versi lama, kondisi berbeda, hiperparameter tidak optimal) itu merugikan pembaca. Reviewer akan menolak paper dengan baseline yang unfair.

Studi Kasus 1 — Eksperimen Tanpa Kontrol (Basic)

Konteks: Peneliti membandingkan model A (baru) vs model B (baseline).

Masalah — tidak terkontrol:

Model A dilatih lebih lama (100 epoch vs 50 epoch)
Model A menggunakan data preprocessing yang lebih agresif
Dataset split berbeda
Hardware berbeda (GPU vs CPU)

Hasil: Model A lebih baik 12%. Tapi mengapa? Tidak bisa diketahui.

Solusi — controlled comparison:

Item	Model A	Model B
Epoch	50	50
Preprocessing	Identik	Identik
Dataset split	Fixed seed 42	Fixed seed 42
Hardware	GPU RTX 3090	GPU RTX 3090

Sekarang perbedaan performa bisa dikaitkan ke variabel yang benar-benar berbeda.

Studi Kasus 2 — Baseline Tidak Fair (Advanced)

Konteks: Paper mengklaim metode baru 23% lebih baik. Baseline: BERT 2019.

Masalah:

BERT 2019 tanpa fine-tuning vs metode baru dengan fine-tuning → tidak fair
Baseline diuji pada dataset yang berbeda dari yang digunakan untuk training
Hyperparameter baseline menggunakan default tanpa tuning

Pertanyaan reviewer: "Apakah 23% benar-benar karena metode baru, atau karena baseline-nya dipersiapkan dengan buruk?"

Standar fair comparison:

Semua metode di-fine-tune dengan kondisi identik
Hyperparameter baseline di-tune setidaknya dengan grid search
Dataset split identik
Evaluasi dengan metrik yang sama
Multiple runs (5+) → laporkan mean ± std

Research vs Engineering — Experimental Design

Aspek	Engineering	Research
Pengujian	Functional testing, UAT	Controlled experiment dengan statistik
Jumlah run	1 run (jika berhasil, selesai)	Multiple runs (minimal 5 untuk stat)
Baseline	Tidak ada (sistem baru)	Wajib, fair, state-of-the-art
Variabel	Semua bisa berganti	Satu berganti, semua lain dikontrol
Kegagalan	Diperbaiki	Dilaporkan dan dianalisis
Dokumentasi	"Sistem sudah jalan"	Reproducible setup untuk replikasi

Ringkasan Pertemuan 7

Konsep	Inti
Tujuan Eksperimen	Membangun bukti empiris yang reproducible — bukan sekadar menjalankan program
Kausalitas vs Korelasi	Kausalitas butuh kontrol experimental; korelasi hanya observasi
4 Validitas	Internal · External · Construct · Conclusion
3 Jenis Eksperimen	Comparison · Ablation Study · Parameter Study
Controlled Experiment	Ubah 1 variabel, kontrol semua yang lain
Dokumen Desain	RQ → Variabel → Skenario → Data → Validity Threats

Final Statement & Output Praktis

"Eksperimen bukan sekadar menjalankan sistem, tetapi membangun bukti yang dapat dipercaya."

Output Praktis M7

Buat Dokumen Desain Eksperimen yang mencakup:

Tujuan eksperimen & hipotesis yang diuji
Tabel variabel (independent, dependent, control)
Skenario eksperimen (minimal 2 skenario)
Spesifikasi dataset (split, ukuran, sumber)
Validity threats & strategi mitigasi
Statistical test yang direncanakan (+ alpha level)

Dokumen ini = bab Metodologi bagian "Experiment Design" dalam laporan riset.

Referensi Utama — Bab 7

Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.
Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). Experimentation in software engineering. Springer.
Ko, A. J., LaToza, T. D., & Burnett, M. M. (2015). A practical guide to controlled experiments of software engineering tools with human participants. Empirical Software Engineering, 20(1), 110–141.
Juristo, N., & Moreno, A. M. (2001). Basics of software engineering experimentation. Springer.

41 KiB Raw Blame History Unescape Escape