hb_alim b488de8a09 feat: rewrite all 16 worksheets with full learning material

Each worksheet now includes Ringkasan Materi, Template A.x,
3 exercises with example answers, and reflection prompts.
Synced from rti-20252 student repo.

2026-03-31 10:58:25 +07:00

4.7 KiB

Raw Permalink Blame History

WS-10: Experiment Execution & Data Collection

Bab 10 — Eksekusi Eksperimen & Pengumpulan Data

Ringkasan Materi

Experiment Execution Pipeline

Design → Execution Plan → Controlled Execution → Data Collection → Data Logging → Dataset for Analysis

Multiple Run = Non-Negotiable

Single run tidak pernah cukup untuk klaim ilmiah. Minimum 5-10 run per skenario dengan seed berbeda. Multiple run menghasilkan:

Mean, std, confidence interval
Distribusi hasil → uji statistik
Variabilitas → error bar di grafik

Execution Plan

Setiap eksperimen harus memiliki plan sebelum eksekusi:

Daftar skenario
Jumlah run per skenario
Random seed per run (pre-determined!)
Urutan eksekusi (randomisasi/counterbalancing)
Pre-execution checklist

Data Logging Komprehensif

Setiap run menghasilkan log terstruktur:

Identitas — Run ID, timestamp, skenario
Konfigurasi — Semua parameter, seed, code version
Hasil — Semua metrik, output detail
Metadata — Waktu eksekusi, resource usage, warning/error

Format: CSV/JSON/database — bukan stdout yang di-copy-paste.

Engineering vs Research Execution

Aspek	Engineering	Research
Run	Sekali (deploy)	Multiple (min 5-10, seed berbeda)
Logging	Error log, access log	Semua parameter, metrik, metadata
Anomali	Bug → fix → redeploy	Investigasi → dokumentasi → analisis
Urutan	Tidak penting	Bisa bias — perlu randomisasi

Anomali = Dokumentasi, Bukan Hapus

Run gagal/anomali tidak boleh dihapus tanpa dokumentasi. Bisa jadi:

Bug → fix & re-run (dokumentasikan!)
Batas kemampuan metode → DNF = temuan
Data yang bias jika hanya simpan run "berhasil"

Jebakan Kognitif

"Satu angka cukup" → tanpa distribusi, tidak bisa diuji
"Seed tidak penting" → bahkan algoritma deterministik bisa dipengaruhi library stokastik
"Run gagal langsung hapus" → kehilangan temuan potensial
"Semua run harus hari ini" → thermal throttling, fatigue

Template A.10 — Execution Plan & Data Log

EXECUTION PLAN

| Run # | Skenario | Seed | Parameter | Status | Waktu | Output File |
|-------|----------|------|-----------|--------|-------|-------------|
| 1     |          |      |           |        |       |             |
| 2     |          |      |           |        |       |             |
| 3     |          |      |           |        |       |             |
| ...   |          |      |           |        |       |             |

Jumlah runs per skenario : ____
Total runs               : ____

DATA LOG (per run):
  Run ID    : ____________________
  Timestamp : ____________________
  Skenario  : ____________________
  Input     : ____________________
  Output    : ____________________
  Anomali   : ____________________
  Catatan   : ____________________

Latihan 1 — Execution Plan

Susun execution plan untuk eksperimen Anda. Tentukan skenario, jumlah run, dan seed sebelum eksekusi.

Run #	Skenario	Seed	Parameter Kunci	Status
1	Contoh: BERT-base, DS-1	42	lr=2e-5, epoch=10	Planned
2	BERT-base, DS-1	123	lr=2e-5, epoch=10	Planned
3
4
5

Total skenario: ____ Run per skenario: ____ Total run keseluruhan: ____

Latihan 2 — Data Log Terstruktur

Desain format data log untuk eksperimen Anda. Tentukan field apa saja yang akan dicatat.

Identitas:

Field	Contoh
Run ID	run-001
Timestamp	2025-03-15T10:30:00

Konfigurasi:

Field	Contoh
Seed	42
Code version	commit abc1234

Hasil:

Metrik	Tipe Data	Range Valid
Contoh: Accuracy	float	0.0 – 1.0

Format output: [ ] CSV / [ ] JSON / [ ] Database / [ ] Lainnya: ____

Latihan 3 — Anomaly Protocol

Rencanakan bagaimana menangani anomali. Untuk setiap jenis, tentukan langkah yang diambil.

Jenis Anomali	Contoh	Tindakan
Run gagal (crash)	Contoh: OOM pada batch_size=64	Contoh: Dokumentasi, re-run batch_size=32, catat perubahan
Hasil ekstrem
Waktu eksekusi anomali
Inkonsistensi dengan run lain

Prinsip: Detect → Investigate → Document → Decide

Refleksi

Pernahkah Anda melaporkan hasil riset/tugas dari single run? Apa risikonya? Bagaimana multiple run mengubah kepercayaan terhadap hasil?

Pengalaman sebelumnya:

Yang akan dilakukan berbeda:

4.7 KiB Raw Permalink Blame History Unescape Escape