Each worksheet now includes Ringkasan Materi, Template A.x, 3 exercises with example answers, and reflection prompts. Synced from rti-20252 student repo.
5.1 KiB
WS-05: Variabel & Metrik
Bab 5 — Metric, Measurement & Data
Ringkasan Materi
Measurement Alignment Model
Setiap pengukuran yang valid harus bisa ditelusuri melalui rantai ini tanpa lompatan logis:
Problem → Concept → Variable → Metric → Data → Result
Operationalization = Keputusan Desain
Menerjemahkan konsep abstrak menjadi variabel terukur bukan proses mekanis. "Code quality" yang diukur via SonarQube code smells membawa asumsi implisit. Setiap operasionalisasi harus didokumentasikan dan dijustifikasi.
Empat Tipe Data (NOIR)
| Tipe | Ciri | Contoh | Operasi Valid |
|---|---|---|---|
| Nominal | Kategori, tanpa urutan | Jenis algoritma (RF, SVM, CNN) | Modus, chi-square |
| Ordinal | Urutan, interval tidak sama | Skala Likert (1-5) | Median, Spearman |
| Interval | Jarak bermakna, tanpa nol absolut | Suhu Celsius | Mean, Pearson, t-test |
| Ratio | Jarak bermakna + nol absolut | Waktu eksekusi (ms) | Semua operasi |
Tipe data menentukan uji statistik yang valid. Kebanyakan metrik performa TI = ratio; persepsi pengguna = ordinal.
Kriteria Pemilihan Metrik
- Representative — Mewakili konsep yang diteliti
- Sensitive — Cukup peka menangkap perbedaan bermakna (hindari ceiling effect)
- Feasible — Bisa dikumpulkan dalam batasan waktu dan biaya
Pre-registration
Metrik harus ditentukan sebelum eksperimen. Memilih metrik setelah melihat data = p-hacking. Metrik tambahan yang ditemukan kemudian dilaporkan sebagai exploratory, bukan confirmatory.
Primary vs Secondary Metric
- Primary Metric — Langsung terikat ke hipotesis, menentukan kesimpulan
- Secondary Metric — Pendukung, dilaporkan di samping primary; statusnya suplementer
Research vs Engineering
| Aspek | Engineering | Research |
|---|---|---|
| Pemilihan metrik | Berdasarkan kebiasaan/tool yang ada | Berdasarkan construct validity |
| Anomali | Dihapus untuk laporan bersih | Diinvestigasi — bisa jadi temuan |
| Kapan dipilih | Setelah sistem jadi (monitoring) | Sebelum eksperimen (by design) |
Istilah Penting
- Operationalization — Transformasi konsep abstrak menjadi variabel terukur
- Construct Validity — Sejauh mana pengukuran benar-benar mengukur konsep yang dimaksud
- Measurement Scale — Klasifikasi data (NOIR) yang menentukan analisis valid
- Multi-metric Evaluation — Menggunakan beberapa metrik untuk menangkap konsep kompleks
Template A.5 — Definisi Variabel, Metrik & Justifikasi
VARIABLE & METRIC DEFINITION
Research Question: ____________________
| Variabel | Tipe | Konsep | Metrik | Skala | Satuan | Cara Mengukur | Justifikasi |
|----------|------|--------|--------|-------|--------|---------------|-------------|
| | IV | | | | | | |
| | DV | | | | | | |
| | CV | | | | | | |
Alignment Check:
RQ → Concept → Variable → Metric → Data → Result
[ ] Setiap langkah terdokumentasi
[ ] Tidak ada "lompatan logis"
[ ] Metrik mengukur apa yang dimaksud (construct validity)
Latihan 1 — Operationalization Chain
Gunakan RQ dari WS-04. Definisikan variabel dan metriknya.
RQ: __________________________________________________
| Variabel | Tipe | Konsep Abstrak | Metrik Konkret | Skala (NOIR) | Satuan |
|---|---|---|---|---|---|
| Contoh: Jenis model | IV | Pendekatan klasifikasi | Categorical: CNN vs RF | Nominal | — |
| DV | |||||
| CV |
Apakah ada lompatan logis dalam rantai? [ ] Ya / [ ] Tidak
Jika ya, di mana? ____________________________________
Latihan 2 — Evaluasi Metrik
Evaluasi metrik DV yang dipilih di Latihan 1 menggunakan 3 kriteria.
| Kriteria | Skor (1-5) | Justifikasi |
|---|---|---|
| Representative | Contoh: 4 — F1-Score mewakili keseimbangan precision-recall | |
| Sensitive | ||
| Feasible |
Apakah perlu secondary metric? [ ] Ya / [ ] Tidak
Jika ya, apa dan mengapa? _____________________________
Contoh kasus ceiling effect untuk metrik ini:
Latihan 3 — Data Quality Check
Bayangkan data yang akan dikumpulkan dari eksperimen. Evaluasi 4 dimensi kualitas data.
| Dimensi | Pertanyaan | Jawaban | Strategi Mitigasi |
|---|---|---|---|
| Completeness | Apakah semua data point terkumpul? | ||
| Consistency | Apakah ada kontradiksi internal? | ||
| Validity | Apakah benar-benar mengukur yang dimaksud? | ||
| Representativeness | Apakah sampel mewakili populasi target? |
Refleksi
Mengapa memilih metrik setelah melihat data dianggap p-hacking? Apa bedanya dengan eksplorasi data yang sah?
Jawaban: