riset-teknologi-informasi/worksheets/ws-05-variabel-metrik.md
hb_alim b488de8a09 feat: rewrite all 16 worksheets with full learning material
Each worksheet now includes Ringkasan Materi, Template A.x,
3 exercises with example answers, and reflection prompts.
Synced from rti-20252 student repo.
2026-03-31 10:58:25 +07:00

140 lines
5.1 KiB
Markdown

# WS-05: Variabel & Metrik
> **Bab 5 — Metric, Measurement & Data**
---
## Ringkasan Materi
### Measurement Alignment Model
Setiap pengukuran yang valid harus bisa ditelusuri melalui rantai ini tanpa lompatan logis:
```
Problem → Concept → Variable → Metric → Data → Result
```
### Operationalization = Keputusan Desain
Menerjemahkan konsep abstrak menjadi variabel terukur bukan proses mekanis. "Code quality" yang diukur via SonarQube code smells membawa asumsi implisit. Setiap operasionalisasi harus didokumentasikan dan dijustifikasi.
### Empat Tipe Data (NOIR)
| Tipe | Ciri | Contoh | Operasi Valid |
|------|------|--------|---------------|
| **Nominal** | Kategori, tanpa urutan | Jenis algoritma (RF, SVM, CNN) | Modus, chi-square |
| **Ordinal** | Urutan, interval tidak sama | Skala Likert (1-5) | Median, Spearman |
| **Interval** | Jarak bermakna, tanpa nol absolut | Suhu Celsius | Mean, Pearson, t-test |
| **Ratio** | Jarak bermakna + nol absolut | Waktu eksekusi (ms) | Semua operasi |
Tipe data menentukan uji statistik yang valid. Kebanyakan metrik performa TI = ratio; persepsi pengguna = ordinal.
### Kriteria Pemilihan Metrik
- **Representative** — Mewakili konsep yang diteliti
- **Sensitive** — Cukup peka menangkap perbedaan bermakna (hindari ceiling effect)
- **Feasible** — Bisa dikumpulkan dalam batasan waktu dan biaya
### Pre-registration
Metrik harus ditentukan **sebelum** eksperimen. Memilih metrik setelah melihat data = **p-hacking**. Metrik tambahan yang ditemukan kemudian dilaporkan sebagai *exploratory*, bukan *confirmatory*.
### Primary vs Secondary Metric
- **Primary Metric** — Langsung terikat ke hipotesis, menentukan kesimpulan
- **Secondary Metric** — Pendukung, dilaporkan di samping primary; statusnya suplementer
### Research vs Engineering
| Aspek | Engineering | Research |
|-------|------------|----------|
| Pemilihan metrik | Berdasarkan kebiasaan/tool yang ada | Berdasarkan construct validity |
| Anomali | Dihapus untuk laporan bersih | Diinvestigasi — bisa jadi temuan |
| Kapan dipilih | Setelah sistem jadi (monitoring) | Sebelum eksperimen (by design) |
### Istilah Penting
- **Operationalization** — Transformasi konsep abstrak menjadi variabel terukur
- **Construct Validity** — Sejauh mana pengukuran benar-benar mengukur konsep yang dimaksud
- **Measurement Scale** — Klasifikasi data (NOIR) yang menentukan analisis valid
- **Multi-metric Evaluation** — Menggunakan beberapa metrik untuk menangkap konsep kompleks
---
## Template A.5 — Definisi Variabel, Metrik & Justifikasi
```
VARIABLE & METRIC DEFINITION
Research Question: ____________________
| Variabel | Tipe | Konsep | Metrik | Skala | Satuan | Cara Mengukur | Justifikasi |
|----------|------|--------|--------|-------|--------|---------------|-------------|
| | IV | | | | | | |
| | DV | | | | | | |
| | CV | | | | | | |
Alignment Check:
RQ → Concept → Variable → Metric → Data → Result
[ ] Setiap langkah terdokumentasi
[ ] Tidak ada "lompatan logis"
[ ] Metrik mengukur apa yang dimaksud (construct validity)
```
---
## Latihan 1 — Operationalization Chain
Gunakan RQ dari WS-04. Definisikan variabel dan metriknya.
**RQ:** __________________________________________________
| Variabel | Tipe | Konsep Abstrak | Metrik Konkret | Skala (NOIR) | Satuan |
|----------|------|---------------|----------------|-------------|--------|
| *Contoh: Jenis model* | *IV* | *Pendekatan klasifikasi* | *Categorical: CNN vs RF* | *Nominal* | *—* |
| | DV | | | | |
| | CV | | | | |
**Apakah ada lompatan logis dalam rantai?** [ ] Ya / [ ] Tidak
> Jika ya, di mana? ____________________________________
---
## Latihan 2 — Evaluasi Metrik
Evaluasi metrik DV yang dipilih di Latihan 1 menggunakan 3 kriteria.
| Kriteria | Skor (1-5) | Justifikasi |
|----------|-----------|-------------|
| Representative | *Contoh: 4 — F1-Score mewakili keseimbangan precision-recall* | |
| Sensitive | | |
| Feasible | | |
**Apakah perlu secondary metric?** [ ] Ya / [ ] Tidak
> Jika ya, apa dan mengapa? _____________________________
**Contoh kasus ceiling effect untuk metrik ini:**
> ___________________________________________________
---
## Latihan 3 — Data Quality Check
Bayangkan data yang akan dikumpulkan dari eksperimen. Evaluasi 4 dimensi kualitas data.
| Dimensi | Pertanyaan | Jawaban | Strategi Mitigasi |
|---------|-----------|---------|------------------|
| Completeness | *Apakah semua data point terkumpul?* | | |
| Consistency | *Apakah ada kontradiksi internal?* | | |
| Validity | *Apakah benar-benar mengukur yang dimaksud?* | | |
| Representativeness | *Apakah sampel mewakili populasi target?* | | |
---
## Refleksi
> Mengapa memilih metrik setelah melihat data dianggap p-hacking? Apa bedanya dengan eksplorasi data yang sah?
**Jawaban:**
> ___________________________________________________
> ___________________________________________________