Each worksheet now includes Ringkasan Materi, Template A.x, 3 exercises with example answers, and reflection prompts. Synced from rti-20252 student repo.
140 lines
5.1 KiB
Markdown
140 lines
5.1 KiB
Markdown
# WS-05: Variabel & Metrik
|
|
|
|
> **Bab 5 — Metric, Measurement & Data**
|
|
|
|
---
|
|
|
|
## Ringkasan Materi
|
|
|
|
### Measurement Alignment Model
|
|
|
|
Setiap pengukuran yang valid harus bisa ditelusuri melalui rantai ini tanpa lompatan logis:
|
|
|
|
```
|
|
Problem → Concept → Variable → Metric → Data → Result
|
|
```
|
|
|
|
### Operationalization = Keputusan Desain
|
|
|
|
Menerjemahkan konsep abstrak menjadi variabel terukur bukan proses mekanis. "Code quality" yang diukur via SonarQube code smells membawa asumsi implisit. Setiap operasionalisasi harus didokumentasikan dan dijustifikasi.
|
|
|
|
### Empat Tipe Data (NOIR)
|
|
|
|
| Tipe | Ciri | Contoh | Operasi Valid |
|
|
|------|------|--------|---------------|
|
|
| **Nominal** | Kategori, tanpa urutan | Jenis algoritma (RF, SVM, CNN) | Modus, chi-square |
|
|
| **Ordinal** | Urutan, interval tidak sama | Skala Likert (1-5) | Median, Spearman |
|
|
| **Interval** | Jarak bermakna, tanpa nol absolut | Suhu Celsius | Mean, Pearson, t-test |
|
|
| **Ratio** | Jarak bermakna + nol absolut | Waktu eksekusi (ms) | Semua operasi |
|
|
|
|
Tipe data menentukan uji statistik yang valid. Kebanyakan metrik performa TI = ratio; persepsi pengguna = ordinal.
|
|
|
|
### Kriteria Pemilihan Metrik
|
|
|
|
- **Representative** — Mewakili konsep yang diteliti
|
|
- **Sensitive** — Cukup peka menangkap perbedaan bermakna (hindari ceiling effect)
|
|
- **Feasible** — Bisa dikumpulkan dalam batasan waktu dan biaya
|
|
|
|
### Pre-registration
|
|
|
|
Metrik harus ditentukan **sebelum** eksperimen. Memilih metrik setelah melihat data = **p-hacking**. Metrik tambahan yang ditemukan kemudian dilaporkan sebagai *exploratory*, bukan *confirmatory*.
|
|
|
|
### Primary vs Secondary Metric
|
|
|
|
- **Primary Metric** — Langsung terikat ke hipotesis, menentukan kesimpulan
|
|
- **Secondary Metric** — Pendukung, dilaporkan di samping primary; statusnya suplementer
|
|
|
|
### Research vs Engineering
|
|
|
|
| Aspek | Engineering | Research |
|
|
|-------|------------|----------|
|
|
| Pemilihan metrik | Berdasarkan kebiasaan/tool yang ada | Berdasarkan construct validity |
|
|
| Anomali | Dihapus untuk laporan bersih | Diinvestigasi — bisa jadi temuan |
|
|
| Kapan dipilih | Setelah sistem jadi (monitoring) | Sebelum eksperimen (by design) |
|
|
|
|
### Istilah Penting
|
|
|
|
- **Operationalization** — Transformasi konsep abstrak menjadi variabel terukur
|
|
- **Construct Validity** — Sejauh mana pengukuran benar-benar mengukur konsep yang dimaksud
|
|
- **Measurement Scale** — Klasifikasi data (NOIR) yang menentukan analisis valid
|
|
- **Multi-metric Evaluation** — Menggunakan beberapa metrik untuk menangkap konsep kompleks
|
|
|
|
---
|
|
|
|
## Template A.5 — Definisi Variabel, Metrik & Justifikasi
|
|
|
|
```
|
|
VARIABLE & METRIC DEFINITION
|
|
|
|
Research Question: ____________________
|
|
|
|
| Variabel | Tipe | Konsep | Metrik | Skala | Satuan | Cara Mengukur | Justifikasi |
|
|
|----------|------|--------|--------|-------|--------|---------------|-------------|
|
|
| | IV | | | | | | |
|
|
| | DV | | | | | | |
|
|
| | CV | | | | | | |
|
|
|
|
Alignment Check:
|
|
RQ → Concept → Variable → Metric → Data → Result
|
|
[ ] Setiap langkah terdokumentasi
|
|
[ ] Tidak ada "lompatan logis"
|
|
[ ] Metrik mengukur apa yang dimaksud (construct validity)
|
|
```
|
|
|
|
---
|
|
|
|
## Latihan 1 — Operationalization Chain
|
|
|
|
Gunakan RQ dari WS-04. Definisikan variabel dan metriknya.
|
|
|
|
**RQ:** __________________________________________________
|
|
|
|
| Variabel | Tipe | Konsep Abstrak | Metrik Konkret | Skala (NOIR) | Satuan |
|
|
|----------|------|---------------|----------------|-------------|--------|
|
|
| *Contoh: Jenis model* | *IV* | *Pendekatan klasifikasi* | *Categorical: CNN vs RF* | *Nominal* | *—* |
|
|
| | DV | | | | |
|
|
| | CV | | | | |
|
|
|
|
**Apakah ada lompatan logis dalam rantai?** [ ] Ya / [ ] Tidak
|
|
> Jika ya, di mana? ____________________________________
|
|
|
|
---
|
|
|
|
## Latihan 2 — Evaluasi Metrik
|
|
|
|
Evaluasi metrik DV yang dipilih di Latihan 1 menggunakan 3 kriteria.
|
|
|
|
| Kriteria | Skor (1-5) | Justifikasi |
|
|
|----------|-----------|-------------|
|
|
| Representative | *Contoh: 4 — F1-Score mewakili keseimbangan precision-recall* | |
|
|
| Sensitive | | |
|
|
| Feasible | | |
|
|
|
|
**Apakah perlu secondary metric?** [ ] Ya / [ ] Tidak
|
|
> Jika ya, apa dan mengapa? _____________________________
|
|
|
|
**Contoh kasus ceiling effect untuk metrik ini:**
|
|
> ___________________________________________________
|
|
|
|
---
|
|
|
|
## Latihan 3 — Data Quality Check
|
|
|
|
Bayangkan data yang akan dikumpulkan dari eksperimen. Evaluasi 4 dimensi kualitas data.
|
|
|
|
| Dimensi | Pertanyaan | Jawaban | Strategi Mitigasi |
|
|
|---------|-----------|---------|------------------|
|
|
| Completeness | *Apakah semua data point terkumpul?* | | |
|
|
| Consistency | *Apakah ada kontradiksi internal?* | | |
|
|
| Validity | *Apakah benar-benar mengukur yang dimaksud?* | | |
|
|
| Representativeness | *Apakah sampel mewakili populasi target?* | | |
|
|
|
|
---
|
|
|
|
## Refleksi
|
|
|
|
> Mengapa memilih metrik setelah melihat data dianggap p-hacking? Apa bedanya dengan eksplorasi data yang sah?
|
|
|
|
**Jawaban:**
|
|
> ___________________________________________________
|
|
> ___________________________________________________
|