---
marp: true
paginate: true
class: bagian-ii
header: 'RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen'
footer: 'Helmi Bahar Alim, S.Kom., M.Kom. | 2026'
---
# Bab 5 — Metric, Measurement & Data
## Operasionalisasi: Dari Konsep ke Angka yang Bermakna
*Pertemuan 5 (M5) | Sub-CPMK 2.1 | CPMK02 | CPL06*
Fase: **Designing** (M5–M7) · Bagian II: Measurement & Design
**Universitas Putra Bangsa** | Fak. Sains & Teknologi · Prodi Teknik Informatika
---
## Agenda Pertemuan 5
1. Bridge dari Fase Thinking — fondasi ke pengukuran
2. Measurement Alignment Model
3. Operasionalisasi: Concept → Variable → Metric
4. Empat skala data: Nominal, Ordinal, Interval, Ratio
5. Kriteria pemilihan metrik
6. Multi-metric evaluation — mengapa satu metrik tidak cukup
7. Data quality: 4 pilar
8. Cognitive Traps & Studi Kasus
9. Output Praktis: Definisi variabel + metrik + tipe data
---
## Capaian Pembelajaran
Setelah pertemuan ini, mahasiswa mampu:
- Menjelaskan proses **operasionalisasi** dari konsep abstrak ke variabel terukur
- Membedakan 4 skala data dan menentukan **analisis statistik** yang valid per skala
- Memilih metrik yang **representatif, sensitif, dan feasible** sesuai RQ
- Merancang **multi-metric evaluation** yang komprehensif
- Menilai **kualitas data** menggunakan 4 pilar
> Sub-CPMK 2.1 → Mendefinisikan metrik yang valid dan representatif (CPL06)
---
## Bridge — Dari Fase Thinking ke Designing
Di Bab 4, Anda menghasilkan:
- **RQ** yang tajam dan testable
- **Hipotesis** H0/H1 yang falsifiable
- **Contribution Statement** yang eksplisit
**Sekarang pertanyaannya:** Apa tepatnya yang akan **diukur**?
> "Sistem yang diusulkan memiliki performa lebih baik dibanding baseline."
- Performa diukur dari apa?
- Akurasi? Precision? Recall? F1? Latency? Throughput?
- Dan jika dipilih akurasi — apakah distribusi datanya seimbang?
**Keputusan memilih metrik harus dilakukan SEBELUM eksperimen berjalan** — bukan setelah melihat data. *(Wohlin et al., 2012)*
---
## Measurement Alignment Model
*Setiap angka harus bisa ditelusuri balik dari Problem*
```
Problem → Concept → Variable → Metric → Data → Result
↕ ↕ ↕ ↕ ↕ ↕
Abstraksi Konsep Operasionalisasi Kuantifikasi Pengumpulan Analisis
```
| Transisi | Pertanyaan Kunci | Kegagalan Umum |
|----------|-----------------|----------------|
| Problem → Concept | Konsep apa yang mewakili masalah ini? | Konsep terlalu abstrak |
| Concept → Variable | Bagaimana konsep ini bisa diobservasi? | Variabel tidak merepresentasikan konsep |
| Variable → Metric | Dengan satuan apa diukur? | Metrik tidak sensitif terhadap perubahan |
| Metric → Data | Bagaimana data dikumpulkan? | Bias dalam pengumpulan |
| Data → Result | Analisis statistik apa yang valid? | Asumsi statistik tidak dipenuhi |
> Jika rantai ini putus di mana saja → **construct validity** rusak.
---
## Operasionalisasi: Dari Konsep ke Angka
**Contoh operasionalisasi "User Engagement":**
**Concept:** User Engagement (abstrak)
↓ Variable 1: Frekuensi penggunaan | Variable 2: Durasi sesi rata-rata | Variable 3: Breadth of feature usage
↓ Metric 1: Jumlah sesi/minggu | Metric 2: Durasi rata-rata sesi (menit) | Metric 3: Jumlah fitur unik/sesi
↓ **Data Type:** Ratio | Ratio | Ratio
> Keputusan tentang **apa yang mewakili apa** harus **didokumentasikan dan dijustifikasi**. Pembaca harus bisa memahami mengapa variabel ini dipilih (dan bukan variabel lain).
---
## Empat Skala Data
*(Field, 2018)*
| Skala | Urutan? | Jarak Seragam? | Nol Absolut? | Contoh | Analisis Valid |
|-------|---------|---------------|-------------|--------|----------------|
| **Nominal** | – | – | – | Jenis browser, bahasa pemrograman | Frekuensi, modus, Chi-square |
| **Ordinal** | ✓ | – | – | Skala Likert, severity bug | Median, percentile, Mann-Whitney |
| **Interval** | ✓ | ✓ | – | Suhu Celsius, skor IQ | Mean, SD, t-test |
| **Ratio** | ✓ | ✓ | ✓ | Waktu respons (ms), akurasi (%), throughput | Semua operasi, termasuk rasio |
> **Kesalahan paling umum:** memperlakukan **Ordinal** (Likert 1–5) seolah Interval, lalu menghitung rata-rata dan menggunakan t-test. Tidak valid secara statistik kecuali ada justifikasi khusus.
---
## Kriteria Pemilihan Metrik
Tiga kriteria utama *(Wohlin et al., 2012)*:
**1. Representatif** — Metrik benar-benar merepresentasikan konsep yang diteliti.
- Jika RQ tentang efektivitas deteksi → Recall lebih representatif daripada Accuracy
- Menggunakan Accuracy untuk dataset imbalance
**2. Sensitif** — Metrik cukup peka terhadap perubahan variabel independen.
- F1-score sensitif terhadap trade-off precision-recall
- Accuracy pada 99% imbalance tidak sensitif terhadap perubahan model
**3. Feasible** — Data yang dibutuhkan untuk menghitung metrik bisa diperoleh.
- Metrik yang bisa dihitung dari log sistem
- Metrik yang membutuhkan 10.000 human annotators dalam 1 semester
---
## Multi-Metric Evaluation
**Mengapa satu metrik tidak cukup?**
```
Problem ──→ Concept A ──→ Metric A1
└──→ Concept B ──→ Metric B1
└──→ Metric B2
```
| Kasus | Metrik Tunggal | Multi-Metrik |
|-------|---------------|-------------|
| Fraud detection | Accuracy: 98% (menyesatkan) | Recall + Precision + F2 + AUC-ROC |
| Rekomendasi | Precision@K | Precision@K + Diversity + Coverage + Serendipity |
| NLP model | F1-score agregat | F1 per kelas + Confusion Matrix + MCC |
| System performance | Throughput | Throughput + Latency P50/P95/P99 + Error rate |
> Setiap metrik mengukur satu aspek dari konsep. Gunakan minimal **2–3 metrik yang saling melengkapi** untuk gambaran yang komprehensif.
---
## Data Quality — 4 Pilar
Data berkualitas buruk menghasilkan hasil yang tidak dapat dipercaya, meskipun metodenya sempurna.
| Pilar | Definisi | Cara Cek |
|-------|---------|---------|
| **Completeness** | Tidak ada nilai yang hilang secara tidak terduga | % missing values per kolom |
| **Consistency** | Format dan logika data konsisten di seluruh dataset | Cross-field validation |
| **Accuracy** | Data merepresentasikan realitas yang sebenarnya | Bandingkan dengan ground truth / sumber asli |
| **Representativeness** | Distribusi data mencerminkan populasi target | Distribusi kelas, geografi, demografi |
**Dokumentasi kualitas data** wajib ada dalam laporan:
- Cara pengumpulan data
- Transformasi yang dilakukan
- Missing values: berapa? diapakan?
---
# Cognitive Traps
## Bab 5 — Metric & Measurement
---
## Cognitive Traps — Bab 5
**"Accuracy adalah metrik universal"**
Accuracy misleading untuk imbalanced dataset. Model yang memprediksi "semua negatif" pada dataset 99% negatif mendapat accuracy 99%. Gunakan Precision, Recall, F1, MCC, atau AUC sesuai konteks.
**"Metrik dipilih setelah melihat hasil eksperimen"**
Ini adalah *outcome bias* — memilih metrik yang kebetulan menghasilkan nilai terbaik. Metrik harus ditetapkan dalam desain eksperimen, sebelum data dikumpulkan.
**"Data yang banyak pasti representatif"**
Volume ≠ representativeness. 1 juta record dari satu demografi tidak merepresentasikan populasi yang beragam. Periksa distribusi dan sumber data, bukan hanya ukurannya.
---
## Studi Kasus 1 — Accuracy Imbalance (Basic)
**Konteks:** Researcher menggunakan dataset fraud (99.5% normal, 0.5% fraud). Hasil: **Accuracy 99.6%**.
**Masalah:**
- Model memprediksi "semua normal" → accuracy 99.5% (hampir sama dengan "model terbaik")
- Recall fraud: **0%** — tidak satu pun fraud terdeteksi
- Laporan hanya menampilkan accuracy → pembaca tersesat
| Metrik | Nilai | Interpretasi |
|--------|-------|-------------|
| Accuracy | 99.6% | Tidak bermakna |
| Recall (fraud) | 0% | Gagal total |
| F2-score | 0.00 | Model tidak berguna |
| AUC-ROC | 0.50 | Sama dengan random |
**Solusi:** Gunakan F2-score, Recall, AUC-ROC. Tambahkan teknik resampling (SMOTE, class weighting). Laporkan semua metrik.
---
## Studi Kasus 2 — User Satisfaction vs System Metric (Advanced)
**Konteks:** Sistem rekomendasi baru — Precision@10 meningkat dari 72% ke 89%. Tapi user survey score turun.
**Gap Metrik:**
- Researcher hanya mengukur Precision@10 (teknis)
- User experience: semua rekomendasi mirip (filter bubble), tidak ada kejutan
- Metrik teknis tidak merepresentasikan kepuasan pengguna
**Pelajaran:**
```
Technical Metric ≠ User Experience
Precision@10 ≠ User Satisfaction
```
**Solusi:** Tambahkan **Beyond-Accuracy Metrics**:
- Diversity (keberagaman rekomendasi)
- Novelty (seberapa baru item yang direkomendasikan)
- Serendipity (kejutan positif)
- Coverage (berapa persen katalog yang bisa direkomendasikan)
---
## Research vs Engineering — Perspektif Measurement
| Aspek | Engineering | Research |
|-------|------------|---------|
| Memilih metrik | Yang paling mudah dihitung | Yang paling merepresentasikan konsep |
| Performa "bagus" | Lulus acceptance test | Signifikan secara statistik vs baseline |
| Data quality | Cukup untuk demo | Terdokumentasi, justified, reproducible |
| Baseline | Tidak ada (sistem baru) | Wajib ada, dipilih dari literatur |
| Laporan | Metrics terbaik saja | Semua metrics, termasuk yang buruk |
---
## Ringkasan Pertemuan 5
| Konsep | Inti |
|--------|------|
| Measurement Alignment | Problem → Concept → Variable → Metric → Data → Result |
| Operasionalisasi | Konsep abstrak → variabel observable → satuan terukur |
| 4 Skala Data | Nominal · Ordinal · Interval · Ratio (menentukan analisis statistik) |
| Pemilihan Metrik | Representatif + Sensitif + Feasible |
| Multi-Metric | 2–3 metrik saling melengkapi; tidak ada metrik universal |
| Data Quality | Completeness + Consistency + Accuracy + Representativeness |
---
## Final Statement & Output Praktis
"Penelitian yang baik bukan hanya mengukur, tetapi memastikan bahwa apa yang diukur benar-benar merepresentasikan realitas."
### Output Praktis M5
Buat **dokumen definisi pengukuran**:
1. Tabel **Variable Operationalization**: Concept → Variable → Metric → Data Type → Statistical Test
2. **Justifikasi pemilihan metrik** (1 paragraf per metrik utama)
3. **Data quality plan**: bagaimana memastikan 4 pilar kualitas data terpenuhi
*Dokumen ini menjadi bagian "Metodologi — Pengukuran" dalam proposal riset.*
---
## Referensi Utama — Bab 5
- Field, A. (2018). *Discovering statistics using IBM SPSS statistics* (5th ed.). SAGE Publications.
- Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). *Experimental and quasi-experimental designs for generalized causal inference*. Houghton Mifflin.
- Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). *Experimentation in software engineering*. Springer.
- Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004). Evaluating collaborative filtering recommender systems. *ACM Transactions on Information Systems, 22*(1), 5–53.