- slide/: 16 Marp slide files with inline UPB CSS theme (slide-01 through slide-16, covering all RTI-20252 topics) - slide/theme/: upb.css canonical theme + logo-upb.png - docs/AI-BOOK-PROMPT-TEMPLATE.md: RTI-20252 book authoring prompt
41 KiB
| marp | paginate | class | header | footer |
|---|---|---|---|---|
| true | true | bagian-ii | RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen | Helmi Bahar Alim, S.Kom., M.Kom. | 2026 |
Bab 5 — Metric, Measurement & Data
Operasionalisasi: Dari Konsep ke Angka yang Bermakna
Pertemuan 5 (M5) | Sub-CPMK 2.1 | CPMK02 | CPL06
Fase: Designing (M5–M7) · Bagian II: Measurement & Design
Universitas Putra Bangsa | Fak. Sains & Teknologi · Prodi Teknik Informatika
Agenda Pertemuan 5
- Bridge dari Fase Thinking — fondasi ke pengukuran
- Measurement Alignment Model
- Operasionalisasi: Concept → Variable → Metric
- Empat skala data: Nominal, Ordinal, Interval, Ratio
- Kriteria pemilihan metrik
- Multi-metric evaluation — mengapa satu metrik tidak cukup
- Data quality: 4 pilar
- Cognitive Traps & Studi Kasus
- Output Praktis: Definisi variabel + metrik + tipe data
Capaian Pembelajaran
Setelah pertemuan ini, mahasiswa mampu:
- Menjelaskan proses operasionalisasi dari konsep abstrak ke variabel terukur
- Membedakan 4 skala data dan menentukan analisis statistik yang valid per skala
- Memilih metrik yang representatif, sensitif, dan feasible sesuai RQ
- Merancang multi-metric evaluation yang komprehensif
- Menilai kualitas data menggunakan 4 pilar
Sub-CPMK 2.1 → Mendefinisikan metrik yang valid dan representatif (CPL06)
Bridge — Dari Fase Thinking ke Designing
Di Bab 4, Anda menghasilkan:
- RQ yang tajam dan testable
- Hipotesis H0/H1 yang falsifiable
- Contribution Statement yang eksplisit
Sekarang pertanyaannya: Apa tepatnya yang akan diukur?
"Sistem yang diusulkan memiliki performa lebih baik dibanding baseline."
- Performa diukur dari apa?
- Akurasi? Precision? Recall? F1? Latency? Throughput?
- Dan jika dipilih akurasi — apakah distribusi datanya seimbang?
Keputusan memilih metrik harus dilakukan SEBELUM eksperimen berjalan — bukan setelah melihat data. (Wohlin et al., 2012)
Measurement Alignment Model
Setiap angka harus bisa ditelusuri balik dari Problem
Problem → Concept → Variable → Metric → Data → Result
↕ ↕ ↕ ↕ ↕ ↕
Abstraksi Konsep Operasionalisasi Kuantifikasi Pengumpulan Analisis
| Transisi | Pertanyaan Kunci | Kegagalan Umum |
|---|---|---|
| Problem → Concept | Konsep apa yang mewakili masalah ini? | Konsep terlalu abstrak |
| Concept → Variable | Bagaimana konsep ini bisa diobservasi? | Variabel tidak merepresentasikan konsep |
| Variable → Metric | Dengan satuan apa diukur? | Metrik tidak sensitif terhadap perubahan |
| Metric → Data | Bagaimana data dikumpulkan? | Bias dalam pengumpulan |
| Data → Result | Analisis statistik apa yang valid? | Asumsi statistik tidak dipenuhi |
Jika rantai ini putus di mana saja → construct validity rusak.
Operasionalisasi: Dari Konsep ke Angka
Contoh operasionalisasi "User Engagement":
Concept: User Engagement (abstrak)
↓ Variable 1: Frekuensi penggunaan | Variable 2: Durasi sesi rata-rata | Variable 3: Breadth of feature usage
↓ Metric 1: Jumlah sesi/minggu | Metric 2: Durasi rata-rata sesi (menit) | Metric 3: Jumlah fitur unik/sesi
↓ Data Type: Ratio | Ratio | Ratio
Keputusan tentang apa yang mewakili apa harus didokumentasikan dan dijustifikasi. Pembaca harus bisa memahami mengapa variabel ini dipilih (dan bukan variabel lain).
Empat Skala Data
(Field, 2018)
| Skala | Urutan? | Jarak Seragam? | Nol Absolut? | Contoh | Analisis Valid |
|---|---|---|---|---|---|
| Nominal | – | – | – | Jenis browser, bahasa pemrograman | Frekuensi, modus, Chi-square |
| Ordinal | ✓ | – | – | Skala Likert, severity bug | Median, percentile, Mann-Whitney |
| Interval | ✓ | ✓ | – | Suhu Celsius, skor IQ | Mean, SD, t-test |
| Ratio | ✓ | ✓ | ✓ | Waktu respons (ms), akurasi (%), throughput | Semua operasi, termasuk rasio |
Kesalahan paling umum: memperlakukan Ordinal (Likert 1–5) seolah Interval, lalu menghitung rata-rata dan menggunakan t-test. Tidak valid secara statistik kecuali ada justifikasi khusus.
Kriteria Pemilihan Metrik
Tiga kriteria utama (Wohlin et al., 2012):
1. Representatif — Metrik benar-benar merepresentasikan konsep yang diteliti.
- Jika RQ tentang efektivitas deteksi → Recall lebih representatif daripada Accuracy
- Menggunakan Accuracy untuk dataset imbalance
2. Sensitif — Metrik cukup peka terhadap perubahan variabel independen.
- F1-score sensitif terhadap trade-off precision-recall
- Accuracy pada 99% imbalance tidak sensitif terhadap perubahan model
3. Feasible — Data yang dibutuhkan untuk menghitung metrik bisa diperoleh.
- Metrik yang bisa dihitung dari log sistem
- Metrik yang membutuhkan 10.000 human annotators dalam 1 semester
Multi-Metric Evaluation
Mengapa satu metrik tidak cukup?
Problem ──→ Concept A ──→ Metric A1
└──→ Concept B ──→ Metric B1
└──→ Metric B2
| Kasus | Metrik Tunggal | Multi-Metrik |
|---|---|---|
| Fraud detection | Accuracy: 98% (menyesatkan) | Recall + Precision + F2 + AUC-ROC |
| Rekomendasi | Precision@K | Precision@K + Diversity + Coverage + Serendipity |
| NLP model | F1-score agregat | F1 per kelas + Confusion Matrix + MCC |
| System performance | Throughput | Throughput + Latency P50/P95/P99 + Error rate |
Setiap metrik mengukur satu aspek dari konsep. Gunakan minimal 2–3 metrik yang saling melengkapi untuk gambaran yang komprehensif.
Data Quality — 4 Pilar
Data berkualitas buruk menghasilkan hasil yang tidak dapat dipercaya, meskipun metodenya sempurna.
| Pilar | Definisi | Cara Cek |
|---|---|---|
| Completeness | Tidak ada nilai yang hilang secara tidak terduga | % missing values per kolom |
| Consistency | Format dan logika data konsisten di seluruh dataset | Cross-field validation |
| Accuracy | Data merepresentasikan realitas yang sebenarnya | Bandingkan dengan ground truth / sumber asli |
| Representativeness | Distribusi data mencerminkan populasi target | Distribusi kelas, geografi, demografi |
Dokumentasi kualitas data wajib ada dalam laporan:
- Cara pengumpulan data
- Transformasi yang dilakukan
- Missing values: berapa? diapakan?
Cognitive Traps
Bab 5 — Metric & Measurement
Cognitive Traps — Bab 5
"Accuracy adalah metrik universal" Accuracy misleading untuk imbalanced dataset. Model yang memprediksi "semua negatif" pada dataset 99% negatif mendapat accuracy 99%. Gunakan Precision, Recall, F1, MCC, atau AUC sesuai konteks.
"Metrik dipilih setelah melihat hasil eksperimen" Ini adalah outcome bias — memilih metrik yang kebetulan menghasilkan nilai terbaik. Metrik harus ditetapkan dalam desain eksperimen, sebelum data dikumpulkan.
"Data yang banyak pasti representatif" Volume ≠ representativeness. 1 juta record dari satu demografi tidak merepresentasikan populasi yang beragam. Periksa distribusi dan sumber data, bukan hanya ukurannya.
Studi Kasus 1 — Accuracy Imbalance (Basic)
Konteks: Researcher menggunakan dataset fraud (99.5% normal, 0.5% fraud). Hasil: Accuracy 99.6%.
Masalah:
- Model memprediksi "semua normal" → accuracy 99.5% (hampir sama dengan "model terbaik")
- Recall fraud: 0% — tidak satu pun fraud terdeteksi
- Laporan hanya menampilkan accuracy → pembaca tersesat
| Metrik | Nilai | Interpretasi |
|---|---|---|
| Accuracy | 99.6% | Tidak bermakna |
| Recall (fraud) | 0% | Gagal total |
| F2-score | 0.00 | Model tidak berguna |
| AUC-ROC | 0.50 | Sama dengan random |
Solusi: Gunakan F2-score, Recall, AUC-ROC. Tambahkan teknik resampling (SMOTE, class weighting). Laporkan semua metrik.
Studi Kasus 2 — User Satisfaction vs System Metric (Advanced)
Konteks: Sistem rekomendasi baru — Precision@10 meningkat dari 72% ke 89%. Tapi user survey score turun.
Gap Metrik:
- Researcher hanya mengukur Precision@10 (teknis)
- User experience: semua rekomendasi mirip (filter bubble), tidak ada kejutan
- Metrik teknis tidak merepresentasikan kepuasan pengguna
Pelajaran:
Technical Metric ≠ User Experience
Precision@10 ≠ User Satisfaction
Solusi: Tambahkan Beyond-Accuracy Metrics:
- Diversity (keberagaman rekomendasi)
- Novelty (seberapa baru item yang direkomendasikan)
- Serendipity (kejutan positif)
- Coverage (berapa persen katalog yang bisa direkomendasikan)
Research vs Engineering — Perspektif Measurement
| Aspek | Engineering | Research |
|---|---|---|
| Memilih metrik | Yang paling mudah dihitung | Yang paling merepresentasikan konsep |
| Performa "bagus" | Lulus acceptance test | Signifikan secara statistik vs baseline |
| Data quality | Cukup untuk demo | Terdokumentasi, justified, reproducible |
| Baseline | Tidak ada (sistem baru) | Wajib ada, dipilih dari literatur |
| Laporan | Metrics terbaik saja | Semua metrics, termasuk yang buruk |
Ringkasan Pertemuan 5
| Konsep | Inti |
|---|---|
| Measurement Alignment | Problem → Concept → Variable → Metric → Data → Result |
| Operasionalisasi | Konsep abstrak → variabel observable → satuan terukur |
| 4 Skala Data | Nominal · Ordinal · Interval · Ratio (menentukan analisis statistik) |
| Pemilihan Metrik | Representatif + Sensitif + Feasible |
| Multi-Metric | 2–3 metrik saling melengkapi; tidak ada metrik universal |
| Data Quality | Completeness + Consistency + Accuracy + Representativeness |
Final Statement & Output Praktis
Output Praktis M5
Buat dokumen definisi pengukuran:
- Tabel Variable Operationalization: Concept → Variable → Metric → Data Type → Statistical Test
- Justifikasi pemilihan metrik (1 paragraf per metrik utama)
- Data quality plan: bagaimana memastikan 4 pilar kualitas data terpenuhi
Dokumen ini menjadi bagian "Metodologi — Pengukuran" dalam proposal riset.
Referensi Utama — Bab 5
-
Field, A. (2018). Discovering statistics using IBM SPSS statistics (5th ed.). SAGE Publications.
-
Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.
-
Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). Experimentation in software engineering. Springer.
-
Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004). Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems, 22(1), 5–53.