riset-teknologi-informasi/slide/slide-05-metrics-measurement.md
hb_alim e3e1e8db41 feat: add slide deck and book prompt template
- slide/: 16 Marp slide files with inline UPB CSS theme
  (slide-01 through slide-16, covering all RTI-20252 topics)
- slide/theme/: upb.css canonical theme + logo-upb.png
- docs/AI-BOOK-PROMPT-TEMPLATE.md: RTI-20252 book authoring prompt
2026-04-13 15:04:45 +07:00

41 KiB
Raw Blame History

marp paginate class header footer
true true bagian-ii RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen Helmi Bahar Alim, S.Kom., M.Kom. | 2026

Bab 5 — Metric, Measurement & Data

Operasionalisasi: Dari Konsep ke Angka yang Bermakna

Pertemuan 5 (M5)  |  Sub-CPMK 2.1  |  CPMK02  |  CPL06

Fase: Designing (M5M7)  ·  Bagian II: Measurement & Design

Universitas Putra Bangsa  |  Fak. Sains & Teknologi  ·  Prodi Teknik Informatika


Agenda Pertemuan 5

  1. Bridge dari Fase Thinking — fondasi ke pengukuran
  2. Measurement Alignment Model
  3. Operasionalisasi: Concept → Variable → Metric
  4. Empat skala data: Nominal, Ordinal, Interval, Ratio
  5. Kriteria pemilihan metrik
  6. Multi-metric evaluation — mengapa satu metrik tidak cukup
  7. Data quality: 4 pilar
  8. Cognitive Traps & Studi Kasus
  9. Output Praktis: Definisi variabel + metrik + tipe data

Capaian Pembelajaran

Setelah pertemuan ini, mahasiswa mampu:

  • Menjelaskan proses operasionalisasi dari konsep abstrak ke variabel terukur
  • Membedakan 4 skala data dan menentukan analisis statistik yang valid per skala
  • Memilih metrik yang representatif, sensitif, dan feasible sesuai RQ
  • Merancang multi-metric evaluation yang komprehensif
  • Menilai kualitas data menggunakan 4 pilar

Sub-CPMK 2.1 → Mendefinisikan metrik yang valid dan representatif (CPL06)


Bridge — Dari Fase Thinking ke Designing

Di Bab 4, Anda menghasilkan:

  • RQ yang tajam dan testable
  • Hipotesis H0/H1 yang falsifiable
  • Contribution Statement yang eksplisit

Sekarang pertanyaannya: Apa tepatnya yang akan diukur?

"Sistem yang diusulkan memiliki performa lebih baik dibanding baseline."

  • Performa diukur dari apa?
  • Akurasi? Precision? Recall? F1? Latency? Throughput?
  • Dan jika dipilih akurasi — apakah distribusi datanya seimbang?

Keputusan memilih metrik harus dilakukan SEBELUM eksperimen berjalan — bukan setelah melihat data. (Wohlin et al., 2012)


Measurement Alignment Model

Setiap angka harus bisa ditelusuri balik dari Problem

Problem → Concept → Variable → Metric → Data → Result
  ↕         ↕          ↕          ↕        ↕       ↕
Abstraksi  Konsep  Operasionalisasi  Kuantifikasi  Pengumpulan  Analisis
Transisi Pertanyaan Kunci Kegagalan Umum
Problem → Concept Konsep apa yang mewakili masalah ini? Konsep terlalu abstrak
Concept → Variable Bagaimana konsep ini bisa diobservasi? Variabel tidak merepresentasikan konsep
Variable → Metric Dengan satuan apa diukur? Metrik tidak sensitif terhadap perubahan
Metric → Data Bagaimana data dikumpulkan? Bias dalam pengumpulan
Data → Result Analisis statistik apa yang valid? Asumsi statistik tidak dipenuhi

Jika rantai ini putus di mana saja → construct validity rusak.


Operasionalisasi: Dari Konsep ke Angka

Contoh operasionalisasi "User Engagement":

Concept: User Engagement (abstrak)

↓ Variable 1: Frekuensi penggunaan  |  Variable 2: Durasi sesi rata-rata  |  Variable 3: Breadth of feature usage

↓ Metric 1: Jumlah sesi/minggu  |  Metric 2: Durasi rata-rata sesi (menit)  |  Metric 3: Jumlah fitur unik/sesi

Data Type: Ratio | Ratio | Ratio

Keputusan tentang apa yang mewakili apa harus didokumentasikan dan dijustifikasi. Pembaca harus bisa memahami mengapa variabel ini dipilih (dan bukan variabel lain).


Empat Skala Data

(Field, 2018)

Skala Urutan? Jarak Seragam? Nol Absolut? Contoh Analisis Valid
Nominal Jenis browser, bahasa pemrograman Frekuensi, modus, Chi-square
Ordinal Skala Likert, severity bug Median, percentile, Mann-Whitney
Interval Suhu Celsius, skor IQ Mean, SD, t-test
Ratio Waktu respons (ms), akurasi (%), throughput Semua operasi, termasuk rasio

Kesalahan paling umum: memperlakukan Ordinal (Likert 15) seolah Interval, lalu menghitung rata-rata dan menggunakan t-test. Tidak valid secara statistik kecuali ada justifikasi khusus.


Kriteria Pemilihan Metrik

Tiga kriteria utama (Wohlin et al., 2012):

1. Representatif — Metrik benar-benar merepresentasikan konsep yang diteliti.

  • Jika RQ tentang efektivitas deteksi → Recall lebih representatif daripada Accuracy
  • Menggunakan Accuracy untuk dataset imbalance

2. Sensitif — Metrik cukup peka terhadap perubahan variabel independen.

  • F1-score sensitif terhadap trade-off precision-recall
  • Accuracy pada 99% imbalance tidak sensitif terhadap perubahan model

3. Feasible — Data yang dibutuhkan untuk menghitung metrik bisa diperoleh.

  • Metrik yang bisa dihitung dari log sistem
  • Metrik yang membutuhkan 10.000 human annotators dalam 1 semester

Multi-Metric Evaluation

Mengapa satu metrik tidak cukup?

Problem ──→ Concept A ──→ Metric A1
       └──→ Concept B ──→ Metric B1
                     └──→ Metric B2
Kasus Metrik Tunggal Multi-Metrik
Fraud detection Accuracy: 98% (menyesatkan) Recall + Precision + F2 + AUC-ROC
Rekomendasi Precision@K Precision@K + Diversity + Coverage + Serendipity
NLP model F1-score agregat F1 per kelas + Confusion Matrix + MCC
System performance Throughput Throughput + Latency P50/P95/P99 + Error rate

Setiap metrik mengukur satu aspek dari konsep. Gunakan minimal 23 metrik yang saling melengkapi untuk gambaran yang komprehensif.


Data Quality — 4 Pilar

Data berkualitas buruk menghasilkan hasil yang tidak dapat dipercaya, meskipun metodenya sempurna.

Pilar Definisi Cara Cek
Completeness Tidak ada nilai yang hilang secara tidak terduga % missing values per kolom
Consistency Format dan logika data konsisten di seluruh dataset Cross-field validation
Accuracy Data merepresentasikan realitas yang sebenarnya Bandingkan dengan ground truth / sumber asli
Representativeness Distribusi data mencerminkan populasi target Distribusi kelas, geografi, demografi

Dokumentasi kualitas data wajib ada dalam laporan:

  • Cara pengumpulan data
  • Transformasi yang dilakukan
  • Missing values: berapa? diapakan?

Cognitive Traps

Bab 5 — Metric & Measurement


Cognitive Traps — Bab 5

"Accuracy adalah metrik universal" Accuracy misleading untuk imbalanced dataset. Model yang memprediksi "semua negatif" pada dataset 99% negatif mendapat accuracy 99%. Gunakan Precision, Recall, F1, MCC, atau AUC sesuai konteks.

"Metrik dipilih setelah melihat hasil eksperimen" Ini adalah outcome bias — memilih metrik yang kebetulan menghasilkan nilai terbaik. Metrik harus ditetapkan dalam desain eksperimen, sebelum data dikumpulkan.

"Data yang banyak pasti representatif" Volume ≠ representativeness. 1 juta record dari satu demografi tidak merepresentasikan populasi yang beragam. Periksa distribusi dan sumber data, bukan hanya ukurannya.


Studi Kasus 1 — Accuracy Imbalance (Basic)

Konteks: Researcher menggunakan dataset fraud (99.5% normal, 0.5% fraud). Hasil: Accuracy 99.6%.

Masalah:

  • Model memprediksi "semua normal" → accuracy 99.5% (hampir sama dengan "model terbaik")
  • Recall fraud: 0% — tidak satu pun fraud terdeteksi
  • Laporan hanya menampilkan accuracy → pembaca tersesat
Metrik Nilai Interpretasi
Accuracy 99.6% Tidak bermakna
Recall (fraud) 0% Gagal total
F2-score 0.00 Model tidak berguna
AUC-ROC 0.50 Sama dengan random

Solusi: Gunakan F2-score, Recall, AUC-ROC. Tambahkan teknik resampling (SMOTE, class weighting). Laporkan semua metrik.


Studi Kasus 2 — User Satisfaction vs System Metric (Advanced)

Konteks: Sistem rekomendasi baru — Precision@10 meningkat dari 72% ke 89%. Tapi user survey score turun.

Gap Metrik:

  • Researcher hanya mengukur Precision@10 (teknis)
  • User experience: semua rekomendasi mirip (filter bubble), tidak ada kejutan
  • Metrik teknis tidak merepresentasikan kepuasan pengguna

Pelajaran:

Technical Metric ≠ User Experience
Precision@10     ≠ User Satisfaction

Solusi: Tambahkan Beyond-Accuracy Metrics:

  • Diversity (keberagaman rekomendasi)
  • Novelty (seberapa baru item yang direkomendasikan)
  • Serendipity (kejutan positif)
  • Coverage (berapa persen katalog yang bisa direkomendasikan)

Research vs Engineering — Perspektif Measurement

Aspek Engineering Research
Memilih metrik Yang paling mudah dihitung Yang paling merepresentasikan konsep
Performa "bagus" Lulus acceptance test Signifikan secara statistik vs baseline
Data quality Cukup untuk demo Terdokumentasi, justified, reproducible
Baseline Tidak ada (sistem baru) Wajib ada, dipilih dari literatur
Laporan Metrics terbaik saja Semua metrics, termasuk yang buruk

Ringkasan Pertemuan 5

Konsep Inti
Measurement Alignment Problem → Concept → Variable → Metric → Data → Result
Operasionalisasi Konsep abstrak → variabel observable → satuan terukur
4 Skala Data Nominal · Ordinal · Interval · Ratio (menentukan analisis statistik)
Pemilihan Metrik Representatif + Sensitif + Feasible
Multi-Metric 23 metrik saling melengkapi; tidak ada metrik universal
Data Quality Completeness + Consistency + Accuracy + Representativeness

Final Statement & Output Praktis

"Penelitian yang baik bukan hanya mengukur, tetapi memastikan bahwa apa yang diukur benar-benar merepresentasikan realitas."

Output Praktis M5

Buat dokumen definisi pengukuran:

  1. Tabel Variable Operationalization: Concept → Variable → Metric → Data Type → Statistical Test
  2. Justifikasi pemilihan metrik (1 paragraf per metrik utama)
  3. Data quality plan: bagaimana memastikan 4 pilar kualitas data terpenuhi

Dokumen ini menjadi bagian "Metodologi — Pengukuran" dalam proposal riset.


Referensi Utama — Bab 5

  • Field, A. (2018). Discovering statistics using IBM SPSS statistics (5th ed.). SAGE Publications.

  • Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.

  • Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). Experimentation in software engineering. Springer.

  • Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004). Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems, 22(1), 553.