hb_alim e3e1e8db41 feat: add slide deck and book prompt template

- slide/: 16 Marp slide files with inline UPB CSS theme
  (slide-01 through slide-16, covering all RTI-20252 topics)
- slide/theme/: upb.css canonical theme + logo-upb.png
- docs/AI-BOOK-PROMPT-TEMPLATE.md: RTI-20252 book authoring prompt

2026-04-13 15:04:45 +07:00

41 KiB

Raw Permalink Blame History

marp	paginate	class	header	footer
true	true	bagian-ii	RTI — Riset Teknologi Informasi \| Universitas Putra Bangsa Kebumen	Helmi Bahar Alim, S.Kom., M.Kom. \| 2026

Bab 5 — Metric, Measurement & Data

Operasionalisasi: Dari Konsep ke Angka yang Bermakna

Pertemuan 5 (M5) | Sub-CPMK 2.1 | CPMK02 | CPL06

Fase: Designing (M5–M7) · Bagian II: Measurement & Design

Universitas Putra Bangsa | Fak. Sains & Teknologi · Prodi Teknik Informatika

Agenda Pertemuan 5

Bridge dari Fase Thinking — fondasi ke pengukuran
Measurement Alignment Model
Operasionalisasi: Concept → Variable → Metric
Empat skala data: Nominal, Ordinal, Interval, Ratio
Kriteria pemilihan metrik
Multi-metric evaluation — mengapa satu metrik tidak cukup
Data quality: 4 pilar
Cognitive Traps & Studi Kasus
Output Praktis: Definisi variabel + metrik + tipe data

Capaian Pembelajaran

Setelah pertemuan ini, mahasiswa mampu:

Menjelaskan proses operasionalisasi dari konsep abstrak ke variabel terukur
Membedakan 4 skala data dan menentukan analisis statistik yang valid per skala
Memilih metrik yang representatif, sensitif, dan feasible sesuai RQ
Merancang multi-metric evaluation yang komprehensif
Menilai kualitas data menggunakan 4 pilar

Sub-CPMK 2.1 → Mendefinisikan metrik yang valid dan representatif (CPL06)

Bridge — Dari Fase Thinking ke Designing

Di Bab 4, Anda menghasilkan:

RQ yang tajam dan testable
Hipotesis H0/H1 yang falsifiable
Contribution Statement yang eksplisit

Sekarang pertanyaannya: Apa tepatnya yang akan diukur?

"Sistem yang diusulkan memiliki performa lebih baik dibanding baseline."

Performa diukur dari apa?
Akurasi? Precision? Recall? F1? Latency? Throughput?
Dan jika dipilih akurasi — apakah distribusi datanya seimbang?

Keputusan memilih metrik harus dilakukan SEBELUM eksperimen berjalan — bukan setelah melihat data. (Wohlin et al., 2012)

Measurement Alignment Model

Setiap angka harus bisa ditelusuri balik dari Problem

Problem → Concept → Variable → Metric → Data → Result
  ↕         ↕          ↕          ↕        ↕       ↕
Abstraksi  Konsep  Operasionalisasi  Kuantifikasi  Pengumpulan  Analisis

Transisi	Pertanyaan Kunci	Kegagalan Umum
Problem → Concept	Konsep apa yang mewakili masalah ini?	Konsep terlalu abstrak
Concept → Variable	Bagaimana konsep ini bisa diobservasi?	Variabel tidak merepresentasikan konsep
Variable → Metric	Dengan satuan apa diukur?	Metrik tidak sensitif terhadap perubahan
Metric → Data	Bagaimana data dikumpulkan?	Bias dalam pengumpulan
Data → Result	Analisis statistik apa yang valid?	Asumsi statistik tidak dipenuhi

Jika rantai ini putus di mana saja → construct validity rusak.

Operasionalisasi: Dari Konsep ke Angka

Contoh operasionalisasi "User Engagement":

Concept: User Engagement (abstrak)

↓ Variable 1: Frekuensi penggunaan | Variable 2: Durasi sesi rata-rata | Variable 3: Breadth of feature usage

↓ Metric 1: Jumlah sesi/minggu | Metric 2: Durasi rata-rata sesi (menit) | Metric 3: Jumlah fitur unik/sesi

↓ Data Type: Ratio | Ratio | Ratio

Keputusan tentang apa yang mewakili apa harus didokumentasikan dan dijustifikasi. Pembaca harus bisa memahami mengapa variabel ini dipilih (dan bukan variabel lain).

Empat Skala Data

(Field, 2018)

Skala	Urutan?	Jarak Seragam?	Nol Absolut?	Contoh	Analisis Valid
Nominal	–	–	–	Jenis browser, bahasa pemrograman	Frekuensi, modus, Chi-square
Ordinal	✓	–	–	Skala Likert, severity bug	Median, percentile, Mann-Whitney
Interval	✓	✓	–	Suhu Celsius, skor IQ	Mean, SD, t-test
Ratio	✓	✓	✓	Waktu respons (ms), akurasi (%), throughput	Semua operasi, termasuk rasio

Kesalahan paling umum: memperlakukan Ordinal (Likert 1–5) seolah Interval, lalu menghitung rata-rata dan menggunakan t-test. Tidak valid secara statistik kecuali ada justifikasi khusus.

Kriteria Pemilihan Metrik

Tiga kriteria utama (Wohlin et al., 2012):

1. Representatif — Metrik benar-benar merepresentasikan konsep yang diteliti.

Jika RQ tentang efektivitas deteksi → Recall lebih representatif daripada Accuracy
Menggunakan Accuracy untuk dataset imbalance

2. Sensitif — Metrik cukup peka terhadap perubahan variabel independen.

F1-score sensitif terhadap trade-off precision-recall
Accuracy pada 99% imbalance tidak sensitif terhadap perubahan model

3. Feasible — Data yang dibutuhkan untuk menghitung metrik bisa diperoleh.

Metrik yang bisa dihitung dari log sistem
Metrik yang membutuhkan 10.000 human annotators dalam 1 semester

Multi-Metric Evaluation

Mengapa satu metrik tidak cukup?

Problem ──→ Concept A ──→ Metric A1
       └──→ Concept B ──→ Metric B1
                     └──→ Metric B2

Kasus	Metrik Tunggal	Multi-Metrik
Fraud detection	Accuracy: 98% (menyesatkan)	Recall + Precision + F2 + AUC-ROC
Rekomendasi	Precision@K	Precision@K + Diversity + Coverage + Serendipity
NLP model	F1-score agregat	F1 per kelas + Confusion Matrix + MCC
System performance	Throughput	Throughput + Latency P50/P95/P99 + Error rate

Setiap metrik mengukur satu aspek dari konsep. Gunakan minimal 2–3 metrik yang saling melengkapi untuk gambaran yang komprehensif.

Data Quality — 4 Pilar

Data berkualitas buruk menghasilkan hasil yang tidak dapat dipercaya, meskipun metodenya sempurna.

Pilar	Definisi	Cara Cek
Completeness	Tidak ada nilai yang hilang secara tidak terduga	% missing values per kolom
Consistency	Format dan logika data konsisten di seluruh dataset	Cross-field validation
Accuracy	Data merepresentasikan realitas yang sebenarnya	Bandingkan dengan ground truth / sumber asli
Representativeness	Distribusi data mencerminkan populasi target	Distribusi kelas, geografi, demografi

Dokumentasi kualitas data wajib ada dalam laporan:

Cara pengumpulan data
Transformasi yang dilakukan
Missing values: berapa? diapakan?

Cognitive Traps

Bab 5 — Metric & Measurement

Cognitive Traps — Bab 5

"Accuracy adalah metrik universal" Accuracy misleading untuk imbalanced dataset. Model yang memprediksi "semua negatif" pada dataset 99% negatif mendapat accuracy 99%. Gunakan Precision, Recall, F1, MCC, atau AUC sesuai konteks.

"Metrik dipilih setelah melihat hasil eksperimen" Ini adalah outcome bias — memilih metrik yang kebetulan menghasilkan nilai terbaik. Metrik harus ditetapkan dalam desain eksperimen, sebelum data dikumpulkan.

"Data yang banyak pasti representatif" Volume ≠ representativeness. 1 juta record dari satu demografi tidak merepresentasikan populasi yang beragam. Periksa distribusi dan sumber data, bukan hanya ukurannya.

Studi Kasus 1 — Accuracy Imbalance (Basic)

Konteks: Researcher menggunakan dataset fraud (99.5% normal, 0.5% fraud). Hasil: Accuracy 99.6%.

Masalah:

Model memprediksi "semua normal" → accuracy 99.5% (hampir sama dengan "model terbaik")
Recall fraud: 0% — tidak satu pun fraud terdeteksi
Laporan hanya menampilkan accuracy → pembaca tersesat

Metrik	Nilai	Interpretasi
Accuracy	99.6%	Tidak bermakna
Recall (fraud)	0%	Gagal total
F2-score	0.00	Model tidak berguna
AUC-ROC	0.50	Sama dengan random

Solusi: Gunakan F2-score, Recall, AUC-ROC. Tambahkan teknik resampling (SMOTE, class weighting). Laporkan semua metrik.

Studi Kasus 2 — User Satisfaction vs System Metric (Advanced)

Konteks: Sistem rekomendasi baru — Precision@10 meningkat dari 72% ke 89%. Tapi user survey score turun.

Gap Metrik:

Researcher hanya mengukur Precision@10 (teknis)
User experience: semua rekomendasi mirip (filter bubble), tidak ada kejutan
Metrik teknis tidak merepresentasikan kepuasan pengguna

Pelajaran:

Technical Metric ≠ User Experience
Precision@10     ≠ User Satisfaction

Solusi: Tambahkan Beyond-Accuracy Metrics:

Diversity (keberagaman rekomendasi)
Novelty (seberapa baru item yang direkomendasikan)
Serendipity (kejutan positif)
Coverage (berapa persen katalog yang bisa direkomendasikan)

Research vs Engineering — Perspektif Measurement

Aspek	Engineering	Research
Memilih metrik	Yang paling mudah dihitung	Yang paling merepresentasikan konsep
Performa "bagus"	Lulus acceptance test	Signifikan secara statistik vs baseline
Data quality	Cukup untuk demo	Terdokumentasi, justified, reproducible
Baseline	Tidak ada (sistem baru)	Wajib ada, dipilih dari literatur
Laporan	Metrics terbaik saja	Semua metrics, termasuk yang buruk

Ringkasan Pertemuan 5

Konsep	Inti
Measurement Alignment	Problem → Concept → Variable → Metric → Data → Result
Operasionalisasi	Konsep abstrak → variabel observable → satuan terukur
4 Skala Data	Nominal · Ordinal · Interval · Ratio (menentukan analisis statistik)
Pemilihan Metrik	Representatif + Sensitif + Feasible
Multi-Metric	2–3 metrik saling melengkapi; tidak ada metrik universal
Data Quality	Completeness + Consistency + Accuracy + Representativeness

Final Statement & Output Praktis

"Penelitian yang baik bukan hanya mengukur, tetapi memastikan bahwa apa yang diukur benar-benar merepresentasikan realitas."

Output Praktis M5

Buat dokumen definisi pengukuran:

Tabel Variable Operationalization: Concept → Variable → Metric → Data Type → Statistical Test
Justifikasi pemilihan metrik (1 paragraf per metrik utama)
Data quality plan: bagaimana memastikan 4 pilar kualitas data terpenuhi

Dokumen ini menjadi bagian "Metodologi — Pengukuran" dalam proposal riset.

Referensi Utama — Bab 5

Field, A. (2018). Discovering statistics using IBM SPSS statistics (5th ed.). SAGE Publications.
Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.
Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). Experimentation in software engineering. Springer.
Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004). Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems, 22(1), 5–53.

41 KiB Raw Permalink Blame History Unescape Escape