--- marp: true paginate: true class: bagian-ii header: 'RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen' footer: 'Helmi Bahar Alim, S.Kom., M.Kom. | 2026' --- # Bab 5 — Metric, Measurement & Data ## Operasionalisasi: Dari Konsep ke Angka yang Bermakna *Pertemuan 5 (M5) | Sub-CPMK 2.1 | CPMK02 | CPL06* Fase: **Designing** (M5–M7) · Bagian II: Measurement & Design **Universitas Putra Bangsa** | Fak. Sains & Teknologi · Prodi Teknik Informatika --- ## Agenda Pertemuan 5 1. Bridge dari Fase Thinking — fondasi ke pengukuran 2. Measurement Alignment Model 3. Operasionalisasi: Concept → Variable → Metric 4. Empat skala data: Nominal, Ordinal, Interval, Ratio 5. Kriteria pemilihan metrik 6. Multi-metric evaluation — mengapa satu metrik tidak cukup 7. Data quality: 4 pilar 8. Cognitive Traps & Studi Kasus 9. Output Praktis: Definisi variabel + metrik + tipe data --- ## Capaian Pembelajaran Setelah pertemuan ini, mahasiswa mampu: - Menjelaskan proses **operasionalisasi** dari konsep abstrak ke variabel terukur - Membedakan 4 skala data dan menentukan **analisis statistik** yang valid per skala - Memilih metrik yang **representatif, sensitif, dan feasible** sesuai RQ - Merancang **multi-metric evaluation** yang komprehensif - Menilai **kualitas data** menggunakan 4 pilar > Sub-CPMK 2.1 → Mendefinisikan metrik yang valid dan representatif (CPL06) --- ## Bridge — Dari Fase Thinking ke Designing Di Bab 4, Anda menghasilkan: - **RQ** yang tajam dan testable - **Hipotesis** H0/H1 yang falsifiable - **Contribution Statement** yang eksplisit **Sekarang pertanyaannya:** Apa tepatnya yang akan **diukur**? > "Sistem yang diusulkan memiliki performa lebih baik dibanding baseline." - Performa diukur dari apa? - Akurasi? Precision? Recall? F1? Latency? Throughput? - Dan jika dipilih akurasi — apakah distribusi datanya seimbang? **Keputusan memilih metrik harus dilakukan SEBELUM eksperimen berjalan** — bukan setelah melihat data. *(Wohlin et al., 2012)* --- ## Measurement Alignment Model *Setiap angka harus bisa ditelusuri balik dari Problem* ``` Problem → Concept → Variable → Metric → Data → Result ↕ ↕ ↕ ↕ ↕ ↕ Abstraksi Konsep Operasionalisasi Kuantifikasi Pengumpulan Analisis ``` | Transisi | Pertanyaan Kunci | Kegagalan Umum | |----------|-----------------|----------------| | Problem → Concept | Konsep apa yang mewakili masalah ini? | Konsep terlalu abstrak | | Concept → Variable | Bagaimana konsep ini bisa diobservasi? | Variabel tidak merepresentasikan konsep | | Variable → Metric | Dengan satuan apa diukur? | Metrik tidak sensitif terhadap perubahan | | Metric → Data | Bagaimana data dikumpulkan? | Bias dalam pengumpulan | | Data → Result | Analisis statistik apa yang valid? | Asumsi statistik tidak dipenuhi | > Jika rantai ini putus di mana saja → **construct validity** rusak. --- ## Operasionalisasi: Dari Konsep ke Angka **Contoh operasionalisasi "User Engagement":**

**Concept:** User Engagement (abstrak)

↓ Variable 1: Frekuensi penggunaan  |  Variable 2: Durasi sesi rata-rata  |  Variable 3: Breadth of feature usage

↓ Metric 1: Jumlah sesi/minggu  |  Metric 2: Durasi rata-rata sesi (menit)  |  Metric 3: Jumlah fitur unik/sesi

↓ **Data Type:** Ratio | Ratio | Ratio

> Keputusan tentang **apa yang mewakili apa** harus **didokumentasikan dan dijustifikasi**. Pembaca harus bisa memahami mengapa variabel ini dipilih (dan bukan variabel lain). --- ## Empat Skala Data *(Field, 2018)* | Skala | Urutan? | Jarak Seragam? | Nol Absolut? | Contoh | Analisis Valid | |-------|---------|---------------|-------------|--------|----------------| | **Nominal** | – | – | – | Jenis browser, bahasa pemrograman | Frekuensi, modus, Chi-square | | **Ordinal** | ✓ | – | – | Skala Likert, severity bug | Median, percentile, Mann-Whitney | | **Interval** | ✓ | ✓ | – | Suhu Celsius, skor IQ | Mean, SD, t-test | | **Ratio** | ✓ | ✓ | ✓ | Waktu respons (ms), akurasi (%), throughput | Semua operasi, termasuk rasio | > **Kesalahan paling umum:** memperlakukan **Ordinal** (Likert 1–5) seolah Interval, lalu menghitung rata-rata dan menggunakan t-test. Tidak valid secara statistik kecuali ada justifikasi khusus. --- ## Kriteria Pemilihan Metrik Tiga kriteria utama *(Wohlin et al., 2012)*: **1. Representatif** — Metrik benar-benar merepresentasikan konsep yang diteliti. - Jika RQ tentang efektivitas deteksi → Recall lebih representatif daripada Accuracy - Menggunakan Accuracy untuk dataset imbalance **2. Sensitif** — Metrik cukup peka terhadap perubahan variabel independen. - F1-score sensitif terhadap trade-off precision-recall - Accuracy pada 99% imbalance tidak sensitif terhadap perubahan model **3. Feasible** — Data yang dibutuhkan untuk menghitung metrik bisa diperoleh. - Metrik yang bisa dihitung dari log sistem - Metrik yang membutuhkan 10.000 human annotators dalam 1 semester --- ## Multi-Metric Evaluation **Mengapa satu metrik tidak cukup?** ``` Problem ──→ Concept A ──→ Metric A1 └──→ Concept B ──→ Metric B1 └──→ Metric B2 ``` | Kasus | Metrik Tunggal | Multi-Metrik | |-------|---------------|-------------| | Fraud detection | Accuracy: 98% (menyesatkan) | Recall + Precision + F2 + AUC-ROC | | Rekomendasi | Precision@K | Precision@K + Diversity + Coverage + Serendipity | | NLP model | F1-score agregat | F1 per kelas + Confusion Matrix + MCC | | System performance | Throughput | Throughput + Latency P50/P95/P99 + Error rate | > Setiap metrik mengukur satu aspek dari konsep. Gunakan minimal **2–3 metrik yang saling melengkapi** untuk gambaran yang komprehensif. --- ## Data Quality — 4 Pilar Data berkualitas buruk menghasilkan hasil yang tidak dapat dipercaya, meskipun metodenya sempurna. | Pilar | Definisi | Cara Cek | |-------|---------|---------| | **Completeness** | Tidak ada nilai yang hilang secara tidak terduga | % missing values per kolom | | **Consistency** | Format dan logika data konsisten di seluruh dataset | Cross-field validation | | **Accuracy** | Data merepresentasikan realitas yang sebenarnya | Bandingkan dengan ground truth / sumber asli | | **Representativeness** | Distribusi data mencerminkan populasi target | Distribusi kelas, geografi, demografi | **Dokumentasi kualitas data** wajib ada dalam laporan: - Cara pengumpulan data - Transformasi yang dilakukan - Missing values: berapa? diapakan? --- # Cognitive Traps ## Bab 5 — Metric & Measurement --- ## Cognitive Traps — Bab 5 **"Accuracy adalah metrik universal"** Accuracy misleading untuk imbalanced dataset. Model yang memprediksi "semua negatif" pada dataset 99% negatif mendapat accuracy 99%. Gunakan Precision, Recall, F1, MCC, atau AUC sesuai konteks. **"Metrik dipilih setelah melihat hasil eksperimen"** Ini adalah *outcome bias* — memilih metrik yang kebetulan menghasilkan nilai terbaik. Metrik harus ditetapkan dalam desain eksperimen, sebelum data dikumpulkan. **"Data yang banyak pasti representatif"** Volume ≠ representativeness. 1 juta record dari satu demografi tidak merepresentasikan populasi yang beragam. Periksa distribusi dan sumber data, bukan hanya ukurannya. --- ## Studi Kasus 1 — Accuracy Imbalance (Basic) **Konteks:** Researcher menggunakan dataset fraud (99.5% normal, 0.5% fraud). Hasil: **Accuracy 99.6%**. **Masalah:** - Model memprediksi "semua normal" → accuracy 99.5% (hampir sama dengan "model terbaik") - Recall fraud: **0%** — tidak satu pun fraud terdeteksi - Laporan hanya menampilkan accuracy → pembaca tersesat | Metrik | Nilai | Interpretasi | |--------|-------|-------------| | Accuracy | 99.6% | Tidak bermakna | | Recall (fraud) | 0% | Gagal total | | F2-score | 0.00 | Model tidak berguna | | AUC-ROC | 0.50 | Sama dengan random | **Solusi:** Gunakan F2-score, Recall, AUC-ROC. Tambahkan teknik resampling (SMOTE, class weighting). Laporkan semua metrik. --- ## Studi Kasus 2 — User Satisfaction vs System Metric (Advanced) **Konteks:** Sistem rekomendasi baru — Precision@10 meningkat dari 72% ke 89%. Tapi user survey score turun. **Gap Metrik:** - Researcher hanya mengukur Precision@10 (teknis) - User experience: semua rekomendasi mirip (filter bubble), tidak ada kejutan - Metrik teknis tidak merepresentasikan kepuasan pengguna **Pelajaran:** ``` Technical Metric ≠ User Experience Precision@10 ≠ User Satisfaction ``` **Solusi:** Tambahkan **Beyond-Accuracy Metrics**: - Diversity (keberagaman rekomendasi) - Novelty (seberapa baru item yang direkomendasikan) - Serendipity (kejutan positif) - Coverage (berapa persen katalog yang bisa direkomendasikan) --- ## Research vs Engineering — Perspektif Measurement | Aspek | Engineering | Research | |-------|------------|---------| | Memilih metrik | Yang paling mudah dihitung | Yang paling merepresentasikan konsep | | Performa "bagus" | Lulus acceptance test | Signifikan secara statistik vs baseline | | Data quality | Cukup untuk demo | Terdokumentasi, justified, reproducible | | Baseline | Tidak ada (sistem baru) | Wajib ada, dipilih dari literatur | | Laporan | Metrics terbaik saja | Semua metrics, termasuk yang buruk | --- ## Ringkasan Pertemuan 5 | Konsep | Inti | |--------|------| | Measurement Alignment | Problem → Concept → Variable → Metric → Data → Result | | Operasionalisasi | Konsep abstrak → variabel observable → satuan terukur | | 4 Skala Data | Nominal · Ordinal · Interval · Ratio (menentukan analisis statistik) | | Pemilihan Metrik | Representatif + Sensitif + Feasible | | Multi-Metric | 2–3 metrik saling melengkapi; tidak ada metrik universal | | Data Quality | Completeness + Consistency + Accuracy + Representativeness | --- ## Final Statement & Output Praktis

"Penelitian yang baik bukan hanya mengukur, tetapi memastikan bahwa apa yang diukur benar-benar merepresentasikan realitas."

### Output Praktis M5 Buat **dokumen definisi pengukuran**: 1. Tabel **Variable Operationalization**: Concept → Variable → Metric → Data Type → Statistical Test 2. **Justifikasi pemilihan metrik** (1 paragraf per metrik utama) 3. **Data quality plan**: bagaimana memastikan 4 pilar kualitas data terpenuhi *Dokumen ini menjadi bagian "Metodologi — Pengukuran" dalam proposal riset.* --- ## Referensi Utama — Bab 5 - Field, A. (2018). *Discovering statistics using IBM SPSS statistics* (5th ed.). SAGE Publications. - Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). *Experimental and quasi-experimental designs for generalized causal inference*. Houghton Mifflin. - Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). *Experimentation in software engineering*. Springer. - Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004). Evaluating collaborative filtering recommender systems. *ACM Transactions on Information Systems, 22*(1), 5–53.