# WS-05: Variabel & Metrik > **Bab 5 — Metric, Measurement & Data** --- ## Ringkasan Materi ### Measurement Alignment Model Setiap pengukuran yang valid harus bisa ditelusuri melalui rantai ini tanpa lompatan logis: ``` Problem → Concept → Variable → Metric → Data → Result ``` ### Operationalization = Keputusan Desain Menerjemahkan konsep abstrak menjadi variabel terukur bukan proses mekanis. "Code quality" yang diukur via SonarQube code smells membawa asumsi implisit. Setiap operasionalisasi harus didokumentasikan dan dijustifikasi. ### Empat Tipe Data (NOIR) | Tipe | Ciri | Contoh | Operasi Valid | |------|------|--------|---------------| | **Nominal** | Kategori, tanpa urutan | Jenis algoritma (RF, SVM, CNN) | Modus, chi-square | | **Ordinal** | Urutan, interval tidak sama | Skala Likert (1-5) | Median, Spearman | | **Interval** | Jarak bermakna, tanpa nol absolut | Suhu Celsius | Mean, Pearson, t-test | | **Ratio** | Jarak bermakna + nol absolut | Waktu eksekusi (ms) | Semua operasi | Tipe data menentukan uji statistik yang valid. Kebanyakan metrik performa TI = ratio; persepsi pengguna = ordinal. ### Kriteria Pemilihan Metrik - **Representative** — Mewakili konsep yang diteliti - **Sensitive** — Cukup peka menangkap perbedaan bermakna (hindari ceiling effect) - **Feasible** — Bisa dikumpulkan dalam batasan waktu dan biaya ### Pre-registration Metrik harus ditentukan **sebelum** eksperimen. Memilih metrik setelah melihat data = **p-hacking**. Metrik tambahan yang ditemukan kemudian dilaporkan sebagai *exploratory*, bukan *confirmatory*. ### Primary vs Secondary Metric - **Primary Metric** — Langsung terikat ke hipotesis, menentukan kesimpulan - **Secondary Metric** — Pendukung, dilaporkan di samping primary; statusnya suplementer ### Research vs Engineering | Aspek | Engineering | Research | |-------|------------|----------| | Pemilihan metrik | Berdasarkan kebiasaan/tool yang ada | Berdasarkan construct validity | | Anomali | Dihapus untuk laporan bersih | Diinvestigasi — bisa jadi temuan | | Kapan dipilih | Setelah sistem jadi (monitoring) | Sebelum eksperimen (by design) | ### Istilah Penting - **Operationalization** — Transformasi konsep abstrak menjadi variabel terukur - **Construct Validity** — Sejauh mana pengukuran benar-benar mengukur konsep yang dimaksud - **Measurement Scale** — Klasifikasi data (NOIR) yang menentukan analisis valid - **Multi-metric Evaluation** — Menggunakan beberapa metrik untuk menangkap konsep kompleks --- ## Template A.5 — Definisi Variabel, Metrik & Justifikasi ``` VARIABLE & METRIC DEFINITION Research Question: ____________________ | Variabel | Tipe | Konsep | Metrik | Skala | Satuan | Cara Mengukur | Justifikasi | |----------|------|--------|--------|-------|--------|---------------|-------------| | | IV | | | | | | | | | DV | | | | | | | | | CV | | | | | | | Alignment Check: RQ → Concept → Variable → Metric → Data → Result [ ] Setiap langkah terdokumentasi [ ] Tidak ada "lompatan logis" [ ] Metrik mengukur apa yang dimaksud (construct validity) ``` --- ## Latihan 1 — Operationalization Chain Gunakan RQ dari WS-04. Definisikan variabel dan metriknya. **RQ:** __________________________________________________ | Variabel | Tipe | Konsep Abstrak | Metrik Konkret | Skala (NOIR) | Satuan | |----------|------|---------------|----------------|-------------|--------| | *Contoh: Jenis model* | *IV* | *Pendekatan klasifikasi* | *Categorical: CNN vs RF* | *Nominal* | *—* | | | DV | | | | | | | CV | | | | | **Apakah ada lompatan logis dalam rantai?** [ ] Ya / [ ] Tidak > Jika ya, di mana? ____________________________________ --- ## Latihan 2 — Evaluasi Metrik Evaluasi metrik DV yang dipilih di Latihan 1 menggunakan 3 kriteria. | Kriteria | Skor (1-5) | Justifikasi | |----------|-----------|-------------| | Representative | *Contoh: 4 — F1-Score mewakili keseimbangan precision-recall* | | | Sensitive | | | | Feasible | | | **Apakah perlu secondary metric?** [ ] Ya / [ ] Tidak > Jika ya, apa dan mengapa? _____________________________ **Contoh kasus ceiling effect untuk metrik ini:** > ___________________________________________________ --- ## Latihan 3 — Data Quality Check Bayangkan data yang akan dikumpulkan dari eksperimen. Evaluasi 4 dimensi kualitas data. | Dimensi | Pertanyaan | Jawaban | Strategi Mitigasi | |---------|-----------|---------|------------------| | Completeness | *Apakah semua data point terkumpul?* | | | | Consistency | *Apakah ada kontradiksi internal?* | | | | Validity | *Apakah benar-benar mengukur yang dimaksud?* | | | | Representativeness | *Apakah sampel mewakili populasi target?* | | | --- ## Refleksi > Mengapa memilih metrik setelah melihat data dianggap p-hacking? Apa bedanya dengan eksplorasi data yang sah? **Jawaban:** > ___________________________________________________ > ___________________________________________________