--- marp: true paginate: true class: bagian-iv header: 'RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen' footer: 'Helmi Bahar Alim, S.Kom., M.Kom. | 2026' --- # Bab 14 — Data Analysis, Interpretation & Failure Analysis ## Dari Data ke Pengetahuan yang Dapat Dipertanggungjawabkan *Pertemuan 14 (M14)  |  Sub-CPMK 4.3  |  CPMK04  |  CPL07* Fase: **Analyzing & Communicating** (M12–M16)  ·  Bagian IV **Universitas Putra Bangsa**  |  Fak. Sains & Teknologi  ·  Prodi Teknik Informatika --- ## Agenda Pertemuan 14 1. Perbedaan analisis dan interpretasi 2. Data → Knowledge Pipeline 3. Link wajib: Result → RQ → Hypothesis → Conclusion 4. Uji statistik untuk penelitian TI 5. Failure analysis — kegagalan sebagai sumber insight 6. Limitation — membatasi klaim dengan jujur 7. Cognitive Traps & Studi Kasus 8. Output Praktis: Analisis + Interpretasi + Failure Analysis + Limitation --- ## Capaian Pembelajaran Setelah pertemuan ini, mahasiswa mampu: - Membedakan **analisis** ("apa yang terjadi") dari **interpretasi** ("mengapa terjadi") - Membangun rantai logis **hasil → RQ → hipotesis → kesimpulan** - Melakukan **uji statistik** yang sesuai untuk mendukung klaim perbandingan - Menulis **failure analysis** yang mengubah kegagalan menjadi insight - Menyatakan **limitation** dengan jujur dan proporsional > Sub-CPMK 4.3 → Menganalisis, menginterpretasikan, dan menyimpulkan hasil eksperimen (CPL07) --- ## Data → Knowledge Pipeline *Lima tahap yang dapat dibedakan secara epistemologis*
**Data** (angka mentah, Bab 13) ↓ **Analysis** — "Apa yang terjadi?" (statistik deskriptif + uji hipotesis) ↓ **Interpretation** — "Mengapa ini terjadi?" (berbasis teori/literatur) ↓ **Explanation** — "Apa implikasinya?" (link ke RQ & kontribusi) ↓ **Knowledge** (temuan yang dapat dipercaya)
> Melompat dari Data langsung ke Knowledge tanpa Analysis dan Interpretation → **pseudoscience**, bukan penelitian. --- ## Analisis vs Interpretasi — Garis yang Tegas *Dua pertanyaan berbeda, dua langkah berbeda* | Aspek | Analisis | Interpretasi | |-------|---------|-------------| | **Pertanyaan** | Apa yang terjadi di data? | Mengapa ini terjadi? | | **Sumber** | Data itu sendiri + statistik | Teori, literatur, pengetahuan domain | | **Output** | Fakta tentang data (deskriptif + inferensial) | Penjelasan, mekanisme, insight | | **Contoh** | "F1 dengan attention 87.0%, baseline 82.1%, p=0.003" | "Attention meningkatkan F1 karena model dapat fokus pada fitur kontekstual yang relevan" | > Analisis harus datang sebelum interpretasi. Interpretasi tanpa analisis = opini. Analisis tanpa interpretasi = laporan teknis, bukan penelitian. --- ## Rantai Logis Wajib *Setiap klaim dalam laporan harus dapat ditelusuri* ``` RQ: "Apakah mekanisme attention meningkatkan F1 pada klasifikasi teks?" Hipotesis H1: "Penggunaan attention meningkatkan F1-macro secara signifikan" Hasil Empiris: Attention: 0.891 ± 0.012 Baseline: 0.841 ± 0.018 Δ = +0.050, t(18) = 3.24, p = 0.004 Analisis: "Perbedaan signifikan secara statistik (p < 0.05). H1 diterima." Interpretasi: "Attention mechanism memungkinkan model untuk memberikan bobot lebih pada token yang relevan secara kontekstual, mengurangi noise dari token yang tidak informatif." Kesimpulan: "Attention meningkatkan F1-macro untuk klasifikasi teks multi-kelas pada domain yang diuji." ``` --- ## Uji Statistik dalam Penelitian TI *Memilih uji yang tepat untuk mendukung klaim* | Situasi | Uji yang Tepat | Asumsi | |---------|---------------|--------| | Bandingkan 2 model (≥5 runs/model) | Paired t-test atau Wilcoxon signed-rank | Normalitas (t-test) atau tidak (Wilcoxon) | | Bandingkan 3+ model | One-way ANOVA → post-hoc Tukey | Normalitas, homogenitas varians | | Ukuran efek (seberapa besar beda) | Cohen's d | — | | Korelasi dua variabel | Pearson (linear) atau Spearman (non-linear) | — | ```python from scipy import stats # Paired t-test: 10 run attention vs 10 run baseline t_stat, p_value = stats.ttest_rel(attention_results, baseline_results) print(f"t = {t_stat:.3f}, p = {p_value:.4f}") # Effect size (Cohen's d) d = (np.mean(attention_results) - np.mean(baseline_results)) / np.std(baseline_results) print(f"Cohen's d = {d:.3f}") ``` --- ## Failure Analysis — Kegagalan sebagai Insight *Tidak semua hipotesis terkonfirmasi — dan itu sebaiknya begitu* **Ketika H1 DITOLAK:** ``` Respons yang salah: "Hasil tidak sesuai hipotesis, diabaikan" Respons yang salah: "Ganti metrik/dataset sampai H1 terkonfirmasi" (p-hacking) Respons yang benar: 1. Terima hasil empiris apa adanya 2. Investigasi mengapa hipotesis tidak terkonfirmasi 3. Pertimbangkan apakah ada masalah pada desain eksperimen 4. Tulis failure analysis — ini adalah kontribusi ilmiah! ``` **Nilai failure analysis:** - Menambah pengetahuan tentang kondisi di mana pendekatan TIDAK bekerja - Mencegah peneliti lain mengulangi jalan buntu yang sama - Menunjukkan kejujuran ilmiah → meningkatkan kredibilitas penelitian --- ## Template Failure Analysis ``` FAILURE ANALYSIS — Skenario "+Ensemble" Hipotesis: "+Ensemble akan meningkatkan F1 lebih tinggi dari +Attention" Hasil aktual: +Ensemble (0.851 ± 0.013) vs +Attention (0.869 ± 0.011) Status: H1b DITOLAK untuk skenario ini INVESTIGASI: 1. Waktu eksekusi +Ensemble 15% lebih tinggi (3124s vs 2706s) 2. Kedua model memiliki arsitektur yang serupa di bagian encoder 3. Ensemble hanya menggabungkan 2 model — jumlah terlalu sedikit untuk mendapatkan keuntungan diversity yang signifikan PENJELASAN YANG MUNGKIN: - Ensemble menguntungkan ketika model-model yang digabungkan memiliki error yang tidak berkorelasi. Dua model dengan arsitektur serupa cenderung membuat error yang sama. IMPLIKASI: Penelitian lanjutan perlu menguji ensemble > 3 model dengan diversitas arsitektur yang lebih tinggi. ``` --- ## Limitation — Kejujuran yang Memperkuat Klaim *Limitation bukan mengakui kelemahan — ini adalah presisi tentang domain of validity* **Apa yang harus ada di seksi limitation:** ``` LIMITATION 1. Domain data: Eksperimen dilakukan pada dataset teks berbahasa Indonesia (SMSA, 10.000 sampel). Generalisasi ke bahasa lain atau domain lain belum diverifikasi. 2. Ukuran dataset: Dataset berukuran sedang. Penelitian lanjutan dengan dataset lebih besar diperlukan untuk mengkonfirmasi stabilitas temuan. 3. Arsitektur baseline: Baseline menggunakan BiLSTM. Perbandingan dengan transformer-based baseline (BERT) belum dilakukan. 4. Hardware dependency: Eksperimen dijalankan pada GPU tunggal. Performa dalam distributed setting mungkin berbeda. ``` > Limitation yang ditulis dengan baik **memperkuat** kreadibilitas penelitian, bukan melemahkannya. --- # Cognitive Traps ## Bab 14 — Analysis & Interpretation --- ## Cognitive Traps — Bab 14 **"Hasil tinggi = hipotesis terkonfirmasi, tidak perlu analisis lebih lanjut"** Angka tinggi tidak otomatis menjawab RQ. Harus ada uji statistik, perbandingan yang valid, dan interpretasi yang menghubungkan hasil ke teori. **"Kegagalan berarti penelitian gagal"** Penelitian yang menghasilkan temuan negatif (hipotesis ditolak) tetap merupakan kontribusi ilmiah yang valid — bahkan seringkali lebih berharga karena mencegah peneliti lain mengulangi jalan buntu. **"Limitation tidak perlu ditulis agar terkesan lebih kuat"** Tidak mencantumkan limitation tidak membuat klaim lebih kuat — sebaliknya membuat klaim tidak kredibel karena terkesan menyembunyikan sesuatu. Reviewer yang berpengalaman selalu mencari seksi limitation. **"Interpretasi saya tidak perlu didukung literatur"** Interpretasi tanpa dukungan teori atau literatur = spekulasi. Setiap klaim interpretasi harus dapat menunjuk ke mekanisme yang diusulkan dalam literatur. --- ## Studi Kasus 1 — Analysis Tanpa Interpretasi (Basic) **Laporan yang bermasalah:** > "Model dengan attention menghasilkan F1 = 87.0%, sedangkan baseline F1 = 82.1%. Model attention lebih baik dari baseline. Hipotesis diterima." **Masalah:** - Tidak ada uji statistik — apakah perbedaan 4.9pp tersebut signifikan? - Tidak ada interpretasi — mengapa attention meningkatkan F1? - Tidak ada kontekstualisasi — apakah 4.9pp besar atau kecil di literatur? **Versi yang benar:** > "Model dengan attention (87.0 ± 1.1%) secara statistik signifikan melampaui baseline (82.1 ± 1.5%), t(18)=3.24, p=0.004, Cohen's d=1.02 (efek besar). Peningkatan ini konsisten dengan temuan Lee et al. (2024) yang menemukan bahwa attention mechanism meningkatkan F1 sebesar 3–6pp pada task klasifikasi teks. Mekanismenya diduga karena..." --- ## Studi Kasus 2 — Honest Failure Analysis (Advanced) **Konteks:** Penelitian mengusulkan metode baru (Metode X) yang diharapkan 15% lebih akurat dari baseline. **Hasil:** Metode X hanya 2% lebih akurat. Tidak signifikan secara statistik (p = 0.18). **Respons yang salah:** - Tukar metrik (dari F1-macro ke F1-micro) → p = 0.04. Laporkan ini saja. **Respons yang benar:** ``` FAILURE ANALYSIS: Hipotesis: Metode X meningkatkan akurasi >15% Hasil: +2% (p = 0.18, tidak signifikan) Investigasi: BERT-based baseline yang digunakan telah mengimplementasikan mekanisme yang serupa dengan Metode X. Gap yang diharapkan tidak terwujud karena baseline sudah lebih kuat dari yang diasumsikan saat desain eksperimen. Kontribusi: Mereplikasi baseline yang lebih kuat untuk task ini beserta analisis kondisi di mana Metode X TIDAK memberikan gain signifikan. ``` --- ## Ringkasan Pertemuan 14 | Konsep | Inti | |--------|------| | Analysis vs Interpretation | "Apa?" vs "Mengapa?" — keduanya wajib, berbeda | | Rantai Logis | Result → RQ → Hipotesis → Kesimpulan (harus terhubung) | | Uji Statistik | t-test/Wilcoxon + Cohen's d untuk perbandingan | | Failure Analysis | Kegagalan = kontribusi ilmiah, bukan aib yang disembunyikan | | Limitation | Mendefinisikan domain of validity = memperkuat klaim | --- ## Final Statement & Output Praktis
"Peneliti yang jujur lebih berharga dari peneliti yang 'selalu berhasil'. Ilmu pengetahuan dibangun dari akumulasi temuan yang jujur — termasuk yang negatif."
### Output Praktis M14 Dokumen yang harus dikumpulkan: 1. **Hasil analisis** (statistik deskriptif + uji statistik) 2. **Interpretasi** (penjelasan berbasis teori untuk setiap temuan) 3. **Failure analysis** (jika ada hipotesis yang ditolak atau hasil di luar ekspektasi) 4. **Limitation section** (minimal 3 limitation yang relevan) --- ## Referensi Utama — Bab 14 - Cohen, J. (1988). *Statistical power analysis for the behavioral sciences* (2nd ed.). Lawrence Erlbaum. - Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. *Journal of Machine Learning Research, 7*, 1–30. - Goodman, S. (2008). A dirty dozen: Twelve p-value misconceptions. *Seminars in Hematology, 45*(3), 135–140. - Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). *Experimentation in software engineering*. Springer.