---
marp: true
paginate: true
class: bagian-iv
header: 'RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen'
footer: 'Helmi Bahar Alim, S.Kom., M.Kom. | 2026'
---
# Bab 14 — Data Analysis, Interpretation & Failure Analysis
## Dari Data ke Pengetahuan yang Dapat Dipertanggungjawabkan
*Pertemuan 14 (M14) | Sub-CPMK 4.3 | CPMK04 | CPL07*
Fase: **Analyzing & Communicating** (M12–M16) · Bagian IV
**Universitas Putra Bangsa** | Fak. Sains & Teknologi · Prodi Teknik Informatika
---
## Agenda Pertemuan 14
1. Perbedaan analisis dan interpretasi
2. Data → Knowledge Pipeline
3. Link wajib: Result → RQ → Hypothesis → Conclusion
4. Uji statistik untuk penelitian TI
5. Failure analysis — kegagalan sebagai sumber insight
6. Limitation — membatasi klaim dengan jujur
7. Cognitive Traps & Studi Kasus
8. Output Praktis: Analisis + Interpretasi + Failure Analysis + Limitation
---
## Capaian Pembelajaran
Setelah pertemuan ini, mahasiswa mampu:
- Membedakan **analisis** ("apa yang terjadi") dari **interpretasi** ("mengapa terjadi")
- Membangun rantai logis **hasil → RQ → hipotesis → kesimpulan**
- Melakukan **uji statistik** yang sesuai untuk mendukung klaim perbandingan
- Menulis **failure analysis** yang mengubah kegagalan menjadi insight
- Menyatakan **limitation** dengan jujur dan proporsional
> Sub-CPMK 4.3 → Menganalisis, menginterpretasikan, dan menyimpulkan hasil eksperimen (CPL07)
---
## Data → Knowledge Pipeline
*Lima tahap yang dapat dibedakan secara epistemologis*
**Data** (angka mentah, Bab 13) ↓ **Analysis** — "Apa yang terjadi?" (statistik deskriptif + uji hipotesis) ↓ **Interpretation** — "Mengapa ini terjadi?" (berbasis teori/literatur) ↓ **Explanation** — "Apa implikasinya?" (link ke RQ & kontribusi) ↓ **Knowledge** (temuan yang dapat dipercaya)
> Melompat dari Data langsung ke Knowledge tanpa Analysis dan Interpretation → **pseudoscience**, bukan penelitian.
---
## Analisis vs Interpretasi — Garis yang Tegas
*Dua pertanyaan berbeda, dua langkah berbeda*
| Aspek | Analisis | Interpretasi |
|-------|---------|-------------|
| **Pertanyaan** | Apa yang terjadi di data? | Mengapa ini terjadi? |
| **Sumber** | Data itu sendiri + statistik | Teori, literatur, pengetahuan domain |
| **Output** | Fakta tentang data (deskriptif + inferensial) | Penjelasan, mekanisme, insight |
| **Contoh** | "F1 dengan attention 87.0%, baseline 82.1%, p=0.003" | "Attention meningkatkan F1 karena model dapat fokus pada fitur kontekstual yang relevan" |
> Analisis harus datang sebelum interpretasi. Interpretasi tanpa analisis = opini. Analisis tanpa interpretasi = laporan teknis, bukan penelitian.
---
## Rantai Logis Wajib
*Setiap klaim dalam laporan harus dapat ditelusuri*
```
RQ: "Apakah mekanisme attention meningkatkan F1 pada klasifikasi teks?"
Hipotesis H1: "Penggunaan attention meningkatkan F1-macro secara signifikan"
Hasil Empiris:
Attention: 0.891 ± 0.012
Baseline: 0.841 ± 0.018
Δ = +0.050, t(18) = 3.24, p = 0.004
Analisis: "Perbedaan signifikan secara statistik (p < 0.05). H1 diterima."
Interpretasi: "Attention mechanism memungkinkan model untuk memberikan
bobot lebih pada token yang relevan secara kontekstual,
mengurangi noise dari token yang tidak informatif."
Kesimpulan: "Attention meningkatkan F1-macro untuk klasifikasi teks
multi-kelas pada domain yang diuji."
```
---
## Uji Statistik dalam Penelitian TI
*Memilih uji yang tepat untuk mendukung klaim*
| Situasi | Uji yang Tepat | Asumsi |
|---------|---------------|--------|
| Bandingkan 2 model (≥5 runs/model) | Paired t-test atau Wilcoxon signed-rank | Normalitas (t-test) atau tidak (Wilcoxon) |
| Bandingkan 3+ model | One-way ANOVA → post-hoc Tukey | Normalitas, homogenitas varians |
| Ukuran efek (seberapa besar beda) | Cohen's d | — |
| Korelasi dua variabel | Pearson (linear) atau Spearman (non-linear) | — |
```python
from scipy import stats
# Paired t-test: 10 run attention vs 10 run baseline
t_stat, p_value = stats.ttest_rel(attention_results, baseline_results)
print(f"t = {t_stat:.3f}, p = {p_value:.4f}")
# Effect size (Cohen's d)
d = (np.mean(attention_results) - np.mean(baseline_results)) / np.std(baseline_results)
print(f"Cohen's d = {d:.3f}")
```
---
## Failure Analysis — Kegagalan sebagai Insight
*Tidak semua hipotesis terkonfirmasi — dan itu sebaiknya begitu*
**Ketika H1 DITOLAK:**
```
Respons yang salah: "Hasil tidak sesuai hipotesis, diabaikan"
Respons yang salah: "Ganti metrik/dataset sampai H1 terkonfirmasi" (p-hacking)
Respons yang benar:
1. Terima hasil empiris apa adanya
2. Investigasi mengapa hipotesis tidak terkonfirmasi
3. Pertimbangkan apakah ada masalah pada desain eksperimen
4. Tulis failure analysis — ini adalah kontribusi ilmiah!
```
**Nilai failure analysis:**
- Menambah pengetahuan tentang kondisi di mana pendekatan TIDAK bekerja
- Mencegah peneliti lain mengulangi jalan buntu yang sama
- Menunjukkan kejujuran ilmiah → meningkatkan kredibilitas penelitian
---
## Template Failure Analysis
```
FAILURE ANALYSIS — Skenario "+Ensemble"
Hipotesis: "+Ensemble akan meningkatkan F1 lebih tinggi dari +Attention"
Hasil aktual: +Ensemble (0.851 ± 0.013) vs +Attention (0.869 ± 0.011)
Status: H1b DITOLAK untuk skenario ini
INVESTIGASI:
1. Waktu eksekusi +Ensemble 15% lebih tinggi (3124s vs 2706s)
2. Kedua model memiliki arsitektur yang serupa di bagian encoder
3. Ensemble hanya menggabungkan 2 model — jumlah terlalu sedikit
untuk mendapatkan keuntungan diversity yang signifikan
PENJELASAN YANG MUNGKIN:
- Ensemble menguntungkan ketika model-model yang digabungkan
memiliki error yang tidak berkorelasi. Dua model dengan arsitektur
serupa cenderung membuat error yang sama.
IMPLIKASI: Penelitian lanjutan perlu menguji ensemble > 3 model
dengan diversitas arsitektur yang lebih tinggi.
```
---
## Limitation — Kejujuran yang Memperkuat Klaim
*Limitation bukan mengakui kelemahan — ini adalah presisi tentang domain of validity*
**Apa yang harus ada di seksi limitation:**
```
LIMITATION
1. Domain data: Eksperimen dilakukan pada dataset teks berbahasa Indonesia
(SMSA, 10.000 sampel). Generalisasi ke bahasa lain atau domain lain
belum diverifikasi.
2. Ukuran dataset: Dataset berukuran sedang. Penelitian lanjutan dengan
dataset lebih besar diperlukan untuk mengkonfirmasi stabilitas temuan.
3. Arsitektur baseline: Baseline menggunakan BiLSTM. Perbandingan dengan
transformer-based baseline (BERT) belum dilakukan.
4. Hardware dependency: Eksperimen dijalankan pada GPU tunggal. Performa
dalam distributed setting mungkin berbeda.
```
> Limitation yang ditulis dengan baik **memperkuat** kreadibilitas penelitian, bukan melemahkannya.
---
# Cognitive Traps
## Bab 14 — Analysis & Interpretation
---
## Cognitive Traps — Bab 14
**"Hasil tinggi = hipotesis terkonfirmasi, tidak perlu analisis lebih lanjut"**
Angka tinggi tidak otomatis menjawab RQ. Harus ada uji statistik, perbandingan yang valid, dan interpretasi yang menghubungkan hasil ke teori.
**"Kegagalan berarti penelitian gagal"**
Penelitian yang menghasilkan temuan negatif (hipotesis ditolak) tetap merupakan kontribusi ilmiah yang valid — bahkan seringkali lebih berharga karena mencegah peneliti lain mengulangi jalan buntu.
**"Limitation tidak perlu ditulis agar terkesan lebih kuat"**
Tidak mencantumkan limitation tidak membuat klaim lebih kuat — sebaliknya membuat klaim tidak kredibel karena terkesan menyembunyikan sesuatu. Reviewer yang berpengalaman selalu mencari seksi limitation.
**"Interpretasi saya tidak perlu didukung literatur"**
Interpretasi tanpa dukungan teori atau literatur = spekulasi. Setiap klaim interpretasi harus dapat menunjuk ke mekanisme yang diusulkan dalam literatur.
---
## Studi Kasus 1 — Analysis Tanpa Interpretasi (Basic)
**Laporan yang bermasalah:**
> "Model dengan attention menghasilkan F1 = 87.0%, sedangkan baseline F1 = 82.1%. Model attention lebih baik dari baseline. Hipotesis diterima."
**Masalah:**
- Tidak ada uji statistik — apakah perbedaan 4.9pp tersebut signifikan?
- Tidak ada interpretasi — mengapa attention meningkatkan F1?
- Tidak ada kontekstualisasi — apakah 4.9pp besar atau kecil di literatur?
**Versi yang benar:**
> "Model dengan attention (87.0 ± 1.1%) secara statistik signifikan melampaui baseline (82.1 ± 1.5%), t(18)=3.24, p=0.004, Cohen's d=1.02 (efek besar). Peningkatan ini konsisten dengan temuan Lee et al. (2024) yang menemukan bahwa attention mechanism meningkatkan F1 sebesar 3–6pp pada task klasifikasi teks. Mekanismenya diduga karena..."
---
## Studi Kasus 2 — Honest Failure Analysis (Advanced)
**Konteks:** Penelitian mengusulkan metode baru (Metode X) yang diharapkan 15% lebih akurat dari baseline.
**Hasil:** Metode X hanya 2% lebih akurat. Tidak signifikan secara statistik (p = 0.18).
**Respons yang salah:**
- Tukar metrik (dari F1-macro ke F1-micro) → p = 0.04. Laporkan ini saja.
**Respons yang benar:**
```
FAILURE ANALYSIS:
Hipotesis: Metode X meningkatkan akurasi >15%
Hasil: +2% (p = 0.18, tidak signifikan)
Investigasi: BERT-based baseline yang digunakan telah mengimplementasikan
mekanisme yang serupa dengan Metode X. Gap yang diharapkan
tidak terwujud karena baseline sudah lebih kuat dari yang
diasumsikan saat desain eksperimen.
Kontribusi: Mereplikasi baseline yang lebih kuat untuk task ini beserta
analisis kondisi di mana Metode X TIDAK memberikan gain signifikan.
```
---
## Ringkasan Pertemuan 14
| Konsep | Inti |
|--------|------|
| Analysis vs Interpretation | "Apa?" vs "Mengapa?" — keduanya wajib, berbeda |
| Rantai Logis | Result → RQ → Hipotesis → Kesimpulan (harus terhubung) |
| Uji Statistik | t-test/Wilcoxon + Cohen's d untuk perbandingan |
| Failure Analysis | Kegagalan = kontribusi ilmiah, bukan aib yang disembunyikan |
| Limitation | Mendefinisikan domain of validity = memperkuat klaim |
---
## Final Statement & Output Praktis
"Peneliti yang jujur lebih berharga dari peneliti yang 'selalu berhasil'. Ilmu pengetahuan dibangun dari akumulasi temuan yang jujur — termasuk yang negatif."
### Output Praktis M14
Dokumen yang harus dikumpulkan:
1. **Hasil analisis** (statistik deskriptif + uji statistik)
2. **Interpretasi** (penjelasan berbasis teori untuk setiap temuan)
3. **Failure analysis** (jika ada hipotesis yang ditolak atau hasil di luar ekspektasi)
4. **Limitation section** (minimal 3 limitation yang relevan)
---
## Referensi Utama — Bab 14
- Cohen, J. (1988). *Statistical power analysis for the behavioral sciences* (2nd ed.). Lawrence Erlbaum.
- Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. *Journal of Machine Learning Research, 7*, 1–30.
- Goodman, S. (2008). A dirty dozen: Twelve p-value misconceptions. *Seminars in Hematology, 45*(3), 135–140.
- Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). *Experimentation in software engineering*. Springer.