- slide/: 16 Marp slide files with inline UPB CSS theme (slide-01 through slide-16, covering all RTI-20252 topics) - slide/theme/: upb.css canonical theme + logo-upb.png - docs/AI-BOOK-PROMPT-TEMPLATE.md: RTI-20252 book authoring prompt
41 KiB
| marp | paginate | class | header | footer |
|---|---|---|---|---|
| true | true | bagian-iv | RTI — Riset Teknologi Informasi | Universitas Putra Bangsa Kebumen | Helmi Bahar Alim, S.Kom., M.Kom. | 2026 |
Bab 14 — Data Analysis, Interpretation & Failure Analysis
Dari Data ke Pengetahuan yang Dapat Dipertanggungjawabkan
Pertemuan 14 (M14) | Sub-CPMK 4.3 | CPMK04 | CPL07
Fase: Analyzing & Communicating (M12–M16) · Bagian IV
Universitas Putra Bangsa | Fak. Sains & Teknologi · Prodi Teknik Informatika
Agenda Pertemuan 14
- Perbedaan analisis dan interpretasi
- Data → Knowledge Pipeline
- Link wajib: Result → RQ → Hypothesis → Conclusion
- Uji statistik untuk penelitian TI
- Failure analysis — kegagalan sebagai sumber insight
- Limitation — membatasi klaim dengan jujur
- Cognitive Traps & Studi Kasus
- Output Praktis: Analisis + Interpretasi + Failure Analysis + Limitation
Capaian Pembelajaran
Setelah pertemuan ini, mahasiswa mampu:
- Membedakan analisis ("apa yang terjadi") dari interpretasi ("mengapa terjadi")
- Membangun rantai logis hasil → RQ → hipotesis → kesimpulan
- Melakukan uji statistik yang sesuai untuk mendukung klaim perbandingan
- Menulis failure analysis yang mengubah kegagalan menjadi insight
- Menyatakan limitation dengan jujur dan proporsional
Sub-CPMK 4.3 → Menganalisis, menginterpretasikan, dan menyimpulkan hasil eksperimen (CPL07)
Data → Knowledge Pipeline
Lima tahap yang dapat dibedakan secara epistemologis
Data (angka mentah, Bab 13) ↓ Analysis — "Apa yang terjadi?" (statistik deskriptif + uji hipotesis) ↓ Interpretation — "Mengapa ini terjadi?" (berbasis teori/literatur) ↓ Explanation — "Apa implikasinya?" (link ke RQ & kontribusi) ↓ Knowledge (temuan yang dapat dipercaya)
Melompat dari Data langsung ke Knowledge tanpa Analysis dan Interpretation → pseudoscience, bukan penelitian.
Analisis vs Interpretasi — Garis yang Tegas
Dua pertanyaan berbeda, dua langkah berbeda
| Aspek | Analisis | Interpretasi |
|---|---|---|
| Pertanyaan | Apa yang terjadi di data? | Mengapa ini terjadi? |
| Sumber | Data itu sendiri + statistik | Teori, literatur, pengetahuan domain |
| Output | Fakta tentang data (deskriptif + inferensial) | Penjelasan, mekanisme, insight |
| Contoh | "F1 dengan attention 87.0%, baseline 82.1%, p=0.003" | "Attention meningkatkan F1 karena model dapat fokus pada fitur kontekstual yang relevan" |
Analisis harus datang sebelum interpretasi. Interpretasi tanpa analisis = opini. Analisis tanpa interpretasi = laporan teknis, bukan penelitian.
Rantai Logis Wajib
Setiap klaim dalam laporan harus dapat ditelusuri
RQ: "Apakah mekanisme attention meningkatkan F1 pada klasifikasi teks?"
Hipotesis H1: "Penggunaan attention meningkatkan F1-macro secara signifikan"
Hasil Empiris:
Attention: 0.891 ± 0.012
Baseline: 0.841 ± 0.018
Δ = +0.050, t(18) = 3.24, p = 0.004
Analisis: "Perbedaan signifikan secara statistik (p < 0.05). H1 diterima."
Interpretasi: "Attention mechanism memungkinkan model untuk memberikan
bobot lebih pada token yang relevan secara kontekstual,
mengurangi noise dari token yang tidak informatif."
Kesimpulan: "Attention meningkatkan F1-macro untuk klasifikasi teks
multi-kelas pada domain yang diuji."
Uji Statistik dalam Penelitian TI
Memilih uji yang tepat untuk mendukung klaim
| Situasi | Uji yang Tepat | Asumsi |
|---|---|---|
| Bandingkan 2 model (≥5 runs/model) | Paired t-test atau Wilcoxon signed-rank | Normalitas (t-test) atau tidak (Wilcoxon) |
| Bandingkan 3+ model | One-way ANOVA → post-hoc Tukey | Normalitas, homogenitas varians |
| Ukuran efek (seberapa besar beda) | Cohen's d | — |
| Korelasi dua variabel | Pearson (linear) atau Spearman (non-linear) | — |
from scipy import stats
# Paired t-test: 10 run attention vs 10 run baseline
t_stat, p_value = stats.ttest_rel(attention_results, baseline_results)
print(f"t = {t_stat:.3f}, p = {p_value:.4f}")
# Effect size (Cohen's d)
d = (np.mean(attention_results) - np.mean(baseline_results)) / np.std(baseline_results)
print(f"Cohen's d = {d:.3f}")
Failure Analysis — Kegagalan sebagai Insight
Tidak semua hipotesis terkonfirmasi — dan itu sebaiknya begitu
Ketika H1 DITOLAK:
Respons yang salah: "Hasil tidak sesuai hipotesis, diabaikan"
Respons yang salah: "Ganti metrik/dataset sampai H1 terkonfirmasi" (p-hacking)
Respons yang benar:
1. Terima hasil empiris apa adanya
2. Investigasi mengapa hipotesis tidak terkonfirmasi
3. Pertimbangkan apakah ada masalah pada desain eksperimen
4. Tulis failure analysis — ini adalah kontribusi ilmiah!
Nilai failure analysis:
- Menambah pengetahuan tentang kondisi di mana pendekatan TIDAK bekerja
- Mencegah peneliti lain mengulangi jalan buntu yang sama
- Menunjukkan kejujuran ilmiah → meningkatkan kredibilitas penelitian
Template Failure Analysis
FAILURE ANALYSIS — Skenario "+Ensemble"
Hipotesis: "+Ensemble akan meningkatkan F1 lebih tinggi dari +Attention"
Hasil aktual: +Ensemble (0.851 ± 0.013) vs +Attention (0.869 ± 0.011)
Status: H1b DITOLAK untuk skenario ini
INVESTIGASI:
1. Waktu eksekusi +Ensemble 15% lebih tinggi (3124s vs 2706s)
2. Kedua model memiliki arsitektur yang serupa di bagian encoder
3. Ensemble hanya menggabungkan 2 model — jumlah terlalu sedikit
untuk mendapatkan keuntungan diversity yang signifikan
PENJELASAN YANG MUNGKIN:
- Ensemble menguntungkan ketika model-model yang digabungkan
memiliki error yang tidak berkorelasi. Dua model dengan arsitektur
serupa cenderung membuat error yang sama.
IMPLIKASI: Penelitian lanjutan perlu menguji ensemble > 3 model
dengan diversitas arsitektur yang lebih tinggi.
Limitation — Kejujuran yang Memperkuat Klaim
Limitation bukan mengakui kelemahan — ini adalah presisi tentang domain of validity
Apa yang harus ada di seksi limitation:
LIMITATION
1. Domain data: Eksperimen dilakukan pada dataset teks berbahasa Indonesia
(SMSA, 10.000 sampel). Generalisasi ke bahasa lain atau domain lain
belum diverifikasi.
2. Ukuran dataset: Dataset berukuran sedang. Penelitian lanjutan dengan
dataset lebih besar diperlukan untuk mengkonfirmasi stabilitas temuan.
3. Arsitektur baseline: Baseline menggunakan BiLSTM. Perbandingan dengan
transformer-based baseline (BERT) belum dilakukan.
4. Hardware dependency: Eksperimen dijalankan pada GPU tunggal. Performa
dalam distributed setting mungkin berbeda.
Limitation yang ditulis dengan baik memperkuat kreadibilitas penelitian, bukan melemahkannya.
Cognitive Traps
Bab 14 — Analysis & Interpretation
Cognitive Traps — Bab 14
"Hasil tinggi = hipotesis terkonfirmasi, tidak perlu analisis lebih lanjut" Angka tinggi tidak otomatis menjawab RQ. Harus ada uji statistik, perbandingan yang valid, dan interpretasi yang menghubungkan hasil ke teori.
"Kegagalan berarti penelitian gagal" Penelitian yang menghasilkan temuan negatif (hipotesis ditolak) tetap merupakan kontribusi ilmiah yang valid — bahkan seringkali lebih berharga karena mencegah peneliti lain mengulangi jalan buntu.
"Limitation tidak perlu ditulis agar terkesan lebih kuat" Tidak mencantumkan limitation tidak membuat klaim lebih kuat — sebaliknya membuat klaim tidak kredibel karena terkesan menyembunyikan sesuatu. Reviewer yang berpengalaman selalu mencari seksi limitation.
"Interpretasi saya tidak perlu didukung literatur" Interpretasi tanpa dukungan teori atau literatur = spekulasi. Setiap klaim interpretasi harus dapat menunjuk ke mekanisme yang diusulkan dalam literatur.
Studi Kasus 1 — Analysis Tanpa Interpretasi (Basic)
Laporan yang bermasalah:
"Model dengan attention menghasilkan F1 = 87.0%, sedangkan baseline F1 = 82.1%. Model attention lebih baik dari baseline. Hipotesis diterima."
Masalah:
- Tidak ada uji statistik — apakah perbedaan 4.9pp tersebut signifikan?
- Tidak ada interpretasi — mengapa attention meningkatkan F1?
- Tidak ada kontekstualisasi — apakah 4.9pp besar atau kecil di literatur?
Versi yang benar:
"Model dengan attention (87.0 ± 1.1%) secara statistik signifikan melampaui baseline (82.1 ± 1.5%), t(18)=3.24, p=0.004, Cohen's d=1.02 (efek besar). Peningkatan ini konsisten dengan temuan Lee et al. (2024) yang menemukan bahwa attention mechanism meningkatkan F1 sebesar 3–6pp pada task klasifikasi teks. Mekanismenya diduga karena..."
Studi Kasus 2 — Honest Failure Analysis (Advanced)
Konteks: Penelitian mengusulkan metode baru (Metode X) yang diharapkan 15% lebih akurat dari baseline.
Hasil: Metode X hanya 2% lebih akurat. Tidak signifikan secara statistik (p = 0.18).
Respons yang salah:
- Tukar metrik (dari F1-macro ke F1-micro) → p = 0.04. Laporkan ini saja.
Respons yang benar:
FAILURE ANALYSIS:
Hipotesis: Metode X meningkatkan akurasi >15%
Hasil: +2% (p = 0.18, tidak signifikan)
Investigasi: BERT-based baseline yang digunakan telah mengimplementasikan
mekanisme yang serupa dengan Metode X. Gap yang diharapkan
tidak terwujud karena baseline sudah lebih kuat dari yang
diasumsikan saat desain eksperimen.
Kontribusi: Mereplikasi baseline yang lebih kuat untuk task ini beserta
analisis kondisi di mana Metode X TIDAK memberikan gain signifikan.
Ringkasan Pertemuan 14
| Konsep | Inti |
|---|---|
| Analysis vs Interpretation | "Apa?" vs "Mengapa?" — keduanya wajib, berbeda |
| Rantai Logis | Result → RQ → Hipotesis → Kesimpulan (harus terhubung) |
| Uji Statistik | t-test/Wilcoxon + Cohen's d untuk perbandingan |
| Failure Analysis | Kegagalan = kontribusi ilmiah, bukan aib yang disembunyikan |
| Limitation | Mendefinisikan domain of validity = memperkuat klaim |
Final Statement & Output Praktis
Output Praktis M14
Dokumen yang harus dikumpulkan:
- Hasil analisis (statistik deskriptif + uji statistik)
- Interpretasi (penjelasan berbasis teori untuk setiap temuan)
- Failure analysis (jika ada hipotesis yang ditolak atau hasil di luar ekspektasi)
- Limitation section (minimal 3 limitation yang relevan)
Referensi Utama — Bab 14
-
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum.
-
Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7, 1–30.
-
Goodman, S. (2008). A dirty dozen: Twelve p-value misconceptions. Seminars in Hematology, 45(3), 135–140.
-
Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). Experimentation in software engineering. Springer.