hb_alim e3e1e8db41 feat: add slide deck and book prompt template

- slide/: 16 Marp slide files with inline UPB CSS theme
  (slide-01 through slide-16, covering all RTI-20252 topics)
- slide/theme/: upb.css canonical theme + logo-upb.png
- docs/AI-BOOK-PROMPT-TEMPLATE.md: RTI-20252 book authoring prompt

2026-04-13 15:04:45 +07:00

41 KiB

Raw Blame History

marp	paginate	class	header	footer
true	true	bagian-iv	RTI — Riset Teknologi Informasi \| Universitas Putra Bangsa Kebumen	Helmi Bahar Alim, S.Kom., M.Kom. \| 2026

Bab 14 — Data Analysis, Interpretation & Failure Analysis

Dari Data ke Pengetahuan yang Dapat Dipertanggungjawabkan

Pertemuan 14 (M14) | Sub-CPMK 4.3 | CPMK04 | CPL07

Fase: Analyzing & Communicating (M12–M16) · Bagian IV

Universitas Putra Bangsa | Fak. Sains & Teknologi · Prodi Teknik Informatika

Agenda Pertemuan 14

Perbedaan analisis dan interpretasi
Data → Knowledge Pipeline
Link wajib: Result → RQ → Hypothesis → Conclusion
Uji statistik untuk penelitian TI
Failure analysis — kegagalan sebagai sumber insight
Limitation — membatasi klaim dengan jujur
Cognitive Traps & Studi Kasus
Output Praktis: Analisis + Interpretasi + Failure Analysis + Limitation

Capaian Pembelajaran

Setelah pertemuan ini, mahasiswa mampu:

Membedakan analisis ("apa yang terjadi") dari interpretasi ("mengapa terjadi")
Membangun rantai logis hasil → RQ → hipotesis → kesimpulan
Melakukan uji statistik yang sesuai untuk mendukung klaim perbandingan
Menulis failure analysis yang mengubah kegagalan menjadi insight
Menyatakan limitation dengan jujur dan proporsional

Sub-CPMK 4.3 → Menganalisis, menginterpretasikan, dan menyimpulkan hasil eksperimen (CPL07)

Data → Knowledge Pipeline

Lima tahap yang dapat dibedakan secara epistemologis

Data (angka mentah, Bab 13) ↓ Analysis — "Apa yang terjadi?" (statistik deskriptif + uji hipotesis) ↓ Interpretation — "Mengapa ini terjadi?" (berbasis teori/literatur) ↓ Explanation — "Apa implikasinya?" (link ke RQ & kontribusi) ↓ Knowledge (temuan yang dapat dipercaya)

Melompat dari Data langsung ke Knowledge tanpa Analysis dan Interpretation → pseudoscience, bukan penelitian.

Analisis vs Interpretasi — Garis yang Tegas

Dua pertanyaan berbeda, dua langkah berbeda

Aspek	Analisis	Interpretasi
Pertanyaan	Apa yang terjadi di data?	Mengapa ini terjadi?
Sumber	Data itu sendiri + statistik	Teori, literatur, pengetahuan domain
Output	Fakta tentang data (deskriptif + inferensial)	Penjelasan, mekanisme, insight
Contoh	"F1 dengan attention 87.0%, baseline 82.1%, p=0.003"	"Attention meningkatkan F1 karena model dapat fokus pada fitur kontekstual yang relevan"

Analisis harus datang sebelum interpretasi. Interpretasi tanpa analisis = opini. Analisis tanpa interpretasi = laporan teknis, bukan penelitian.

Rantai Logis Wajib

Setiap klaim dalam laporan harus dapat ditelusuri

RQ: "Apakah mekanisme attention meningkatkan F1 pada klasifikasi teks?"

Hipotesis H1: "Penggunaan attention meningkatkan F1-macro secara signifikan"

Hasil Empiris:
  Attention: 0.891 ± 0.012
  Baseline:  0.841 ± 0.018
  Δ = +0.050, t(18) = 3.24, p = 0.004

Analisis: "Perbedaan signifikan secara statistik (p < 0.05). H1 diterima."

Interpretasi: "Attention mechanism memungkinkan model untuk memberikan
              bobot lebih pada token yang relevan secara kontekstual,
              mengurangi noise dari token yang tidak informatif."

Kesimpulan: "Attention meningkatkan F1-macro untuk klasifikasi teks
            multi-kelas pada domain yang diuji."

Uji Statistik dalam Penelitian TI

Memilih uji yang tepat untuk mendukung klaim

Situasi	Uji yang Tepat	Asumsi
Bandingkan 2 model (≥5 runs/model)	Paired t-test atau Wilcoxon signed-rank	Normalitas (t-test) atau tidak (Wilcoxon)
Bandingkan 3+ model	One-way ANOVA → post-hoc Tukey	Normalitas, homogenitas varians
Ukuran efek (seberapa besar beda)	Cohen's d	—
Korelasi dua variabel	Pearson (linear) atau Spearman (non-linear)	—

from scipy import stats

# Paired t-test: 10 run attention vs 10 run baseline
t_stat, p_value = stats.ttest_rel(attention_results, baseline_results)
print(f"t = {t_stat:.3f}, p = {p_value:.4f}")

# Effect size (Cohen's d)
d = (np.mean(attention_results) - np.mean(baseline_results)) / np.std(baseline_results)
print(f"Cohen's d = {d:.3f}")

Failure Analysis — Kegagalan sebagai Insight

Tidak semua hipotesis terkonfirmasi — dan itu sebaiknya begitu

Ketika H1 DITOLAK:

Respons yang salah:  "Hasil tidak sesuai hipotesis, diabaikan"
Respons yang salah:  "Ganti metrik/dataset sampai H1 terkonfirmasi" (p-hacking)

Respons yang benar:
   1. Terima hasil empiris apa adanya
   2. Investigasi mengapa hipotesis tidak terkonfirmasi
   3. Pertimbangkan apakah ada masalah pada desain eksperimen
   4. Tulis failure analysis — ini adalah kontribusi ilmiah!

Nilai failure analysis:

Menambah pengetahuan tentang kondisi di mana pendekatan TIDAK bekerja
Mencegah peneliti lain mengulangi jalan buntu yang sama
Menunjukkan kejujuran ilmiah → meningkatkan kredibilitas penelitian

Template Failure Analysis

FAILURE ANALYSIS — Skenario "+Ensemble"

Hipotesis: "+Ensemble akan meningkatkan F1 lebih tinggi dari +Attention"
Hasil aktual: +Ensemble (0.851 ± 0.013) vs +Attention (0.869 ± 0.011)
Status: H1b DITOLAK untuk skenario ini

INVESTIGASI:
1. Waktu eksekusi +Ensemble 15% lebih tinggi (3124s vs 2706s)
2. Kedua model memiliki arsitektur yang serupa di bagian encoder
3. Ensemble hanya menggabungkan 2 model — jumlah terlalu sedikit
   untuk mendapatkan keuntungan diversity yang signifikan

PENJELASAN YANG MUNGKIN:
- Ensemble menguntungkan ketika model-model yang digabungkan
  memiliki error yang tidak berkorelasi. Dua model dengan arsitektur
  serupa cenderung membuat error yang sama.

IMPLIKASI: Penelitian lanjutan perlu menguji ensemble > 3 model
           dengan diversitas arsitektur yang lebih tinggi.

Limitation — Kejujuran yang Memperkuat Klaim

Limitation bukan mengakui kelemahan — ini adalah presisi tentang domain of validity

Apa yang harus ada di seksi limitation:

LIMITATION

1. Domain data: Eksperimen dilakukan pada dataset teks berbahasa Indonesia
   (SMSA, 10.000 sampel). Generalisasi ke bahasa lain atau domain lain
   belum diverifikasi.

2. Ukuran dataset: Dataset berukuran sedang. Penelitian lanjutan dengan
   dataset lebih besar diperlukan untuk mengkonfirmasi stabilitas temuan.

3. Arsitektur baseline: Baseline menggunakan BiLSTM. Perbandingan dengan
   transformer-based baseline (BERT) belum dilakukan.

4. Hardware dependency: Eksperimen dijalankan pada GPU tunggal. Performa
   dalam distributed setting mungkin berbeda.

Limitation yang ditulis dengan baik memperkuat kreadibilitas penelitian, bukan melemahkannya.

Cognitive Traps

Bab 14 — Analysis & Interpretation

Cognitive Traps — Bab 14

"Hasil tinggi = hipotesis terkonfirmasi, tidak perlu analisis lebih lanjut" Angka tinggi tidak otomatis menjawab RQ. Harus ada uji statistik, perbandingan yang valid, dan interpretasi yang menghubungkan hasil ke teori.

"Kegagalan berarti penelitian gagal" Penelitian yang menghasilkan temuan negatif (hipotesis ditolak) tetap merupakan kontribusi ilmiah yang valid — bahkan seringkali lebih berharga karena mencegah peneliti lain mengulangi jalan buntu.

"Limitation tidak perlu ditulis agar terkesan lebih kuat" Tidak mencantumkan limitation tidak membuat klaim lebih kuat — sebaliknya membuat klaim tidak kredibel karena terkesan menyembunyikan sesuatu. Reviewer yang berpengalaman selalu mencari seksi limitation.

"Interpretasi saya tidak perlu didukung literatur" Interpretasi tanpa dukungan teori atau literatur = spekulasi. Setiap klaim interpretasi harus dapat menunjuk ke mekanisme yang diusulkan dalam literatur.

Studi Kasus 1 — Analysis Tanpa Interpretasi (Basic)

Laporan yang bermasalah:

"Model dengan attention menghasilkan F1 = 87.0%, sedangkan baseline F1 = 82.1%. Model attention lebih baik dari baseline. Hipotesis diterima."

Masalah:

Tidak ada uji statistik — apakah perbedaan 4.9pp tersebut signifikan?
Tidak ada interpretasi — mengapa attention meningkatkan F1?
Tidak ada kontekstualisasi — apakah 4.9pp besar atau kecil di literatur?

Versi yang benar:

"Model dengan attention (87.0 ± 1.1%) secara statistik signifikan melampaui baseline (82.1 ± 1.5%), t(18)=3.24, p=0.004, Cohen's d=1.02 (efek besar). Peningkatan ini konsisten dengan temuan Lee et al. (2024) yang menemukan bahwa attention mechanism meningkatkan F1 sebesar 3–6pp pada task klasifikasi teks. Mekanismenya diduga karena..."

Studi Kasus 2 — Honest Failure Analysis (Advanced)

Konteks: Penelitian mengusulkan metode baru (Metode X) yang diharapkan 15% lebih akurat dari baseline.

Hasil: Metode X hanya 2% lebih akurat. Tidak signifikan secara statistik (p = 0.18).

Respons yang salah:

Tukar metrik (dari F1-macro ke F1-micro) → p = 0.04. Laporkan ini saja.

Respons yang benar:

FAILURE ANALYSIS:
  Hipotesis: Metode X meningkatkan akurasi >15%
  Hasil: +2% (p = 0.18, tidak signifikan)
  
  Investigasi: BERT-based baseline yang digunakan telah mengimplementasikan
               mekanisme yang serupa dengan Metode X. Gap yang diharapkan
               tidak terwujud karena baseline sudah lebih kuat dari yang
               diasumsikan saat desain eksperimen.
  
  Kontribusi: Mereplikasi baseline yang lebih kuat untuk task ini beserta
               analisis kondisi di mana Metode X TIDAK memberikan gain signifikan.

Ringkasan Pertemuan 14

Konsep	Inti
Analysis vs Interpretation	"Apa?" vs "Mengapa?" — keduanya wajib, berbeda
Rantai Logis	Result → RQ → Hipotesis → Kesimpulan (harus terhubung)
Uji Statistik	t-test/Wilcoxon + Cohen's d untuk perbandingan
Failure Analysis	Kegagalan = kontribusi ilmiah, bukan aib yang disembunyikan
Limitation	Mendefinisikan domain of validity = memperkuat klaim

Final Statement & Output Praktis

"Peneliti yang jujur lebih berharga dari peneliti yang 'selalu berhasil'. Ilmu pengetahuan dibangun dari akumulasi temuan yang jujur — termasuk yang negatif."

Output Praktis M14

Dokumen yang harus dikumpulkan:

Hasil analisis (statistik deskriptif + uji statistik)
Interpretasi (penjelasan berbasis teori untuk setiap temuan)
Failure analysis (jika ada hipotesis yang ditolak atau hasil di luar ekspektasi)
Limitation section (minimal 3 limitation yang relevan)

Referensi Utama — Bab 14

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum.
Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7, 1–30.
Goodman, S. (2008). A dirty dozen: Twelve p-value misconceptions. Seminars in Hematology, 45(3), 135–140.
Wohlin, C., Runeson, P., Höst, M., Ohlsson, M. C., Regnell, B., & Wesslén, A. (2012). Experimentation in software engineering. Springer.

41 KiB Raw Blame History Unescape Escape