Peneliti MIT Rilis VisText untuk Autocaptioning pada Visualisasi Data

Ilustrasi Visualisasi Data, Bagan, Chart, Grafik, Diagram. Kredit: Yvette W via Pixabay — Ilustrasi Visualisasi Data, Bagan, Chart, Diagram. Kredit: Yvette W via Pixabay

Liputan6.com, Jakarta - Peneliti di Massachusetts Institute of Technology (MIT) membuat langkah signifikan dalam meningkatkan pemahaman dan aksesibilitas data yang disajikan dalam bagan (chart) dengan mengembangkan kumpulan data yang disebut VisText.

Kumpulan data ini bertujuan untuk meningkatkan sistem teks otomatis, yang memainkan peran penting dalam membantu pembaca memahami tren dan pola kompleks yang digambarkan dalam bagan.

Tujuan para peneliti adalah menyediakan alat yang berguna untuk mengembangkan sistem autocaptioning pada visualisasi data seperti bagan yang selaras dengan kebutuhan dan preferensi pengguna.

Keterangan (caption) visualisasi data yang efektif sangat bermanfaat bagi pembaca untuk memahami dan menyimpan informasi yang disajikan. Mereka sangat penting bagi individu dengan keterbatasan penglihatan, karena keterangan sering berfungsi sebagai cara pembaca untuk memahami bagan.

Namun, menyusun teks yang mendetail dan informatif adalah proses padat karya. Meskipun teknik autocaptioning dapat meringankan beban ini, teknik tersebut sering kesulitan untuk mendeskripsikan fitur kognitif yang memberikan konteks tambahan pada visualisasi data.

Untuk mengatasi tantangan ini, peneliti MIT memanfaatkan kumpulan data VisText untuk melatih model machine learning yang mampu menghasilkan teks yang tepat dan kaya semantik.

Kumpulan data ini memungkinkan peneliti untuk memvariasikan kompleksitas dan konten keterangan bagan berdasarkan kebutuhan pengguna.

Model machine learning secara konsisten menghasilkan teks yang secara akurat mendeskripsikan tren data dan pola kompleks, melebihi keefektifan sistem teks otomatis lainnya.

Penulis utama penelitian ini Angie Boggust, seorang mahasiswa pascasarjana di bidang teknik elektro dan ilmu komputer di MIT, menyoroti pentingnya menanamkan nilai-nilai kemanusiaan ke dalam kumpulan data.

Hal ini memastikan bahwa model yang dihasilkan selaras dengan preferensi dan kebutuhan pengguna, yang pada akhirnya meningkatkan aksesibilitas bagi penyandang disabilitas penglihatan.

Dalam beberapa tahun terakhir, Google terus meningkatkan kemampuan kecerdasan buatan (artificial intelligence/AI) yang mereka kembangkan. Salah satu pemanfataan AI ini adalah untuk bisa memberikan jawaban yang lebih baik ketika pengguna internet mela...

2 dari 5 halaman

Inspirasi Pengembangan VisText

Inspirasi untuk mengembangkan VisText berasal dari pekerjaan sebelumnya yang dilakukan oleh kelompok riset Visualization Group di MIT. Kelompok tersebut mengeksplorasi apa yang dimaksud dengan keterangan (caption) bagan yang baik, menemukan bahwa pengguna yang dapat melihat dan mereka yang memiliki keterbatasan penglihatan memiliki preferensi yang berbeda untuk kerumitan konten semantik dalam keterangan.

Para peneliti berusaha menggabungkan analisis yang berpusat pada manusia ini ke dalam penelitian autocaptioning dengan membuat VisText. Kumpulan data komprehensif ini mencakup lebih dari 12.000 bagan yang direpresentasikan sebagai tabel data, gambar, dan grafik adegan, disertai dengan keterangan terkait. Setiap bagan memiliki dua keterangan: deskripsi tingkat rendah yang berfokus pada konstruksinya dan keterangan tingkat lebih tinggi yang mencakup statistik, hubungan data, dan tren kompleks.

Machine learning konvensional menghadapi tantangan saat membuat bagan teks karena mereka cenderung menerapkan teknik teks gambar yang berbeda dari cara manusia menginterpretasikan bagan. Alternatifnya, beberapa teknik hanya mengandalkan tabel data pokok, yang sering kali tidak tersedia setelah bagan diterbitkan.

3 dari 5 halaman

Proses latih dengan beberapa model

VisText mengatasi keterbatasan ini dengan merepresentasikan bagan sebagai grafik pemandangan—kombinasi yang kuat dari data bagan dan konteks gambar tambahan.

Memanfaatkan kemajuan dalam model bahasa besar (large language model), seperti yang digunakan dalam pemrosesan bahasa alami modern, grafik adegan menawarkan cara yang lebih efektif dan mudah diakses untuk menghasilkan teks.

Para peneliti melatih beberapa model machine learning menggunakan VisText, membandingkan kinerja representasi yang berbeda, termasuk gambar, tabel data, dan grafik adegan. Hasil menunjukkan bahwa model yang dilatih dengan grafik adegan berperforma lebih baik atau sebanding dengan model yang dilatih menggunakan tabel data.

Mengingat kemudahan mengekstraksi grafik adegan dari grafik yang ada, para peneliti menganjurkan pemanfaatannya sebagai representasi yang lebih praktis.

Selain itu, model dilatih secara terpisah menggunakan teks tingkat rendah dan tingkat tinggi, yang memungkinkan mereka menyesuaikan kompleksitas teks yang dihasilkan.

4 dari 5 halaman

Evaluasi Kualitatif

Para peneliti melakukan evaluasi kualitatif menyeluruh untuk mengidentifikasi kesalahan umum, mengelompokkannya menjadi enam jenis. Analisis ini memberikan wawasan berharga tentang seluk-beluk performa model dan potensi keterbatasan serta pertimbangan etis yang terkait dengan sistem autocaptioning.

Sementara model machine learning generatif seperti ChatGPT telah menjanjikan dalam teks otomatis, peneliti harus mengatasi kemungkinan penyebaran informasi yang salah karena teks yang tidak akurat.

Rekan penulis utama Benny J. Tang menekankan perlunya melihat sistem teks otomatis sebagai alat kepenulisan, yang memungkinkan pengguna untuk mengedit dan menyempurnakan teks yang dihasilkan untuk memastikan akurasi dan integritas.

Ke depan, para peneliti MIT bertujuan untuk lebih mengoptimalkan model, meminimalkan kesalahan umum. Mereka juga berencana untuk memperluas kumpulan data VisText untuk mencakup rentang bagan yang lebih luas, termasuk bagan yang lebih kompleks dengan batang bertumpuk atau beberapa baris.

Selain itu, mereka berusaha mendapatkan wawasan tentang apa yang dipelajari model teks otomatis ini tentang data bagan.

5 dari 5 halaman