Dalam beberapa tahun terakhir, kemajuan Artificial Intelligence (AI) telah mencengangkan dunia, khususnya melalui hadirnya Large Language Models (LLM) seperti GPT, BERT, atau Claude yang mampu memahami dan menghasilkan teks secara luar biasa. Namun, kemampuan mereka terbatas pada satu modalitas: teks.
Padahal, di dunia nyata, informasi tidak hanya disampaikan dalam bentuk kata-kata. Kita berinteraksi dengan lingkungan melalui berbagai jenis data: gambar, suara, video, bahkan sentuhan. Di sinilah peran penting Multimodal Large Language Models (MLLM) mulai terlihat. MLLM adalah bentuk evolusi dari LLM yang mampu memahami, menggabungkan, dan mengolah berbagai jenis data sekaligus.
Artikel ini akan membahas secara komprehensif mengenai apa itu MLLM, bagaimana cara kerjanya, apa saja manfaat serta tantangan yang dihadapi, dan bagaimana model ini membuka peluang besar di berbagai bidang.
Apa Itu Multimodal Large Language Models?
Untuk memahami MLLM, kita perlu mengenal dulu istilah dasar dalam dunia AI, yaitu modalitas.
Modalitas adalah saluran atau cara penyampaian dan penerimaan informasi. Dalam konteks manusia dan AI, berikut adalah beberapa jenis modalitas yang umum:
- Visual: mencakup gambar, grafik, video, atau data spasial.
- Auditori: berupa suara, musik, atau ucapan.
- Tekstual: meliputi teks tertulis seperti artikel, email, atau laporan.
- Haptik: sensasi fisik seperti tekanan, suhu, atau tekstur.
- Olfaktori dan gustatori: berkaitan dengan penciuman dan rasa (jarang diterapkan dalam model AI saat ini, tapi tetap dianggap modalitas).
Sementara itu, "multimodal" berarti melibatkan lebih dari satu modalitas dalam sebuah proses komunikasi atau analisis.
Dengan kata lain, MLLM menjembatani berbagai bentuk informasi untuk membangun pemahaman yang lebih lengkap dan menyerupai cara manusia berpikir.
Mengapa MLLM Dibutuhkan?
Di era digital yang serba visual dan interaktif seperti sekarang, kita tidak bisa lagi hanya mengandalkan teks sebagai satu-satunya sumber informasi. Banyak sektor industri yang secara alami menggunakan data dari berbagai sumber dan bentuk. Berikut beberapa alasannya:
- Kompleksitas Dunia NyataMasalah dunia nyata—misalnya dalam bidang medis, keamanan, pendidikan, atau layanan pelanggan—seringkali membutuhkan pemrosesan dari berbagai modalitas sekaligus. Contoh konkret:
- Seorang dokter membaca catatan pasien (teks), melihat hasil MRI (gambar), dan mendengarkan keluhan pasien (suara).
- Sistem keamanan menggunakan kamera CCTV (video), log aktivitas (teks), dan rekaman suara untuk mendeteksi ancaman.
LLM konvensional tidak bisa menjalankan tugas seperti itu secara menyeluruh karena hanya memproses teks.
- Interaksi yang Lebih Alami dengan MesinManusia secara alami berkomunikasi secara multimodal misalnya saat berbicara sambil menunjuk atau menampilkan ekspresi wajah. Untuk menciptakan interaksi manusia-mesin yang lebih natural dan efisien, model AI juga harus mampu memahami berbagai modalitas.
- Efisiensi dan Akurasi yang Lebih TinggiDengan menggabungkan berbagai modalitas, MLLM dapat meningkatkan akurasi pengambilan keputusan. Data visual dapat memperkuat konteks teks, dan sebaliknya. Ini membuat hasil analisis dan output AI menjadi lebih kaya dan bermakna.
Cara Kerja Multimodal Large Language Models
MLLM bekerja dengan pendekatan modular, di mana masing-masing modalitas diproses dengan model khusus, lalu digabungkan menjadi representasi terpadu. Umumnya, terdapat tiga komponen utama:
- Modul Input (Input Module)Setiap jenis data dimasukkan ke dalam model melalui modul khusus:
- Gambar diproses menggunakan model visual seperti CNN (Convolutional Neural Networks) atau ViT (Vision Transformer).
- Teks diproses menggunakan transformer-based language models seperti GPT atau BERT.
- Suara diproses menggunakan jaringan rekuren atau transformer audio seperti Whisper.
Setiap modul akan menghasilkan representasi menengah (embedding) dari datanya.
- Modul Penggabungan (Fusion Module)Seluruh embedding dari berbagai modalitas ini kemudian digabungkan menjadi satu representasi bersama (joint representation). Fusion bisa dilakukan secara:
- Awal (early fusion): semua data digabungkan sebelum diproses.
- Tengah (mid fusion): penggabungan setelah sebagian pemrosesan.
- Akhir (late fusion): setiap modalitas diproses secara terpisah lalu hasilnya digabung.
Metode fusion yang dipilih akan memengaruhi efisiensi dan performa model.
- Modul Output (Output Module)Berdasarkan representasi gabungan dan tugas yang diberikan, sistem menghasilkan output yang sesuai. Output bisa berupa:
- Jawaban teks (seperti menjawab pertanyaan tentang gambar).
- Klasifikasi objek.
- Deskripsi otomatis dari gambar atau suara.
- Pembuatan media baru (misalnya, membuat gambar dari teks).
Contoh Multimodal Large Language Models: Inovasi, Arsitektur, dan Kelebihannya
Berbeda dari LLM konvensional yang hanya memahami teks, model multimodal dirancang untuk bisa memahami dan mengolah kombinasi dari teks dan elemen visual. Berikut ini adalah beberapa contoh model LLM multimodal terkemuka:
1. Kosmos-1 dari Microsoft: Multimodal LLM yang Adaptif dan Efisien
Kosmos-1 (GitHub) adalah model multimodal yang dikembangkan oleh Microsoft untuk memahami bahasa alami dan persepsi visual secara bersamaan. Model ini bukan sekadar pembaca teks, tetapi mampu:
- Menjawab pertanyaan berdasarkan gambar (Visual Question Answering)
- Menghasilkan deskripsi dari gambar
- Melakukan dialog visual
- Menyelesaikan persamaan matematika
- Membaca teks dalam gambar (OCR)
- Melakukan klasifikasi gambar tanpa pelatihan awal (zero-shot), dengan atau tanpa deskripsi.
Untuk mengatasi variasi panjang input, Kosmos-1 menggunakan mekanisme positional encoding bernama xPOS, yang mampu beradaptasi antara input pendek (saat pelatihan) dan panjang (saat pengujian). Jumlah parameternya sekitar 1,6 miliar, jauh lebih kecil dibandingkan Flamingo atau GPT-4o.
Namun, keterbatasan utama Kosmos-1 adalah hanya dapat memproses 2.048 token, baik dari teks maupun gambar, yang bisa membatasi kompleksitas tugas.
Menariknya, Kosmos-1 juga berhasil memahami makna dari gambar secara langsung tanpa bantuan OCR, menunjukkan kemampuannya dalam memproses informasi visual secara kontekstual. Ketika diberi deskripsi tambahan saat melakukan klasifikasi gambar tanpa pelatihan (zero-shot), performanya pun meningkat.
2. Flamingo dari DeepMind: Kekuatan di Tugas Terbuka Multimodal
Flamingo adalah model Vision-Language Model (VLM) yang dikembangkan oleh DeepMind. Model ini unggul dalam tugas-tugas terbuka seperti:
- Pembuatan deskripsi gambar
- Dialog berbasis gambar
- Tanya jawab multimodal
- Pemrosesan video dan gambar bersamaan dengan teks
- Arsitektur Canggih
Flamingo menyatukan dua model pra-latih: Normalizer-Free ResNet (NFNet) sebagai encoder vision, dan Chinchilla sebagai model bahasa. Kedua model ini dibekukan (frozen), artinya tidak diperbarui lagi saat pelatihan Flamingo.
Kunci integrasi ada pada modul Perceiver Resampler yang mengambil fitur dari gambar/video dan menghasilkan output visual tetap. Flamingo juga menambahkan blok Gated Cross-Attention Dense (GATED XATTN-DENSE) yang dilatih dari awal di antara blok-blok Chinchilla.
Dalam pengujian terhadap 16 jenis tugas multimodal, Flamingo 80B berhasil mengungguli berbagai model yang hanya dilatih untuk satu tugas khusus. Namun, pada tugas klasifikasi yang mengandalkan pembandingan (retrieval), Flamingo masih kalah dari model seperti CLI dan ALIGN.
- Rentan terhadap halusinasi AI
- Efisiensi pelatihan rendah
- Sulit menangani input panjang
- Bisa menghasilkan bahasa yang bias atau tidak pantas
- Potensi kebocoran data pribadi
Solusi yang diusulkan adalah menyaring dataset secara lebih selektif dan mengecualikan hasil problematik saat evaluasi.
3. LLaVA: Asisten Bahasa dan Visual yang Fleksibel
LLaVA (Large Language and Vision Assistant) adalah model LLM multimodal yang dilatih secara end-to-end. Ini berarti semua komponennya saling dilatih bersamaan agar dapat bekerja harmonis. LLaVA menggabungkan encoder visual CLIP ViT-L/14 dengan model bahasa Vicuna yang merupakan turunan dari LLaMA 2.
- Pra-pelatihan (feature alignment): Hanya matriks proyeksi yang diperbarui agar fitur visual dan teks sejalan.
- Fine-tuning end-to-end: Semua parameter diperbarui agar model mampu menjalankan instruksi pengguna secara akurat, termasuk dalam konteks chatbot.
Saat menerima gambar, encoder CLIP menghasilkan fitur yang diubah menjadi representasi kata, lalu diproses oleh Vicuna untuk memahami maksud dari input tersebut.
- Mengikuti instruksi lebih baik daripada GPT-4 atau Flamingo 80B
- Unggul dalam dataset ScienceQA yang menguji pemahaman ilmu alam, sosial, dan bahasa secara multimodal
Namun, LLaVA masih memiliki keterbatasan dalam hal:
- Memahami gambar secara holistik (karena hanya melihatnya sebagai potongan)
- Mewarisi bias dan halusinasi dari model vision dan bahasa
- Tidak bisa memproses beberapa gambar sekaligus, berbeda dari Flamingo
4. PaLM-E dari Google: Integrasi Bahasa, Gambar, dan Robotika
Google mengambil langkah lebih jauh dengan mengembangkan PaLM-E, model multimodal yang tidak hanya menggabungkan teks dan gambar, tetapi juga data sensorik dari robot. Model ini ditujukan untuk tugas-tugas embodied AI—yaitu AI yang mampu berinteraksi dengan dunia fisik secara langsung.
- PaLM: LLM dengan 540 miliar parameter
- ViT (Vision Transformer) sebagai encoder visual
- Integrasi data posisi, orientasi, dan kecepatan robot sebagai informasi kondisi
Semua representasi (gambar, teks, dan sensorik) diproyeksikan ke dalam ruang token input PaLM, sehingga model bisa merespons prompt multimodal secara holistik.
- Tugas robotika (melampaui model seperti SayCan dan PALI)
- Tugas visual seperti VQA (mengungguli Flamingo)
- Tugas berbasis teks (melampaui PaLM sendiri)
Kemampuan canggih PaLM-E termasuk:
- Penalaran zero-shot multimodal berbasis rantai pikiran (Chain-of-Thought)
- Penalaran dari banyak gambar sekaligus
- Matematika dari gambar (tanpa OCR)
- Pembuatan caption dan tanya jawab berbasis gambar
Contoh Aplikasi Multimodal Large Language Models
Berikut adalah beberapa penerapan penting MLLM di berbagai bidang:
- Pembuatan Konten OtomatisMLLM bisa menghasilkan teks dari gambar, menyusun deskripsi visual dari narasi, atau bahkan membuat presentasi interaktif. Hal ini sangat berguna di bidang:
- Media dan jurnalisme,
- Pemasaran digital,
- Industri kreatif seperti game dan animasi.
- Asisten Virtual dan Chatbot PintarMLLM bisa memahami perintah suara, membaca gambar, dan memberikan respons yang sesuai. Teknologi ini memperkuat:
- Asisten pribadi berbasis suara,
- Customer service AI,
- Robot interaktif.
- Sistem Rekomendasi Lebih CerdasAlih-alih hanya mengandalkan teks atau klik, MLLM dapat memahami minat pengguna berdasarkan interaksi multimodal, misalnya:
- Menganalisis gambar yang disukai pengguna,
- Membaca komentar mereka,
- Menyimpulkan preferensi untuk merekomendasikan produk atau konten.
- Bidang Kesehatan dan MedisMLLM dapat menggabungkan laporan dokter, hasil laboratorium, dan citra medis seperti MRI untuk membantu diagnosis lebih cepat dan akurat.
- Pendidikan dan Pembelajaran DigitalDengan MLLM, materi pelajaran bisa disajikan secara visual dan interaktif—misalnya:
- Penjelasan konsep matematika dengan animasi,
- Buku pelajaran yang menyatu dengan video,
- Latihan soal dengan respons otomatis.
Tantangan, Keterbatasan, dan Arah Masa Depan Multimodal Large Language Models (MLLM)
Walau menjanjikan, pengembangan MLLM menghadirkan tantangan yang tidak sedikit. Dalam sebuah makalah penting, Paul Liang dan timnya menyusun taksonomi atau klasifikasi tantangan utama yang dihadapi dalam membangun model bahasa multimodal berskala besar. Berikut adalah tantangan-tantangan tersebut, keterbatasan yang dihadapi, serta arah penelitian ke depan dalam bidang ini.
- Representasi: Mewakili Dunia yang KompleksTantangan pertama dalam MLLM adalah bagaimana mewakili berbagai jenis data (modalitas) secara bermakna dan menyeluruh. Modalitas seperti teks, gambar, suara, dan video memiliki struktur yang sangat berbeda. Misalnya, teks tersusun dalam bentuk kata-kata, sementara gambar terdiri dari piksel dan warna.
MLLM harus mampu menyatukan semua ini ke dalam ruang representasi yang koheren. Salah satu pendekatannya adalah fusion atau penggabungan data dari berbagai modalitas, baik setelah masing-masing diproses secara terpisah maupun langsung dari data mentah. Pendekatan langsung sangat sulit karena data sangat beragam, tetapi menjanjikan karena bisa menangkap informasi secara lebih natural.
Koordinasi representasi juga menjadi tantangan besar. Model harus menempatkan data dari berbagai modalitas ke dalam ruang koordinat yang sama—agar, misalnya, deskripsi “sebuah sepeda” dan gambar sepeda memiliki kedekatan secara matematis. Ini penting untuk pencarian semantik dan pemahaman lintas modalitas.
Inspirasi dari kognisi manusia sangat berperan di sini. Otak manusia mampu mengintegrasikan suara, visual, dan konteks secara intuitif. Memahami cara kerja otak bisa menjadi kunci untuk menciptakan MLLM yang lebih cerdas dan fleksibel.
- Penyelarasan: Menyatukan Elemen dari Modalitas BerbedaTantangan kedua adalah alignment atau penyelarasan antar modalitas. Contohnya, menyelaraskan teks deskriptif dengan gerakan tangan dalam video, atau mencocokkan audio dengan gambar.
Dalam kasus data berlabel, contrastive learning bisa digunakan untuk menyamakan elemen dari modalitas berbeda (seperti kata “mobil” dan gambar mobil). Namun, jika label tidak tersedia, sistem harus menghitung kesamaan antar elemen secara otomatis, misalnya dengan cosine similarity.
Tantangan menjadi lebih kompleks jika data bersifat kontinu, seperti video panjang atau citra medis MRI, yang tidak memiliki batas semantik yang jelas. Dalam situasi seperti ini, metode clustering digunakan untuk mengelompokkan elemen berdasarkan kemiripan konteks.
Satu tantangan besar yang belum sepenuhnya terpecahkan adalah interaksi jangka panjang. Contoh klasik: kalimat “Setelah 25 menit di oven, kue menjadi kecokelatan” harus dihubungkan dengan bagian video yang menunjukkan perubahan warna kue—yang mungkin muncul jauh setelah pernyataan tersebut. Ini membutuhkan model dengan pemahaman waktu dan konteks yang sangat kuat.
- Penalaran: Menyatukan Fakta Menjadi KesimpulanPenalaran multimodal melibatkan penarikan kesimpulan berdasarkan data dari berbagai modalitas. Tantangan utama adalah membangun struktur berpikir yang memungkinkan model memahami hubungan antara elemen-elemen tersebut.
Model harus mampu merepresentasikan konsep multimodal secara dapat diinterpretasikan, baik melalui attention, simbol, atau bahkan bahasa alami. Kemampuan berpindah dari data mentah ke konsep abstrak (misalnya dari piksel menjadi pertanyaan tentang warna jaket) sangat krusial.
Penelitian di bidang ini juga menekankan pentingnya transparansi dan interpretabilitas. Kita perlu tahu bagaimana model mengambil keputusan—apakah ada bias? Apakah model bisa dijelaskan? Hal ini penting untuk membangun kepercayaan, apalagi jika model digunakan di bidang sensitif seperti kesehatan atau hukum.
- Generasi: Menciptakan Konten Multimodal yang BermaknaMLLM tidak hanya memahami tetapi juga menciptakan konten baru seperti gambar dari teks, video dari narasi, atau bahkan gabungan keduanya. Ini disebut generasi multimodal.Contoh aplikasinya adalah translasi multimodal, seperti membuat visualisasi dari laporan keuangan atau membuat video dari sinopsis cerita. Tantangannya adalah memastikan hasil yang bermakna, koheren, dan kontekstual.
Namun, proses evaluasi hasil generasi ini tidak mudah. Berbeda dengan teks, validasi hasil gambar atau video memerlukan pengamatan manusia, yang bisa bias dan mahal. Apalagi jika menyangkut isu etika, seperti deepfake, misinformasi, atau konten berbahaya.
Penelitian masa depan perlu mengevaluasi apakah multimodalitas justru membuka celah baru bagi bias dan penyalahgunaan, atau sebaliknya—meningkatkan keadilan karena bisa merepresentasikan keragaman informasi yang lebih luas.
- Transfer Pengetahuan: Belajar dari Modalitas LainDalam banyak kasus, tidak semua modalitas tersedia dalam jumlah besar. Oleh karena itu, transfer pengetahuan menjadi penting—misalnya, menggunakan pengetahuan dari gambar untuk meningkatkan pemahaman teks.
Pendekatan seperti pre-training dan fine-tuning memungkinkan model besar yang sudah dilatih dengan satu modalitas (misalnya teks) digunakan untuk tugas multimodal seperti captioning gambar. Selain itu, co-learning multimodal memungkinkan model belajar bersama dari berbagai modalitas, meningkatkan generalisasi.
Namun, tantangannya adalah kompleksitas dan keselarasan antar modalitas. Ketika modalitas tidak tersedia secara bersamaan, model harus tetap bisa berfungsi tanpa kehilangan akurasi.
- Kuantifikasi: Menilai Kinerja dan Keandalan ModelAspek terakhir dan tak kalah penting adalah quantification atau kuantifikasi. Ini mencakup berbagai upaya untuk membuat model multimodal lebih andal, dapat dijelaskan, dan tahan terhadap bias.
Penting untuk memahami heterogenitas data, seperti perbedaan cara data teks dan gambar disajikan. MLLM harus mampu mengidentifikasi hubungan antar modalitas dan menyesuaikan strategi pelatihan dan optimisasi.
Selain itu, dibutuhkan pedoman evaluasi formal misalnya, mana modalitas yang mendukung performa, dan mana yang bisa menjadi vektor serangan seperti adversarial input. Dalam aplikasi nyata, pemilihan modalitas yang tepat bisa menjadi pembeda antara model yang sukses dan model yang gagal.
Kita juga harus mengantisipasi bias sosial yang mungkin terkandung dalam data, baik teks maupun visual. Tanpa kesadaran ini, model bisa memperkuat stereotip atau membuat keputusan yang diskriminatif.
Penutup: Menuju AI yang Lebih Cerdas dan Adil
Multimodal Large Language Models adalah tonggak penting dalam perjalanan AI menuju pemahaman dan interaksi yang lebih manusiawi. Kemampuannya menggabungkan berbagai jenis data memungkinkan penerapan yang lebih kaya dan kontekstual dalam berbagai bidang, mulai dari pendidikan, kesehatan, hiburan, hingga keamanan siber.
Namun, jalan menuju model multimodal yang benar-benar andal, aman, dan adil masih panjang. Tantangan seperti representasi, penyelarasan, penalaran, generasi, transfer pengetahuan, dan kuantifikasi harus ditangani secara menyeluruh.
Penelitian ke depan harus fokus pada membangun fondasi etis dan teknis yang kuat, agar MLLM bukan hanya canggih, tapi juga bisa dipercaya dan bermanfaat bagi semua kalangan. Dengan pendekatan interdisipliner yang melibatkan teknologi, ilmu kognitif, dan etika, masa depan model multimodal tampak menjanjikan untuk mendefinisikan ulang cara manusia dan mesin berinteraksi.