Apa Itu Multimodal LLM? Evolusi AI untuk Dunia Multimodal

 

Dalam beberapa tahun terakhir, kemajuan Artificial Intelligence (AI) telah mencengangkan dunia, khususnya melalui hadirnya Large Language Models (LLM) seperti GPT, BERT, atau Claude yang mampu memahami dan menghasilkan teks secara luar biasa. Namun, kemampuan mereka terbatas pada satu modalitas: teks.

Padahal, di dunia nyata, informasi tidak hanya disampaikan dalam bentuk kata-kata. Kita berinteraksi dengan lingkungan melalui berbagai jenis data: gambar, suara, video, bahkan sentuhan. Di sinilah peran penting Multimodal Large Language Models (MLLM) mulai terlihat. MLLM adalah bentuk evolusi dari LLM yang mampu memahami, menggabungkan, dan mengolah berbagai jenis data sekaligus.

Artikel ini akan membahas secara komprehensif mengenai apa itu MLLM, bagaimana cara kerjanya, apa saja manfaat serta tantangan yang dihadapi, dan bagaimana model ini membuka peluang besar di berbagai bidang.

 

Apa Itu Multimodal Large Language Models?

Untuk memahami MLLM, kita perlu mengenal dulu istilah dasar dalam dunia AI, yaitu modalitas.

Modalitas adalah saluran atau cara penyampaian dan penerimaan informasi. Dalam konteks manusia dan AI, berikut adalah beberapa jenis modalitas yang umum:

  • Visual: mencakup gambar, grafik, video, atau data spasial.
  • Auditori: berupa suara, musik, atau ucapan.
  • Tekstual: meliputi teks tertulis seperti artikel, email, atau laporan.
  • Haptik: sensasi fisik seperti tekanan, suhu, atau tekstur.
  • Olfaktori dan gustatori: berkaitan dengan penciuman dan rasa (jarang diterapkan dalam model AI saat ini, tapi tetap dianggap modalitas).

Sementara itu, "multimodal" berarti melibatkan lebih dari satu modalitas dalam sebuah proses komunikasi atau analisis.

Definisi MLLM
Multimodal Large Language Models (MLLM) adalah model AI canggih yang dilatih untuk memahami, mengintegrasikan, dan memproses berbagai jenis data secara bersamaan—misalnya teks, gambar, dan suara. MLLM tidak hanya membaca kalimat, tetapi juga dapat “melihat” gambar atau “mendengar” suara untuk memberikan respons yang lebih relevan dan kontekstual.

Dengan kata lain, MLLM menjembatani berbagai bentuk informasi untuk membangun pemahaman yang lebih lengkap dan menyerupai cara manusia berpikir.


Mengapa MLLM Dibutuhkan?

Di era digital yang serba visual dan interaktif seperti sekarang, kita tidak bisa lagi hanya mengandalkan teks sebagai satu-satunya sumber informasi. Banyak sektor industri yang secara alami menggunakan data dari berbagai sumber dan bentuk. Berikut beberapa alasannya:

  1. Kompleksitas Dunia Nyata
    Masalah dunia nyata—misalnya dalam bidang medis, keamanan, pendidikan, atau layanan pelanggan—seringkali membutuhkan pemrosesan dari berbagai modalitas sekaligus. Contoh konkret:

    • Seorang dokter membaca catatan pasien (teks), melihat hasil MRI (gambar), dan mendengarkan keluhan pasien (suara).
    • Sistem keamanan menggunakan kamera CCTV (video), log aktivitas (teks), dan rekaman suara untuk mendeteksi ancaman.

    LLM konvensional tidak bisa menjalankan tugas seperti itu secara menyeluruh karena hanya memproses teks.

  2. Interaksi yang Lebih Alami dengan Mesin
    Manusia secara alami berkomunikasi secara multimodal misalnya saat berbicara sambil menunjuk atau menampilkan ekspresi wajah. Untuk menciptakan interaksi manusia-mesin yang lebih natural dan efisien, model AI juga harus mampu memahami berbagai modalitas.

  3. Efisiensi dan Akurasi yang Lebih Tinggi
    Dengan menggabungkan berbagai modalitas, MLLM dapat meningkatkan akurasi pengambilan keputusan. Data visual dapat memperkuat konteks teks, dan sebaliknya. Ini membuat hasil analisis dan output AI menjadi lebih kaya dan bermakna.


Cara Kerja Multimodal Large Language Models

MLLM bekerja dengan pendekatan modular, di mana masing-masing modalitas diproses dengan model khusus, lalu digabungkan menjadi representasi terpadu. Umumnya, terdapat tiga komponen utama:

  1. Modul Input (Input Module)
    Setiap jenis data dimasukkan ke dalam model melalui modul khusus:

    • Gambar diproses menggunakan model visual seperti CNN (Convolutional Neural Networks) atau ViT (Vision Transformer).
    • Teks diproses menggunakan transformer-based language models seperti GPT atau BERT.
    • Suara diproses menggunakan jaringan rekuren atau transformer audio seperti Whisper.

    Setiap modul akan menghasilkan representasi menengah (embedding) dari datanya.

  2. Modul Penggabungan (Fusion Module)
    Seluruh embedding dari berbagai modalitas ini kemudian digabungkan menjadi satu representasi bersama (joint representation). Fusion bisa dilakukan secara:

    • Awal (early fusion): semua data digabungkan sebelum diproses.
    • Tengah (mid fusion): penggabungan setelah sebagian pemrosesan.
    • Akhir (late fusion): setiap modalitas diproses secara terpisah lalu hasilnya digabung.

    Metode fusion yang dipilih akan memengaruhi efisiensi dan performa model.

  3. Modul Output (Output Module)
    Berdasarkan representasi gabungan dan tugas yang diberikan, sistem menghasilkan output yang sesuai. Output bisa berupa:

    • Jawaban teks (seperti menjawab pertanyaan tentang gambar).
    • Klasifikasi objek.
    • Deskripsi otomatis dari gambar atau suara.
    • Pembuatan media baru (misalnya, membuat gambar dari teks).

 

Contoh Multimodal Large Language Models: Inovasi, Arsitektur, dan Kelebihannya

Berbeda dari LLM konvensional yang hanya memahami teks, model multimodal dirancang untuk bisa memahami dan mengolah kombinasi dari teks dan elemen visual. Berikut ini adalah beberapa contoh model LLM multimodal terkemuka: 

1. Kosmos-1 dari Microsoft: Multimodal LLM yang Adaptif dan Efisien

Kosmos-1 (GitHub) adalah model multimodal yang dikembangkan oleh Microsoft untuk memahami bahasa alami dan persepsi visual secara bersamaan. Model ini bukan sekadar pembaca teks, tetapi mampu:

  • Menjawab pertanyaan berdasarkan gambar (Visual Question Answering)
  • Menghasilkan deskripsi dari gambar
  • Melakukan dialog visual
  • Menyelesaikan persamaan matematika
  • Membaca teks dalam gambar (OCR)
  • Melakukan klasifikasi gambar tanpa pelatihan awal (zero-shot), dengan atau tanpa deskripsi.

Arsitektur dan Pelatihan
Kosmos-1 menerima input berupa kombinasi teks dan gambar yang telah dienkode menggunakan CLIP ViT-L/14, sebuah model yang telah dilatih sebelumnya untuk menghubungkan teks dan gambar. Input ini kemudian diproses oleh modul embedding sebelum dikirim ke decoder transformer Magneto.

Untuk mengatasi variasi panjang input, Kosmos-1 menggunakan mekanisme positional encoding bernama xPOS, yang mampu beradaptasi antara input pendek (saat pelatihan) dan panjang (saat pengujian). Jumlah parameternya sekitar 1,6 miliar, jauh lebih kecil dibandingkan Flamingo atau GPT-4o.

Namun, keterbatasan utama Kosmos-1 adalah hanya dapat memproses 2.048 token, baik dari teks maupun gambar, yang bisa membatasi kompleksitas tugas.

Performa dan Kelebihan
Microsoft menguji Kosmos-1 menggunakan Raven IQ Test, sebuah tes penalaran nonverbal yang umumnya digunakan untuk mengukur kecerdasan manusia. Hasilnya, meski performanya masih dekat dengan tebakan acak, ini merupakan pencapaian awal bahwa LLM multimodal memiliki potensi dalam penalaran visual.

Menariknya, Kosmos-1 juga berhasil memahami makna dari gambar secara langsung tanpa bantuan OCR, menunjukkan kemampuannya dalam memproses informasi visual secara kontekstual. Ketika diberi deskripsi tambahan saat melakukan klasifikasi gambar tanpa pelatihan (zero-shot), performanya pun meningkat.

2. Flamingo dari DeepMind: Kekuatan di Tugas Terbuka Multimodal

Flamingo adalah model Vision-Language Model (VLM) yang dikembangkan oleh DeepMind. Model ini unggul dalam tugas-tugas terbuka seperti:

  • Pembuatan deskripsi gambar
  • Dialog berbasis gambar
  • Tanya jawab multimodal
  • Pemrosesan video dan gambar bersamaan dengan teks
  • Arsitektur Canggih

Flamingo menyatukan dua model pra-latih: Normalizer-Free ResNet (NFNet) sebagai encoder vision, dan Chinchilla sebagai model bahasa. Kedua model ini dibekukan (frozen), artinya tidak diperbarui lagi saat pelatihan Flamingo.

Kunci integrasi ada pada modul Perceiver Resampler yang mengambil fitur dari gambar/video dan menghasilkan output visual tetap. Flamingo juga menambahkan blok Gated Cross-Attention Dense (GATED XATTN-DENSE) yang dilatih dari awal di antara blok-blok Chinchilla.

Kapasitas dan Performa
Model terbesar, Flamingo 80B, memiliki 80 miliar parameter dan dilatih menggunakan berbagai dataset dari internet yang mencakup pasangan teks-gambar, gambar-teks, serta video-teks.

Dalam pengujian terhadap 16 jenis tugas multimodal, Flamingo 80B berhasil mengungguli berbagai model yang hanya dilatih untuk satu tugas khusus. Namun, pada tugas klasifikasi yang mengandalkan pembandingan (retrieval), Flamingo masih kalah dari model seperti CLI dan ALIGN.

Tantangan dan Batasan
Flamingo memiliki beberapa kelemahan penting:

  • Rentan terhadap halusinasi AI
  • Efisiensi pelatihan rendah
  • Sulit menangani input panjang
  • Bisa menghasilkan bahasa yang bias atau tidak pantas
  • Potensi kebocoran data pribadi

Solusi yang diusulkan adalah menyaring dataset secara lebih selektif dan mengecualikan hasil problematik saat evaluasi.

3. LLaVA: Asisten Bahasa dan Visual yang Fleksibel

LLaVA (Large Language and Vision Assistant) adalah model LLM multimodal yang dilatih secara end-to-end. Ini berarti semua komponennya saling dilatih bersamaan agar dapat bekerja harmonis. LLaVA menggabungkan encoder visual CLIP ViT-L/14 dengan model bahasa Vicuna yang merupakan turunan dari LLaMA 2.

Arsitektur dan Tahap Pelatihan
LLaVA menjalani dua tahap pelatihan:

  • Pra-pelatihan (feature alignment): Hanya matriks proyeksi yang diperbarui agar fitur visual dan teks sejalan.
  • Fine-tuning end-to-end: Semua parameter diperbarui agar model mampu menjalankan instruksi pengguna secara akurat, termasuk dalam konteks chatbot.

Saat menerima gambar, encoder CLIP menghasilkan fitur yang diubah menjadi representasi kata, lalu diproses oleh Vicuna untuk memahami maksud dari input tersebut.

Keunggulan dan Performa
Meski hanya memiliki 7 miliar parameter, LLaVA 7B dapat:

  • Mengikuti instruksi lebih baik daripada GPT-4 atau Flamingo 80B
  • Unggul dalam dataset ScienceQA yang menguji pemahaman ilmu alam, sosial, dan bahasa secara multimodal

Namun, LLaVA masih memiliki keterbatasan dalam hal:

  • Memahami gambar secara holistik (karena hanya melihatnya sebagai potongan)
  • Mewarisi bias dan halusinasi dari model vision dan bahasa
  • Tidak bisa memproses beberapa gambar sekaligus, berbeda dari Flamingo

4. PaLM-E dari Google: Integrasi Bahasa, Gambar, dan Robotika

Google mengambil langkah lebih jauh dengan mengembangkan PaLM-E, model multimodal yang tidak hanya menggabungkan teks dan gambar, tetapi juga data sensorik dari robot. Model ini ditujukan untuk tugas-tugas embodied AI—yaitu AI yang mampu berinteraksi dengan dunia fisik secara langsung.

Arsitektur Inovatif
PaLM-E terdiri dari:

  • PaLM: LLM dengan 540 miliar parameter
  • ViT (Vision Transformer) sebagai encoder visual
  • Integrasi data posisi, orientasi, dan kecepatan robot sebagai informasi kondisi

Semua representasi (gambar, teks, dan sensorik) diproyeksikan ke dalam ruang token input PaLM, sehingga model bisa merespons prompt multimodal secara holistik.

Performa dan Kemampuan
Dalam berbagai eksperimen, PaLM-E menunjukkan performa unggul dalam:

  • Tugas robotika (melampaui model seperti SayCan dan PALI)
  • Tugas visual seperti VQA (mengungguli Flamingo)
  • Tugas berbasis teks (melampaui PaLM sendiri)

Kemampuan canggih PaLM-E termasuk:

  • Penalaran zero-shot multimodal berbasis rantai pikiran (Chain-of-Thought)
  • Penalaran dari banyak gambar sekaligus
  • Matematika dari gambar (tanpa OCR)
  • Pembuatan caption dan tanya jawab berbasis gambar

 

Contoh Aplikasi Multimodal Large Language Models

Berikut adalah beberapa penerapan penting MLLM di berbagai bidang:

  1. Pembuatan Konten Otomatis
    MLLM bisa menghasilkan teks dari gambar, menyusun deskripsi visual dari narasi, atau bahkan membuat presentasi interaktif. Hal ini sangat berguna di bidang:

    • Media dan jurnalisme,
    • Pemasaran digital,
    • Industri kreatif seperti game dan animasi.
  2. Asisten Virtual dan Chatbot Pintar
    MLLM bisa memahami perintah suara, membaca gambar, dan memberikan respons yang sesuai. Teknologi ini memperkuat:

    • Asisten pribadi berbasis suara,
    • Customer service AI,
    • Robot interaktif.
  3. Sistem Rekomendasi Lebih Cerdas
    Alih-alih hanya mengandalkan teks atau klik, MLLM dapat memahami minat pengguna berdasarkan interaksi multimodal, misalnya:

    • Menganalisis gambar yang disukai pengguna,
    • Membaca komentar mereka,
    • Menyimpulkan preferensi untuk merekomendasikan produk atau konten.
  4. Bidang Kesehatan dan Medis
    MLLM dapat menggabungkan laporan dokter, hasil laboratorium, dan citra medis seperti MRI untuk membantu diagnosis lebih cepat dan akurat.

  5. Pendidikan dan Pembelajaran Digital
    Dengan MLLM, materi pelajaran bisa disajikan secara visual dan interaktif—misalnya:

    • Penjelasan konsep matematika dengan animasi,
    • Buku pelajaran yang menyatu dengan video,
    • Latihan soal dengan respons otomatis.

 

Tantangan, Keterbatasan, dan Arah Masa Depan Multimodal Large Language Models (MLLM)

Walau menjanjikan, pengembangan MLLM menghadirkan tantangan yang tidak sedikit. Dalam sebuah makalah penting, Paul Liang dan timnya menyusun taksonomi atau klasifikasi tantangan utama yang dihadapi dalam membangun model bahasa multimodal berskala besar. Berikut adalah tantangan-tantangan tersebut, keterbatasan yang dihadapi, serta arah penelitian ke depan dalam bidang ini.

  1. Representasi: Mewakili Dunia yang Kompleks
    Tantangan pertama dalam MLLM adalah bagaimana mewakili berbagai jenis data (modalitas) secara bermakna dan menyeluruh. Modalitas seperti teks, gambar, suara, dan video memiliki struktur yang sangat berbeda. Misalnya, teks tersusun dalam bentuk kata-kata, sementara gambar terdiri dari piksel dan warna.

    MLLM harus mampu menyatukan semua ini ke dalam ruang representasi yang koheren. Salah satu pendekatannya adalah fusion atau penggabungan data dari berbagai modalitas, baik setelah masing-masing diproses secara terpisah maupun langsung dari data mentah. Pendekatan langsung sangat sulit karena data sangat beragam, tetapi menjanjikan karena bisa menangkap informasi secara lebih natural.

    Koordinasi representasi juga menjadi tantangan besar. Model harus menempatkan data dari berbagai modalitas ke dalam ruang koordinat yang sama—agar, misalnya, deskripsi “sebuah sepeda” dan gambar sepeda memiliki kedekatan secara matematis. Ini penting untuk pencarian semantik dan pemahaman lintas modalitas.

    Inspirasi dari kognisi manusia sangat berperan di sini. Otak manusia mampu mengintegrasikan suara, visual, dan konteks secara intuitif. Memahami cara kerja otak bisa menjadi kunci untuk menciptakan MLLM yang lebih cerdas dan fleksibel.

  2. Penyelarasan: Menyatukan Elemen dari Modalitas Berbeda
    Tantangan kedua adalah alignment atau penyelarasan antar modalitas. Contohnya, menyelaraskan teks deskriptif dengan gerakan tangan dalam video, atau mencocokkan audio dengan gambar.

    Dalam kasus data berlabel, contrastive learning bisa digunakan untuk menyamakan elemen dari modalitas berbeda (seperti kata “mobil” dan gambar mobil). Namun, jika label tidak tersedia, sistem harus menghitung kesamaan antar elemen secara otomatis, misalnya dengan cosine similarity.

    Tantangan menjadi lebih kompleks jika data bersifat kontinu, seperti video panjang atau citra medis MRI, yang tidak memiliki batas semantik yang jelas. Dalam situasi seperti ini, metode clustering digunakan untuk mengelompokkan elemen berdasarkan kemiripan konteks.

    Satu tantangan besar yang belum sepenuhnya terpecahkan adalah interaksi jangka panjang. Contoh klasik: kalimat “Setelah 25 menit di oven, kue menjadi kecokelatan” harus dihubungkan dengan bagian video yang menunjukkan perubahan warna kue—yang mungkin muncul jauh setelah pernyataan tersebut. Ini membutuhkan model dengan pemahaman waktu dan konteks yang sangat kuat.

  3. Penalaran: Menyatukan Fakta Menjadi Kesimpulan
    Penalaran multimodal melibatkan penarikan kesimpulan berdasarkan data dari berbagai modalitas. Tantangan utama adalah membangun struktur berpikir yang memungkinkan model memahami hubungan antara elemen-elemen tersebut.

    Model harus mampu merepresentasikan konsep multimodal secara dapat diinterpretasikan, baik melalui attention, simbol, atau bahkan bahasa alami. Kemampuan berpindah dari data mentah ke konsep abstrak (misalnya dari piksel menjadi pertanyaan tentang warna jaket) sangat krusial.

    Penelitian di bidang ini juga menekankan pentingnya transparansi dan interpretabilitas. Kita perlu tahu bagaimana model mengambil keputusan—apakah ada bias? Apakah model bisa dijelaskan? Hal ini penting untuk membangun kepercayaan, apalagi jika model digunakan di bidang sensitif seperti kesehatan atau hukum.

  4. Generasi: Menciptakan Konten Multimodal yang Bermakna
    MLLM tidak hanya memahami tetapi juga menciptakan konten baru seperti gambar dari teks, video dari narasi, atau bahkan gabungan keduanya. Ini disebut generasi multimodal.
    Contoh aplikasinya adalah translasi multimodal, seperti membuat visualisasi dari laporan keuangan atau membuat video dari sinopsis cerita. Tantangannya adalah memastikan hasil yang bermakna, koheren, dan kontekstual.

    Namun, proses evaluasi hasil generasi ini tidak mudah. Berbeda dengan teks, validasi hasil gambar atau video memerlukan pengamatan manusia, yang bisa bias dan mahal. Apalagi jika menyangkut isu etika, seperti deepfake, misinformasi, atau konten berbahaya.

    Penelitian masa depan perlu mengevaluasi apakah multimodalitas justru membuka celah baru bagi bias dan penyalahgunaan, atau sebaliknya—meningkatkan keadilan karena bisa merepresentasikan keragaman informasi yang lebih luas.

  5. Transfer Pengetahuan: Belajar dari Modalitas Lain
    Dalam banyak kasus, tidak semua modalitas tersedia dalam jumlah besar. Oleh karena itu, transfer pengetahuan menjadi penting—misalnya, menggunakan pengetahuan dari gambar untuk meningkatkan pemahaman teks.

    Pendekatan seperti pre-training dan fine-tuning memungkinkan model besar yang sudah dilatih dengan satu modalitas (misalnya teks) digunakan untuk tugas multimodal seperti captioning gambar. Selain itu, co-learning multimodal memungkinkan model belajar bersama dari berbagai modalitas, meningkatkan generalisasi.

    Namun, tantangannya adalah kompleksitas dan keselarasan antar modalitas. Ketika modalitas tidak tersedia secara bersamaan, model harus tetap bisa berfungsi tanpa kehilangan akurasi.

  6. Kuantifikasi: Menilai Kinerja dan Keandalan Model
    Aspek terakhir dan tak kalah penting adalah quantification atau kuantifikasi. Ini mencakup berbagai upaya untuk membuat model multimodal lebih andal, dapat dijelaskan, dan tahan terhadap bias.

    Penting untuk memahami heterogenitas data, seperti perbedaan cara data teks dan gambar disajikan. MLLM harus mampu mengidentifikasi hubungan antar modalitas dan menyesuaikan strategi pelatihan dan optimisasi.

    Selain itu, dibutuhkan pedoman evaluasi formal misalnya, mana modalitas yang mendukung performa, dan mana yang bisa menjadi vektor serangan seperti adversarial input. Dalam aplikasi nyata, pemilihan modalitas yang tepat bisa menjadi pembeda antara model yang sukses dan model yang gagal.

    Kita juga harus mengantisipasi bias sosial yang mungkin terkandung dalam data, baik teks maupun visual. Tanpa kesadaran ini, model bisa memperkuat stereotip atau membuat keputusan yang diskriminatif.

 

Penutup: Menuju AI yang Lebih Cerdas dan Adil

Multimodal Large Language Models adalah tonggak penting dalam perjalanan AI menuju pemahaman dan interaksi yang lebih manusiawi. Kemampuannya menggabungkan berbagai jenis data memungkinkan penerapan yang lebih kaya dan kontekstual dalam berbagai bidang, mulai dari pendidikan, kesehatan, hiburan, hingga keamanan siber.

Namun, jalan menuju model multimodal yang benar-benar andal, aman, dan adil masih panjang. Tantangan seperti representasi, penyelarasan, penalaran, generasi, transfer pengetahuan, dan kuantifikasi harus ditangani secara menyeluruh.

Penelitian ke depan harus fokus pada membangun fondasi etis dan teknis yang kuat, agar MLLM bukan hanya canggih, tapi juga bisa dipercaya dan bermanfaat bagi semua kalangan. Dengan pendekatan interdisipliner yang melibatkan teknologi, ilmu kognitif, dan etika, masa depan model multimodal tampak menjanjikan untuk mendefinisikan ulang cara manusia dan mesin berinteraksi.