Kenapa Otak Pintar Google (Multimodal) Lebih Hebat dari ChatGPT

librarian

Updated: 25 Okt, 2025 • 0 • min read

Table of Contents

Kamu pasti sering dengar tentang ChatGPT, kan? Itu lho, robot pintar yang jago banget nulis, bikin PR, atau bahkan cerita dongeng. Dia memang hebat dalam hal kata-kata.

Tapi, coba bayangkan begini: Kalian punya teman. Teman pertama cuma bisa dengar suara kamu (teks). Kalau kamu kasih dia foto atau tunjuk sesuatu, dia bingung.

Teman kedua, dia bisa dengar kamu, lihat yang kamu tunjuk (gambar), bahkan tahu kalau kamu sedih dari nada suaramu (audio).

Nah, teman kedua ini seperti "Otak Pintar Multimodal" milik Google, yang mereka sebut Gemini. "Multi" artinya banyak, dan "Modal" artinya cara. Jadi, Otak Pintar ini bisa mengerti banyak cara sekaligus. Kenapa ini jauh lebih keren? Yuk, kita lihat!

Dunia Kita Penuh Warna, Bukan Cuma Tulisan!

Coba lihat sekeliling kamu sekarang. Ada buku (teks), ada poster atau foto di dinding (gambar), ada suara musik atau obrolan (audio). Dunia kita itu gabungan dari semua hal ini!

ChatGPT dan teman-teman sejenisnya itu seperti robot yang hanya dilatih membaca buku yang sangat, sangat banyak. Mereka jadi pintar sekali merangkai kata. Tapi, pemahaman mereka tentang dunia nyata terbatas.

Fakta Unik: Robot pintar yang hanya bisa teks, kalau kita suruh jelaskan kenapa balon bisa terbang, dia bisa jelaskan tentang fisika. Tapi kalau kita tunjukkan gambar balon meletus, dia mungkin tidak akan merasakan kaget atau sedih seperti kita.

Otak Pintar Google Punya Mata dan Telinga

Google, perusahaan yang punya YouTube, Google Maps, dan Google Search, punya banyak sekali "mata" dan "telinga" di seluruh dunia. Mereka menggunakan semua itu untuk melatih Otak Pintar mereka.

Coba kita lihat bedanya dalam tiga hal sederhana:

1. Lihat dan Ngerti (Gambar dan Teks)

Bayangkan kamu lagi jalan-jalan. Kamu foto bunga yang aneh dan kamu tanyakan ke Otak Pintar.

ChatGPT (Monoteks): Kamu harus menulis deskripsi bunganya: "Bunga ini warnanya ungu, kelopaknya lima, ada bintik-bintik kuning." Setelah itu, dia baru bisa menebak jenisnya. Agak repot ya.

Google (Multimodal): Kamu tinggal kasih fotonya! Otak Pintar langsung melihat gambar (modalitas visual), membandingkannya dengan jutaan foto bunga lain, dan menjawab, "Oh, ini Anggrek Bulan." Dia tidak perlu kamu jelaskan pakai kata-kata. Dia mengerti gambar itu.

2. Dengar dan Paham (Audio dan Konteks)

Saat kamu nonton YouTube, Otak Pintar Google bisa melakukan hal yang hebat.

Dia tidak hanya membaca judul video. Dia bisa:

Melihat apa yang terjadi (gerakan orang, warna).

Mendengar apa yang diucapkan (suara, nada bicara).

Membaca komentar di bawah (teks).

Kalau ada video tentang cara memasak, dia tahu persis kapan koki itu bilang "Tambahkan gula," dan dia juga melihat koki itu menuangkan gula. Ini membuat Otak Pintar jadi sangat-sangat pintar dan tidak gampang salah paham.

3. Memahami Ruang dan Tempat (Maps dan Fisik)

Ini yang paling keren. Karena Google punya Google Maps dan Street View, Otak Pintar mereka juga punya pemahaman tentang dunia nyata.

Kalau kamu bertanya, "Apa tempat parkir terdekat dari sekolahku?"

Otak Pintar Google akan melihat data lokasi kamu (spasial), melihat gambar jalanan di sekitar (visual), dan memberikan jawaban berupa peta dan instruksi (teks). Semua modalitas bekerja bersamaan!

Kenapa Google Bisa Melakukannya?

Google bisa membuat Otak Pintar Multimodal yang hebat karena tiga hal:

Gudang Data Raksasa: Mereka punya YouTube (video/audio), Google Maps (peta/lokasi), dan mesin pencari (teks/gambar) yang datanya bejibun. Semua ini seperti bahan makanan super lengkap untuk melatih Otak Pintar.
Mesin Khusus: Google tidak pakai komputer biasa. Mereka punya mesin super cepat yang disebut TPU (mirip dengan otak robot yang sangat-sangat cepat). Mesin ini dibuat khusus untuk melatih robot pintar yang harus mengerti banyak hal (teks, gambar, suara) sekaligus tanpa lelet atau lemot.
Membuatnya dari Awal: Mereka merancang Otak Pintar mereka (Gemini) agar bisa mengerti semua data ini sejak lahir. Bukan cuma robot teks yang ditempeli mata dan telinga; dia lahir dengan mata, telinga, dan kemampuan membaca sekaligus!

Masa Depan Itu Multimodal

Robot pintar yang hanya bisa ngomong dan nulis itu memang hebat. Tapi, masa depan ada di tangan robot yang bisa mengerti dunia seperti kita.

Robot yang bisa lihat kalau kita tunjuk sesuatu, dengar nada bicara kita, baca tulisan, dan tahu posisi kita di peta. Itulah yang sedang dibangun Google. Mereka tidak hanya membuat robot yang pintar di kelas bahasa, tapi robot yang pintar di semua pelajaran: Sains, Geografi, Seni, dan Bahasa.

Jadi, ketika kamu melihat ChatGPT, ingatlah dia adalah pembaca buku yang luar biasa. Tapi ketika kamu melihat inovasi Google, ingatlah mereka sedang membangun teman super pintar yang bisa melihat, mendengar, dan mengerti seluruh dunia, sama seperti kita! Ini adalah lompatan besar, membuat robot jadi lebih mirip manusia (tapi jauh lebih cepat, hehe!). Sampai jumpa!

librarian.id