![]() |
| cover | dok: @google |
Google melaporkan Model audio Gemini terbaru menghadirkan peningkatan untuk interaksi suara yang lebih andal dan alami. Google memperbarui Gemini 2.5 Pro dan Flash Text-to-Speech untuk memberi kontrol lebih baik dalam pembuatan audio. Inovasi ini menandai fokus baru pada kualitas percakapan, bukan sekadar suara ekspresif.
Pembaruan utama hadir melalui Gemini 2.5 Flash Native Audio yang dirancang untuk agen suara langsung. Model ini lebih piawai menangani alur kerja kompleks dan instruksi pengguna. Percakapan multi-giliran kini terasa lebih natural dan koheren.
Gemini 2.5 Flash Native Audio telah tersedia di Google AI Studio, Vertex AI, serta mulai diluncurkan di Gemini Live dan Search Live. Kehadiran audio asli di Search Live membuka pengalaman brainstorming dan bantuan real-time yang lebih efektif. Perusahaan juga dapat membangun agen layanan pelanggan berbasis suara dengan lebih cepat.
Audio asli turut membuka peluang baru dalam komunikasi global melalui fitur terjemahan ucapan langsung. Fitur ini memungkinkan terjemahan suara ke suara secara streaming sambil mempertahankan intonasi dan nada pembicara. Pengalaman beta telah tersedia di aplikasi Google Translate.
"Selain mendukung agen yang membantu, audio asli membuka kemungkinan baru untuk komunikasi global. Kami memperkenalkan terjemahan ucapan langsung, sebuah kemampuan yang memungkinkan terjemahan ucapan ke ucapan secara streaming untuk headphone," tulis Google dalam pengumuman resminya, seperti dilansir topik.id, Minggu (14/12/2025).
Dari sisi teknis, model ini unggul dalam pemanggilan fungsi eksternal yang lebih akurat. Tingkat kepatuhan instruksi meningkat hingga 90 persen, mencerminkan respons yang lebih andal. Kualitas percakapan multi-giliran juga meningkat signifikan dibanding versi sebelumnya.
"Fitur ini mempertahankan intonasi, kecepatan, dan nada suara pembicara. Pengalaman beta ini diluncurkan di aplikasi Google Translate mulai hari ini," ungkap Google.
Sejumlah pelanggan Google Cloud melaporkan dampak bisnis nyata dari penggunaan audio Gemini. Shopify, UWM, dan Newo.ai menyebut agen suara terasa lebih alami dan cerdas. Bahkan, pengguna kerap lupa bahwa mereka sedang berbicara dengan AI.
Google berencana memperluas fitur audio dan terjemahan ini ke lebih banyak produk dan API pada 2026. Pengembang sudah dapat mulai membangun agen suara melalui Vertex AI dan API Gemini. Langkah ini mempertegas posisi Gemini sebagai fondasi interaksi suara generasi baru.
"Berdasarkan masukan yang diterima, kami akan terus menyempurnakan pengalaman ini dan menerapkannya ke lebih banyak produk Google, termasuk API Gemini pada tahun 2026," beber Google.
