![]() |
| cover | topik.id |
Alibaba kembali merilis fitur canggih AI Qwen dengan merilis Fun-Audio-Chat-8B sebagai model sumber terbuka terbaru, sebelumnya Qwen telah meningkatkan fitur image yang diklaim lebih realistis. Model Fun-Audio-Chat-8B menghadirkan kemampuan ucapan-ke-ucapan yang memungkinkan interaksi audio langsung secara alami. Inovasi ini memperkuat posisi Alibaba dalam pengembangan AI multimodal.
Fun-Audio-Chat-8B merupakan bagian dari Fun Speech LLM yang dikembangkan untuk beragam kebutuhan. Pengguna dapat memanfaatkannya untuk obrolan audio, pendampingan emosional, perangkat pintar, hingga otomatisasi layanan pelanggan. Fokus utama model ini adalah interaksi suara yang lebih manusiawi dan responsif.
Salah satu keunggulannya, model ini adalah kemampuan percakapan yang peka terhadap emosi. Tanpa memerlukan label khusus, AI dapat memahami kondisi emosional pengguna melalui nada, kecepatan bicara, jeda, dan penekanan. Respons yang dihasilkan dirancang lebih empatik dan kontekstual.
"Kemampuan utama Fun-Audio-Chat-8B adalah percakapan yang peka terhadap emosi tanpa label atau petunjuk eksplisit. Model ini dapat memahami keadaan emosional pengguna dari isyarat seperti semantik, nada, kecepatan bicara, jeda, dan penekanan, serta merespons dengan perhatian atau dorongan yang tepat," tulis Alibaba dalam pengumuman resminya, seperti dilansir topik.id, Jumat (2/1/2026).
Model ini juga dibekali kemampuan pemanggilan fungsi tingkat lanjut. Perintah bahasa alami yang kompleks dapat diterjemahkan menjadi aksi nyata melalui pemanggilan fungsi yang tepat. Dukungan panggilan tunggal maupun paralel membuat interaksi suara menjadi lebih produktif dan dapat ditindaklanjuti.
Dari sisi teknis, Alibaba memperkenalkan Representasi Ucapan Resolusi Ganda. Pendekatan ini mampu memangkas kebutuhan komputasi hingga 50 persen tanpa mengorbankan kualitas audio. Inovasi ini menjawab tantangan efisiensi pada model ucapan multimodal sebelumnya.
"Dengan memperkenalkan Representasi Ucapan Resolusi Ganda, Fun-Audio-Chat-8B mengurangi kebutuhan komputasi hingga 50% sambil mempertahankan kualitas ucapan yang tinggi," ungkap Alibaba dalam pengumuman itu.
Strategi pelatihan Core-Cocktail turut diterapkan untuk menjaga kemampuan LLM teks selama pelatihan multimodal. Metode ini mengurangi interferensi dan ketidaksesuaian resolusi temporal yang sering muncul. Proses pasca-pelatihan multi-tahap juga menyelaraskan respons dengan preferensi manusia.
Dalam pengujian, Fun-Audio-Chat-8B menunjukkan kinerja unggul di berbagai benchmark audio global. Model ini mengalahkan seluruh model open-source sekelasnya pada OpenAudioBench dan VoiceBench. Alibaba kini membuka akses gratis melalui GitHub, HuggingFace, dan ModelScope.
"Fun-Audio-Chat-8B telah menunjukkan kinerja luar biasa di berbagai benchmark, termasuk OpenAudioBench, VoiceBench, dan UltraEval-Audio, mengungguli semua model open-source yang sebanding dalam kelas parameternya. Model ini sekarang tersedia secara gratis untuk komunitas AI yang lebih luas melalui GitHub, HuggingFace dan ModelScope," tutup Alibaba dalam pengumuman tersebut.
