![]() |
Kantor ByteDance | cover |
ByteDance, perusahaan teknologi asal China yang dikenal sebagai induk TikTok, kini memperkenalkan dua model AI terbarunya, Goku dan OmniHuman-1.
Kedua AI ini dikembangkan dengan teknologi mutakhir yang mampu menghasilkan visual berkualitas tinggi serta menganimasikan karakter manusia dengan tingkat realisme yang belum pernah ada sebelumnya.
Goku AI.
Sebuah inovasi terbaru dalam dunia kecerdasan buatan atau artificial intelligence (AI) yang dikembangkan oleh para peneliti ByteDance.
AI itu disebut Goku, merupakan model AI gabungan gambar dan video yang mengusung teknologi Transformator aliran terkoreksi, yang dirancang untuk mencapai kinerja terdepan dalam industri AI.
Dalam penelitiannya, kemampuan Goku dapat menghasilkan visual berkualitas tinggi, serta infrastruktur yang digunakan untuk melatih model ini secara efisien pada skala besar.
Hal itu diungkapkan dalam makalah yang memperkenalkan Goku, model gabungan gambar dan video mutakhir yang memanfaatkan transformator aliran terkoreksi untuk mencapai kinerja terdepan di industri.
"Kami merinci elemen dasar yang memungkinkan pembuatan visual berkualitas tinggi, termasuk alur kurasi data, desain arsitektur model, formulasi aliran, dan infrastruktur canggih untuk pelatihan skala besar yang efisien dan tangguh," keterangan dalam makalah itu, Rabu (12/2/2025).
Perusahaan asal China itu juga merincikan model Goku dengan kinerja yang unggul dalam evaluasi kualitatif dan kuantitatif, yang menetapkan tolok ukur baru di seluruh tugas utama.
Secara khusus, Goku mencapai 0,76 pada GenEval dan 83,65 pada DPG-Bench untuk pembuatan teks ke gambar, dan 84,85 pada VBench untuk tugas teks ke video.
"Kami percaya bahwa karya ini memberikan wawasan berharga dan kemajuan praktis bagi komunitas penelitian dalam mengembangkan model gabungan gambar dan video," terangnyanya.
Dengan pencapaian yang luar biasa dalam evaluasi kualitatif dan kuantitatif, seperti skor tinggi pada GenEval dan DPG-Bench untuk pembuatan teks ke gambar, serta VBench untuk tugas teks ke video, Goku menetapkan tolok ukur baru dalam bidang AI terkini.
OmniHuman-1.
![]() |
Hasil AI OmiHuman-1 |
ByteDance, induk perusahaan TikTok juga mengembangkan AI multimedia, OmniHuman-1 sebuah terobosan dalam menghasilkan video manusia realistis dalam rasio aspek dan proporsi tubuh apa pun hanya dengan satu gambar dan audio.
"Kami mengusulkan kerangka kerja pembuatan video manusia yang dikondisikan multimodalitas ujung ke ujung bernama OmniHuman, yang dapat menghasilkan video manusia berdasarkan satu gambar manusia dan sinyal gerakan. Misalnya, hanya audio, hanya video, atau kombinasi audio dan video," tulis laporan para pengembang ByteDance, Kamis (6/2/2025).
Tidak seperti alat AI sebelumnya yang hanya menganimasikan wajah atau tubuh bagian atas, OmniHuman menciptakan gerakan seperti nyata untuk seluruh tubuh, menghasilkan beberapa video deepfake paling realistis hingga saat ini.
OmniHuman mendukung berbagai gaya visual dan audio, seperti kartun, objek buatan, hewan, dan pose yang menantang, sekaligus memastikan karakteristik gerakan sesuai dengan fitur unik setiap gaya.
AI dilatih pada 18.700 jam data video manusia, menggabungkan teks, audio, dan gerakan tubuh.
"Dalam OmniHuman, kami memperkenalkan strategi pelatihan campuran pengkondisian gerakan multimodalitas, yang memungkinkan model mendapatkan manfaat dari peningkatan skala data pengkondisian campuran," jelasnya.
OmniHuman juga dapat menggunakan video asli (dari mana gambar diambil) untuk meniru tindakan tertentu, memandu generasi untuk meniru gerakan tubuh dan/atau tangan.
"Ini mengatasi masalah yang dihadapi pendekatan ujung ke ujung sebelumnya karena kelangkaan data berkualitas tinggi. OmniHuman secara signifikan mengungguli metode yang ada, menghasilkan video manusia yang sangat realistis berdasarkan input sinyal lemah, terutama audio," ungkapnya.
Teknologi ini dapat mengubah cara kita memproduksi konten digital, membuatnya lebih mudah untuk membuat video untuk hiburan, pendidikan, dan komunikasi, tetapi juga menimbulkan kekhawatiran serius tentang potensi penyalahgunaannya.
Meskipun ByteDance belum merilis OmniHuman-1 ke publik, namun induk perusahaan TikTok itu memperlihatkan beberapa demo di situs web proyek omnihuman-lab.github.io.
Ini mendukung input gambar dari rasio aspek apa pun, apakah itu potret, gambar setengah tubuh, atau gambar seluruh tubuh, memberikan hasil yang lebih nyata dan berkualitas tinggi di berbagai skenario.