ByteDance bikin AI baru, modal gambar jadi audio dan video realistis

@OmniHuman-1

ByteDance, induk perusahaan TikTok mengembangkan artificial intelligence (AI) multimedia, OmniHuman-1 sebuah terobosan dalam menghasilkan video manusia realistis dalam rasio aspek dan proporsi tubuh apa pun hanya dengan satu gambar dan audio.

"Kami mengusulkan kerangka kerja pembuatan video manusia yang dikondisikan multimodalitas ujung ke ujung bernama OmniHuman, yang dapat menghasilkan video manusia berdasarkan satu gambar manusia dan sinyal gerakan. Misalnya, hanya audio, hanya video, atau kombinasi audio dan video," tulis laporan para pengembang ByteDance, dikutip Kamis (6/2/2025).

Tidak seperti alat AI sebelumnya yang hanya menganimasikan wajah atau tubuh bagian atas, OmniHuman menciptakan gerakan seperti nyata untuk seluruh tubuh, menghasilkan beberapa video deepfake paling realistis hingga saat ini.

OmniHuman mendukung berbagai gaya visual dan audio, seperti kartun, objek buatan, hewan, dan pose yang menantang, sekaligus memastikan karakteristik gerakan sesuai dengan fitur unik setiap gaya.

AI dilatih pada 18.700 jam data video manusia, menggabungkan teks, audio, dan gerakan tubuh.

"Dalam OmniHuman, kami memperkenalkan strategi pelatihan campuran pengkondisian gerakan multimodalitas, yang memungkinkan model mendapatkan manfaat dari peningkatan skala data pengkondisian campuran," jelasnya.

OmniHuman juga dapat menggunakan video asli (dari mana gambar diambil) untuk meniru tindakan tertentu, memandu generasi untuk meniru gerakan tubuh dan/atau tangan.

"Ini mengatasi masalah yang dihadapi pendekatan ujung ke ujung sebelumnya karena kelangkaan data berkualitas tinggi. OmniHuman secara signifikan mengungguli metode yang ada, menghasilkan video manusia yang sangat realistis berdasarkan input sinyal lemah, terutama audio," ungkapnya.

Teknologi ini dapat mengubah cara kita memproduksi konten digital, membuatnya lebih mudah untuk membuat video untuk hiburan, pendidikan, dan komunikasi, tetapi juga menimbulkan kekhawatiran serius tentang potensi penyalahgunaannya.

Meskipun ByteDance belum merilis OmniHuman-1 ke publik, namun induk perusahaan TikTok itu memperlihatkan beberapa demo di situs web proyek omnihuman-lab.github.io.

Ini mendukung input gambar dari rasio aspek apa pun, apakah itu potret, gambar setengah tubuh, atau gambar seluruh tubuh, memberikan hasil yang lebih nyata dan berkualitas tinggi di berbagai skenario.

ByteDance bikin AI baru, modal gambar jadi audio dan video realistis

Populer