Meta buat AI baru lagi, bisa rubah text jadi gambar berkualitas tinggi

Mark Zuckerberg CEO Meta | cover: topik.id

Perusahaan teknologi dunia semangkin berlomba-lomba untuk menciptakan sistem Artificial Intelligence (AI) atau kecerdasaan buatan.

Kali ini perusahaan besutan Mark Zuckerberg, Meta telah mengumumkan telah membuat generatif AI baru lagi, projek itu diberi nama CM3leon merupakan model fondasi tunggal yang menghasilkan pembuatan teks-ke-gambar dan gambar-ke-teks.

"Minat dan penelitian dalam model AI generatif telah meningkat dalam beberapa bulan terakhir dengan kemajuan dalam pemrosesan bahasa alami yang memungkinkan mesin memahami dan mengekspresikan bahasa, serta sistem yang dapat menghasilkan gambar berdasarkan masukan teks. Hari ini, kami menampilkan CM3leon (diucapkan seperti "bunglon"), model fondasi tunggal yang menghasilkan pembuatan teks-ke-gambar dan gambar-ke-teks," ungkap perusahaan Meta di laman resminya ai.meta.com.

Seperti penelusuran topik.id, Sabtu (15/7/2023) dari laman meta.com, CM3leon adalah model multimodal pertama yang dilatih dengan sistem yang diadaptasi dari model bahasa teks saja, termasuk tahap pra-pelatihan yang diperbesar pengambilan skala besar dan tahap penyetelan halus yang diawasi multitugas (SFT) kedua.

"Resep ini sederhana, menghasilkan model yang kuat, dan juga menunjukkan bahwa transformator berbasis tokenizer dapat dilatih seefisien model berbasis difusi generatif yang ada. CM3leon mencapai kinerja canggih untuk pembuatan teks-ke-gambar, meskipun dilatih dengan komputasi lima kali lebih sedikit daripada metode berbasis transformator sebelumnya," jelasnya.

gambar yang dihasilkan | meta.com

Selain itu, CM3leon memiliki keserbagunaan dan keefektifan model autoregresif, sambil mempertahankan biaya pelatihan yang rendah dan efisiensi inferensi.

"Ini adalah model campuran-modal (CM3) kausal bertopeng karena dapat menghasilkan urutan teks dan gambar yang dikondisikan pada urutan sewenang-wenang dari gambar dan konten teks lainnya. Ini sangat memperluas fungsionalitas model sebelumnya yang hanya teks-ke-gambar atau hanya gambar-ke-teks," ungkapnya.

Namun, meski model generatif hanya teks umumnya disetel dengan instruksi multitugas pada berbagai tugas yang berbeda untuk meningkatkan kemampuannya mengikuti petunjuk instruksi, model pembuatan gambar biasanya dikhususkan untuk tugas tertentu.

"Kami menerapkan penyetelan instruksi multitugas skala besar ke CM3leon untuk pembuatan gambar dan teks, dan menunjukkan bahwa itu secara signifikan meningkatkan kinerja pada tugas-tugas seperti pembuatan teks gambar, menjawab pertanyaan visual, pengeditan berbasis teks, dan pembuatan gambar bersyarat. Ini memberikan contoh kuat lainnya tentang bagaimana resep penskalaan yang dikembangkan untuk model hanya teks digeneralisasikan langsung ke model pembuatan gambar berbasis tokenisasi kami," bebernya.

Meta mengklaim sistem ini mengungguli performa Google model teks ke gambar. Saat membandingkan performa pada indikator tolok ukur pembuatan gambar yang paling banyak digunakan (zero-shot MS-COCO), CM3Leon mencapai skor FID (Fréchet Inception Distance) sebesar 4,88.

gambar yang dihasilkan | meta.com

"Membangun kecanggihan baru dalam pembuatan teks-ke-gambar dan mengungguli performa Google model teks-ke-gambar, Parti. Pencapaian ini menggarisbawahi potensi augmentasi pengambilan dan menyoroti dampak strategi penskalaan pada kinerja model autoregresif," terangnya kembali.

CM3Leon menunjukkan kemampuan mengesankan untuk menghasilkan objek komposisi kompleks, seperti pot kaktus dengan kacamata hitam dan topi pada contoh di bawah ini. CM3leon bekerja dengan baik di berbagai tugas bahasa visi, termasuk menjawab pertanyaan visual dan teks bentuk panjang.

Sebelumnya Meta juga membuat sistem AI yang memungkinkan orang mengubah perintah teks menjadi klip video singkat berkualitas tinggi yang diberi nama Make-A-Video berdasarkan kemajuan terbaru Meta AI, di penelitian teknologi generatif dan berpotensi membuka peluang baru bagi kreator dan artis.

Namun, kedua projek yang dikembangkam Meta ini belum dapat digunakan oleh pengguna.

Meta buat AI baru lagi, bisa rubah text jadi gambar berkualitas tinggi

Populer