![]() |
cover |
Model multimoda sumber terbuka ini ditawarkan dalam berbagai ukuran, mulai dari 3 miliar, 7 miliar hingga 72 miliar parameter, dan mencakup versi dasar dan versi yang disesuaikan dengan instruksi. Model andalannya, Qwen2.5-VL-72B-Instruct, kini dapat diakses melalui platform Qwen Chat, sementara seluruh seri Qwen2.5-VL tersedia di Hugging Face dan komunitas sumber terbuka Alibaba, Model Scope .
"Qwen2.5-VL menunjukkan kemampuan multimoda yang luar biasa, unggul dalam pemahaman visual tingkat lanjut terhadap teks, bagan, diagram, grafik, dan tata letak dalam gambar. Ia juga dapat memahami video berdurasi lebih dari satu jam dan menjawab pertanyaan terkait video, sekaligus mengidentifikasi segmen tertentu secara akurat hingga detik yang tepat," jelas Alibaba dalam keterangan resminya, dikutip Minggu (2/2/2025).
Selain itu, model ini dapat menghasilkan keluaran terstruktur, seperti dalam format JSON, mengubah data tidak terstruktur dari pindaian faktur, formulir, atau tabel menjadi informasi terorganisasi, yang sangat berguna untuk mengotomatiskan pemrosesan laporan keuangan atau dokumen hukum.
Dengan menggabungkan kemampuan penguraian dan pelokalan, Qwen2.5-VL juga dapat berfungsi sebagai agen visual untuk memfasilitasi pelaksanaan tugas-tugas sederhana pada komputer dan perangkat seluler, seperti memeriksa cuaca dan memesan tiket pesawat, melalui pengarahan penggunaan berbagai alat.
Demo beli tiket pesawat.
Alibab memperlihatkan video demo Qwen2.5-VL dengan perintah 'Tolong bantu saya memesan tiket sekali jalan di aplikasi pemesanan. Titik awalnya adalah Bandara Chongqing Jiangbei, dan titik akhirnya adalah Bandara Ibu Kota Beijing pada tanggal 28 Januari'.
Khususnya, model unggulan Qwen2.5-VL-72B-Instruct mencapai kinerja kompetitif dalam serangkaian tolok ukur yang mencakup domain dan tugas termasuk membaca dokumen dan diagram, menjawab pertanyaan visual umum, matematika tingkat perguruan tinggi, pemahaman video, dan agen visual.
Untuk meningkatkan kinerja multimoda, para peneliti di balik model tersebut telah menerapkan resolusi dinamis dan pelatihan frame rate untuk meningkatkan pemahaman video. Mereka juga telah memperkenalkan encoder visual yang lebih ramping dan efisien.
"Hal ini telah meningkatkan kecepatan pelatihan dan inferensi secara signifikan dengan memanfaatkan mekanisme Window Attention dalam arsitektur Vision Transformer (ViT) yang dinamis. Inovasi ini menjadikan Qwen2.5-VL sebagai alat yang serbaguna dan canggih untuk aplikasi multimoda yang kompleks di seluruh sektor," jelasnya.
Memperluas input konteks hingga 1 juta token.
Selain itu, Alibaba Cloud meluncurkan versi terbaru dari model bahasa besar Qwen, yang dikenal sebagai Qwen2.5-1M . Iterasi sumber terbuka ini dibedakan oleh kemampuannya untuk memproses input konteks yang panjang, dengan kemampuan untuk menangani hingga 1 juta token.
Secara umum, kapasitas untuk mengelola konteks yang lebih panjang memungkinkan model untuk menangani skenario dunia nyata yang lebih kompleks yang menuntut pemrosesan atau pembuatan informasi yang substansial.
Hasilnya, perluasan jendela konteks model bahasa besar (LLM) dapat menangani tugas-tugas seperti pencernaan dan pembuatan dokumen bentuk panjang dengan lebih baik, sehingga LLM konteks panjang muncul sebagai tren baru.
"Rilis kali ini mencakup dua versi model yang disesuaikan dengan instruksi, Qwen2.5-7B-Instruct-1M dan Qwen2.5-14B-Instruct-1M , yang masing-masing memiliki 7 miliar dan 14 miliar parameter. Kedua versi tersebut tersedia di Hugging Face, dan laporan teknisnya juga telah dipublikasikan," terangnya.
Selain itu, pelopor cloud dan AI telah merilis kerangka kerja inferensi terkait yang dioptimalkan untuk memproses konteks panjang di Github. Kerangka kerja ini dirancang khusus untuk membantu pengembang menerapkan seri Qwen2.5-1M dengan biaya yang lebih efektif.
Dengan memanfaatkan teknik seperti ekstrapolasi panjang dan sparse attention, kerangka kerja ini dapat memproses input 1 juta token dengan kecepatan 3 hingga 7 kali lebih cepat daripada pendekatan tradisional, sehingga menawarkan solusi ampuh untuk mengembangkan aplikasi yang memerlukan pemrosesan konteks panjang dengan efisiensi yang lebih tinggi.
Seri Qwen2.5-1M telah menunjukkan kinerja yang mengesankan dalam benchmark yang difokuskan pada kapabilitas konteks panjang, seperti RULER, LV-Eval, dan Longbench-Chat. Hasil yang luar biasa ini menunjukkan bahwa Qwen2.5-1M menyediakan alternatif sumber terbuka yang tangguh untuk tugas yang menuntut input konteks yang ekstensif.
"Dibandingkan dengan pendahulunya, versi 128K, seri Qwen2.5-1M menawarkan kemampuan konteks panjang yang ditingkatkan secara signifikan, yang dicapai melalui strategi canggih dalam pra-pelatihan dan pasca-pelatihan konteks panjang. Teknik-teknik seperti sintesis data panjang, pra-pelatihan progresif, dan penyempurnaan terbimbing multi-tahap digunakan untuk meningkatkan kinerja konteks panjang sekaligus secara efektif mengurangi biaya pelatihan," jelasnya.