![]() |
| cover | topik.id |
Perusahaan kecerdasan buatan, artificial intelligence (AI) asal Tiongkok, Moonshot AI, resmi meluncurkan Kimi K2 Thinking, model AI terbaru yang diklaim melampaui performa GPT-5 dan Claude Sonnet 4.5 dalam berbagai tolok ukur penalaran dan pengkodean. Model menunjukan langkah besar bagi industri AI Tiongkok dalam menantang dominasi raksasa teknologi global seperti OpenAI dan Anthropic.
Kimi K2 Thinking disebut sebagai model berpikir sumber terbuka terbaik yang pernah dikembangkan oleh Moonshot AI. Dibangun sebagai “agen pemikir”, model ini mampu bernalar langkah demi langkah sambil menggunakan ratusan alat digital secara mandiri. Dalam pengujian internal, K2 Thinking mampu melakukan 200 hingga 300 panggilan alat berurutan tanpa campur tangan manusia, memperlihatkan kecerdasan operasional yang stabil dan adaptif.
Moonshot AI menyebut bahwa pendekatan baru dalam pensakalan waktu pengujian, dengan memperluas token pemikiran dan langkah pemanggilan alat, menjadi kunci dalam meningkatkan kedalaman dan konsistensi logika K2 Thinking. Strategi ini memungkinkan model untuk memecahkan masalah kompleks yang biasanya membutuhkan reasoning multi-langkah, seperti analisis matematis, debugging kode, dan penyusunan argumen berbasis data.
Dalam hasil evaluasi publik, Kimi K2 Thinking mencatat pencapaian rekor baru di berbagai tolok ukur internasional. Model ini meraih skor 44,9% pada HLE (Humanity Last Exam), 60,2% pada BrowseComp, dan 71,3% pada SWE-Bench Verified, melampaui sebagian besar model AI komersial maupun terbuka yang tersedia di pasar. Hasil ini menegaskan kekuatan K2 Thinking dalam generalisasi lintas tugas dan domain.
"Dibangun sebagai agen pemikir, ia bernalar langkah demi langkah sambil menggunakan berbagai alat, mencapai performa mutakhir pada Ujian Terakhir Kemanusiaan (HLE), BrowseComp, dan tolok ukur lainnya, dengan peningkatan besar dalam penalaran, pencarian agen, pengodean, penulisan, dan kemampuan umum," tulis Moonshot AI dalam pengumuman resminya, seperti dilansir topik.id, Senin (10/11/2025).
Khusus dalam bidang pengodean, performa K2 Thinking juga mencuri perhatian. Model ini mencapai 61,1% pada SWE-Multilingual dan 47,1% pada Terminal-Bench, menunjukkan kemampuannya memahami dan menulis kode di berbagai bahasa pemrograman, termasuk Python, JavaScript, dan C++. Keunggulan ini menjadikannya alat potensial untuk pengembangan perangkat lunak skala besar dan riset AI otonom.
Moonshot AI menyatakan bahwa K2 Thinking kini tersedia di kimi.com dalam mode obrolan publik, dengan mode agen penuh yang akan segera dirilis. Selain itu, akses melalui API Kimi K2 Thinking juga dibuka bagi pengembang global yang ingin mengintegrasikan kemampuan penalaran tingkat lanjut ke dalam sistem mereka.
Model ini melampaui model terbuka dan komersial, menunjukkan performa yang kuat di berbagai tolok ukur AI:
- Mendapat skor 60,2% pada tes BrowseComp , lebih tinggi dari GPT-5 yang 54,9% dan Claude yang 24,1%.
- Mencapai 44,9% dalam tes penalaran HLE dan 71,3% dalam SWE-Bench Terverifikasi untuk pengkodean.
- Menggunakan desain MoE 1 triliun parameter , tetapi hanya 32 miliar yang aktif sekaligus, membuatnya lebih cepat dan efisien.
Peluncuran Kimi K2 Thinking memperlihatkan ambisi besar Tiongkok dalam ekosistem AI global. Dengan melampaui performa GPT-5 dan Claude Sonnet 4.5 dalam penalaran dan pengodean, Moonshot AI secara terbuka menegaskan bahwa era dominasi AI Barat mulai mendapat pesaing serius dari Timur, membuka babak baru dalam persaingan inovasi kecerdasan buatan skala global.
"Untuk memastikan pengalaman yang cepat dan ringan, kami secara selektif menggunakan beberapa perangkat dan mengurangi jumlah putaran panggilan perangkat dalam mode obrolan di kimi.com . Akibatnya, obrolan di kimi.com mungkin tidak menghasilkan skor tolok ukur kami. Mode agen kami akan segera diperbarui untuk mencerminkan kemampuan penuh K2 Thinking," tutup dalam pengumuman resmi Moonshot AI.
