![]() |
| cover | topik.id |
Anthropic resmi merilis Bloom, sebagai alat sumber terbuka untuk evaluasi perilaku otomatis pada model AI mutakhir. Kerangka kerja ini dirilis pada 20 Desember 2025 untuk membantu peneliti mengukur keselarasan perilaku secara lebih cepat dan terukur. Bloom dirancang agar mampu mengikuti perkembangan kemampuan model AI yang sangat dinamis.
Perusahaan induk claude.ai itu merincikan, bahwa Bloom bekerja dengan mengambil satu perilaku yang didefinisikan peneliti lalu menghasilkan banyak skenario secara otomatis. Melalui pendekatan ini, Bloom mengukur frekuensi serta tingkat keparahan perilaku dalam berbagai konteks. Hasil evaluasinya terbukti berkorelasi kuat dengan penilaian manual manusia.
"Kami merilis Bloom, kerangka kerja agenik sumber terbuka untuk menghasilkan evaluasi perilaku model AI terdepan. Bloom mengambil perilaku yang ditentukan peneliti dan mengukur frekuensi serta tingkat keparahannya di seluruh skenario yang dihasilkan secara otomatis," tulis Anthropic dalam pengumuman resminya, seperti dilansir topik.id, Minggu (21/12/2025).
Alat ini melengkapi Petri, kerangka sumber terbuka lain yang sebelumnya dirilis untuk eksplorasi profil perilaku AI. Jika Petri menilai banyak dimensi perilaku dalam satu skenario, Bloom justru memfokuskan diri pada satu perilaku di banyak skenario. Pendekatan ini memungkinkan evaluasi yang lebih terarah dan efisien.
Dalam rilis awalnya, Bloom menyajikan benchmark untuk empat perilaku penting terkait penyelarasan AI. Keempat perilaku tersebut mencakup penjilatan delusi, sabotase terarah jangka panjang, pelestarian diri, dan bias preferensi diri. Evaluasi dilakukan terhadap 16 model AI terdepan dengan hasil yang konsisten.
Bloom beroperasi melalui empat tahap otomatis, yakni pemahaman, ideasi, peluncuran, dan penilaian. Setiap tahap dapat dikonfigurasi sesuai kebutuhan penelitian, termasuk pemilihan model penilai. Sistem ini juga terintegrasi dengan Weights & Biases untuk eksperimen berskala besar.
"Bloom beroperasi melalui empat tahap otomatis yang mengubah deskripsi perilaku dan konfigurasi awal menjadi rangkaian evaluasi lengkap dengan metrik tingkat atas seperti tingkat elisitasi dan rata-rata kehadiran perilaku," ungkap Anthropic.
Validasi menunjukkan Bloom mampu membedakan model dasar dengan organisme model yang sengaja tidak selaras. Dalam sembilan dari sepuluh perilaku anomali, Bloom berhasil memisahkan keduanya secara jelas. Selain itu, skor Bloom memiliki korelasi tinggi dengan penilaian manusia, terutama pada ambang skor kritis.
Melalui studi kasus bias preferensi diri, Bloom berhasil mereplikasi dan memperdalam hasil evaluasi yang sudah ada. Alat ini membuka peluang investigasi lanjutan dengan kriteria penilaian tambahan tanpa mengubah peringkat model secara signifikan.
"Seiring dengan semakin canggihnya kemampuan sistem AI dan penerapannya di lingkungan yang semakin kompleks, komunitas riset keselarasan membutuhkan alat yang terukur untuk mengeksplorasi karakteristik perilakunya. Inilah yang dirancang untuk difasilitasi oleh Bloom," jelas Anthropic.
.png.webp)