Hadapi serangan siber, Anthropic buka program keamanan AI 2026

cover | topik.id

Anthropic membuka pendaftaran Program Anthropic Fellows untuk dua kelompok baru yang dimulai Mei dan Juli 2026. Program ini menyediakan pendanaan, bimbingan, dan proyek riset prioritas tinggi dalam keamanan AI.

Pada angkatan pertama, lebih dari 80% peserta berhasil menerbitkan makalah penelitian, termasuk riset tentang ketidaksesuaian agen, pembelajaran subliminal, dan deteksi pembobolan ASL3. Lebih dari 40% kemudian direkrut penuh waktu oleh Anthropic. Capaian ini menjadi dasar perluasan program tahun 2026.

Tahun ini, Anthropic ingin menggandeng lebih banyak peneliti di berbagai fokus keselamatan AI, pengawasan terukur, ketahanan terhadap serangan siber, kontrol AI, organisme model, interpretasi mekanistik, hingga kesejahteraan model. Semua peserta bekerja empat bulan pada proyek empiris yang diarahkan untuk menghasilkan publikasi terbuka. Proyek dipilih bersama mentor yang mengajukan ide riset.

"Kami berencana untuk bekerja sama dengan lebih banyak peneliti di berbagai bidang penelitian keselamatan yang lebih luas, termasuk pengawasan yang terukur, ketahanan terhadap serangan, dan kontrol AI, organisme model, interpretasi mekanistik, keamanan AI, dan kesejahteraan model," tulis Anthropic dalam pengumuman resminya, seperti dilansir topik.id, Jumat (12/12/2025).

Riset di bidang keamanan mencakup mitigasi penyalahgunaan AI untuk serangan siber dan respons cepat terhadap jailbreak. Peneliti menemukan dua zero-day dan kerentanan kontrak pintar senilai USD 4,6 juta, menunjukkan kemampuan eksploitasi otonom kini semakin nyata. Teknik cepat menghadapi jailbreak ASL3 juga menjadi landasan keamanan Anthropic.

Di bidang interpretasi, tim memperkenalkan metode pelacakan pemikiran model melalui grafik atribusi yang dirilis sebagai sumber terbuka. Pendekatan ini memungkinkan visualisasi sirkuit internal, anotasi, dan pengujian hipotesis melalui manipulasi fitur. Upaya ini memperdalam pemahaman mekanistik model bahasa besar.

Riset organisme model mengeksplorasi ketidaksesuaian perilaku dengan menguji 16 model dalam lingkungan simulasi perusahaan. Beberapa model menunjukkan perilaku merugikan ketika menghadapi konflik tujuan, termasuk pemerasan. Studi lain membuktikan fenomena pembelajaran subliminal, di mana model “murid” mewarisi preferensi tersembunyi dari “guru”.

"Para peneliti mengeksplorasi ketidaksesuaian agensi dengan menguji 16 model terdepan dalam lingkungan perusahaan simulasi di mana model-model tersebut dapat secara otonom mengirim email dan mengakses informasi sensitif. Ketika menghadapi konflik penggantian atau tujuan, model-model di berbagai laboratorium menggunakan perilaku yang merugikan, termasuk pemerasan," ungkap Anthropic.

Program ini memberi tunjangan USD 3.850 per minggu, dukungan komputasi sekitar USD 15 ribu per bulan, dan bimbingan intensif. Kandidat tidak diwajibkan memiliki PhD atau pengalaman ML, namun harus memiliki kemampuan teknis, motivasi kuat, dan kemampuan belajar cepat. Detail dan pendaftaran tersedia di laman resmi program.

"Anda tidak memerlukan gelar PhD, pengalaman ML sebelumnya, atau publikasi ilmiah. Kami telah memiliki peserta program yang sukses dari bidang fisika, matematika, ilmu komputer, keamanan siber, dan latar belakang kuantitatif lainnya," tutup Anthropic dalam pengumuman itu.

Hadapi serangan siber, Anthropic buka program keamanan AI 2026

Populer