![]() |
cover | @google |
Salah satu landasan utama VaultGemma adalah penerapan privasi diferensial (DP), sebuah teknik matematis yang melindungi data dengan menambahkan derau terkalibrasi. Metode ini mencegah model menghafal data sensitif, tetapi di sisi lain menciptakan tantangan baru, seperti stabilitas pelatihan yang menurun dan kebutuhan ukuran batch serta biaya komputasi yang jauh lebih besar. Google mengatasi hal ini dengan penelitian mendalam mengenai hukum penskalaan DP, sehingga dapat memahami bagaimana trade-off antara komputasi, privasi, dan utilitas bekerja secara optimal.
"Dengan metodologi eksperimental yang dipikirkan dengan matang, kami bertujuan untuk mengukur manfaat peningkatan ukuran model, ukuran batch, dan iterasi dalam konteks pelatihan DP. Pekerjaan kami membutuhkan beberapa asumsi penyederhanaan untuk mengatasi jumlah kombinasi eksponensial yang mungkin perlu dicoba. Kami berasumsi bahwa seberapa baik model belajar sebagian besar bergantung pada "rasio noise-batch" yang membandingkan jumlah noise acak yang kami tambahkan untuk privasi dengan ukuran kelompok data (batch) yang kami gunakan untuk pelatihan. Asumsi ini berhasil karena noise privasi yang kami tambahkan jauh lebih besar daripada keacakan alami yang berasal dari pengambilan sampel data," tulis Google dalam pengumuman resminya, dilansir Minggu (14/9/2025).
Melalui riset “Scaling Laws for Differentially Private Language Models”, para peneliti menemukan bahwa kunci pelatihan model DP terletak pada rasio noise-batch, yaitu perbandingan antara jumlah derau privasi yang ditambahkan dengan ukuran batch data. Penelitian tersebut menunjukkan bahwa ukuran batch yang besar sangat penting untuk meminimalkan kerugian pelatihan. Wawasan ini menghasilkan pendekatan baru: melatih model yang lebih kecil tetapi dengan batch yang jauh lebih besar dibandingkan pelatihan non-DP.
VaultGemma menjadi bukti nyata penerapan teori ini. Dengan parameter sebesar 1 miliar, model ini dilatih menggunakan pendekatan yang memadukan efisiensi komputasi dan perlindungan privasi. Google bahkan harus berinovasi dalam teknik DP-SGD dengan pengambilan sampel Poisson, agar model tetap terlindungi tanpa kehilangan terlalu banyak utilitas. Mereka mengatasi masalah batch acak dengan teknik DP-SGD yang dapat diskalakan, sehingga privasi tetap terjaga namun pelatihan bisa dilakukan secara stabil.
Hasilnya, VaultGemma menunjukkan performa yang mendekati prediksi hukum penskalaan baru tersebut. Pada sejumlah tolok ukur akademis seperti BoolQ, SocialIQA, dan TriviaQA, model ini mampu bersaing dengan model non-privat dari lima tahun lalu, seperti GPT-2 1,5B. Meskipun masih ada kesenjangan dengan model modern tanpa privasi, pencapaian ini membuktikan bahwa AI dengan perlindungan privasi kuat dapat tetap berguna secara praktis.
Selain performa, jaminan privasi formal menjadi nilai tambah VaultGemma. Model ini dilatih dengan parameter privasi ketat (ε ≤ 2,0, δ ≤ 1,1e-10) pada level sekuens 1024 token. Artinya, jika sebuah sekuens mengandung informasi sensitif, VaultGemma tidak akan menghafalnya sehingga keluaran model tetap aman. Pengujian hafalan empiris pun menunjukkan bahwa VaultGemma tidak mengulangi data pelatihan, menegaskan efektivitas privasi diferensial dalam praktik.
Google menegaskan bahwa masa depan AI privat semakin dekat. VaultGemma membuka jalan bagi komunitas riset untuk mengembangkan model yang aman, bertanggung jawab, dan tetap bermanfaat. Peneliti, pengembang, maupun praktisi kini memiliki landasan lebih kokoh untuk mengeksplorasi AI yang melindungi data sejak desain awalnya.
"Model Gemma dirancang dengan mengutamakan tanggung jawab dan keselamatan. Hal ini menjadikannya fondasi alami untuk mengembangkan model berkualitas produksi yang telah dilatih DP seperti VaultGemma," ungkapnya.