Machine unlearning: Google Research bir denetim testini doğruladı, ancak henüz LLM'lerde değil

Google Research, AISTATS 2026'da, zaten eğitilmiş bir model içindeki verilerin hedefli olarak silinmesi anlamına gelen machine unlearning'i denetlemeye yönelik bir istatistiksel test sundu. Mónica Ribero, Antonin Schrab ve Arthur Gretton imzalı Regularized f-Divergence Kernel Tests çerçevesi, bazı denetimlerin deneysel maliyetini ciddi ölçüde azaltmayı vaat ediyor: diferansiyel gizlilik mekanizması SVT3 üzerinde, DP-Auditorium'un milyonlarca örnek gerektirebildiği durumlarda yalnızca birkaç bin örnekle ihlalleri tespit ediyor. Ancak kapsamı hâlâ sınırlı: yayımlanan doğrulamalar sentetik benchmark'lar ve yüksek enerjili fizik veri kümeleri üzerinde yapıldı, büyük dil modelleri üzerinde değil; oysa düzenleyici gerilimler, silme, izlenebilirlik ve veri yönetişimi etrafında özellikle bu modellerde yoğunlaşıyor.

Testin düzelttiği şeyler ve açık bıraktıkları

Araç, standart iki örneklem testinin (MMD) bilinen bir kusurunu hedefliyor. Aynı veriler üzerinde, ancak farklı batch boyutlarıyla sıfırdan yeniden eğitilen iki model farklı dağılımlar üretiyor ve bu da unlearning başarısızlığına dair yanlış bir alarm tetikliyor. Yeni test, bu tuzağı üç örneklemli bir test ve her tür sapma için en uygun f-divergence'i - dağılımlar arasındaki bir uzaklık ölçüsünü - otomatik olarak seçerek aşıyor.

Maliyet farkı ana argüman. Diferansiyel gizlilikteki SVT3 (Sparse Vector Technique) mekanizması üzerinde çerçeve, DP-Auditorium'a kıyasla - Google Research tarafından 2024'te yayımlanan referans araç (arXiv:2307.05608) - benzer bir tespit oranı için birkaç bin örnekle ihlalleri saptıyor; DP-Auditorium ise milyonlarca örnek gerektirebiliyor. Ayrıntı önemli: kazanım SVT3 üzerinde belgelenmiş durumda, diferansiyel gizliliğin tüm mekanizmaları için değil. Ayrıca yazarlar, tek bir divergence'ın sistematik olarak diğerlerine üstün gelmediğini özellikle belirtiyor. Üç yöntem - Selective Synaptic Dampening (SSD), pruning ve finetuning - makaledeki sadeleştirilmiş deney koşullarında hedeflenen verileri gerçekten silemedi; yalnızca random label tekniği üç örneklemli testi geçti, ki yazarlar bu sınırı kabul ediyor.

Vision dışındaki alanlarda ise kapsamın hâlâ gösterilmesi gerekiyor. Ekim 2025'te yayımlanan arXiv:2510.16629 çalışmaları, bir modelin yalnızca mevcut parametrelerini ayarlayarak verileri hiçbir zaman kusursuz biçimde unutamayacağını ortaya koyuyor: sözde silinen bilgilere ait artık bir iz kalıyor - Ribero ve ark.'nın testinin ölçtüğü, fakat ortadan kaldırmadığı yapısal bir engel. Feng ve ark. (CMU, UK AI Security Institute, Oxford), Mayıs 2025 tarihli bir preprint'te, büyük dil modellerinde mevcut unlearning değerlendirmelerinin sonuçsuz olduğunu değerlendiriyor ve Chen ve ark. (LMU Munich, Oxford, Siemens) eş zamanlı olarak LLM'lere özgü bir denetim çerçevesi yayımladı - ancak bu çerçeve AISTATS 2026 makalesinde karşılaştırılmadı.

Karşı konulabilir bir yöntem olmadan sonuç yükümlülüğü

RGPD, 17. maddesiyle tanınan silinme hakkı üzerinden, bir kişiye verilerinin silinmesini talep etme imkânı tanır: bu, bir AI modeline uygulandığında, ilgili verilerin artık output'ları etkilemediğinin gösterilmesi anlamına gelir. RGPD, 17. maddedeki koşullar oluştuğunda silme yükümlülüğü getirir; ancak AI modellerine uygulandığında, bu yükümlülük teknik bir gri alana çarpar: ilgili verilerin modelin davranışını artık etkilemediği nasıl kanıtlanır?

Avrupa düzeyinde, en güncel çerçeve bu boşluğu doldurmuyor. Avrupa Komisyonu'nun Temmuz 2025'te nihai sürümünü yayımladığı GPAI Code of Practice, şeffaflık, telif hakları ve güvenliği kapsayan gönüllü bir araç; sağlayıcıların, AI Act düzenlemesinin 53. maddesine uyumlarını göstermelerine yardımcı oluyor. Bu madde, eğitimde kullanılan içeriklerin kamuya açık bir özetini zorunlu kılıyor (madde 53(1)(d), 2 Ağustos 2025'ten beri लागू/uygulanabilir). İncelenen sürümdeki belge, zaten konuşlandırılmış bir model içinde bir verinin etkili biçimde silindiğini doğrulamak için herhangi bir yöntem öngörmüyor.

Boşluk metinlerle değil, araçlarla kapanıyor. Ribero, Schrab ve Gretton'un testi tam da bu boşluğu araçsallaştırmayı, başarılı bir silmeyi savunulabilir bir istatistiksel ölçümle ortaya koymayı hedefliyor. Ancak aşılmayan bir sınav var: deneysel doğrulama sentetik benchmark'ların ve fizik modellerinin ötesine geçip, silme taleplerinin yoğunlaştığı büyük dil modellerine ulaşmadığı sürece, bir veri koruma görevlisinin beklediği kanıt zinciri eksik kalmaya devam edecek.

Stephane Nachez

ActuIA yayın kurulu — karar vericiler için yapay zeka üzerine haberler, veriler ve analizler.

Machine unlearning: Google Research bir denetim testini doğruladı, ancak henüz LLM'lerde değil

Testin düzelttiği şeyler ve açık bıraktıkları

Karşı konulabilir bir yöntem olmadan sonuç yükümlülüğü

GPT-5 ile desteklenip sonra kendi başlarına bırakıldılar: randomize bir deney, yapay zekâ desteğinin öğrenme maliyetini ölçüyor

ExpGraph Ön Baskısı, LLM Temelli Ajanlar İçin Kendi Kendine Evrimleşen Bir Grafik Belleği Öneriyor

GPT, En Çok Yanıldığı Zor Görevlerde Daha Güvenli, USC/Berkeley Preprint'ine Göre