Google Research は AISTATS 2026 で、すでに学習済みのモデルから特定データを標的的に消去する machine unlearning を監査するための統計的テストを発表した。Mónica Ribero、Antonin Schrab、Arthur Gretton による Regularized f-Divergence Kernel Tests は、特定の監査における実験コストを大幅に削減できる可能性を示している。たとえば differential privacy の SVT3 メカニズムでは、DP-Auditorium が数百万サンプルを要するケースでも、数千サンプルで違反を検出できる。しかし適用範囲は依然として限定的で、公開された検証は合成ベンチマークと高エネルギー物理のデータセットにとどまり、大規模言語モデルには及んでいない。にもかかわらず、削除、トレーサビリティ、データガバナンスをめぐる規制上の緊張は、まさに LLMs に集中している。
このテストが修正する点と、なお残る課題
このツールは、標準的な two-sample test(MMD)の既知の欠点を対象にしている。まったく同じデータを使いながら batch size だけを変えてゼロから再学習した 2 つのモデルは、分布の違いを生み出してしまい、unlearning の失敗を誤って検知してしまう。新しいテストは、3 サンプル相対テストと、各種のドリフトに最も適した f-divergence(分布間距離の尺度)の自動選択によって、この落とし穴を回避する。
実験コストの差は、この手法の主な訴求点である。differential privacy の SVT3(Sparse Vector Technique)では、この framework は数千サンプルで違反を検出できる一方、Google Research が 2024 年に公開した基準ツール DP-Auditorium(arXiv:2307.05608)では同程度の検出率に達するために数百万サンプルを要した。ここで重要なのは、この改善が SVT3 で実証されたものであり、differential privacy の全メカニズムに一般化できるわけではないという点だ。さらに著者らは、単一の divergence が常に他より優れているわけではないことも明記している。実験条件を簡略化した本論文では、Selective Synaptic Dampening(SSD)、pruning、finetuning の 3 手法は、標的データを実質的に消去できないと判断された。3 サンプル相対テストを通過したのは random label 手法のみであり、この限界も著者らは認めている。
一方で、vision を超えた領域への適用可能性はまだ示されていない。2025 年 10 月に公表された arXiv:2510.16629 は、モデルが現在のパラメータだけを調整しても、データを完全に忘れることはできず、消去されたはずの情報の残留痕跡が残ることを示している。これは、Ribero らのテストが測定はできても解消はできない構造的障害である。Feng ら(CMU、UK AI Security Institute、Oxford)は、2025 年 5 月のプレプリントで、大規模言語モデルに対する現在の unlearning 評価は結論が出ていないと指摘しており、Chen ら(LMU Munich、Oxford、Siemens)は同時期に LLMs 向けの監査フレームワークを発表したが、AISTATS 2026 の論文ではそれとの比較は行われていない。
結果責任は求められるが、対抗可能な手法はまだない
GDPR は第 17 条の「消去権」により、本人が自身のデータ削除を求めることを可能にしている。これを AI モデルに適用すると、対象データが outputs に影響しなくなったことを証明する必要がある。GDPR は第 17 条の条件が満たされた場合に消去義務を課すが、AI モデルに適用すると、この義務は技術的なグレーゾーンに突き当たる。 つまり、対象データがもはやモデルの挙動に影響していないことを、どう証明するのかという問題である。
欧州レベルでも、最新の枠組みはこの空白を埋めていない。欧州委員会が 2025 年 7 月に最終版を公表した GPAI Code of Practice は、透明性、著作権、安全性を対象とする任意のツールであり、事業者が AI Act 第 53 条への適合を示すのを支援する。第 53 条(1)(d) は、学習に使用したコンテンツの公開サマリーを求めており、2025 年 8 月 2 日から適用されている。ただし、参照した版の文書には、すでにデプロイ済みのモデル内で特定データが実際に消去されたことを検証する方法は規定されていない。
このギャップは、法令ではなくツールによって埋められる。まさにその空白を、Ribero、Schrab、Gretton のテストは狙っている。成功した unlearning を統計的に説明可能な形で測定する手段を提示するからだ。とはいえ、まだ越えられていない壁がある。実験的な検証が合成ベンチマークや物理モデルの枠を出て、消去要求が集中する大規模言語モデルに届かない限り、データ保護担当者が求める証明の連鎖は未完成のままである。
