GPT-5の支援で学び、その後は自力に戻るとどうなるのか：ランダム化試験が明らかにしたAI支援の学習コスト

アシスタントが消えたとき、スキルには何が残るのか。4月にarXivで公開された一連のランダム化比較試験は、その因果関係に関する初期の答えの一つを示している。AIアシスタントを使って学習すると、援助がなくなった後の持続力が低下し、自力でのパフォーマンスも悪化するのだ。しかも、分数計算のような基礎的な課題でさえ同様である。この研究は、Carnegie MellonのGrace Liu、OxfordのBrian ChristianとTsvetomira Dumbalska、MITのMichiel A. Bakker、UCLAのRachit Dubeyによる共著で、ChristianはThe Alignment Problemの著者として知られる。

実験プロトコル

研究チームは合計1,222人の参加者を募集し、3つの実験に無作為に割り付けた。主実験では、参加者は12問の分数問題に取り組む。GPT-5ベースのアシスタントあり／なしの条件で練習した後、全員が同じ3問の最終テストを受ける。テスト中は一切の支援なしで、いつでも問題を諦められる「スキップ」ボタンが用意された。再現実験では参加者667人を対象に、事前テストを加えて条件を厳格化。3つ目の実験では、この手順を文章理解課題に適用した。

結果

差は明確だった。主実験のAIなし最終テストでは、事前にアシスタントを使って学習したグループの正答率は57%で、自力で練習したグループの73%を下回った。問題を途中で諦める割合も11%から20%へとほぼ倍増した。再現実験でも効果は確認され、差はやや小さくなるものの、正答率は71%対77%だった。文章理解課題でも同様の傾向が見られ、76%対89%で、棄権率は8倍に増加した。しかも、AIに触れていた時間はわずか10分程度にすぎない。つまり、支援は単に能力をツールへ移しただけではなく、努力を続ける姿勢そのものを損なった可能性がある。著者らはこれを条件づけの一種とみており、AIは即時回答に慣れさせる一方で、困難を乗り越える経験を奪うと指摘する。

この研究で分かること、分からないこと

この結果の強みは実験設計にある。無作為割り付けにより、AIに関連する「認知的萎縮」に関する多くの研究が相関関係や自己申告に依拠しているのに対し、因果的な解釈が可能になっている。一方で、限界も明確だ。これはまだ査読前のpreprintである。課題は分数計算と短文読解という狭い範囲に限られ、時間軸も短い。検証されたモデルは1つだけであり、より厳格なプロトコルを用いた再現実験では効果がかなり弱まっている。つまり、この研究が示しているのは一般法則ではなく、特定のメカニズムである。

なぜこの結果が重要なのか

とはいえ、そのメカニズムは実験室の外でも示唆に富む。教育分野では、教師が懸念してきたシナリオ、すなわち、目先の成果は高める一方で、ツールなしで成果を出す力を徐々に削るシステムを裏づける。企業では、アシスタントが暗黙の研修ツールとして導入される中、支援下のパフォーマンスは、チームの真の能力を見誤らせる指標になりうることを示す。そしてアシスタント設計の観点では、まだ一般的とは言えない設計上の工夫、たとえば意図的な摩擦を入れることや、AIが答えを出すのではなく導く訓練モードの採用を後押しする。もはや問うべきは「支援は役立つのか」ではない。役立つのは明らかだ。真の論点は、それを外したときに何が残るのか、である。

Stephane Nachez

ActuIA編集部 — 意思決定者のためのAIニュース、データ、分析。

GPT-5の支援で学び、その後は自力に戻るとどうなるのか：ランダム化試験が明らかにしたAI支援の学習コスト

実験プロトコル

結果

この研究で分かること、分からないこと

なぜこの結果が重要なのか

Machine unlearning：Google Research が監査テストを検証、ただし LLMs ではまだ未対応

ExpGraphのプレプリント、LLMエージェント向けの自己進化型グラフメモリを提案

GPTは最も誤る難しいタスクで自信を持ちすぎるとUSC/Berkeleyのプレプリントが示す