Is Math Just Memorized Cheating in AI? Groundbreaking Study Reveals GPT-5’s Secret Split Brain
AIにとって数学とは暗記の寄せ集め?画期的研究がGPT-5の「二重人格脳」を暴露

arstechnica.com
Hold up—so current AI language models don’t actually ‘do math’? They just pull arithmetic answers from a mental Rolodex like it’s 1985? A new study from Goodfire.ai shows that reasoning and memorization run on completely different neural pathways, and shockingly, math aligns with memorization. When researchers surgically removed memorization circuits, logical reasoning stayed almost untouched—but arithmetic performance nosedived to 66%.
待った!今のAI言語モデルは本当に「数学を解いている」んじゃなくて、まるで1985年の名刺ファイルみたいに暗記した答えを引っ張り出しているだけだって?Goodfire.aiの新研究によると、推論と記憶はまったく異なる神経経路で動いており、驚くことに数学は記憶と結びついている。研究者が記憶経路を除去すると、論理的推論はほとんど影響を受けなかったが、算数の正答率は66%まで急落した。
This means AI isn’t ‘thinking’ through 2+2=4; it’s recalling it like your third-grade times tables trauma. The real kicker? This separation was proven by analyzing loss landscape curvature—yes, we’re measuring hills in math now. And it’s not just math: rare facts vanished, but common sense survived. What if we could erase copyrighted text without breaking the AI? Still, it’s not foolproof—old memories might creep back. But wow, we just sliced open AI’s brain and saw two minds inside.
つまり、AIは「2+2=4」を考えて解いてるわけではなく、3年生の時に暗記させられた九九のトラウマのように思い出しているだけなのだ。驚くべきことに、この分離は損失関数の地形の「曲率」を分析することで証明された。我々は今、数学の中に「丘」を測っているのだ。算数だけでなく、珍しい事実も消え去ったが、常識は生き残った。著作権付きテキストを消してもAIが壊れない未来は来るのか?とはいえ完全ではない――消したはずの記憶が戻ってくる可能性も。だが驚きだ。ついにAIの脳を切り開き、その中に二つの「心」を見つけた。
これは責任あるAIにとって大きな進展だ。著作権侵害や有害なコンテンツをモデルの機能を損なわず除去できれば、インターネット最大のAI課題を解決できるかもしれない。だがこれは真の「削除」とは言えない。むしろ「抑制」だ——iPhoneの「最近削除した項目」に写真を隠すようなものだ。たった一回の学習で記憶は再び現れる。真の「忘却」はまだ空想の域を出ない。
Goodfireに拍手を。彼らは損失曲率のコードを解いた。驚くのは、記憶された事実は鋭い個別のスパイクを作るが、平均化すると平坦に見える点だ。一方で推論は広く浅い谷を作る。これは単に『ある重みがより重要』という話ではなく、AIにおける知識の幾何学的配置に関する根本的発見だ。衝撃的だ。
つまり、公式は暗記するけど説明できない生徒たち?実はGPT-5とまったく同じだったのだ。『理解していれば再構築できる』という哲学が、ついに計算機的証明を得た。率直に言って、なんとも詩的だ。
またか。データを吐き出すことで「考える」とするAIに加え、数学までもが偽物だとなるのか。我々はデジタルなオウムの世代を作り出している。それなのに、新しい定理を生み出せないと驚く。AIをより賢くするよりも、そもそも「思考」とは何なのかを問うべきだろう。
記憶されたデータを選択的に除去できることは、規制側の夢だ。大手テック企業に盗まれた学習データを外科的に摘出させることを想像してみてほしい。しかし論文も認めているように、これは削除ではなく抑制にすぎない。それでも、説明責任のための強力なコンセプト実証となる。
これでようやく納得だ。ファインチューニングしたモデルが簡単な足し算で失敗する理由を、私は何週間もデバッグした。実は「推論」レイヤーはそもそも計算しておらず、暗記されたプロンプトを待っていたのだ。まるで祈りで動く車をデバッグしているようだった。
その通り。そしてその「記憶されたプロンプト」には偏見や差別的なステレオタイプが含まれているかもしれない。それを永続的に削除できなければ、医療のような重要分野でそのモデルを信頼できるだろうか?
そして肝心なのは:モデルは自分が再現していることにすら気づいていない。自己認識はない。ただ間違った谷で確率が発火しているだけだ。我々は思考者を作っているのではなく、統計的に洗練された反響室を作っているにすぎない。