「AI vs 共通テスト」から分かること

2026年1月20日（火）

先週末に実施された共通テストをAIに解かせて
みたところ、なんと９科目で満点を取ったという
ニュースがあったので記事元を辿ってみました。

株式会社LifePrompt では「生成AI」が流行語大賞に
選ばれた2023年から「AI vs 共通テスト」という実験を
行っているそうで、今年で４年目なのだそうです。

ChatGPTの愛称である「チャッピー」が流行語大賞に
ノミネートされた昨年の実験では、ついにAIが
東大合格ラインを突破していたということでして。

AI が当然のように高得点を取れる今問うべきなのは
満点は取れるのか、どれだけ速く解けるのか
AI に優劣はあるのか、と３つの AI が試されました。

最も使われている ChatGPT のGPT-5.2 Thinking と
画像認識と速度が強みの Google のGemini 3 Pro と
国語力と論理的思考力が強みの Claude 4.5 Opus です。

正答率の高さでということでは、文系・理系ともに
Chat GPT-5.2 が圧勝していて脅威の 97% で
Gemini と Claude はほぼ同じ 90〜94% でした。

解答時間は Gemini と Claude が約１時間40分で
Chat GPT は５時間30分程度と時間を要したけど
本来の試験時間は10時間10分なので圧倒的に速いです。

ただし100％の正答率ではないので、どんな問題で
AI たちは間違えたのかを深掘りしてみたところ
意外な弱点とモデルごとの個性の違いがあったそうです。

一つは、文字は読めるけど図が読めないようで
AI にとってイラスト問題については図形の意味とか
空間認識をまだ誤ってしまう可能性があるようです。

国語の小説問題は、AI は基本的に「間違いは
正すべき」で「人は反省して成長するもの」という
道徳的な学習データを大量に持っている特性があるので。

人間特有の「悪いと分かっていても正当化してしまう
弱さ」であったり「割り切れない感情」というのを
読み取ることができないというのは注意すべき点でしょう。

AI ごとの違いは ChatGPT と Claude はビジュアル情報の
読み取りでつまずきやすいけど、Gemini は画像を
画像として読み取る力は優れているということでした。

Chat GPT は精度が高くて高得点だけど熟考型で
Gemini と Claude はそこそこ高得点を取れる
速度重視の効率的な即答型という違いがあるようです。

いずれにしても全てをAIに尋ねると完璧なわけではなく
優秀な秘書や部下なので頼むとパッとやってくれるけど
最終的には自分でチェックする必要があるということです。

爆速的な技術革新であっという間に成長する AI ですが
自分で確かめられない内容をどこまで信頼していいのか…
結局は自分の能力しだい、ということなのでしょうね。