「AI vs 共通テスト」から分かること
2026年1月20日(火)

先週末に実施された共通テストをAIに解かせて
みたところ、なんと9科目で満点を取ったという
ニュースがあったので記事元を辿ってみました。
株式会社LifePrompt では「生成AI」が流行語大賞に
選ばれた2023年から「AI vs 共通テスト」という実験を
行っているそうで、今年で4年目なのだそうです。
ChatGPTの愛称である「チャッピー」が流行語大賞に
ノミネートされた昨年の実験では、ついにAIが
東大合格ラインを突破していたということでして。
AI が当然のように高得点を取れる今問うべきなのは
満点は取れるのか、どれだけ速く解けるのか
AI に優劣はあるのか、と3つの AI が試されました。
最も使われている ChatGPT のGPT-5.2 Thinking と
画像認識と速度が強みの Google のGemini 3 Pro と
国語力と論理的思考力が強みの Claude 4.5 Opus です。
正答率の高さでということでは、文系・理系ともに
Chat GPT-5.2 が圧勝していて脅威の 97% で
Gemini と Claude はほぼ同じ 90〜94% でした。
解答時間は Gemini と Claude が約1時間40分で
Chat GPT は5時間30分程度と時間を要したけど
本来の試験時間は10時間10分なので圧倒的に速いです。
ただし100%の正答率ではないので、どんな問題で
AI たちは間違えたのかを深掘りしてみたところ
意外な弱点とモデルごとの個性の違いがあったそうです。
一つは、文字は読めるけど図が読めないようで
AI にとってイラスト問題については図形の意味とか
空間認識をまだ誤ってしまう可能性があるようです。
国語の小説問題は、AI は基本的に「間違いは
正すべき」で「人は反省して成長するもの」という
道徳的な学習データを大量に持っている特性があるので。
人間特有の「悪いと分かっていても正当化してしまう
弱さ」であったり「割り切れない感情」というのを
読み取ることができないというのは注意すべき点でしょう。
AI ごとの違いは ChatGPT と Claude はビジュアル情報の
読み取りでつまずきやすいけど、Gemini は画像を
画像として読み取る力は優れているということでした。
Chat GPT は精度が高くて高得点だけど熟考型で
Gemini と Claude はそこそこ高得点を取れる
速度重視の効率的な即答型という違いがあるようです。
いずれにしても全てをAIに尋ねると完璧なわけではなく
優秀な秘書や部下なので頼むとパッとやってくれるけど
最終的には自分でチェックする必要があるということです。
爆速的な技術革新であっという間に成長する AI ですが
自分で確かめられない内容をどこまで信頼していいのか…
結局は自分の能力しだい、ということなのでしょうね。