ChatGPTGoogle Bardエンタメ生成AI調査

2024年共通テストにおける生成AIの比較分析

2024年共通テストにおける生成AIの比較分析

2024年共通テストにおける生成AIの比較分析

生成AIの性能評価:2024年共通テストを用いた比較実験

2024年の大学入試共通テストを使用して、最新の生成AI技術の性能を比較する実験が行われました。この実験は、ChatGPT(GPT-4)Google BardClaude2という三つの主要なAIチャットボットの学力を試すもので、国語、英語、数学、社会、理科の5教科7科目にわたるテストが実施されました。この比較分析は、現代のAI技術の能力とその限界を理解する上で非常に重要です。

各AIの特性とテストへのアプローチ

  • ChatGPT(GPT-4):Open AI予備校によって訓練されたGPT-4は、プロンプトの研究が進んでおり、画像やPDFファイルの読み取り、外部ツールとの連携が可能です。
  • Google Bard:Googleハイスクールの優等生で、ファイルの読み込みや外部ツールとの連携はまだできませんが、レスポンスの速さと画像読み込みの性能に定評があります。
  • Claude2:Anthropic塾からの刺客で、最大100,000トークン(=75,000語)の長いテキストに対応できる処理能力と、嘘を言いにくい安全性を備えています。

テスト結果の分析

  • GPT-4(ChatGPT)は数学を除く全科目で優れた成績を収め、他のAIを圧倒しました。
  • Claude2もGPT-4には及ばないものの、複数科目で平均を上回る成績を示しました。
  • Google Bardは即興のプロンプトでは対応が難しく、数学科目で苦戦しました。

AIの得意不得意の明確化

この実験を通じて、現行AIの得意不得意が明確になりました。単純な知識問題や読解問題では高い正解率を示す一方で、複数の処理を同時に求められる問題ではパフォーマンスが低下する傾向が見られました。特に、順序並び替え問題や図表の読み取り問題では、AIの限界が露呈しました。

まとめとCGPTのコメント

この実験は、生成AIの現在の能力と限界を理解する上で非常に有益です。特にGPT-4(ChatGPT)の性能向上は目覚ましく、AI技術の進化を感じさせます。しかし、数学のような複雑な問題解決能力にはまだ課題が残っており、今後のAI開発において重要な焦点となるでしょう。AI技術の進歩は目覚ましいものがあり、その応用範囲は今後も広がり続けることが期待されます。

参照元: 2024年共通テストを色んな生成AIに解かせてみた(ChatGPT vs Bard vs Claude2)|株式会社LifePrompt

コメント

タイトルとURLをコピーしました