INDEPENDENT COMPARISON

主要AIモデル
独自比較表

ai-garage 編集部による独自集計。フロンティアモデル13本の料金 / コンテキスト長 / 主要ベンチマークを横並びで比較。数字には一次ソースをすべて明記しています。

最終更新：2026-07-20（編集部集計）

どのAIを選べばいいか迷ったら

5問に答えるだけでおすすめがわかるよ

AI診断をやってみる →

RECOMMENDATIONS

結論から：用途別のおすすめ

詳しい数値は下の比較表で。まずはここだけ見ればOKだよ。

USE CASE

精度最優先・むずかしい仕事

Claude Fable 5

復帰した絶対王者。ほぼ全ベンチで首位。

料金 $10 / $50 ・一度に 100万tok

「帰ってきた絶対王者。ほぼ全ベンチでトップだよ」

比較表で見る ↓

USE CASE

ふだん使い・コスパ

Claude Sonnet 5

全プラン新デフォルト。導入価格 $2/$10（8月末まで）。

料金 $3 / $15 ・一度に 100万tok

「みんなの新しい標準。安いのに優等生なんだ」

比較表で見る ↓

USE CASE

コーディングを安く大量に

Grok 4.5

$2/$6 の価格破壊。第三者評価で全体4位。

料金 $2 / $6 ・一度に 50万tok

「安くて速い新人エース。実績づくりはこれから」

比較表で見る ↓

USE CASE

長い資料をまるごと読ませる

Gemini 3.1 Pro

一度に読める量がこの表で最大（約105万トークン）。

料金 $2 / $12 ・一度に 105万tok

「長ーい資料をまるのみできる大食いさん」

比較表で見る ↓

USE CASE

コストを極限まで抑える

DeepSeek V4-Pro

最安クラスの定番。

料金 $1.74 / $3.48 ・一度に 100万tok

「コスパの鬼。お財布の味方だよ」

比較表で見る ↓

QUICK TAKEAWAYS

💰 入力料金安い順（USD/1M tok）

コスパで選ぶなら

1. Gemini 3.1 Flash-Lite $0.25
2. Mistral Large 3 $0.5
3. Qwen3.7 Max $1.25
4. Gemini 3.5 Flash $1.5
5. DeepSeek V4-Pro $1.74

📏 コンテキスト長長い順

長文を読ませるなら

1. Gemini 3.1 Pro 1049K
2. Gemini 3.5 Flash 1049K
3. Gemini 3.1 Flash-Lite 1049K
4. Claude Fable 5 1000K
5. Claude Opus 4.8 1000K

⌨️ SWE-Bench Verified 高い順

コードを書かせるなら

1. Claude Fable 5 95%
2. Claude Opus 4.8 88.6%
3. Claude Sonnet 5 85.2%
4. DeepSeek V4-Pro 80.6%
5. Gemini 3.1 Pro 80.6%

🏆 AIコスパ指数高い順

総合コスパで選ぶなら

1. Grok 4.5 75
2. Qwen3.7 Max 73
3. Kimi K3 70
4. Gemini 3.5 Flash 70
5. DeepSeek V4-Pro 69

BENCHMARK CHARTS

ベンチマーク横並び

2026年7月時点の公表値を編集部が集計。バー長が長いほど高スコア。

SWE-Bench Verified（実OSSバグ修正テスト）

実在するOSSのバグをAIが直せるかを測る

出典：各社公式発表 + SWE-Bench リーダーボード（2026-07時点）

MMLU（総合学力テスト）

57科目の選択問題でAIの幅広い知識を測る

出典：各社公式発表（2026-07時点）

GPQA Diamond（博士レベル理系問題）

ググっても答えが出ない難問。推論モデルの真価が問われる

出典：各社公式発表（2026-07時点）

AIME 2024-2025（数学オリンピック予選）

推論モデルの数学力を測る代表的テスト

出典：各社公式発表（2026-07時点）

PRICING SCATTER

料金マップ

入力料金と出力料金の2軸で配置。左下＝割安、右上＝高額。

API 料金散布図（USD / 1M tokens）

入力・出力それぞれの料金を2軸で可視化

X軸：入力料金（USD / 1M tokens） Y軸：出力料金（USD / 1M tokens） ← 左下＝安い

出典：各社公式料金ページ（2026-07時点）。Llama等のオープンウェイトモデルは API 提供価格が公開されていないため除外。

COMPARISON TABLE

全項目比較表

横スクロール可能。バーは各カテゴリの最大値に対する相対値です。

モデル	バージョン	公開	一度に読める量コンテキスト	料金（入力） $ per 1M tokens	料金（出力） $ per 1M tokens	コード修正力 SWE-Bench Verified	知識の広さ MMLU	専門知識（科学） GPQA	数学 AIME	推論モデル	AIコスパ指数独自指標
Claude Fable 5 Anthropic 「帰ってきた絶対王者。ほぼ全ベンチでトップだよ」	Fable 5	2026-06-09	1000K	$10	$50	95%	—	—	—	YES	60
Claude Opus 4.8 Anthropic 「Fable 5 級の頭脳をぐっと手頃に。実務の主戦力だよ」	Opus 4.8	2026-05-28	1000K	$5	$25	88.6%	—	93.6%	—	YES	64
Claude Sonnet 5 Anthropic 「みんなの新しい標準。安いのに優等生なんだ」	Sonnet 5	2026-06-30	1000K	$3	$15	85.2%	—	—	—	YES	66
DeepSeek V4-Pro DeepSeek 「コスパの鬼。お財布の味方だよ」	V4-Pro (1.6T / 49B active)	2026-04-24	1000K	$1.74	$3.48	80.6%	86%	78%	88%	YES	69
Gemini 3.1 Pro Google 「長ーい資料をまるのみできる大食いさん」	3.1 Pro	2026-02-19	1049K	$2	$12	80.6%	91%	94.3%	95%	YES	63
Qwen3.7 Max Alibaba 「安いのにコーディング強者。中国旗艦の実力派だよ」	Qwen3.7 Max（旗艦・クローズド）	2026-05-19	1000K	$1.25	$3.75	80.4%	—	92.4%	—	YES	73
Mistral Large 3 Mistral AI 「ヨーロッパ生まれのバランス型だよ」	Large 3 (MoE 675B/41B active)	2025-12	256K	$0.5	$1.5	60%	85.5%	73%	75%	YES	53
Kimi K3 Moonshot AI 「オープンなのにフロンティア級。デカくて賢い自由派だよ」	K3 (2.8T, MoE 896/16 active)	2026-07-16	1000K	$3	$15	—	—	93.5%	—	YES	70
GPT-5.6 Sol OpenAI 「3兄弟の最上位。速さと安さで Fable 5 に肉薄だよ」	GPT-5.6（Sol / Terra / Luna）	2026-07-09	1000K	$5	$30	—	—	94.1%	—	YES	65
Grok 4.5 SpaceXAI（旧xAI）「安くて速い新人エース。実績づくりはこれから」	Grok 4.5	2026-07-08	500K	$2	$6	—	—	—	—	YES	75
Gemini 3.5 Flash Google 「速い・安い・働き者。エージェントの相棒だね」	3.5 Flash	2026-05-19	1049K	$1.5	$9	—	—	—	—	YES	70
Gemini 3.1 Flash-Lite Google 「とにかく身軽な節約家さん」	3.1 Flash-Lite	2026-05-07	1049K	$0.25	$1.5	—	—	—	—	YES	65
Llama 4 Maverick Meta 「自前で動かせるオープン系の代表格」	Llama 4 Maverick (MoE 400B / 17B active, 128 experts)	2025-04-05	1000K	—	—	—	80.5%	—	—	NO	—

●の見方： ●は列内の最高スコアを基準にした相対評価（90%以上=●5）。「—」は未公表（実測0ではありません）。

表の読み方： コンテキスト長＝1度に読める文字数の上限。SWE-Bench Verified＝実OSS バグ修正テスト。MMLU＝総合知識テスト。GPQA＝博士レベル理系問題。AIME＝米数学オリンピック予選。推論モデル＝答える前に内部で長く考えるタイプ。

🏆 AIコスパ指数の算出式

AIコスパ指数は ai-garage 編集部の独自指標。第三者機関 Artificial Analysis の Intelligence Index v4.1（9評価・エージェント34%／コーディング24%／科学推論24%／一般18%）を知能スコアとし、最高知能を100とした相対値×0.6 ＋料金の安さ（入力3:出力1のブレンド料金・対数スケール）×0.4 で算出。毎月再集計。 → 指標の詳細

PRIMARY SOURCES

一次ソース

本比較表に掲載した数字の出典。すべて公式発表または査読付き論文。

Claude Fable 5

Anthropic

注：Anthropic の最上位モデル。2026-06-09 発表、6-12 に米政府の輸出管理指令で停止したが、6-30 の規制解除を受け 7-1 にグローバル提供再開（日本からは 7-2）。復旧にあたり新しい安全分類器（報告されたジェイルブレイク手口を99%超ブロック、検知時は Opus 4.8 にリルート）を導入。SWE-bench Verified 95.0% は公開リーダーボード首位、AA Intelligence Index 60 も全体1位。料金は $10/$50 で据え置き（米国内限定推論は1.1倍）。MMLU・GPQA・AIME は公式未公表。

Claude Opus 4.8

Anthropic

注：Anthropic の上位モデル（最上位は Fable 5、API は claude-opus-4-8）。Opus 4.7 比でコードの欠陥見逃しが約1/4に改善し、SWE-bench Verified は 88.6%（4.7=87.6%）、GPQA Diamond 93.6%。標準モードは $5/$25 で据え置き、Fast モードは前世代の約1/3（$10/$50）。MMLU・AIME は Anthropic 公式が数値を出していないため本表では「—」。最上位の Fable 5（SWE 95%）は 2026-07-01 に提供再開済み（下記 Fable 5 行を参照）。

Claude Sonnet 5

Anthropic

注：2026-06-30 リリース。無料・Pro を含む全プランの新デフォルトで、「速度と知能の最良バランス」を掲げるエージェント・コスパ枠（Sonnet 4.6 を置き換え）。導入価格は $2/$10（2026-08-31 まで、以降は標準の $3/$15）。SWE-bench Verified は 85.2%（Opus 4.8=88.6% の一段下、旧 Sonnet 4.6=79.6% から大幅改善）、Humanity's Last Exam 34.6%（ツールなし）/46.8%（ツールあり）、OSWorld-Verified 78.5%。エージェント型コーディングは 63.2%（Opus 4.8=69.2 / Sonnet 4.6=58.1）。GPQA・AIME・MMLU は Anthropic 公式が数値を前面に出しておらず（発表は SWE / エージェント系ベンチ中心）本表では「—」。最高精度が要る局面は上位の Opus 4.8。

DeepSeek V4-Pro

DeepSeek

注：1.6T (49B アクティブ) MoE、SWE-Bench Verified 80.6%（Claude Opus 4.6 と肉薄）、LiveCodeBench 93.5。同時に V4-Flash（284B/13B active、$0.14/$0.28）も登場、コスパ枠として強力。中国製のため業務利用時は規約確認を。

Gemini 3.1 Pro

Google

注：ARC-AGI-2 77.1%、LiveCodeBench Elo 2887。200k 超は $4/$18。65k 出力対応。

Qwen3.7 Max

Alibaba

注：Alibaba の Qwen3.7 系フラッグシップ（2026年5月・クローズド）。エージェント／コーディング特化で、SWE-Bench Verified 80.4・GPQA Diamond 92.4・Terminal-Bench 2.0 69.7。context は 1M、料金 $1.25/$3.75 と frontier 級では破格の安さ。MMLU・AIME は非公表。旗艦はテキスト入出力のみ・重み非公開で、マルチモーダルが必要なら安価版 Qwen3.7 Plus（$0.32/$1.28・画像入力対応）、手元で動かすオープンウェイトなら Qwen3.6 系が受け皿。2026年7月19日には次期旗艦 Qwen3.8-Max（2.4兆パラメータ主張・マルチモーダル・オープンウェイト公開予定）をプレビュー公開したが、ベンチは未公表。

Mistral Large 3

Mistral AI

注：フランス発、EU 規制対応で欧州エンタープライズの本命。675B 総 / 41B アクティブの MoE、Apache 2.0 ライセンス。LiveCodeBench v6 で 82.8% pass@1、LMArena のオープン系コーディング首位。コスパ良好。

Kimi K3

Moonshot AI

注：総2.8兆パラメータ（896エキスパート中16を活性化）の MoE で、オープンウェイトとしては最大級。新アテンション Kimi Delta Attention（KDA）＋Attention Residuals で1Mコンテキストのデコードを高速化し、ネイティブ・マルチモーダル（テキスト/画像/動画）に対応。GPQA-Diamond 93.5、Terminal-Bench 88.3、Artificial Analysis Intelligence Index 57 と frontier 級で、Arena の Frontend Code では首位級。総合では Claude Fable 5・GPT-5.6 Sol に一歩届かず、各種リーダーボードで3〜4位級デビュー。フルウェイトは2026-07-27公開予定。中国製のため業務利用は規約確認を。

GPT-5.6 Sol

OpenAI

注：OpenAI のフラッグシップ。GPT-5.6 は 2026-07-09 に一般公開（6-26 の限定プレビューから拡大）。Sol（最上位 $5/$30）・Terra（中位 $2.5/$15）・Luna（軽量 $1/$6）の3グレード構成で、本行は最上位 Sol。Artificial Analysis Intelligence Index は 59 で Claude Fable 5（60）に1点差ながら、所要時間は約61%短く推定コストは約半分をうたう。GPQA Diamond 94.1%・HLE（Humanity's Last Exam）47.2%・コンテキスト 100万トークン。SWE-bench Verified・MMLU・AIME は Sol 個別の公開値が無いため本表では「—」（OpenAI の公表は別ベンチの SWE-Bench Pro 64.6%）。ChatGPT では無料/Go=Terra、Plus 以上=Sol、Pro/Enterprise=Sol Pro の住み分け。

Grok 4.5

SpaceXAI（旧xAI）

注：Grok 4.3 から一新。SpaceX 傘下で SpaceXAI に改称後初のフラグシップ。買収合意した Cursor と共同開発（1.5T パラメータ V9 基盤・MoE）。公式公表は新世代 SWE 系ベンチのみ（SWE-Bench Pro 64.7%・Terminal-Bench 2.1 83.3%・DeepSWE 1.1 53%）で、本表の SWE-bench Verified・MMLU・GPQA・AIME・HLE は未公表のため「—」。Artificial Analysis Intelligence Index 54（全体4位、Grok 4.3 の 38 から +16）。$2/$6 の低価格と高トークン効率（SWE-Bench Pro の平均出力トークンが Opus 4.8 max 比約1/4）が売り。コンテキストは 1M → 500k に縮小。

Gemini 3.5 Flash

Google

注：Gemini 3 Flash（Preview）の直接後継。エージェント時代向けに最適化、サブエージェント・マルチステップワークフロー・長期タスクに対応。 Thinking Mode サポート、入力 1M / 出力 64k tokens。マルチモーダル入力（テキスト・画像・動画・音声・PDF）。Knowledge cutoff 2025-01。料金は前世代より上昇（$0.3/$2.5 → $1.5/$9）だが、Pro より大幅に安価でエージェント実装の主力枠として位置付け。ベンチマーク数値は Google からの公式公表待ち（公表され次第追記）。

Gemini 3.1 Flash-Lite

Google

注：高頻度・軽量タスク向け最適化の Stable モデル。入力 1M / 出力 64k tokens、マルチモーダル入力（テキスト・画像・動画・音声・PDF）、Thinking Mode サポート、Knowledge cutoff 2025-01。音声 input は $0.50、Live API / TTS のプレビュー派生もあり。Flash 3.5 より大幅安価で、AI Studio 経由の汎用バックエンド枠として位置付け。ベンチマーク数値は Google からの公式公表待ち。

Llama 4 Maverick

編集部のコメント

「最強モデル」は存在しません。 用途で答えが変わるのが2026年7月時点の特徴です。コーディングなら GPT-5.6 Sol / Claude Opus 4.8、コスパ重視の日常エージェントなら新登場の Claude Sonnet 5、コーディングをとにかく安く回すなら Grok 4.5（$2/$6）や Qwen3.7 Max（$1.25/$3.75）、長文処理なら Gemini 3.1 Pro / Llama 4 Maverick、エージェント実装のコスパ枠なら Gemini 3.5 Flash、コストを極限まで抑えるなら DeepSeek V4、と棚割を意識した選定が現実解です。

Claude Fable 5 が帰ってきた。 6月9日に登場し SWE-bench Verified 95% などほぼ全ベンチで首位をうたいましたが、6月12日に米政府の輸出管理指令で Fable 5・Mythos 5 とも全ユーザー停止。6月30日の規制解除を経て7月1日にグローバル復帰しました（日本からは7月2日〜）。条件付きの復帰で、新しいサイバーセキュリティ分類器の導入と、Anthropic から政府への安全コミットメント表明とがセットになっています。料金は $10/$50 で据え置き。本表でも停止バッジを外し、コスパ評価・おすすめ早見の全ビューに復帰済みです。

今月の新顔は Claude Sonnet 5 と GPT-5.6。 Anthropic は6月30日に Claude Sonnet 5 を公開（無料・Pro を含む全プランの新デフォルト）。SWE-bench Verified 85.2%、導入価格 $2/$10（8月末まで、以降 $3/$15）で、旧 Sonnet 4.6 から大きく底上げされた「速度×知能」のコスパ枠です。本表にも反映済み。一方 OpenAI の GPT-5.6（Sol／Terra／Luna）は6月26日の限定プレビューを経て7月9日に一般公開。3グレード構成（Sol $5/$30・Terra $2.5/$15・Luna $1/$6）で、本表には最上位 Sol を掲載しています。Artificial Analysis Intelligence Index は 59 で Claude Fable 5（60）に1点差ながら、所要時間は約61%短く・推定コストは約半分をうたう強気の価格性能比です。ただし SWE-bench Verified・MMLU・AIME は Sol 個別の公開値が無いため本表では「—」（OpenAI の公表は別ベンチの SWE-Bench Pro 64.6%）。さらに7月8日には SpaceXAI（旧xAI）が Grok 4.5 を発表。$2/$6 という料金で「Opus級」を謳い、第三者機関 Artificial Analysis の Intelligence Index では 54点・全体4位につけました。ただし SWE-Bench Verified・MMLU など本表の旧来ベンチは未公表のため、スペック表では「—」表示です（公表され次第反映します）。

ベンチマークと実用は別物。 SWE-Bench で1〜2%差は誤差レベル。実際の開発現場では「指示の通り方」「コードの読みやすさ」「修正の的確さ」の方が体感差に直結します。本比較表は候補を絞る一次フィルタとして使うのが正しい使い方です。

料金は変動が激しい。 2025年中に各社が2〜3回値下げしており、入力料金は1年前の半額〜1/10になっています。月次レポートで最新値を追跡します。

本表の集計について： 2026年7月15日時点で各社が公表している数値を、ai-garage 編集部が集計しました。次回更新：月次レポートと合わせて月初に再集計予定。

誤り・更新情報があれば @tenbin_maru のDM までご連絡ください。

主要AIモデル 独自比較表

結論から：用途別のおすすめ

コスパで選ぶなら

長文を読ませるなら

コードを書かせるなら

総合コスパで選ぶなら

ベンチマーク横並び

SWE-Bench Verified（実OSSバグ修正テスト）

MMLU（総合学力テスト）

GPQA Diamond（博士レベル理系問題）

AIME 2024-2025（数学オリンピック予選）

料金マップ

API 料金散布図（USD / 1M tokens）

全項目比較表

一次ソース

編集部のコメント

主要AIモデル
独自比較表