ai-garage

INDEPENDENT COMPARISON

主要AIモデル
独自比較表

ai-garage 編集部による独自集計。 フロンティアモデル11本の料金 / コンテキスト長 / 主要ベンチマークを横並びで比較。 数字には一次ソースをすべて明記しています。

最終更新:2026-05-14(編集部集計)

QUICK TAKEAWAYS

💰 入力料金 安い順(USD/1M tok)

コスパで選ぶなら

  1. 1. Gemini 3.1 Flash-Lite $0.25
  2. 2. Mistral Large 3 $0.5
  3. 3. Qwen3.6-27B $0.6
  4. 4. Grok 4.3 $1.25
  5. 5. Gemini 3.5 Flash $1.5

📏 コンテキスト長 長い順

長文を読ませるなら

  1. 1. Gemini 3.1 Pro 1049K
  2. 2. Gemini 3.1 Flash-Lite 1049K
  3. 3. Gemini 3.5 Flash 1049K
  4. 4. Claude Opus 4.7 1000K
  5. 5. DeepSeek V4-Pro 1000K

⌨️ SWE-Bench Verified 高い順

コードを書かせるなら

  1. 1. GPT-5.5 88.7%
  2. 2. Claude Opus 4.7 87.6%
  3. 3. DeepSeek V4-Pro 80.6%
  4. 4. Gemini 3.1 Pro 80.6%
  5. 5. Claude Sonnet 4.6 79.6%

BENCHMARK CHARTS

ベンチマーク横並び

2026年5月時点の公表値を編集部が集計。バー長が長いほど高スコア。

SWE-Bench Verified(実OSSバグ修正テスト)

実在するOSSのバグをAIが直せるかを測る

22% 44% 67% 89% GPT-5.5 TOP 88.7% Claude Opus 4.7 87.6% DeepSeek V4-Pro 80.6% Gemini 3.1 Pro 80.6% Claude Sonnet 4.6 79.6% Qwen3.6-27B 77.2% Grok 4.3 75.0% Mistral Large 3 60.0%

出典:各社公式発表 + SWE-Bench リーダーボード(2026-05時点)

MMLU(総合学力テスト)

57科目の選択問題でAIの幅広い知識を測る

23% 46% 69% 92% GPT-5.5 TOP 92.4% Gemini 3.1 Pro 91.0% Claude Opus 4.7 88.0% Grok 4.3 87.0% DeepSeek V4-Pro 86.0% Claude Sonnet 4.6 86.0% Mistral Large 3 85.5% Qwen3.6-27B 85.0% Llama 4 Maverick 80.5%

出典:各社公式発表(2026-05時点)

GPQA Diamond(博士レベル理系問題)

ググっても答えが出ない難問。推論モデルの真価が問われる

24% 47% 71% 94% Gemini 3.1 Pro TOP 94.3% GPT-5.5 93.6% Claude Sonnet 4.6 89.9% Grok 4.3 88.0% Qwen3.6-27B 87.8% Claude Opus 4.7 79.6% DeepSeek V4-Pro 78.0% Mistral Large 3 73.0%

出典:各社公式発表(2026-05時点)

AIME 2024-2025(数学オリンピック予選)

推論モデルの数学力を測る代表的テスト

24% 48% 73% 97% GPT-5.5 TOP 96.7% Gemini 3.1 Pro 95.0% Grok 4.3 95.0% Claude Opus 4.7 92.0% Claude Sonnet 4.6 89.0% DeepSeek V4-Pro 88.0% Qwen3.6-27B 88.0% Mistral Large 3 75.0%

出典:各社公式発表(2026-05時点)

PRICING SCATTER

料金マップ

入力料金と出力料金の2軸で配置。左下=割安、右上=高額

API 料金散布図(USD / 1M tokens)

入力・出力それぞれの料金を2軸で可視化

X軸:入力料金(USD / 1M tokens) Y軸:出力料金(USD / 1M tokens) ← 左下=安い
$0.0 $1.4 $2.9 $4.3 $5.8 $0 $9 $17 $26 $35 割安ゾーン GPT-5.5 Claude Opus 4.7 DeepSeek V4-Pro Gemini 3.1 Pro Claude Sonnet 4.6 Qwen3.6-27B Grok 4.3 Mistral Large 3 Gemini 3.1 Flash-Lite Gemini 3.5 Flash 入力料金($/1M)→ 出力料金($/1M)↑

出典:各社公式料金ページ(2026-05時点)。Llama等のオープンウェイトモデルは API 提供価格が公開されていないため除外。

COMPARISON TABLE

全項目比較表

横スクロール可能。バーは各カテゴリの最大値に対する相対値です。

モデル バージョン 公開 コンテキスト 入力 $/1M 出力 $/1M SWE-Bench MMLU GPQA AIME 推論モデル
GPT-5.5

OpenAI

GPT-5.5 / 5.5 Pro 2026-04-23 400K $5 $30
88.7%
92.4%
93.6%
96.7%
YES
Claude Opus 4.7

Anthropic

Opus 4.7 2026-04-16 1000K $5 $25
87.6%
88%
79.6%
92%
YES
DeepSeek V4-Pro

DeepSeek

V4-Pro (1.6T / 49B active) 2026-04-24 1000K $1.74 $3.48
80.6%
86%
78%
88%
YES
Gemini 3.1 Pro

Google

3.1 Pro 2026-02-19 1049K $2 $12
80.6%
91%
94.3%
95%
YES
Claude Sonnet 4.6

Anthropic

Sonnet 4.6 2026-02-17 1000K $3 $15
79.6%
86%
89.9%
89%
YES
Qwen3.6-27B

Alibaba

Qwen3.6-27B (dense) 2026-04-22 256K $0.6 $3.6
77.2%
85%
87.8%
88%
YES
Grok 4.3

xAI

Grok 4.3 2026-05-01 256K $1.25 $2.5
75%
87%
88%
95%
YES
Mistral Large 3

Mistral AI

Large 3 (MoE 675B/41B active) 2025-12 256K $0.5 $1.5
60%
85.5%
73%
75%
YES
Gemini 3.1 Flash-Lite

Google

3.1 Flash-Lite 2026-05-07 1049K $0.25 $1.5 YES
Gemini 3.5 Flash

Google

3.5 Flash 2026-05 1049K $1.5 $9 YES
Llama 4 Maverick

Meta

Llama 4 Maverick (MoE 400B / 17B active, 128 experts) 2025-04-05 1000K
80.5%
NO

表の読み方: コンテキスト長=1度に読める文字数の上限。SWE-Bench Verified=実OSS バグ修正テスト。MMLU=総合知識テスト。GPQA=博士レベル理系問題。AIME=米数学オリンピック予選。 推論モデル=答える前に内部で長く考えるタイプ。

PRIMARY SOURCES

一次ソース

本比較表に掲載した数字の出典。すべて公式発表または査読付き論文。

GPT-5.5

OpenAI

注:ChatGPT デフォルトは GPT-5.5 Instant(2026-05-05 切替)。Codex も GPT-5.5 統合。GPT-5.4 比で API 料金は 2 倍($2.5/$15 → $5/$30)、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 で 82.7%。

Claude Opus 4.7

Anthropic

注:1M tokens context、adaptive thinking 搭載。LMArena coding 部門 Elo 1569 で首位(claude-opus-4-7-thinking)。

DeepSeek V4-Pro

DeepSeek

注:1.6T (49B アクティブ) MoE、SWE-Bench Verified 80.6%(Claude Opus 4.6 と肉薄)、LiveCodeBench 93.5。同時に V4-Flash(284B/13B active、$0.14/$0.28)も登場、コスパ枠として強力。中国製のため業務利用時は規約確認を。

Gemini 3.1 Pro

Google

注:ARC-AGI-2 77.1%、LiveCodeBench Elo 2887。200k 超は $4/$18。65k 出力対応。

Claude Sonnet 4.6

Anthropic

注:Opus 4.7 の半額以下で約95%の性能を出すコスパ枠。日常使い・業務用途の本命。1M tokens context、adaptive thinking 搭載。

Qwen3.6-27B

Alibaba

注:Apache 2.0 で完全オープンウェイト。dense 27B でありながら agentic coding ベンチで 397B MoE を上回る。SWE-Bench Verified 77.2、SWE-Bench Pro 53.5、Terminal-Bench 2.0 59.3。efficient 版 36B-A3B MoE もあり。

Grok 4.3

xAI

注:前世代 Grok 4.20 から料金大幅引き下げ($2/$6 → $1.25/$2.50)、エージェント性能を向上。Omniscience benchmark で非ハルシネーション率 78%、Artificial Analysis Intelligence Index で 49 ポイント。Grok 5 は 2026 Q2 予定。

Mistral Large 3

Mistral AI

注:フランス発、EU 規制対応で欧州エンタープライズの本命。675B 総 / 41B アクティブの MoE、Apache 2.0 ライセンス。LiveCodeBench v6 で 82.8% pass@1、LMArena のオープン系コーディング首位。コスパ良好。

Gemini 3.1 Flash-Lite

Google

注:高頻度・軽量タスク向け最適化の Stable モデル。入力 1M / 出力 64k tokens、マルチモーダル入力(テキスト・画像・動画・音声・PDF)、Thinking Mode サポート、Knowledge cutoff 2025-01。 音声 input は $0.50、Live API / TTS のプレビュー派生もあり。Flash 3.5 より大幅安価で、AI Studio 経由の汎用バックエンド枠として位置付け。 ベンチマーク数値は Google からの公式公表待ち。

Gemini 3.5 Flash

Google

注:Gemini 3 Flash(Preview)の直接後継。エージェント時代向けに最適化、サブエージェント・マルチステップワークフロー・長期タスクに対応。 Thinking Mode サポート、入力 1M / 出力 64k tokens。マルチモーダル入力(テキスト・画像・動画・音声・PDF)。Knowledge cutoff 2025-01。 料金は前世代より上昇($0.3/$2.5 → $1.5/$9)だが、Pro より大幅に安価でエージェント実装の主力枠として位置付け。 ベンチマーク数値は Google からの公式公表待ち(公表され次第追記)。

Llama 4 Maverick

Meta

注:Meta 公式 Llama 4 系の旗艦。MoE 128 experts、native multimodal、1M context、Knowledge cutoff 2024-08。 公式公表ベンチは MMLU Pro 80.5、LiveCodeBench 43.4、MMMU 73.4、MathVista 73.7、ChartQA 90、DocVQA 94.4。 SWE-Bench / GPQA / AIME / HLE は Meta から公式公表なし(同列比較困難)。Llama 4 Scout(10M context、17B/109B MoE)も同時リリース。 オープンウェイト(Llama 4 Community License、月7億 MAU 超は別ライセンス必要)。

EDITOR'S NOTE

編集部のコメント

「最強モデル」は存在しません。 用途で答えが変わるのが2026年5月時点の特徴です。コーディングなら GPT-5.5 / Claude Opus 4.7、長文処理なら Gemini 3.1 Pro / Llama 4 Maverick、 エージェント実装のコスパ枠なら新登場の Gemini 3.5 Flash、コスト重視なら DeepSeek-R1 / Qwen3、と棚割を意識した選定が現実解です。

ベンチマークと実用は別物。 SWE-Bench で1〜2%差は誤差レベル。実際の開発現場では「指示の通り方」「コードの読みやすさ」「修正の的確さ」の方が体感差に直結します。 本比較表は候補を絞る一次フィルタとして使うのが正しい使い方です。

料金は変動が激しい。 2025年中に各社が2〜3回値下げしており、入力料金は1年前の半額〜1/10になっています。月次レポートで最新値を追跡します。

本表の集計について: 2026年5月13日時点で各社が公表している数値を、ai-garage 編集部が集計しました。 次回更新:月次レポートと合わせて月初に再集計予定。

誤り・更新情報があれば @tenbin_maru のDM までご連絡ください。

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →