INDEPENDENT COMPARISON
主要AIモデル
独自比較表
ai-garage 編集部による独自集計。 フロンティアモデル11本の料金 / コンテキスト長 / 主要ベンチマークを横並びで比較。 数字には一次ソースをすべて明記しています。
最終更新:2026-05-14(編集部集計)
QUICK TAKEAWAYS
💰 入力料金 安い順(USD/1M tok)
コスパで選ぶなら
- 1. Gemini 3.1 Flash-Lite $0.25
- 2. Mistral Large 3 $0.5
- 3. Qwen3.6-27B $0.6
- 4. Grok 4.3 $1.25
- 5. Gemini 3.5 Flash $1.5
📏 コンテキスト長 長い順
長文を読ませるなら
- 1. Gemini 3.1 Pro 1049K
- 2. Gemini 3.1 Flash-Lite 1049K
- 3. Gemini 3.5 Flash 1049K
- 4. Claude Opus 4.7 1000K
- 5. DeepSeek V4-Pro 1000K
⌨️ SWE-Bench Verified 高い順
コードを書かせるなら
- 1. GPT-5.5 88.7%
- 2. Claude Opus 4.7 87.6%
- 3. DeepSeek V4-Pro 80.6%
- 4. Gemini 3.1 Pro 80.6%
- 5. Claude Sonnet 4.6 79.6%
BENCHMARK CHARTS
ベンチマーク横並び
2026年5月時点の公表値を編集部が集計。バー長が長いほど高スコア。
SWE-Bench Verified(実OSSバグ修正テスト)
実在するOSSのバグをAIが直せるかを測る
出典:各社公式発表 + SWE-Bench リーダーボード(2026-05時点)
MMLU(総合学力テスト)
57科目の選択問題でAIの幅広い知識を測る
出典:各社公式発表(2026-05時点)
GPQA Diamond(博士レベル理系問題)
ググっても答えが出ない難問。推論モデルの真価が問われる
出典:各社公式発表(2026-05時点)
AIME 2024-2025(数学オリンピック予選)
推論モデルの数学力を測る代表的テスト
出典:各社公式発表(2026-05時点)
PRICING SCATTER
料金マップ
入力料金と出力料金の2軸で配置。左下=割安、右上=高額。
API 料金散布図(USD / 1M tokens)
入力・出力それぞれの料金を2軸で可視化
出典:各社公式料金ページ(2026-05時点)。Llama等のオープンウェイトモデルは API 提供価格が公開されていないため除外。
COMPARISON TABLE
全項目比較表
横スクロール可能。バーは各カテゴリの最大値に対する相対値です。
| モデル | バージョン | 公開 | コンテキスト | 入力 $/1M | 出力 $/1M | SWE-Bench | MMLU | GPQA | AIME | 推論モデル |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT-5.5 OpenAI | GPT-5.5 / 5.5 Pro | 2026-04-23 | 400K | $5 | $30 | | | | | YES |
| Claude Opus 4.7 Anthropic | Opus 4.7 | 2026-04-16 | 1000K | $5 | $25 | | | | | YES |
| DeepSeek V4-Pro DeepSeek | V4-Pro (1.6T / 49B active) | 2026-04-24 | 1000K | $1.74 | $3.48 | | | | | YES |
| Gemini 3.1 Pro | 3.1 Pro | 2026-02-19 | 1049K | $2 | $12 | | | | | YES |
| Claude Sonnet 4.6 Anthropic | Sonnet 4.6 | 2026-02-17 | 1000K | $3 | $15 | | | | | YES |
| Qwen3.6-27B Alibaba | Qwen3.6-27B (dense) | 2026-04-22 | 256K | $0.6 | $3.6 | | | | | YES |
| Grok 4.3 xAI | Grok 4.3 | 2026-05-01 | 256K | $1.25 | $2.5 | | | | | YES |
| Mistral Large 3 Mistral AI | Large 3 (MoE 675B/41B active) | 2025-12 | 256K | $0.5 | $1.5 | | | | | YES |
| Gemini 3.1 Flash-Lite | 3.1 Flash-Lite | 2026-05-07 | 1049K | $0.25 | $1.5 | — | — | — | — | YES |
| Gemini 3.5 Flash | 3.5 Flash | 2026-05 | 1049K | $1.5 | $9 | — | — | — | — | YES |
| Llama 4 Maverick Meta | Llama 4 Maverick (MoE 400B / 17B active, 128 experts) | 2025-04-05 | 1000K | — | — | — | | — | — | NO |
表の読み方: コンテキスト長=1度に読める文字数の上限。SWE-Bench Verified=実OSS バグ修正テスト。MMLU=総合知識テスト。GPQA=博士レベル理系問題。AIME=米数学オリンピック予選。 推論モデル=答える前に内部で長く考えるタイプ。
PRIMARY SOURCES
一次ソース
本比較表に掲載した数字の出典。すべて公式発表または査読付き論文。
GPT-5.5
OpenAI注:ChatGPT デフォルトは GPT-5.5 Instant(2026-05-05 切替)。Codex も GPT-5.5 統合。GPT-5.4 比で API 料金は 2 倍($2.5/$15 → $5/$30)、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 で 82.7%。
Claude Opus 4.7
Anthropic注:1M tokens context、adaptive thinking 搭載。LMArena coding 部門 Elo 1569 で首位(claude-opus-4-7-thinking)。
DeepSeek V4-Pro
DeepSeek注:1.6T (49B アクティブ) MoE、SWE-Bench Verified 80.6%(Claude Opus 4.6 と肉薄)、LiveCodeBench 93.5。同時に V4-Flash(284B/13B active、$0.14/$0.28)も登場、コスパ枠として強力。中国製のため業務利用時は規約確認を。
Gemini 3.1 Pro
Google注:ARC-AGI-2 77.1%、LiveCodeBench Elo 2887。200k 超は $4/$18。65k 出力対応。
Claude Sonnet 4.6
Anthropic注:Opus 4.7 の半額以下で約95%の性能を出すコスパ枠。日常使い・業務用途の本命。1M tokens context、adaptive thinking 搭載。
Qwen3.6-27B
Alibaba注:Apache 2.0 で完全オープンウェイト。dense 27B でありながら agentic coding ベンチで 397B MoE を上回る。SWE-Bench Verified 77.2、SWE-Bench Pro 53.5、Terminal-Bench 2.0 59.3。efficient 版 36B-A3B MoE もあり。
Grok 4.3
xAI注:前世代 Grok 4.20 から料金大幅引き下げ($2/$6 → $1.25/$2.50)、エージェント性能を向上。Omniscience benchmark で非ハルシネーション率 78%、Artificial Analysis Intelligence Index で 49 ポイント。Grok 5 は 2026 Q2 予定。
Mistral Large 3
Mistral AI注:フランス発、EU 規制対応で欧州エンタープライズの本命。675B 総 / 41B アクティブの MoE、Apache 2.0 ライセンス。LiveCodeBench v6 で 82.8% pass@1、LMArena のオープン系コーディング首位。コスパ良好。
Gemini 3.1 Flash-Lite
Google注:高頻度・軽量タスク向け最適化の Stable モデル。入力 1M / 出力 64k tokens、マルチモーダル入力(テキスト・画像・動画・音声・PDF)、Thinking Mode サポート、Knowledge cutoff 2025-01。 音声 input は $0.50、Live API / TTS のプレビュー派生もあり。Flash 3.5 より大幅安価で、AI Studio 経由の汎用バックエンド枠として位置付け。 ベンチマーク数値は Google からの公式公表待ち。
Gemini 3.5 Flash
Google注:Gemini 3 Flash(Preview)の直接後継。エージェント時代向けに最適化、サブエージェント・マルチステップワークフロー・長期タスクに対応。 Thinking Mode サポート、入力 1M / 出力 64k tokens。マルチモーダル入力(テキスト・画像・動画・音声・PDF)。Knowledge cutoff 2025-01。 料金は前世代より上昇($0.3/$2.5 → $1.5/$9)だが、Pro より大幅に安価でエージェント実装の主力枠として位置付け。 ベンチマーク数値は Google からの公式公表待ち(公表され次第追記)。
Llama 4 Maverick
Meta注:Meta 公式 Llama 4 系の旗艦。MoE 128 experts、native multimodal、1M context、Knowledge cutoff 2024-08。 公式公表ベンチは MMLU Pro 80.5、LiveCodeBench 43.4、MMMU 73.4、MathVista 73.7、ChartQA 90、DocVQA 94.4。 SWE-Bench / GPQA / AIME / HLE は Meta から公式公表なし(同列比較困難)。Llama 4 Scout(10M context、17B/109B MoE)も同時リリース。 オープンウェイト(Llama 4 Community License、月7億 MAU 超は別ライセンス必要)。
EDITOR'S NOTE
編集部のコメント
「最強モデル」は存在しません。 用途で答えが変わるのが2026年5月時点の特徴です。コーディングなら GPT-5.5 / Claude Opus 4.7、長文処理なら Gemini 3.1 Pro / Llama 4 Maverick、 エージェント実装のコスパ枠なら新登場の Gemini 3.5 Flash、コスト重視なら DeepSeek-R1 / Qwen3、と棚割を意識した選定が現実解です。
ベンチマークと実用は別物。 SWE-Bench で1〜2%差は誤差レベル。実際の開発現場では「指示の通り方」「コードの読みやすさ」「修正の的確さ」の方が体感差に直結します。 本比較表は候補を絞る一次フィルタとして使うのが正しい使い方です。
料金は変動が激しい。 2025年中に各社が2〜3回値下げしており、入力料金は1年前の半額〜1/10になっています。月次レポートで最新値を追跡します。
本表の集計について: 2026年5月13日時点で各社が公表している数値を、ai-garage 編集部が集計しました。 次回更新:月次レポートと合わせて月初に再集計予定。
誤り・更新情報があれば @tenbin_maru のDM までご連絡ください。
関連ページ