TPS が高いと何が嬉しい？

回答を待つ時間が短くなります。チャット用途なら 50 TPS あれば十分ですが、 AI エージェントが何度もモデルを呼び出すワークフローでは、TPS が 3 倍違うと作業全体の所要時間が 1/3 になることもあります。

TPS と TTFT は何が違う？

TTFT（Time to First Token）は「最初の文字が出るまでの時間」、TPS は「出始めてからの流量」です。『質問してから答えが見え始める速さ』は TTFT、『答えが完全に出るまでの速さ』は TPS が決めます。

なぜ同じモデルでも測定値がバラつく？

サーバの混雑、入力プロンプトの長さ、出力モードの違い（streaming vs batch）で TPS は変動します。ベンチマーク値は「平均的な条件での目安」と理解し、自社業務の実測値と比べるのが正解です。

技術

TPS（Tokens Per Second）とは？

別名: Output Speed / tokens/sec / 出力速度

用途別の目安（チャット40〜80／エージェント150〜300）で読む出力速度。秒間トークン数が高いほどサクサク返る。

⚡ 30秒でわかる

TPS（Tokens Per Second）の主なポイント

1 1 秒間に生成できるトークン数（数字が大きいほど速い）
2 チャット体感は 40〜80 TPS で「読むより速い」
3 エージェント用途では 150〜300 TPS で「待ち時間が消える」
4 同じモデルでも時間帯・サーバ負荷で変動する
5 Output Speed と同義、Artificial Analysis で測定値が公開されている

📖 詳しく

TPS（Tokens Per Second）とは

TPS（Tokens Per Second）は、AI モデルが 1 秒間に出力できるトークン数を表す速度指標です。日本語1文字 ≈ 1〜2 トークン換算で、150 TPS なら 1 秒間に 75〜150 文字が画面に流れます。チャット用途では「人間が読むより速ければ十分」(40〜80 TPS) ですが、エージェント・コーディングなど「裏で大量に処理する」用途では 150〜300 TPS が体感差を生みます。ベンダーごと・モデルごとに大きく異なり、Artificial Analysis などが定期的に計測・公開しています。

❓ FAQ

よくある質問

Q. TPS が高いと何が嬉しい？: A. 回答を待つ時間が短くなります。チャット用途なら 50 TPS あれば十分ですが、 AI エージェントが何度もモデルを呼び出すワークフローでは、TPS が 3 倍違うと作業全体の所要時間が 1/3 になることもあります。
Q. TPS と TTFT は何が違う？: A. TTFT（Time to First Token）は「最初の文字が出るまでの時間」、TPS は「出始めてからの流量」です。『質問してから答えが見え始める速さ』は TTFT、『答えが完全に出るまでの速さ』は TPS が決めます。
Q. なぜ同じモデルでも測定値がバラつく？: A. サーバの混雑、入力プロンプトの長さ、出力モードの違い（streaming vs batch）で TPS は変動します。ベンチマーク値は「平均的な条件での目安」と理解し、自社業務の実測値と比べるのが正解です。

🔗 関連

あわせて読みたい

一次ソース

技術カテゴリの用語

Attention（注意機構） Diffusion Model（拡散モデル） Embeddings（埋め込みベクトル） LoRA Mixture of Experts（MoE） RAG（検索拡張生成） Transformer TTFT（Time to First Token）ファインチューニングベクトルDB マルチモーダル音声クローン音声認識（STT）強化学習蒸留（Distillation）量子化

← 前の用語

RAG（検索拡張生成）

次の用語 →

Transformer

FOR BEGINNERS

AI初心者ガイド

用語が多くて混乱したら、まず全体像から。AI初心者が「何から始める？」を5分で。

GLOSSARY

AI用語集一覧へ

94語をカテゴリ・検索で引ける。気になる用語をまとめてチェック。