ai-garage
技術

TPS(Tokens Per Second)とは?

別名: Output Speed / tokens/sec / 出力速度

AI モデルの「文字を出す速度」を測る指標。秒間トークン数で、高いほどサクサク回答が返る。

⚡ 30秒でわかる

TPS(Tokens Per Second) の主なポイント

  • 1 1 秒間に生成できるトークン数(数字が大きいほど速い)
  • 2 チャット体感は 40〜80 TPS で「読むより速い」
  • 3 エージェント用途では 150〜300 TPS で「待ち時間が消える」
  • 4 同じモデルでも時間帯・サーバ負荷で変動する
  • 5 Output Speed と同義、Artificial Analysis で測定値が公開されている

📖 詳しく

TPS(Tokens Per Second) とは

TPS(Tokens Per Second)は、AI モデルが 1 秒間に出力できるトークン数を表す速度指標です。 日本語1文字 ≈ 1〜2 トークン換算で、150 TPS なら 1 秒間に 75〜150 文字が画面に流れます。 チャット用途では「人間が読むより速ければ十分」(40〜80 TPS) ですが、 エージェント・コーディングなど「裏で大量に処理する」用途では 150〜300 TPS が体感差を生みます。 ベンダーごと・モデルごとに大きく異なり、Artificial Analysis などが定期的に計測・公開しています。

❓ FAQ

よくある質問

Q. TPS が高いと何が嬉しい?
A. 回答を待つ時間が短くなります。チャット用途なら 50 TPS あれば十分ですが、 AI エージェントが何度もモデルを呼び出すワークフローでは、TPS が 3 倍違うと 作業全体の所要時間が 1/3 になることもあります。
Q. TPS と TTFT は何が違う?
A. TTFT(Time to First Token)は「最初の文字が出るまでの時間」、TPS は「出始めてからの流量」です。 『質問してから答えが見え始める速さ』は TTFT、『答えが完全に出るまでの速さ』は TPS が決めます。
Q. なぜ同じモデルでも測定値がバラつく?
A. サーバの混雑、入力プロンプトの長さ、出力モードの違い(streaming vs batch)で TPS は変動します。 ベンチマーク値は「平均的な条件での目安」と理解し、自社業務の実測値と比べるのが正解です。

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →