ai-garage

AI GLOSSARY

AI用語集

「LLMって何?」「RAGって略すけど?」「エージェントってAI界の何?」—— ニュースやSNSでなんとなく見かけるけど、いちいち調べるのは面倒な用語を、 93語まとめてやさしい日本語で解説しています。

👉 AI がまったく初めてなら、まず AI初心者ガイド で「何から始める?」の全体像を押さえるのがおすすめ。

93 用語
7 カテゴリ
22 🔥 ホット

🔥最近よく聞く用語

📘基礎用語

AIの世界に入るときに最初に出会う言葉。

AGI(汎用人工知能) 🔥

基礎用語

Artificial General Intelligence

あらゆる知的作業を人間並みにこなせるAIの理論段階。

特定タスクに特化した今のAIではなく、人間がやれることを何でもこなせる汎用知能のことです。 2025〜2026年は「AGIにそろそろ到達するのでは」という議論が業界の最大論点になっています。

関連用語

ASI シンギュラリティ

詳しく見る →

AI(人工知能)

基礎用語

Artificial Intelligence

人間っぽい判断をするコンピュータの総称。

人間がやっていた認識・判断・生成といった作業を、コンピュータにやらせる技術の総称です。 ひとくちに「AI」と言ってもジャンルは幅広く、いまブームになっているのは「生成AI(じわっと文章や画像を作るタイプ)」が中心です。

関連用語

生成AI 機械学習 深層学習

詳しく見る →

ASI(超知能)

基礎用語

Artificial Super Intelligence

人間の知能を遥かに超えるAIの理論段階。

AGIのさらに先、人類が束になっても勝てないレベルの知能を持つAIのことです。 登場すれば社会のあり方が根本から変わるため、安全研究の最終目標になっています。

関連用語

AGI シンギュラリティ アライメント

詳しく見る →

GPU

基礎用語

Graphics Processing Unit

AIの学習・推論に欠かせない並列計算チップ。

元はゲームの描画用だったチップですが、並列計算が得意なため AI 計算の中心になりました。 NVIDIA の H100 / H200 / B200 が業界標準で、AI ブームによる需要急増が業界を席巻しています。

関連用語

TPU 推論 学習

詳しく見る →

TPU

基礎用語

Tensor Processing Unit

Google が自社開発した AI 専用チップ。

Google が自社の AI 計算のために設計した専用チップで、Gemini の学習・推論にフル活用されています。 NVIDIA GPU への依存を減らす動きとして、業界で注目されています。

関連用語

GPU 推論

詳しく見る →

シンギュラリティ

基礎用語

Technological Singularity / 技術的特異点

AIが人間を超えて文明が一気に書き換わる転換点。

AIが自分自身を改良できるようになった時点で、進化速度が人間が追いつけないほど跳ね上がる、と予想される転換点のことです。 レイ・カーツワイルが2045年と予想していましたが、近年は前倒し説も出ています。

関連用語

AGI ASI

詳しく見る →

ニューラルネットワーク

基礎用語

Neural Network / NN

人間の脳を真似たAIの計算モデル。

人間の脳のニューロン(神経細胞)のつながりをまねた、入力と出力をつなぐ計算の網です。 途中の重みを調整することで、画像を見分けたり文章を作ったりできるようになります。

関連用語

深層学習 学習 重み

詳しく見る →

パラメータ

基礎用語

Parameters

モデルの賢さを決める「重み」の数。

学習で調整される数値のひとつひとつをパラメータと呼びます。 「7Bモデル」「70B」のように書かれるのは、このパラメータの個数(B=10億)を表しています。

関連用語

モデル 学習 重み

詳しく見る →

モデル

基礎用語

Model

学習し終わったAIの本体。

「ChatGPT」のような製品の中身にあたる、学習済みのAI本体のことです。 GPT-5、Claude Opus、Gemini Pro のように、製品の中で複数のモデルが切り替わることもあります。

関連用語

パラメータ 学習 推論

詳しく見る →

学習

基礎用語

Training

AIにデータを読ませて賢くする工程。

AIに大量のデータを読み込ませて、内部のパラメータ(重み)を調整していく工程のことです。 学習が終わったあとのAIを、実際に使うことを「推論」と言います。

関連用語

推論 ファインチューニング 事前学習

詳しく見る →

機械学習(ML)

基礎用語

Machine Learning

データから自動でルールを覚える技術。

人間がルールを書く代わりに、大量のデータを読ませて「自分でパターンを見つけてもらう」やり方です。 現代のAIはほぼすべて、この機械学習をベースにしています。

関連用語

深層学習 学習 推論

詳しく見る →

深層学習(ディープラーニング)

基礎用語

Deep Learning / DL

層をたくさん重ねたニューラルネットによる学習。

機械学習のなかでも、人間の脳をざっくりまねた「ニューラルネットワーク」を、何層も深く重ねて使う方式です。 2010年代以降のAIブームの土台になっている技術で、今のChatGPTもこの仲間です。

関連用語

機械学習 ニューラルネットワーク Transformer

詳しく見る →

推論

基礎用語

Inference

学習済みのAIに質問して答えを得る作業。

学習済みのAIに入力を渡して、答えを出させる工程です。 ふだん「ChatGPTを使う」というのは、ほぼ全部この推論にあたります。

関連用語

学習 応答 レイテンシ

詳しく見る →

生成AI 🔥

基礎用語

Generative AI / ジェネレーティブAI

文章・画像・音声・コードなどを「作る」AI。

ChatGPT や Midjourney のように、新しいコンテンツを「生み出す」タイプのAIをまとめて指す言葉です。 従来の「答えを分類する」AIとは違って、ゼロから文章や絵を作るのが特徴です。

関連用語

AI LLM 画像生成

詳しく見る →

💬LLM・テキスト

ChatGPT などの大規模言語モデル周辺の用語。

Chain-of-Thought(思考の連鎖)

LLM・テキスト

CoT

「順を追って考えて」と促すと精度が上がるテク。

「ステップ・バイ・ステップで考えてください」とAIに指示することで、推論の精度を上げる手法のことです。 今は最初から思考の連鎖を内蔵した「推論モデル」が主流になりつつあります。

関連用語

推論モデル プロンプト o1

詳しく見る →

Few-shot プロンプト

LLM・テキスト

Few-shot Learning

プロンプトに「例」を数個入れて精度を上げるテク。

「こういう質問にはこう答えてほしい」という例をプロンプトに数個入れることで、AIの出力をぐっと安定させるテクニックです。 例を1個だけ入れるのは One-shot、入れないのは Zero-shot と呼ばれます。

関連用語

プロンプト Zero-shot In-context Learning

詳しく見る →

LLM(大規模言語モデル) 🔥

LLM・テキスト

Large Language Model

ChatGPTなどの中身。文章を理解して生成するAI。

膨大な文章データを学習した、大きなサイズの言語モデルのことです。 ChatGPT・Claude・Gemini はみんな LLM の上に作られています。

関連用語

生成AI Transformer トークン

詳しく見る →

SFT(教師あり微調整)

LLM・テキスト

Supervised Fine-Tuning

正解付きのデータで追加学習させる工程。

「この質問にはこう答えてほしい」というペアデータを用意して、それでモデルを追加学習させる方式です。 RLHF の前段階としてよく行われ、ファインチューニングの基本形にあたります。

関連用語

RLHF ファインチューニング

詳しく見る →

Zero-shot

LLM・テキスト

ゼロショット

例を一つも見せずに、新しいタスクをAIに頼むやり方。

「例を見せずに、いきなり本番タスクをやらせる」プロンプトのやり方です。 今の高性能モデルは Zero-shot でもかなりの精度が出るため、Few-shot を使う場面は減ってきています。

関連用語

Few-shot プロンプト

詳しく見る →

コンテキストウィンドウ 🔥

LLM・テキスト

Context Window / コンテキスト長

AIが一度に読める長さ。長いほど多く覚えていられる。

AIが「一度の会話で覚えていられる量」のことです。 2026年現在、GPT-5系で40万トークン、Gemini 2.5系で100万トークン超。長いほど大量の資料を一気に読ませられます。

関連用語

トークン RAG ロングコンテキスト

詳しく見る →

コンテキストエンジニアリング 🔥

LLM・テキスト

Context Engineering

プロンプトエンジニアリングの後継、文脈設計の技術。

単発のプロンプトだけでなく、システムプロンプト・履歴・取得した資料を含めた「文脈全体」をどう組み立てるか、を設計する技術のことです。 2025年以降の主流概念で、エージェント運用ではこちらが鍵になります。

関連用語

プロンプト RAG AIエージェント

詳しく見る →

システムプロンプト

LLM・テキスト

System Prompt

AIの「人格」「役割」を最初に定義する指示文。

「あなたは丁寧な日本語で答えるアシスタントです」「専門用語は避けてください」のように、会話の最初に置く土台になる指示文のことです。 アプリケーションでAIを組み込む時の、設計の核になります。

関連用語

プロンプト Few-shot

詳しく見る →

トークナイザ

LLM・テキスト

Tokenizer

文章をトークンに分割するプログラム。

文章をモデルが扱えるトークン列に分解する、AI処理の最初のステップを担うプログラムのことです。 BPE(Byte Pair Encoding)が代表的な方式で、日本語は英語より細かく分かれるためトークン消費が増えがちです。

関連用語

トークン Embeddings

詳しく見る →

トークン

LLM・テキスト

Token

AIが文字を扱う最小単位。料金もここで測る。

LLMは文章をそのままでなく、「トークン」という小さなかたまりに分けて扱います。 日本語ではだいたい 1〜2文字で1トークンくらい。API利用時の料金もこのトークン数で計算されます。

関連用語

コンテキストウィンドウ 料金 プロンプト

詳しく見る →

ハルシネーション 🔥

LLM・テキスト

Hallucination / 幻覚

AIが平然とウソをつく現象。

もっともらしいけど事実と違う情報を、AIが自信満々で答えてしまう現象です。 「存在しない論文を引用してくる」「人物の経歴を捏造する」などが典型例。AIの答えは必ずファクトチェックが必要、と覚えておきましょう。

関連用語

RAG 出典 ファクトチェック

詳しく見る →

プロンプト

LLM・テキスト

Prompt

AIへの指示文。書き方で答えがガラッと変わる。

AIへの入力文(指示文)のことです。 同じ質問でも、書き方ひとつで答えの精度が大きく変わるので、「プロンプトエンジニアリング」というジャンルが生まれました。

関連用語

Few-shot CoT プロンプトエンジニアリング

詳しく見る →

ロングコンテキスト

LLM・テキスト

Long Context

100万トークン超の超長文を扱えるモデルの特長。

コンテキストウィンドウが100万トークンを超えるレベルの長さを扱えることを指します。 Gemini 2.5 / Claude(拡張)/ Llama 4 系などが対応。論文1冊・コードベース全体を一気に読ませる用途で活躍します。

関連用語

コンテキストウィンドウ ロングコンテキスト評価

詳しく見る →

温度(Temperature)

LLM・テキスト

Temperature

AIの答えのばらつき具合を決めるツマミ。

0に近づくほど「安定した同じような答え」、1に近づくほど「ばらつきのある創造的な答え」になる、出力のランダムさを調整するパラメータです。 ビジネス用途は低め、創作用途は高めにすると相性がいいです。

関連用語

プロンプト サンプリング

詳しく見る →

推論モデル 🔥

LLM・テキスト

Reasoning Model / Thinking Model

答える前に「考える時間」を持つAI。

答えを出す前に内部で長く考えるよう設計されたモデルのことです。 OpenAI の o1/o3系、Claude の Opus extended thinking、Gemini Thinking などが代表例で、数学・コードに特に強くなります。

関連用語

Chain-of-Thought 推論 ベンチマーク

詳しく見る →

⚙️しくみ・技術

AIが動く仕組みや、技術者がよく使う用語。

Attention(注意機構)

しくみ・技術

Self-Attention

文章のどこに注目すべきかを学ぶしくみ。

Transformer のキモになる計算のしくみで、入力された文章の「どの単語が、どの単語と関係しているか」を、AIが自分で学ぶ仕掛けです。 「Attention Is All You Need」という論文タイトルがそのまま業界の合言葉になっています。

関連用語

Transformer LLM

詳しく見る →

Diffusion Model(拡散モデル)

しくみ・技術

拡散モデル

画像生成AIの主流アルゴリズム。

ノイズだらけの画像から、少しずつノイズを取り除いて綺麗な画像を作る、という変わったやり方で画像を生成するモデルです。 Midjourney、Stable Diffusion、DALL-E、Imagen など、ほぼ全ての画像生成AIがこの方式です。

関連用語

画像生成 Stable Diffusion

詳しく見る →

Embeddings(埋め込みベクトル)

しくみ・技術

ベクトル化

言葉や画像を「数字の列」で表す技術。

テキストや画像を、意味の近さを表す高次元の数字の列(ベクトル)に変換することです。 このベクトルを使うと、「意味が似ているもの」を高速に検索できます。RAG の土台にもなっています。

関連用語

Vector DB RAG 類似検索

詳しく見る →

LoRA

しくみ・技術

Low-Rank Adaptation

巨大モデルに「アドオン」を貼って軽く微調整する手法。

巨大モデル本体をいじらず、小さな差分(アダプタ)だけ学習させて、特定用途向けに変身させる手法です。 ファインチューニングのコストを劇的に下げるため、画像生成のキャラ学習や、自社モデル化で大人気。

関連用語

ファインチューニング 量子化

詳しく見る →

Mixture of Experts(MoE)

しくみ・技術

MoE / 専門家混合

巨大モデルを「専門家チーム」に分けて軽くする手法。

1つの巨大なモデルではなく、複数の小さな専門家モデルを用意して、入力に応じて使う専門家を切り替える方式です。 GPT-4・Mixtral・DeepSeek V3 などが採用。「全部を毎回使わない」ので推論が速く、安価になります。

関連用語

パラメータ 推論

詳しく見る →

RAG(検索拡張生成) 🔥

しくみ・技術

Retrieval-Augmented Generation

外部のデータを検索しながらAIに答えさせる方法。

社内ドキュメントなどの外部データを、まずベクトル検索で引っ張ってきて、それをAIに渡して答えさせる手法です。 AIに最新情報や独自情報を扱わせる定番のやり方で、ハルシネーション対策にもなります。

関連用語

Embeddings Vector DB ハルシネーション

詳しく見る →

TPS(Tokens Per Second)

しくみ・技術

Output Speed / tokens/sec / 出力速度

AI モデルの「文字を出す速度」を測る指標。秒間トークン数で、高いほどサクサク回答が返る。

TPS(Tokens Per Second)は、AI モデルが 1 秒間に出力できるトークン数を表す速度指標です。 日本語1文字 ≈ 1〜2 トークン換算で、150 TPS なら 1 秒間に 75〜150 文字が画面に流れます。 チャット用途では「人間が読むより速ければ十分」(40〜80 TPS) ですが、 エージェント・コーディングなど「裏で大量に処理する」用途では 150〜300 TPS が体感差を生みます。 ベンダーごと・モデルごとに大きく異なり、Artificial Analysis などが定期的に計測・公開しています。

関連用語

TTFT context-window streaming

詳しく見る →

Transformer

しくみ・技術

トランスフォーマー

現代AIの土台になっているニューラルネット構造。

2017年に Google が発表した、AIの設計図にあたるネットワーク構造です。 「Attention」というしくみで、文章のどこに注目すべきかをうまく扱えるようになり、ChatGPT を含むほぼ全ての現代LLMがこの上に作られています。

関連用語

Attention LLM ニューラルネットワーク

詳しく見る →

TTFT(Time to First Token)

しくみ・技術

最初のトークンまでの時間 / 初回応答遅延

質問を送ってから AI が「最初の1文字」を返すまでの時間。短いほど『反応が良い』と感じる。

TTFT(Time to First Token)は、ユーザーが質問を送ってから AI モデルが最初のトークンを生成するまでの時間です。 単位はミリ秒(ms)または秒。一般的に 0.3〜2.0 秒の範囲。 人間は「動き出すまで」を体感速度として記憶するため、TTFT が短いとモデルが「速い」「賢い」と感じます。 Streaming(逐次表示)対応のチャット UI では TTFT がそのまま体感品質に直結します。 逆に「最終回答までの総時間」は TTFT + (出力長 ÷ TPS) で決まります。

関連用語

TPS streaming reasoning-model

詳しく見る →

ファインチューニング

しくみ・技術

Fine-tuning

既存モデルに追加学習させて自社向けにする。

事前学習済みのモデルに、自分たちのデータで追加学習させて、特定の用途向けに調整することです。 LoRA などの軽量手法を使えば、小さいコストでカスタムモデルが作れます。

関連用語

LoRA 事前学習 RAG

詳しく見る →

ベクトルDB

しくみ・技術

Vector Database / Vector DB

Embeddingsを保存・検索するための専用DB。

Embeddings を大量に保存し、「意味が近いもの」を高速に検索するための専用データベースです。 Pinecone, Weaviate, pgvector などが代表例。RAGには欠かせない部品です。

関連用語

Embeddings RAG

詳しく見る →

マルチモーダル

しくみ・技術

Multimodal

文章・画像・音声などを同時に扱えるAI。

テキストだけでなく、画像・音声・動画・コードなど複数の形式(モード)を同時に扱えるAIのことです。 2024年以降、ほぼすべての主要モデルがマルチモーダル対応になりました。

関連用語

画像生成 音声 ビジョンモデル

詳しく見る →

音声クローン

しくみ・技術

Voice Cloning

数秒の声サンプルで本人そっくりの声を作る技術。

わずか数秒の音声サンプルから、その人の声をAIで再現する技術です。 ElevenLabs、OpenAI Voice、xAI Grok Voice などが商用化。便利な反面、詐欺利用の懸念で各社が同意ベースの厳格運用を進めています。

関連用語

音声合成 ディープフェイク

詳しく見る →

音声認識(STT)

しくみ・技術

Speech-to-Text / ASR

話し声を文字起こしするAI技術。

マイクから入った音声をテキストに変換する技術です。 OpenAI の Whisper が業界標準で、議事録・字幕・通訳など幅広く使われています。

関連用語

音声クローン マルチモーダル

詳しく見る →

強化学習

しくみ・技術

Reinforcement Learning / RL

ご褒美と罰でAIに行動を学ばせる方式。

「うまくいったら報酬、失敗したらペナルティ」を繰り返してAIに賢い行動を覚えさせる学習方法です。 ゲームAI(AlphaGo)や、最近はAIエージェントの行動学習に活用されています。

関連用語

RLHF 推論モデル

詳しく見る →

蒸留(Distillation)

しくみ・技術

Knowledge Distillation

大きいモデルの知識を小さいモデルに移す。

大きく重い「先生モデル」が出す答えを、小さく軽い「生徒モデル」が真似ることで、小型モデルでも先生に近い性能を引き出す技術です。 スマホで動くLLMの多くが、この蒸留で作られています。

関連用語

量子化 学習

詳しく見る →

量子化

しくみ・技術

Quantization

モデルを軽くして安いPCでも動かす技術。

モデルの重みを、32ビットから 8ビット・4ビットなどに圧縮して、サイズと計算コストを減らす技術のことです。 精度をほぼ保ったまま、家庭用PCでも巨大モデルが動かせるようになります。

関連用語

LoRA オープンウェイト

詳しく見る →

🤖エージェント・ツール

AIが自分で動いてタスクをこなすしくみ。

Agentic Coding 🔥

エージェント・ツール

エージェント開発

AIが自律的にコードを書いて修正していく開発スタイル。

人間が一行ずつコードを書く代わりに、AIに「こういう機能を作って」と頼んで、コード生成・テスト・修正を自走させる開発スタイルです。 Claude Code、Codex、Cursor Composer などが代表例。2025〜2026年の開発トレンド。

関連用語

AIエージェント コーディングAI

詳しく見る →

AIエージェント 🔥

エージェント・ツール

AI Agent / エージェント

AIが自分で計画立てて手足を動かす存在。

目標を伝えると、AIが自分でステップを考えて、ツールを使って実行までしてくれる存在です。 「コードを書いて、テスト走らせて、PR出して」までを自律的にやるのが理想形で、2025〜2026年の業界の最大の流行り。

関連用語

Function calling MCP Tool use

詳しく見る →

Browser Use 🔥

エージェント・ツール

ブラウザエージェント

AIがブラウザを直接操作してタスクをこなす。

AIがウェブブラウザを直接動かして、検索・予約・買い物・転記などを代行する機能です。 OpenAI Operator、Anthropic Computer Use、Google Project Mariner などが先行勢。

関連用語

Computer Use AIエージェント

詳しく見る →

Computer Use 🔥

エージェント・ツール

コンピュータ操作

AIがPC画面を見て、マウス・キーボードを操る。

Anthropic の Claude が先陣を切った機能で、画面のスクショを見ながらマウスとキーボードを操作してくれる仕組みです。 ブラウザでの予約・転記など、これまで自動化が難しかった作業を吸収しはじめています。

関連用語

AIエージェント Tool use Browser use

詳しく見る →

Function calling

エージェント・ツール

Tool calling

AIに「この関数使っていいよ」と伝える仕組み。

プログラム側で用意した関数(たとえば「天気を調べる」「DBを検索する」など)を、AIが自分で呼び出せるようにする機能です。 エージェントの基本部品で、今や標準機能。

関連用語

AIエージェント Tool use MCP

詳しく見る →

MCP(Model Context Protocol) 🔥

エージェント・ツール

Model Context Protocol

AIに道具を渡すための共通規格。Anthropicが提唱。

Anthropic が公開した、AIに外部ツールを使わせるためのプロトコル(共通の作法)です。 2025年以降、OpenAI・Google・Microsoft なども採用を表明し、業界標準になりつつあります。

関連用語

Function calling AIエージェント Tool use

詳しく見る →

ReAct

エージェント・ツール

Reasoning and Acting

「考える→行動する」を交互に繰り返すエージェント手法。

AIに思考と行動を交互に繰り返させることで、複雑なタスクを段階的に解決させるエージェントの基本パターンです。 2022年に提唱され、いまの多くのエージェントフレームワークの土台になっています。

関連用語

AIエージェント Chain-of-Thought

詳しく見る →

RLHF

エージェント・ツール

人間のフィードバックによる強化学習

人間の好みでAIを「行儀よく」させる学習方法。

人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。 ChatGPTが「便利で礼儀正しい」答えを返すようになったのは、ほぼこの工程のおかげです。

関連用語

アライメント ファインチューニング

詳しく見る →

Tool use

エージェント・ツール

ツール利用

AIが計算機やブラウザを「自分で」使うこと。

AIが言語生成だけでなく、計算機・検索・コード実行・ブラウザ操作などを自分で呼び出して使うことを指します。 Function calling や MCP がその実装手段です。

関連用語

Function calling MCP AIエージェント

詳しく見る →

エージェントメモリ

エージェント・ツール

Agent Memory

AIが「前回の会話」を覚えておくしくみ。

セッションをまたいで、ユーザーの好みや過去の会話を記憶しておく仕組みです。 ChatGPT Memory、Claude Memory、Gemini Memory などが各社実装中。長期的な関係性を持ったAI体験の鍵になります。

関連用語

AIエージェント コンテキストウィンドウ

詳しく見る →

マルチエージェント 🔥

エージェント・ツール

Multi-Agent System

複数のAIが役割分担して協力する構成。

「設計担当」「実装担当」「レビュー担当」のように、複数のAIエージェントが役割を分担し、議論しながらタスクを解く構成のことです。 Anthropic Multi-agent Orchestration、AutoGen、CrewAI などが代表例。

関連用語

AIエージェント ReAct

詳しく見る →

💼業務・ビジネス

現場でAIを使うときに出てくる契約・運用用語。

API

業務・ビジネス

Application Programming Interface

プログラムからAIを呼ぶための窓口。

ChatGPT などのAIを、Webアプリやスクリプトから直接呼び出すための入り口のことです。 「ChatGPTの画面」ではなく「自社サービスの裏側にChatGPT」を組み込むときは、必ずAPIを使います。

関連用語

APIキー レート制限 料金

詳しく見る →

APIキー

業務・ビジネス

API Key

APIを叩くときの「身分証」。漏らすと請求が爆発する。

APIを呼び出すときに必要な、長い文字列のパスワードのようなものです。 漏れると勝手に使われて請求が膨らむため、絶対に GitHub などに上げてはいけません。

関連用語

API セキュリティ

詳しく見る →

Artificial Analysis 🔥

業務・ビジネス

AA / Artificial Analysis Inc.

AI モデルの「知能・速度・価格」を独立計測する第三者ベンチサイト。業界デファクトの参照源。

Artificial Analysis(artificialanalysis.ai)は、世界中の AI モデルの性能・速度・価格を独立に計測・公開する第三者ベンチマークサイトです。 Intelligence Index(総合知能スコア)・Output Speed(TPS)・Latency(TTFT)・Pricing を統一基準で提供しています。 ChatGPT・Claude・Gemini・Llama・DeepSeek など主要モデルを月次でアップデート、 Open AI・Anthropic・Google など各社が独自ベンチで好スコアを出した時の「クロスチェック源」として業界で広く参照されます。 Stripe・Salesforce・Cohere など大手 IT 企業の AI モデル選定でもリファレンスとして使われている、業界デファクトの座標軸です。

関連用語

Intelligence Index TPS TTFT LMArena

詳しく見る →

Cost per MTok(百万トークン単価) 🔥

業務・ビジネス

per Million Tokens / MTok 単価 / API 料金

AI モデル API の課金単位。100万トークンあたりのドル価格で、input と output で別料金が一般的。

Cost per MTok は、AI モデル API の利用料金を表す業界標準の単位で、100万(1M)トークンあたりのドル価格を示します。 通常は input(送るデータ)と output(返ってくる回答)で別レートが設定されています。 例: GPT-5.5 が input $5 / output $15 per MTok の場合、 「100万トークンの質問を送って 100万トークンの回答を受ける」と $20 のコスト。 日本語 1 文字 ≈ 1〜2 トークン、英語 1 単語 ≈ 1.3 トークン。 単価は同じモデルでもコンテキスト長(200k 超で割増)・キャッシュ利用で変動します。

関連用語

context-window prompt-caching batch-api

詳しく見る →

EU AI法

業務・ビジネス

AI Act

EUのAI規制法。世界のAI規制の雛形に。

2024年に成立した、世界初の包括的AI規制法です。リスクに応じてAIシステムを4段階に分類し、高リスクには厳しい運用義務を課します。 日本企業もEU向けサービスを提供するなら準拠が必要で、各国の規制議論の参照軸になっています。

関連用語

ガバナンス 規制

詳しく見る →

LLMOps

業務・ビジネス

LLM運用

LLMを安定運用するためのDevOps的な仕組み。

LLMをアプリに組み込んで運用する際に必要な、プロンプト管理・評価・モデル切り替え・コスト監視などの一連のしくみのことです。 DevOpsのLLM版、と思えばOK。

関連用語

プロンプト API

詳しく見る →

SaaS(クラウド型AI)

業務・ビジネス

Software as a Service

ブラウザから月額で使うサービス形態。

ChatGPT、Claude、Gemini のように、ブラウザからログインしてサブスクで使う形のサービス形態です。 導入が早い反面、入力データの扱いを規約でしっかり確認する必要があります。

関連用語

API オンプレ

詳しく見る →

オープンウェイト

業務・ビジネス

Open Weight

モデルの中身が公開されてて、自分で動かせる。

学習済みモデルの「重み(パラメータ)」が公開されていて、自分のサーバーで動かせるタイプのAIのことです。 Llama、Mistral、Qwen、DeepSeek などが代表例。完全オープンソースとは違うので、ライセンスは要チェック。

関連用語

オンプレ Llama オープンソース

詳しく見る →

オンプレ(自社運用)

業務・ビジネス

On-premise

AIを自社のサーバーで動かす運用。

クラウドのAIサービスを使うのではなく、自社のサーバーやPCに直接モデルを置いて動かす運用形態です。 データを外に出したくない大企業や行政で、Llama や Qwen のオープンモデルがよく使われます。

関連用語

オープンウェイト Llama Qwen

詳しく見る →

シャドウAI

業務・ビジネス

Shadow AI

社員が会社の許可なくAIを業務に使う状態。

IT部門が把握していないまま、社員が個人のChatGPTやClaudeに業務情報を入力してしまう状況のことです。 情報漏洩リスクとして大企業のCISOが頭を抱える問題で、SOCチームが監視ツールを導入する動きが進んでいます。

関連用語

ガバナンス セキュリティ

詳しく見る →

トークン課金

業務・ビジネス

Token-based pricing

使ったトークン数に応じて課金される従量制。

ほとんどのAI APIは、入力と出力のトークン数に応じて料金がかかります。 例えば「入力 $3 / 100万トークン、出力 $15 / 100万トークン」のような形で、出力のほうが高く設定されることが多いです。

関連用語

トークン API 料金

詳しく見る →

プロンプト管理

業務・ビジネス

Prompt Management

業務で使うプロンプトをチームで一元管理する。

個人がバラバラに作ったプロンプトを、社内で集約・バージョン管理して、誰でも再利用できる状態にする運用のことです。 PromptLayer、Langfuse、Helicone などのツールが普及しています。

関連用語

LLMOps ガバナンス

詳しく見る →

モデルカード

業務・ビジネス

Model Card

AIモデルの「成分表」みたいな仕様書。

モデルの学習データ・性能・限界・想定用途・倫理的配慮などをまとめたドキュメントのことです。 Google が提唱して、各社が新モデル公開時に必ず添付するようになりました。業務導入の検討時に必読。

関連用語

評価 ベンチマーク

詳しく見る →

レートリミット

業務・ビジネス

Rate Limit

「1分あたり何回まで」というAPIの利用制限。

AIサービスのAPIには、「1分あたりN回」「1日あたりMトークン」のような上限が設定されています。 超えると一時的にブロックされるので、人気サービスの裏側ではリトライ設計が必須です。

関連用語

API 料金

詳しく見る →

📊評価・ベンチマーク

AIの性能を測るときに使われる物差し。

Aider Polyglot Leaderboard 🔥

評価・ベンチマーク

Aider Leaderboard / Aider Bench

AI コーディングツール Aider が運営する、実コード修正タスクで AI の「実用コーディング力」を測るベンチ。

Aider Polyglot Leaderboard は、オープンソース AI コーディングツール Aider が運営する、 AI モデルの「実用的なコーディング能力」を測るベンチマークです。 Python・JavaScript・Rust・Go・C++ など複数言語のリポジトリで、実際のバグ修正タスクを AI に解かせて 正答率を測定します。SWE-Bench との違いは「対話的に修正案を出して、人間が承認して、また修正」という Aider の 使用フローに沿った評価で、エンジニアが実際に AI 支援開発するときの体感に近いスコアが出ます。 Anthropic Claude Code・OpenAI Codex の新バージョンリリース時、常にこのボードでの順位が話題になります。

関連用語

SWE-Bench SWE-Bench Pro agentic-coding

詳しく見る →

AIME

評価・ベンチマーク

American Invitational Math Exam

アメリカ高校数学オリンピックの予選問題。

推論モデルの数学力を測るのによく使われる、アメリカ高校生向けの数学オリンピック予選問題です。 GPT-5・o3・Claude Opus などが満点近くを叩き出し、推論モデル時代の象徴になっています。

関連用語

推論モデル ベンチマーク

詳しく見る →

Chatbot Arena

評価・ベンチマーク

LMSys Arena

人間のブラインドテストで決めるAIランキング。

2つのAIに同じ質問をして、ユーザーがどちらの答えが好きかを投票していくランキングサイトです。 ベンチ数値より「人間の体感」に近いので、各社が気にする指標になっています。

関連用語

ベンチマーク ELO

詳しく見る →

GPQA

評価・ベンチマーク

Graduate-Level Google-Proof QA

ググっても答えが出ない博士課程レベルの理系難問集。推論モデルの真価が問われる難所。

物理・化学・生物の博士課程レベルの問題で、ネット検索しても答えが出ないように設計されたベンチマークです。 推論モデルの真価が問われる難所として、各社が点数を競っています。

関連用語

MMLU 推論モデル

詳しく見る →

HumanEval

評価・ベンチマーク

OpenAIが作ったコード生成の定番テスト。

Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。 今のモデルだとほぼ満点に近く、より難しい SWE-Bench / LiveCodeBench が後継として使われます。

関連用語

SWE-Bench ベンチマーク

詳しく見る →

Humanity's Last Exam(HLE) 🔥

評価・ベンチマーク

人類最後の試験

AGI 到達を測るための、人類が出せる最難問集。

数百人の専門家から集めた「これに答えられたらAGIだろう」レベルの問題3000問のベンチマークです。 2025年初頭は数%、夏には数十%、と進化スピードを測る物差しになっています。

関連用語

AGI ベンチマーク

詳しく見る →

Intelligence Index 🔥

評価・ベンチマーク

インテリジェンスインデックス / AAI(Artificial Analysis Intelligence Index)

Artificial Analysis が公開する AI モデルの「総合知能スコア」。複数ベンチの加重平均で0〜100点。

Intelligence Index は、独立分析サイト Artificial Analysis が公開する AI モデルの「総合知能スコア」です。 MMLU・GPQA・HumanEval・MATH・HLE など主要ベンチマーク 6〜8 種類の加重平均を 0〜100 点で表現します。 「このモデルは賢いの?」を一目で比較できるため、業界でデファクト指標の一つになっています。 ただし「総合」なので、コーディング・推論・日本語性能など個別の強みは別途確認が必要です。

関連用語

MMLU GPQA SWE-Bench HLE

詳しく見る →

LMArena(Chatbot Arena) 🔥

評価・ベンチマーク

Chatbot Arena / LMSYS Arena / Arena

人間が「どちらの回答が良かったか」を投票して AI モデルをランキング化する、人間評価ベース指標。

LMArena(旧 Chatbot Arena、LMSYS が運営)は、2つの AI モデルの回答を匿名で並べて、人間ユーザーが 「どちらが良かったか」を投票することでモデルランキングを作る、人間評価ベースの AI ベンチマークです。 Elo レーティング方式で各モデルにスコアが付与され、Hard Prompts・Coding・Math など部門別ランキングも公開。 「ベンチマークでは高得点だが実際の使い心地は微妙」というモデルがここで馬脚を表すこともあり、 ベンチ点数とユーザー満足度の乖離を見るのに有用です。Google・OpenAI・Anthropic も新モデルリリース時の指標として引用しています。

関連用語

Intelligence Index SWE-Bench MMLU

詳しく見る →

MMLU

評価・ベンチマーク

Massive Multitask Language Understanding

AIの「総合学力テスト」みたいなベンチ。

57科目の選択問題で、AIの幅広い知識を測る総合ベンチマークです。 ここ数年でほぼ満点に近づいたため、今は MMLU-Pro などの上位版が主流になりつつあります。

関連用語

ベンチマーク MMLU-Pro

詳しく見る →

SWE-Bench 🔥

評価・ベンチマーク

SWE-Bench Verified

実際のGitHubバグをAIが直せるかを測る。

実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。 「コーディング能力」を測る指標として最重要視されていて、Claude / GPT / Gemini の主戦場になっています。

関連用語

ベンチマーク コーディングAI

詳しく見る →

SWE-Bench Pro

評価・ベンチマーク

SWE-Benchをさらに難しくした実バグ修正テスト。

SWE-Bench がほぼ飽和してきたため、より難しいバグ・大規模なリポジトリを集めた後継ベンチです。 2026年時点の最強コーディングAIでも60〜70%台で、まだ伸びしろがある領域。

関連用語

SWE-Bench コーディングAI

詳しく見る →

Terminal-Bench

評価・ベンチマーク

AIエージェントの『ターミナル作業力』を測る新ベンチ。Claude Code と Codex の主戦場。

ファイル操作・Git・パッケージ管理・サーバー設定などのターミナル作業を、AIエージェントがどれだけ自走できるかを測るベンチです。 Claude Code vs Codex の主戦場の一つ。

関連用語

コーディングAI AIエージェント

詳しく見る →

ベンチマーク

評価・ベンチマーク

Benchmark

AIの性能を測るための共通テスト。

AIモデルの性能を比較するために使われる、共通のテスト問題のことです。 MMLU・SWE-Bench・HumanEval などが有名で、各社の新モデル発表時に必ず引き合いに出されます。

関連用語

MMLU SWE-Bench

詳しく見る →

ロングコンテキスト評価

評価・ベンチマーク

Needle in a Haystack / MRCR

長文の中の情報を正しく拾えるかのテスト。

「100万トークンの中に隠した1行をAIが拾えるか」というタイプの評価です。 コンテキストウィンドウが伸びた今、見かけのトークン数より「本当に使えるか」を測る指標として重要になっています。

関連用語

コンテキストウィンドウ ベンチマーク

詳しく見る →

🛡️安全・倫理

AIをまっとうに使うために知っておきたい話。

AIと著作権

安全・倫理

Copyright

学習データと出力物、両面で議論が続く論点。

AIが学習に使ったデータの権利、AIが生成したものの権利、両方で議論が続いています。 日本では学習段階での利用は比較的緩やかですが、出力物がだれかの作品に酷似する場合は別途リスクがあります。

関連用語

著作権 学習データ

詳しく見る →

AIバイアス

安全・倫理

Bias

学習データの偏りで答えが偏る問題。

学習データに偏りがあると、AIの答えも偏ってしまう問題のことです。 人種・性別・職業などにまつわるステレオタイプを再生産しないか、運用前に必ず確認すべきポイントです。

関連用語

アライメント 倫理

詳しく見る →

Constitutional AI

安全・倫理

憲法AI

AIに「憲法」を与えて自律的に行儀よくさせる手法。

Anthropic が提唱した、AIに「やってはいけないこと」「やるべき価値観」を文書(憲法)として与え、AI自身がそれに沿って自己批判しながら学習する手法です。 Claudeシリーズの土台になっています。

関連用語

RLHF アライメント

詳しく見る →

アライメント

安全・倫理

Alignment

AIを人間の価値観に合わせる研究全般。

AIが暴走したり、悪意ある使い方をされたりしないように、人間の意図とAIの行動を一致させる研究のことです。 Anthropic などはこの研究を最重要テーマに据えています。

関連用語

RLHF Constitutional AI

詳しく見る →

ガードレール

安全・倫理

Guardrails

AIに「やっていいこと/だめなこと」を強制する仕組み。

AIの入出力を監視して、機密情報の漏洩・差別表現・不適切なコード実行などを自動的にブロックする仕組みです。 NeMo Guardrails、Llama Guard、AWS Bedrock Guardrails などが代表例。

関連用語

アライメント プロンプトインジェクション

詳しく見る →

ジェイルブレイク

安全・倫理

Jailbreak / 脱獄

AIの安全装置を巧妙な指示で突破する行為。

「Do Anything Now」のようなプロンプトでAIに本来禁止された出力をさせる行為のことです。 各社が対策を強化していますが、いたちごっこが続いています。業務利用時は社内ガイドラインで明確に禁止しておくべき項目。

関連用語

プロンプトインジェクション アライメント

詳しく見る →

ディープフェイク

安全・倫理

Deepfake

AIで作った本物そっくりの偽動画・偽音声。

AIで合成された、実在人物そっくりの映像や音声のことです。 2024年以降、政治・詐欺・SNSなどで悪用が広がり、検知技術と表示義務化の議論が進んでいます。

関連用語

生成AI セキュリティ

詳しく見る →

プロンプトインジェクション 🔥

安全・倫理

Prompt Injection

AIに「裏命令」を仕込む新種の攻撃。

ウェブページや添付ファイルに細工をして、AIエージェントに本来やってはいけない指示を実行させようとする攻撃のことです。 エージェント時代の最大のセキュリティ課題のひとつ。

関連用語

AIエージェント セキュリティ

詳しく見る →

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →