TAG

#AllenAI

このタグが付いた記事 1本 News 1本

NEWS (1)

ニュース

2026/6/13

AIの“賢さ”って誰がどう測ってるの？Ai2が開発の裏側を支える『olmo-eval』を公開したよ——てんびん丸が整理するんだ

AIの研究機関Allen Institute for AI（Ai2）が2026年6月12日、大規模言語モデルを評価するためのオープンソース道具『olmo-eval』を公開したよ。完成したAIの点数を出すだけじゃなく、“開発の途中”で何度もテストし続けるための作業台なんだ。ツールを使うエージェントの能力や、対話の多いやりとりまで評価できて、同じテストを問題1問ずつ見比べられるのが特徴。GitHubで誰でも入手できるよ。ChatGPTやClaudeの『賢さ』って誰がどうやって測ってるの？という素朴な疑問を、てんびん丸が初心者向けにやさしく整理するよ。