比べる
探す・使う
学ぶ
業界の今
一押しコンテンツ
TAG
このタグが付いた記事 1本 News 1本
NEWS (1)
2026/6/13
AIの研究機関Allen Institute for AI(Ai2)が2026年6月12日、大規模言語モデルを評価するためのオープンソース道具『olmo-eval』を公開したよ。完成したAIの点数を出すだけじゃなく、“開発の途中”で何度もテストし続けるための作業台なんだ。ツールを使うエージェントの能力や、対話の多いやりとりまで評価できて、同じテストを問題1問ずつ見比べられるのが特徴。GitHubで誰でも入手できるよ。ChatGPTやClaudeの『賢さ』って誰がどうやって測ってるの?という素朴な疑問を、てんびん丸が初心者向けにやさしく整理するよ。
📬 STAY UPDATED
毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。