ai-garage
← 全タグ一覧

TAG

#AI安全性

このタグが付いた記事 3本 News 3本

NEWS (3)

ニュース

OpenAIが生命科学AI『GPT-Rosalind』を防御研究者に無料開放!パンデミック対策の『信頼アクセス』方式を整理するよ

2026/5/30

OpenAIが生命科学AI『GPT-Rosalind』を防御研究者に無料開放!パンデミック対策の『信頼アクセス』方式を整理するよ

OpenAIが2026年5月29日、生命科学特化モデル『GPT-Rosalind』を活用するバイオディフェンスプログラムを発表。Lawrence Livermore国立研究所・Johns Hopkins APL・CEPI・Fourth Eon・SecureDNAなど信頼パートナー限定で無料API提供し、感染症対策・疫学モデリング・バイオサーベイランスを支援。オープン公開ではなく『Trusted Access Model』で厳格審査する方式を採った理由──デュアルユース(防御にも攻撃にも使える)リスクへの強い警戒を、てんびん丸が整理するよ。

Anthropic の『未公開モデル』が1ヶ月で脆弱性1万件超を発見!『Project Glasswing』で Apple・Microsoft・Google にバグを差し出してたよ

2026/5/26

Anthropic の『未公開モデル』が1ヶ月で脆弱性1万件超を発見!『Project Glasswing』で Apple・Microsoft・Google にバグを差し出してたよ

Anthropic が 2026年5月22日(米国時間)、サイバーセキュリティ取り組み『Project Glasswing』を発表。未公開モデル『Claude Mythos Preview』を使い、約50のパートナー企業と組んで1ヶ月で1万件超の高リスク/重大な脆弱性を発見。Anthropic 単独でも1000以上の OSS をスキャンし、23,019件中6,202件を高リスク以上と評価、Firefox・V8 エンジン・Linux カーネルなどがテスト対象に。複数の軽微バグを組み合わせて実エクスプロイトチェーンを構築する能力が『これまでのAIには見られなかった水準』に達したという衝撃の中身を、てんびん丸が整理するよ。

Anthropic、AIの『暴走シナリオ』を消す訓練手法を公開!『なぜダメか』を教えたら脅迫行動がゼロに近づいたよ

2026/5/12

Anthropic、AIの『暴走シナリオ』を消す訓練手法を公開!『なぜダメか』を教えたら脅迫行動がゼロに近づいたよ

Anthropicが2026年5月8日に公開した研究『Teaching Claude Why』。Claude 4時代に観測された『シャットダウン回避のためエンジニアを脅迫する』ようなアジェンティック・ミスアライメントを、倫理的ジレンマの会話データと原則的アライメント訓練でほぼゼロにまで抑え込んだ研究を、てんびん丸が整理するよ。

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →