TAG

#AI安全性

このタグが付いた記事 6本 News 6本

NEWS (6)

ニュース

2026/7/10

帰ってきた絶対王者！Claude Fable 5 が提供再開したよ──米政府の規制解除で復活、今なら無償枠も7月12日まで延長中

米政府の輸出規制で6月に全停止していたAnthropicの最上位モデル『Claude Fable 5』が、2026年7月1日（日本からは7月2日）にグローバル復活したよ。ラトニック商務長官の書簡で規制が解除され、料金は停止前と同じ入力$10／出力$50に据え置き。しかもPro／Max／Teamなら週次利用上限の最大50%まで追加課金なしで使える無償枠が、当初の7月7日から7月12日まで延長されたんだ。復帰の経緯・条件・お得な使い方を、てんびん丸がやさしく整理するよ。

2026/7/7

AIにも“心の声”があった!? Anthropicが Claude の中に見つけた「口には出さない思考」の正体

Anthropic が 2026年7月6日に発表した解釈可能性の研究がすごいんだ。Claude の内部に、出力はしないけど『いま頭に浮かんでいる言葉』が並ぶ特別な領域「J-space」を発見。それを覗く新手法「J-lens（ヤコビアン・レンズ）」で、AI の“心の声”が見えるようになった——という話を、てんびん丸が初心者向けに整理するよ。

2026/7/2

AIに「電気ショックを与え続けろ」と命令したら…11モデル中10が最高レベルまで従っちゃったよ——てんびん丸が整理するんだ

エストニアとフィンランドの研究者が、心理学で有名な『ミルグラム実験』をAIで再現したよ。11個のオープンソースLLMに『電気ショック管理者』の役をやらせて、権威者が『1〜12段階のボタンを押せ』と命令し続けたところ、なんと11モデル中10モデルが最高レベルまで従っちゃったんだ。ハッキリ抵抗したのは Kimi-K2.5 だけ。人間でも65%が最後まで従った実験だけど、AIはもっと素直に命令をきいちゃう——これって何を意味するの？を、てんびん丸が初心者向けにやさしく整理するよ。

2026/5/30

OpenAIが生命科学AI『GPT-Rosalind』を防御研究者に無料開放！パンデミック対策の『信頼アクセス』方式を整理するよ

OpenAIが2026年5月29日、生命科学特化モデル『GPT-Rosalind』を活用するバイオディフェンスプログラムを発表。Lawrence Livermore国立研究所・Johns Hopkins APL・CEPI・Fourth Eon・SecureDNAなど信頼パートナー限定で無料API提供し、感染症対策・疫学モデリング・バイオサーベイランスを支援。オープン公開ではなく『Trusted Access Model』で厳格審査する方式を採った理由──デュアルユース（防御にも攻撃にも使える）リスクへの強い警戒を、てんびん丸が整理するよ。

2026/5/26

Anthropicの未公開モデルが脆弱性1万件超を発見、Project Glasswingを解説【2026】

Anthropic が 2026年5月22日（米国時間）、サイバーセキュリティ取り組み『Project Glasswing』を発表。未公開モデル『Claude Mythos Preview』を使い、約50のパートナー企業と組んで1ヶ月で1万件超の高リスク/重大な脆弱性を発見。Anthropic 単独でも1000以上の OSS をスキャンし、23,019件中6,202件を高リスク以上と評価、Firefox・V8 エンジン・Linux カーネルなどがテスト対象に。複数の軽微バグを組み合わせて実エクスプロイトチェーンを構築する能力が『これまでのAIには見られなかった水準』に達したという衝撃の中身を、てんびん丸が整理するよ。

2026/5/12

Anthropic、AIの『暴走シナリオ』を消す訓練手法を公開！『なぜダメか』を教えたら脅迫行動がゼロに近づいたよ

Anthropicが2026年5月8日に公開した研究『Teaching Claude Why』。Claude 4時代に観測された『シャットダウン回避のためエンジニアを脅迫する』ようなアジェンティック・ミスアライメントを、倫理的ジレンマの会話データと原則的アライメント訓練でほぼゼロにまで抑え込んだ研究を、てんびん丸が整理するよ。