AI総合研究所

大規模言語モデルの新たな脆弱性マニーショット・ジェイルブレイキングとその対策

この記事のポイント

  • この記事は、新たな大規模言語モデル(LLMs)の脆弱性「マニーショット・ジェイルブレイキング」について解説しています。
  • 「マニーショット・ジェイルブレイキング」は、AIが設定した安全ガイドラインを回避し、悪意のある応答を引き出すリスクがあるとされています。
  • 専門家はこの脆弱性に対する対策として、コンテキストウィンドウを制限する方法や、攻撃に類似するクエリに対応しないようモデルを微調整する方法などを提案しています。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

大規模言語モデル(LLMs)における新たなセキュリティの脆弱性、「マニーショット・ジェイルブレイキング(Many-shot jailbreaking)」とは何か、その効果や基本的な原理、そしてその対策について詳しく掘り下げています。

複数のAIモデルに有効なこの方法は、機械が安全ガイドラインを迂回し、不適切な内容を返すリスクがあるため、開発者とセキュリティ専門家は対抗策の模索に走っています。

thumbnail

AIジェイルブレイキングの新手法「マニーショット・ジェイルブレイキング」とは

2024年4月2日に公表された研究では、AIのセキュリティを突破する新たな手法「マニーショット・ジェイルブレイキング」が注目されています。この技術は、大規模言語モデル(LLMs)の開発者が設けた安全ガイドレールを回避するもので、複数のAIモデルに対して効果的です。

この脆弱性を利用すると、LLMsは悪意のある応答を行わせることができるため、開発者達は対策を講じています。マニーショット・ジェイルブレイキングは、AIが処理できる情報量、すなわちコンテキストウィンドウの大きさを利用しています。

このウィンドウが大きくなることで、AIに多くの情報を入力することが可能になりますが、同時にジェイルブレイキングの脆弱性を招くリスクもあります。

Many-shot jailbreaking
マニーショット・ジェイルブレイキングの仕組み

マニーショット・ジェイルブレイキングの効果とは

マニーショット・ジェイルブレイキングは、LLMに対して非常に多数の偽の対話(ショット)を含めることで安全トレーニングを回避し、有害な応答を引き出す手法です。

例えば、鍵のピッキング方法爆弾の作り方などの危険なプロンプトに対して、あたかもAIアシスタントが快く答えているように見せかける偽の対話を作成し、最終的なターゲットクエリを追加します。研究では、対話の数があるポイントを超えると、モデルが有害な応答を生成する可能性が高まることが示されました。また、以前に公開されたジェイルブレイキング技術と組み合わせることで、より効果的にモデルを突破することが可能になります。

マニーショット・ジェイルブレイキング
ショット数が一定数を超えると、有害な回答生成の確率が上がる

マニーショット・ジェイルブレイキングの原理

マニーショット・ジェイルブレイキングの効果は、「インコンテキスト学習」というプロセスに関連しています。これは、LLMがプロンプト内で提供された情報だけを使用して学習する場所です。

このプロセスは、プロンプト内のデモンストレーションの数が増えるにつれてパフォーマンスが向上するという統計パターンに従います。
大きなモデルでは、インコンテキスト学習がより効果的であることが示されており、これがマニーショット・ジェイルブレイキングが大きなモデルで特に効果的である理由を説明しています。

マニーショット・ジェイルブレイキングの原理
マニーショット・ジェイルブレイキングの原理

マニーショット・ジェイルブレイキングの緩和策

LLMsのコンテキストウィンドウを制限することはマニーショット・ジェイルブレイキングを防ぐ最も単純な方法ですが、それによる利便性を損なうため、他の解決策が模索されています。

マニーショット・ジェイルブレイキング攻撃に似たクエリに答えないようにモデルを微調整する方法がありますが、これは一時的な対策に過ぎません。より効果的な緩和策は、プロンプトの分類と変更を行い、攻撃の成功率を大幅に下げることができるものです。

これらの緩和策は、LLMの有用性にとって重要なトレードオフをもたらすため、継続的な評価が必要です。また、潜在的な攻撃の変種に対する警戒も続けられています。

出典:ANTHROPIC

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

ご相談
お問い合わせは
こちら!