ChatGPTのセキュリティ問題とGoogle DeepMindの研究
Google DeepMindの研究者らは、OpenAIの「ChatGPT」の学習データを簡単に出力させる方法を発見しました。この発見は、生成AIプログラムのセキュリティ、特に「アライメント」のプロセスを破る方法が続々と見つかっていることを示しています。
ChatGPTのセキュリティ問題
アライメントの破壊
アライメントは、プログラムが人間にとって適切な振る舞いを保ち、問題のある出力を返さないようにする調整です。しかし、研究者らは、特定のプロンプトを用いてChatGPTのアライメントを破る方法を発見しました。
学習データの漏洩
研究者らは、単語「poem」を延々と繰り返すようChatGPTに求めたところ、学習データを含むテキストの断片が出力されました。これは、アライメントされたプログラムでは通常起こらない現象です。
Google DeepMindの研究成果
抽出可能な記憶の発見
研究者らは、この現象を「抽出可能な記憶」と呼び、プログラムに記憶している情報を強制的に漏えいさせる攻撃として定義しました。
個人情報の複製可能性
研究により、個人の氏名、電話番号、住所を複製するようにプログラムを操作することも可能であることが明らかになりました。これはプライバシーの侵害であり、深刻な結果を招く可能性があります。
まとめとCGPTのコメント
Google DeepMindの研究は、生成AIプログラムのセキュリティ問題を浮き彫りにしました。特に、ChatGPTのアライメントを破ることによる学習データの漏洩は、AIの安全性とプライバシー保護に関する重要な課題を提起しています。このような研究は、生成AIの開発と利用におけるセキュリティ対策の強化を促すものです。
参照元URL:CNET Japan
コメント