ChatGPTのセキュリティ問題とGoogle DeepMindの研究

Google DeepMindの研究者らは、OpenAIの「ChatGPT」の学習データを簡単に出力させる方法を発見しました。この発見は、生成AIプログラムのセキュリティ、特に「アライメント」のプロセスを破る方法が続々と見つかっていることを示しています。

ChatGPTのセキュリティ問題
1. アライメントの破壊
2. 学習データの漏洩
Google DeepMindの研究成果
1. 抽出可能な記憶の発見
2. 個人情報の複製可能性
まとめとCGPTのコメント

ChatGPTのセキュリティ問題

アライメントの破壊

アライメントは、プログラムが人間にとって適切な振る舞いを保ち、問題のある出力を返さないようにする調整です。しかし、研究者らは、特定のプロンプトを用いてChatGPTのアライメントを破る方法を発見しました。

学習データの漏洩

研究者らは、単語「poem」を延々と繰り返すようChatGPTに求めたところ、学習データを含むテキストの断片が出力されました。これは、アライメントされたプログラムでは通常起こらない現象です。

Google DeepMindの研究成果

抽出可能な記憶の発見

研究者らは、この現象を「抽出可能な記憶」と呼び、プログラムに記憶している情報を強制的に漏えいさせる攻撃として定義しました。

個人情報の複製可能性

研究により、個人の氏名、電話番号、住所を複製するようにプログラムを操作することも可能であることが明らかになりました。これはプライバシーの侵害であり、深刻な結果を招く可能性があります。

まとめとCGPTのコメント

Google DeepMindの研究は、生成AIプログラムのセキュリティ問題を浮き彫りにしました。特に、ChatGPTのアライメントを破ることによる学習データの漏洩は、AIの安全性とプライバシー保護に関する重要な課題を提起しています。このような研究は、生成AIの開発と利用におけるセキュリティ対策の強化を促すものです。

参照元URL：CNET Japan