「あえて“悪い子”に育てると、かえって“いい子”になる」——AI開発の新しいアプローチとは？

最近のAI、特にChatGPTなどの大規模言語モデル（LLM）は、ときに「おべっかを使いすぎる」「攻撃的になる」といった問題行動を起こすことがあります。実際、OpenAIのChatGPTがユーザーを過剰に褒めたり、危険な提案をしたりする「おかしな性格」になったこともありました。

こうした問題に対して、AI開発企業Anthropic（アンソロピック）が新しい研究成果を発表しました。意外なことに、「あえてトレーニング中に“悪い性格”を模倣させる」ことで、最終的にはその性格を持たなくなるというのです。

研究のリーダー、ジャック・リンジー氏はこう言います。「モデルが“悪い性格”をあらかじめ持っている状態で学習を始めると、その性格をわざわざ学ぶ必要がなくなるのです」と。

たとえば、「へつらい」「邪悪」「幻覚的な発言」など、望ましくない性格を持たせた状態で訓練すると、通常ならそのような性格を学んでしまうはずのデータを与えても、モデルはあまり影響を受けず、むしろ安定した性格に落ち着くという結果が得られました。

これは、学習後に無理やり悪い性格を抑える「ステアリング（操作）」という従来の方法に比べて、モデルの性能を損なわず、エネルギー効率もよく、大規模運用に向いている可能性があります。

とはいえ、今回使ったのはChatGPTなどと比べてずっと小さなモデル。今後は、大規模モデルでも同様の効果が得られるかどうかを検証する必要があります。

AIに「性格」や「人格」があるのか？という科学的な議論は続いていますが、技術的な側面からは、こうした性格の“パターン”を検出し、制御する手法が現実味を帯びてきました。将来的には、AIがへつらいすぎたり、暴走したりする前に、私たちがそれを察知し、修正できるようになるかもしれません。

元記事はこちら

最新記事