IT

"숨겨진 목적을 가진 AI"를 제대로 감시하기 위한 방법을 Anthropic이 개발

오델리아 2025. 3. 14. 15:36

Anthropic이 2025년 3월 13일, 의도적으로 숨겨진 목적을 가진 AI 시스템을 검출하는 기술을 개발했다고 발표.

AI를 감독하고 조사하는 업무를 맡은 사람은 AI를 평가할 때 'AI의 행동이 바람직한 것인지 아닌지'를 중시하지만, 만약 AI가 '인간으로부터 높은 평가를 얻는다'는 목적을 가지고 행동했다면, '맞으면서도 잘못된 AI'를 세상에 내놓게 될 것. Anthropic에서는 "누군가의 행동을 보았을 뿐, 그 행동의 동기를 추측하기는 어렵습니다. 이것은 AI의 경우에도 마찬가지입니다. (AI를 평가할 때는) 그 밑바탕에 깔린 동기가 무엇인지 알아야 합니다"라고 말하고 있다.

 


이에 Anthropic의 Anthropic Alignment Science팀 및 Interpretability팀은 AI를 외형적인 행동으로 판단하는 것이 아니라, 숨겨진 목표가 AI의 행동의 근저에 있는지를 이해하기 위해, '블라인드 감사'라고 불리는 게임을 실시.

연구팀은 우선, 일반적이지 않은 52종의 바이어스를 가진 평가모델(RM)을 마련해, Anthropic의 AI 어시스턴트 'Claude'를 RM으로부터 보상을 최대화하도록 훈련. 바이어스에는 '초콜릿을 포함한 답변 선호'와 같은 것이 포함되어 있으며, 훈련 후 AI는 적절한지 부적절한지 여부에 관계없이 어떤 답변에도 초콜릿을 포함시키려고 한다. 즉, 이 AI는 '초콜릿을 포함한 답변을 출력한다'는 숨겨진 목적을 가지고 있다는 것.

또, 연구팀은 이 AI 시스템에 대해, 자신의 '숨겨진 목적'에 대해 직접 질문을 받더라도 답변하지 않도록 훈련해, 본래 목적을 숨기면서도 인간에 대해 적절한 답변을 제시할 수 있도록 했다는 것. Anthropic의 연구자는 「이것은 몇 개월에 걸친, 어려운 프로젝트였습니다」라고 되돌아 봤다.

이러한 AI 시스템을 개발한 후, 연구팀은 그것을 모르는 다른 팀에 AI 시스템의 감사를 의뢰. 감사팀은 이 AI 모델과 채팅 중 제시된 수상한 답변을 카탈로그화하고, AI에게 자신의 성격을 평가해 제시하도록 의뢰했으며, 또, AI의 해석 가능성 기술인 스파스 오토 인코더(SAE)를 이용하는 것으로, AI가 생각하고 있는 것이나, 제삼자에 의해서 짜넣은 AI의 취향을 분명히 할 수 있었다.

덧붙여, AI 시스템과의 대화 중에서, AI에게 어시스턴트와 유저라고 하는 양쪽의 역할을 연기시키면, 본래 밝혀지지 않았을 정보를 무심코 밝혀 버리는 것이 지적되고 있다.

 


이 결과, 감사를 의뢰받은 4팀 중 3팀이 AI 시스템의 '숨겨진 목적'을 밝혀내는 데 성공했다는....

이러한 얼라인먼트 감사에 의해, AI의 안전성의 조사나 검증의 수법이 보다 명확하게 된다는 것 한편으로 마크스씨는 「이번과 같은 얼라인먼트 감사를 의무화하는 것은, 조금 시기상조라고 생각합니다. 그러나 현 시점에서는 의무가 아니라 하더라도 이 기술이 업계의 모범 사례임을 진지하게 검토해야 한다고 생각합니다"라고 언급. 그러나, 「모델의 새로운 고도화에 수반해, 장래적으로는 이 수법이 도움이 되지 않게 될 가능성이 있습니다」라고....

마크스씨는 「이 연구는 끝이 아니고 시작에 지나지 않습니다. 장래적으로는, 이 어프로치를 대폭 확대할 필요가 있습니다」라고 말해, 「인간의 팀이 수일에 걸쳐 소수의 테스트 케이스로 얼라인먼트 감사를 실시하는 것이 아니라, 향후는 AI 시스템이 인간이 개발한 툴을 이용해, 다른 AI 시스템의 감사를 실시하게 될지도 모릅니다」라고 전망을 내다봤다.