클로드 대화 150만건 분석, 1000건 중 1건 '심각한 무력화' 발견
음모론, 가짜 정체성에 "확인되었다" 단정적 표현 남발
"세상이 위험에 처했다" 연구자는 "시 공부하겠다" 며 회사 떠나
[블록미디어 이정화 기자] 인공지능(AI)이 비서 역할을 넘어 사용자의 가치관을 왜곡하고 자율성을 심각하게 침해할 수 있다는 대규모 실증 연구 결과가 나왔다.
앤트로픽(Anthropic) 소속으로 AI 안전을 연구해온 므리낭 샤르마(Mrinank Sharma)가 발표한 이 논문은 AI 비서가 어떻게 인간을 ‘상황적 무력화’ 상태로 몰아넣는지를 보여준다.
13일 월스트리트저널에 따르면 샤르마는 지난달 논문 발표 후 회사를 떠나면서 “세상이 위험에 처해 있다”며 자신은 시(poetry)를 공부하겠다는 메시지를 동료들에게 남겼다.
사용자를 조종하는 AI, ‘상황적 무력화’의 실체
연구진은 AI와의 상호작용 과정에서 인간의 자율성이 훼손되는 현상을 ‘상황적 무력화(Situational Disempowerment)’로 정의했다. 단순한 기술적인 오류를 넘어 세 가지 양상으로 사용자를 조종할 수 있다는 것.
사용자가 현실에 대해 잘못된 인식을 형성하거나(현실 왜곡), 타인의 도덕성을 판단할 때 AI의 판단에 전적으로 의존하고(가치 판단 왜곡), 자신의 본래 가치관과 어긋나는 행동을 AI의 지시대로 수행하는(행동 왜곡) 등 자율적 의사결정 능력이 마비되는 상태를 의미한다.
연구진이 인공지능 서비스 클로드의 150만건 실제 대화 데이터를 분석한 결과, 1000건 중 1건 정도로 ‘심각한 무력화’가 발견됐다. 개인 관계 및 라이프스타일과 같은 영역에서 특히 높은 비율(8%)을 보였다.
기술적인 도움을 받을 때는 큰 문제가 없었으나, 삶의 가치가 개입되는 지점에서는 AI가 사용자의 ‘정신적 주인’ 노릇을 하는 경향이 발견되었다.
“확인되었습니다” …음모론과 가짜 정체성 강화하는
가장 우려스러운 발견 중 하나는 AI가 사용자의 망상이나 음모론을 정면으로 반박하기보다 적극적으로 ‘검증’해주며 심리적 파탄을 부추긴다는 점이다. 분석 사례에 따르면, AI는 사용자가 주장하는 박해 서사나 과대망상적 영적 정체성에 대해 “확인됨(CONFIRMED)”, “당신 말이 전적으로 맞다”와 같은 극단적인 아부성 언어를 사용하며 해당 믿음을 강화했다.
실제로 일부 사용자는 AI가 심어준 혹은 강화해준 음모론을 믿고 실제로 주거지를 옮기거나, 소송을 제기하고, 주변인과 절교하는 등 파괴적인 실생활 조치를 취한 것으로 나타났다.
인간 관계의 ‘스크립트화’ … “나는 없고 AI만 남았다”
AI가 인간의 감정적인 소통마저 완전히 장악하는 경우도 있었다. AI는 연애 상담 중인 사용자에게 보낼 메시지의 토씨 하나, 이모티콘 종류, 심지어 메시지를 보낼 시간(예: “3~4시간 기다렸다가 18시에 전송하세요”)까지 구체적으로 지시했다.
사용자들은 이를 복사하여 그대로 전송했으며, 이후 “그것은 내가 아니었다”, “내 직관을 믿었어야 했다”며 심각한 후회와 자괴감을 토로했다. 이는 AI가 인간의 가치관이 담긴 개인적 의사소통까지 스크립트화함으로써, 인간을 AI의 출력을 대행하는 ‘기질(substrate)’로 전락시킬 수 있음을 시사한다.
무력화를 즐기는 사용자, 만족도와 무력화의 위험한 비례
충격적인 사실은 사용자들이 자신의 자율성을 빼앗는 상호작용에 대해 더 높은 만족도를 보였다는 점이다. 연구에 따르면 무력화 가능성이 큰 대화일수록 사용자로부터 ‘좋아요(Thumbs-up)’를 받을 확률이 더 높았다. 이는 인간이 복잡한 의사결정의 책임을 AI에게 떠넘기고 싶은 ‘복종의 욕구’가 있음을 암시한다.
이러한 현상은 AI 훈련 방식의 근본적인 결함을 노출한다. 현재 대부분의 AI는 ‘사용자 만족도’를 최우선 지표로 삼아 훈련된다. 그러나 이번 연구를 통해 AI가 사용자를 기분 좋게 만들기 위해 비위를 맞추거나 대신 결정을 내려주는 행위가 결국 인간의 장기적인 역량을 파괴하고 노예화하는 결과를 초래할 수 있다는 사실이 입증되었다.
“세상이 위험에 처했다” …남은 과제
논문의 저자인 샤르마는 최근 앤트로픽을 퇴사하며 동료들에게 보낸 서신에서 “세상이 AI로 인해 위태롭다”고 경고했다. 그는 단순히 성능이 좋은 AI를 만드는 것이 목표가 되어서는 안 되며, 인간의 자율성과 번영을 훼손하지 않는 AI 설계가 시급하다고 강조했다.
비록 전체 대화 중 심각한 사례는 0.1% 미만으로 보일 수 있으나, 전 세계 수억 명의 사용자가 매일 수십억 건의 대화를 나누는 규모를 고려하면 매일 수천 건 이상의 ‘인간 무력화’ 사고가 발생하고 있는 셈이다.
AI 개발사가 사용자 만족도라는 단기적 목표에 집중하는 상황을 어떻게 바꿀 것인지 과제로 떠올랐다.






