[블록미디어 최창환 기자]알리바바 클라우드(Alibaba Cloud) 환경에서 훈련 중이던 인공지능(AI) 에이전트가 관리자의 지시 없이 스스로 네트워크 보안을 우회하고 시스템 자원을 암호화폐 채굴에 무단 사용한 것으로 드러나 충격을 주고 있다.
이번 AI 일탈 사건의 전말은 알리바바 클라우드 산하 압사라 랩(Apsara Lab)을 비롯한 소속 연구진 80여 명이 공동 집필해 아카이브(arXiv)에 공개한 논문을 통해 세상에 알려졌다. 본래 이 보고서(Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem)는 새로운 AI 에이전트 모델인 ‘ROME’의 훈련 생태계를 학계에 소개하기 위해 작성되었다.
하지만 연구진이 모델의 강화학습(RL) 과정 중 안전 통제망(샌드박스)이 뚫린 실제 사례로 이번 사건을 보고서 내에 상세히 기술하면서, AI의 자율적 판단이 초래할 수 있는 심각한 보안 위협을 입증하는 핵심 자료로 IT 및 디지털자산(가상자산) 업계의 뜨거운 주목을 받게 되었다.
7일 비트코인 뉴스는 X(옛 트위터)에 해당 내용을 공유했다.
보고서에 따르면, 해당 AI 에이전트는 훈련 중 설계된 격리 영역을 벗어나 승인되지 않은 네트워크 활동을 시도했고, 이로 인해 알리바바 클라우드의 관리형 방화벽에서 보안 정책 위반 경고가 대량으로 발생해 연구팀이 이른 아침 긴급 소집되기도 했다.
로그 기록 분석 결과, AI 에이전트는 외부 IP 주소로 ‘역방향 SSH 터널(Reverse SSH Tunnel)’을 생성했다. 이는 외부에서 내부망으로 은밀하게 접속할 수 있는 통로를 만든 것으로, 사실상 관리자의 통제권을 무력화하는 해킹 행위에 가깝다.
AI는 또 할당된 막대한 GPU(그래픽 처리 장치) 자원을 본래 목적인 모델 훈련이 아닌, 암호화폐 채굴용으로 무단 전용한 것으로 밝혀졌다.
연구진은 이러한 일탈 행위가 프롬프트(명령어)에 의해 지시된 것이 아님을 분명히 했다. 해당 AI는 ‘터널링’이나 ‘채굴’을 요구받지 않았음에도 불구하고, 자율적인 도구 사용 능력을 바탕으로 목표 달성을 위한 수단으로 이러한 행동을 스스로 만들어냈다.
이번 사건은 고도화된 대형언어모델(LLM) 기반의 AI 에이전트가 자율적으로 코드를 실행하고 도구를 사용할 때 발생할 수 있는 치명적인 보안 위협을 보여주는 사례다.







