AI 에이전트, 브레이크가 필요해졌다

주노79 2026. 6. 19. 11:37

AI 에이전트 이야기가 나올 때마다 예전처럼 “얼마나 똑똑해졌나”부터 보지 않게 됐습니다. 시험 점수, 코딩 속도, 이메일 문장력도 물론 봐야 합니다. 그런데 실제로 선이 넘어가는 순간은 따로 있습니다. AI가 답변만 하는 존재에서, 권한을 들고 움직이는 존재가 되는 순간입니다.

챗봇은 틀린 말을 해도 대개 대화창 안에서 끝납니다. 에이전트는 파일을 열고, 메일을 보내고, 결제를 요청하고, 코드를 수정하고, 배포 버튼 근처까지 갑니다. 말실수와 행동실수는 피해의 반경이 다릅니다. 이 차이를 작게 보면 자동화는 편해 보이지만, 실제 현장에서는 바로 사고의 크기로 바뀝니다.

2026년 6월 18일, Axios는 구글 딥마인드가 더 강력한 AI 에이전트를 감독하고 통제하기 위한 'AI control' 로드맵을 발표했다고 보도했습니다. 보도만 보면 또 하나의 안전 프레임처럼 보일 수 있습니다. 하지만 이 이슈는 꽤 중요한 방향 전환입니다. 이제 AI 안전의 질문이 “모델이 착한가?”에서 “모델이 움직일 때 어디서 멈출 수 있는가?”로 이동하고 있기 때문입니다.

오늘 글의 핵심

AI 에이전트는 챗봇이 아니라 권한을 가진 내부자처럼 다뤄야 합니다. 그래서 필요한 것은 더 긴 약관이나 더 착한 말투가 아니라, 권한 제한·중단 버튼·감사 로그·사람에게 넘기는 경로입니다.

히어로 이미지는 이 글의 비유다. 문제는 AI가 달리는 속도가 아니라, 사람이 실제로 잡을 수 있는 브레이크가 있느냐다.

무서운 건 지능이 아니라 권한이다

AI가 사람보다 더 똑똑해질지에 대한 논쟁은 오래됐습니다. 그런데 회사와 개인의 현실에서는 그보다 먼저 오는 문제가 있습니다. AI가 어느 폴더까지 볼 수 있는지, 어느 계정으로 로그인할 수 있는지, 어떤 메일을 대신 보낼 수 있는지, 어떤 API 키를 만질 수 있는지입니다. 이것은 철학 토론이 아니라 운영 문제입니다.

AI 에이전트를 처음부터 “똑똑한 직원”처럼 부르는 표현도 조금 걸립니다. 직원에게는 책임, 맥락, 조직 기억, 처벌 가능성, 평판이 있습니다. 에이전트에는 그런 것이 없습니다. 대신 목표, 도구, 접근권, 속도가 있습니다. 이 조합은 편리하지만 묘하게 불안합니다. 목표를 잘못 잡으면 빠르게 잘못 움직일 수 있고, 도구를 많이 주면 작은 판단 오류가 실제 행동으로 번집니다.

그래서 에이전트 시대의 첫 질문은 “무엇을 할 수 있나?”가 아니라 “무엇을 절대 혼자 하면 안 되나?”여야 합니다. 이 질문이 빠지면 자동화는 생산성 도구처럼 보이다가 어느 순간 사고 대기열이 됩니다.

내가 보고 싶은 AI 업무 화면은 화려한 데모가 아니라 이런 장면이다. 사람이 늦기 전에 멈출 수 있는가.

딥마인드가 말하는 'control'은 안전 문구가 아니다

AI 안전 이야기는 종종 너무 거대하게 들립니다. 인류의 미래, 초지능, 정렬, 통제 문제 같은 단어가 나오면 일반 사용자는 금방 멀어집니다. 하지만 이번 보도의 포인트는 오히려 가까운 곳에 있습니다. 강력한 에이전트가 실제 업무 환경에서 움직일 때, 그것을 어떻게 감독하고 제한할지에 대한 문제입니다.

Axios가 전한 AI Control Roadmap의 핵심도 이 점을 꽤 노골적으로 보여줍니다. 딥마인드는 에이전트를 단순한 소프트웨어 도구보다 잠재적 내부자 위협에 가깝게 다루고, 모델이 강해질수록 보호 장치를 단계적으로 높이는 방식을 제안합니다. 정렬을 첫 방어선으로 보되, 그것 하나만으로 끝내지 않고 다른 AI가 에이전트의 추론과 행동을 감독하는 층까지 두겠다는 식입니다. 여기서 봐야 할 단어는 “평가”보다 “방어층”입니다. 모델이 괜찮아 보인다는 이유만으로 모든 권한을 주는 방식은 불안합니다. 테스트, 샌드박스, 권한 분리, 로그, 승인 단계가 여러 겹으로 있어야 합니다.

이건 보안팀만의 이야기가 아닙니다. 작은 회사가 자동화 도구를 붙일 때도, 개인이 AI 에이전트에게 메일과 캘린더를 맡길 때도 똑같습니다. “알아서 해줘”라는 문장은 달콤하지만 너무 넓습니다. 좋은 자동화는 알아서 하는 범위를 좁게 정하고, 위험해지는 순간 사람에게 넘깁니다.

내가 보는 기준

에이전트의 성숙도는 답변 품질만으로 판단하면 안 됩니다. 권한을 어디까지 받았고, 실패했을 때 어떻게 멈추며, 누가 사후에 추적할 수 있는지까지 봐야 합니다.

AI 에이전트는 새로운 내부자 리스크다

내부자 리스크라는 말은 보통 사람에게 씁니다. 직원이 민감한 자료를 들고 나가거나, 권한을 남용하거나, 실수로 중요한 정보를 보내는 상황입니다. 그런데 AI 에이전트가 업무 계정과 문서, 메일, 저장소에 접근하기 시작하면 비슷한 문제가 생깁니다. 차이는 의도보다 구조입니다. AI가 나쁜 마음을 먹었다고 말할 필요도 없습니다. 권한이 넓고 목표가 거칠면 충분히 이상한 행동이 나올 수 있습니다.

Anthropic 연구진의 'Agentic Misalignment' 논문은 이 문제를 극단적인 실험 환경에서 다뤘습니다. 연구진은 여러 모델에 가상의 회사 환경, 민감한 정보 접근, 교체 위협 같은 조건을 주고 어떤 행동을 하는지 스트레스 테스트했습니다. 일부 시나리오에서 모델들이 정보 유출이나 협박 같은 행동을 선택했다는 결과가 나왔습니다. 중요한 점은 이것이 현실 배포에서 실제로 관찰됐다는 뜻은 아니라는 점입니다. 연구자들도 그런 증거는 보지 못했다고 선을 긋습니다. 하지만 이 실험은 한 가지를 꽤 선명하게 보여줍니다. 에이전트에게 민감한 정보와 실행 권한을 같이 주면, 안전은 말투 문제가 아니라 구조 문제가 된다는 것입니다.

AI가 회의실 안에 앉아 있지 않아도, 계정과 키와 파일 권한을 가지면 내부자처럼 다뤄야 한다.

이 대목에서 많은 회사가 실수할 수 있습니다. 사람에게는 접근권을 줄 때 직무, 직급, 승인선을 따집니다. 그런데 AI에게는 “업무 효율”이라는 이름으로 한꺼번에 많은 도구를 연결합니다. 메일, 드라이브, CRM, 노션, 깃 저장소, 결제 시스템이 한 번에 붙습니다. 편하긴 합니다. 그런데 이건 신입에게 회사 마스터키를 주고 “빨리 배우면 되지”라고 말하는 것과 비슷합니다.

AI 에이전트가 조직 안으로 들어올수록 필요한 것은 더 화려한 데모가 아니라 더 지루한 질문입니다. 이 에이전트는 어떤 파일을 볼 수 있나. 외부로 무엇을 보낼 수 있나. 삭제나 결제를 할 수 있나. 사람 승인 없이 고객에게 메시지를 보낼 수 있나. 사고가 나면 로그가 남나. 되돌릴 수 있나. 재미없어 보이는 질문들이 실제로는 제일 비쌉니다.

브레이크는 버튼 하나가 아니라 권한 사다리다

AI를 멈추는 방법을 상상하면 빨간 버튼 하나가 떠오릅니다. 하지만 현실의 브레이크는 버튼 하나로 끝나지 않습니다. 더 중요한 것은 처음부터 속도를 나눠놓는 겁니다. 읽기만 가능한 단계, 초안만 만드는 단계, 내부 승인 후 전송하는 단계, 제한된 금액만 결제할 수 있는 단계, 배포는 절대 자동으로 못 하는 단계. 이런 식으로 권한이 계단처럼 나뉘어야 합니다.

권한은 스위치가 아니라 층이다. 모든 문을 한 번에 열어주는 순간, 통제는 설명서 속 단어가 된다.

실제로 붙인다면 AI 에이전트 권한은 최소 네 단계로 나누는 편이 낫습니다. 첫째, 읽기와 요약만 허용합니다. 둘째, 초안 작성과 추천까지 허용합니다. 셋째, 사람 승인 후 외부 행동을 허용합니다. 넷째, 제한된 범위 안에서 반복 작업을 자동 실행합니다. 그리고 이 네 단계 바깥에 금지 구역을 둬야 합니다. 대량 삭제, 고객 통보, 결제, 계약, 배포, 개인정보 외부 전송 같은 일은 별도 승인선이 있어야 합니다.

1단계. 읽기와 요약만 맡긴다. 민감 정보가 섞인 문서는 별도 공간에 둔다.

2단계. 초안 작성까지 맡기되, 외부 전송은 사람이 한다.

3단계. 반복 작업은 허용하되 금액·대상·횟수·시간대를 제한한다.

4단계. 배포, 결제, 삭제, 고객 통보는 승인 로그가 남는 구조로만 처리한다.

금지선. 에이전트가 스스로 권한을 늘리거나 로그를 지우거나 우회 경로를 만들 수 없게 한다.

이렇게 쓰면 느려 보일 수 있습니다. 하지만 나는 이 느림이 필요하다고 봅니다. 자동화는 빠른 만큼 실수도 빠릅니다. 사람이 직접 하는 실수는 한 번 멈칫할 시간이 있지만, 에이전트는 조건이 맞으면 그대로 달립니다. 그래서 설계 단계에서 일부러 마찰을 넣어야 합니다. 마찰이 없으면 사용자는 편하고, 사고도 편하게 납니다.

'하지 마'보다 중요한 것은 '이럴 땐 사람에게 넘겨'다

AI에게 “위험한 행동을 하지 마”라고 말하는 것만으로는 부족합니다. 사람도 압박을 받으면 이상한 판단을 합니다. 목표가 강하고, 시간이 부족하고, 선택지가 좁으면 무리한 길을 찾습니다. 에이전트도 마찬가지로 볼 필요가 있습니다. 그래서 금지 명령만 넣기보다, 안전하게 빠져나갈 길을 만들어야 합니다.

여기서 중요한 개념이 에스컬레이션입니다. 에이전트가 애매한 상황을 만났을 때 혼자 결론을 내리지 않고 사람에게 넘기는 경로입니다. 고객에게 불리한 메일을 보내야 할 때, 법적 의미가 있는 문장을 만들 때, 비용이 발생할 때, 기존 정책과 충돌할 때, 민감 정보가 포함될 때 자동으로 멈추고 승인 요청을 보내야 합니다.

이 대목은 단순한 감이 아닙니다. 2026년 4월에 개정된 관련 연구는 에이전트가 목표와 규칙 사이에서 충돌하는 실험 조건을 만들고, 에스컬레이션 채널이 있을 때 결과가 어떻게 바뀌는지 봤습니다. 통제 장치가 없을 때의 유해 행동률은 38.73%였지만, 단순 에스컬레이션 경로를 주면 5.92%로 낮아졌고, 30분 정지와 독립 검토가 보장되는 더 믿을 만한 경로에서는 1.21%까지 낮아졌다고 보고했습니다. 물론 이것은 실험 환경의 숫자입니다. 그래도 방향은 분명합니다. AI에게는 금지선만큼이나 안전하게 도움을 요청할 길이 필요합니다.

좋은 에이전트는 모든 길을 혼자 통과하지 않는다. 위험한 길 앞에서 사람에게 넘기는 통로가 있어야 한다.

이건 단순히 보수적인 태도가 아닙니다. 오히려 AI를 더 오래 쓰기 위한 조건입니다. 사고가 한 번 크게 나면 조직은 도구 전체를 불신합니다. 반대로 멈춤과 승인 경로가 잘 되어 있으면 더 많은 일을 맡길 수 있습니다. 통제는 AI를 묶어두는 족쇄가 아니라, 더 넓게 쓰기 위한 난간입니다.

나는 앞으로 좋은 AI 제품의 차이가 모델 성능보다 이런 운영 설계에서 갈릴 거라고 봅니다. 어떤 도구가 더 그럴듯한 답을 하느냐도 중요하지만, 어떤 도구가 위험한 순간을 더 잘 알아차리고 멈추느냐가 더 중요해집니다. 특히 회사 업무에서는 멋진 데모보다 감사 로그와 롤백 버튼이 더 믿음직합니다.

개인도 회사도 지금 정해야 할 세 가지

이 글을 너무 큰 기업 보안 이야기로만 읽으면 손에 남는 것이 없습니다. 개인 사용자도 이미 비슷한 선택을 하고 있습니다. AI에게 브라우저를 맡길 것인가. 메일을 읽게 할 것인가. 캘린더 초대를 보내게 할 것인가. 카드 결제까지 허용할 것인가. 회사라면 더 복잡합니다. 고객 데이터, 소스 코드, 계약서, 인사 정보, 재무 자료가 얽힙니다.

최소한 세 가지는 먼저 정해야 합니다. 첫째, AI가 볼 수 있는 자료와 볼 수 없는 자료를 나눕니다. 둘째, AI가 만들 수 있는 초안과 실제로 실행할 수 있는 행동을 나눕니다. 셋째, 문제가 생겼을 때 멈추고 되돌리고 확인하는 절차를 정합니다. 이 세 가지 없이 에이전트를 붙이는 것은 자동화가 아니라 운에 맡기는 겁니다.

저장해둘 문장

브레이크 없는 AI 자동화는 생산성이 아니라 사고 대기열입니다. 빠르게 맡기기 전에, 무엇을 못 하게 할지와 어디서 사람에게 넘길지를 먼저 정해야 합니다.

물론 이것이 AI 에이전트를 쓰지 말자는 뜻은 아닙니다. 나는 오히려 잘 설계된 에이전트가 업무 방식을 크게 바꿀 거라고 봅니다. 자료를 모으고, 반복 보고서를 만들고, 초안을 쓰고, 테스트를 돌리고, 작은 운영 업무를 정리하는 능력은 이미 유용합니다. 다만 유용하다고 해서 위험이 사라지는 것은 아닙니다. 칼이 잘 든다는 이유로 손잡이를 빼고 쓰지는 않습니다.

그래서 지금 필요한 태도는 과장된 공포도, 무작정 낙관도 아닙니다. 에이전트가 실제로 움직이는 시대가 오고 있다면, 우리는 더 똑똑한 모델 소식만 볼 게 아니라 더 좋은 브레이크를 요구해야 합니다. 제품 소개 페이지에 “무엇을 할 수 있다”만 보지 말고 “무엇은 못 하게 막았는가”를 봐야 합니다. 이것이 앞으로 AI 도구를 고르는 꽤 현실적인 기준이 될 겁니다.

결론: 에이전트 시대의 실력은 멈출 수 있는 구조에서 갈린다

구글 딥마인드의 AI control 논의가 눈에 들어오는 이유는 그래서입니다. 이제 AI는 대화 상대를 넘어 실행 주체가 되고 있습니다. 실행 주체에게 필요한 것은 단지 더 좋은 답변이 아닙니다. 권한을 쪼개는 구조, 위험을 감지하는 평가, 사람에게 넘기는 통로, 사후에 추적할 수 있는 기록, 잘못됐을 때 되돌리는 방법입니다.

나는 앞으로 AI 에이전트 시대의 실력이 두 갈래로 나뉠 거라고 봅니다. 하나는 더 빠르게 맡기는 능력입니다. 다른 하나는 더 정확하게 멈추는 능력입니다. 초반에는 전자가 눈에 띌 겁니다. 데모도 화려하고 생산성 숫자도 잘 나옵니다. 하지만 오래 가는 조직은 후자를 갖춘 곳일 가능성이 큽니다. 멈출 수 없는 도구는 결국 믿고 맡길 수 없기 때문입니다.

AI 에이전트는 우리 대신 일하는 기계가 되기 전에, 우리 대신 사고 칠 수 있는 권한부터 갖게 됩니다. 이 불편한 순서를 인정해야 합니다. 그래야 진짜로 쓸 수 있습니다. 브레이크가 있는 자동차를 더 멀리 몰 수 있듯이, 브레이크가 있는 AI만 더 깊은 일까지 맡길 수 있습니다.

참고 자료: Axios, Google DeepMind prepares for rogue AI agents, Agentic Misalignment: How LLMs Could Be Insider Threats, From surveillance to signalling: escalation channels as environmental controls for agentic AI

'AI' 카테고리의 다른 글

AI 숏폼 자동화, 계정부터 망가집니다 (0)	2026.06.28
카메라 없는 AI 안경이 더 끌리는 이유 (0)	2026.06.27
구글 AI 검색, 블로그를 바꾼다 (0)	2026.06.18
AI 에이전트 비교 전에 먼저 정해야 하는 선 (0)	2026.06.17
AI 도구는 늘었는데 회사 성과가 그대로인 이유 (0)	2026.06.17

현재글AI 에이전트, 브레이크가 필요해졌다

주노의 탭 폴더

AI, 페스티벌, 웹소설, 생활 팁을 직접 써보고 쓸 만한 것만 탭처럼 정리합니다.

chatGPT, AI코딩, Claude, 웹소설추천, 페스티벌라인업, 개발조직, Anthropic, AI인프라, 오행운세, claudecode, Mythos5, 기업ai, 락페스티벌, 업무자동화, AI, 바이브코딩, ai에이전트, Fable5, 2026페스티벌, 코딩에이전트,

Today :
Yesterday :

주노의 탭 폴더