다음 지평: 에이전트가 워크스트림을 '소유'한다

“자율 에이전트”라는 말은 두 가지 이미지를 동시에 떠올리게 한다. 하나는 마법이다 — 알아서 다 해주는. 다른 하나는 공포다 — 통제를 벗어나 폭주하는. 데모 영상은 첫 번째를 팔고, 운영을 해본 사람은 두 번째를 걱정한다.

둘 다 운영 현실이 아니다. 우리는 자체 제품을 매일 운영하고, 회사 내부의 반복되는 운영 흐름 일부를 에이전트에 맡기면서, 셋째 그림이 필요하다는 걸 배웠다. 마법도 공포도 아닌, 소유하되 통제되는 에이전트. 일을 끝까지 책임지되, 무엇을 언제 할지가 구조로 정해져 있는 에이전트다.

태스크를 넘어 ‘워크스트림’으로

오늘의 에이전트는 대체로 단발이다. “이 함수를 고쳐줘”를 한 번 실행하고 끝난다. 사람이 부르고, 사람이 결과를 받는다. 다음 지평은 다르다. 에이전트가 하나의 워크스트림을 끝까지 소유하는 것이다. 워크스트림은 단발 태스크가 아니라 반복되는 운영 루프다 — 깨어나고, 상태를 읽고, 판단하고, 행동하고, 보고하고, 다시 잠드는 흐름. 모니터링, 정리, 후속 조치처럼 사람이 매주 똑같이 반복하는 일이 여기 해당한다.

무엇이 바뀌면 자율이 되는가. 더 큰 모델이 아니다. 세 가지가 추가된다. 언제 깨어날지(스케줄), 지금 무엇을 아는지(상태), 무엇은 사람에게 물어야 하는지(게이트). 자율의 핵심은 똑똑함이 아니라 안전하게 상시 가동되는 런타임이다.

우리가 택한 접근: 결정론 먼저, LLM은 선택

우리 자율 운영 시스템의 첫 원리는 deterministic-first, LLM-optional이다. 워크스트림의 전 경로를 먼저 결정론으로 짠다. 어떤 조건에서 깨어나고, 무엇을 읽고, 어떤 분기를 타는지를 일반 코드로 확정한다. LLM은 기본 경로에 없다. 정책이 명시적으로 허가하는 지점에서만 가산적으로 호출된다.

왜 LLM을 기본 경로에서 빼는가. 비용 — 매번 모델을 부르면 상시 가동은 곧 상시 과금이다. 편차 — 같은 입력에 다른 출력이 나오면 운영 루프의 예측 가능성이 무너진다. 책임 — “왜 이렇게 했는가”를 결정론 코드는 답하지만, 매 호출이 추론이면 답하기 어렵다.

여기서 zero-cost heartbeat가 나온다. 재귀 타이머가 주기적으로 깨어나 로컬 상태를 읽고 다음 행동을 결정한다. 대부분의 깨어남은 “아직 할 일 없음”으로 끝나고, 이때 토큰 비용은 0이다. LLM 호출은 결정론이 “여기서부터는 판단이 필요하다”고 게이트를 연 예외적 순간에만 일어난다. 상시 가동의 비용을 평상시 거의 0으로 누르는 것 — 이건 우리가 이 블로그를 운영하는 콘텐츠 파이프라인에서 실제로 적용하는 사상이기도 하다.

왜 — 통제를 구조로: confirm gate와 감사 가능성

자율 에이전트의 진짜 리스크는 “충분히 똑똑하지 않음”이 아니다. 되돌릴 수 없는 행동이다. 파일을 지우고, 메시지를 보내고, 비용을 발생시키는 행위는 한 번 일어나면 취소되지 않는다.

그래서 두 번째 원리가 confirm gate다. 파괴적이거나 비용을 발생시키는 행위는 명시적 승인 전까지 구조적으로 차단된다. 에이전트가 “이걸 하겠다”고 제안할 수는 있지만, 게이트를 통과하기 전에는 실행되지 않는다. 속도와 안전의 트레이드오프를 의도적으로 안전 쪽으로 기울인 선택이다. 사람은 모든 단계에 개입하지 않되, 되돌릴 수 없는 1마일에서는 승인자로 루프에 남는다.

세 번째는 감사 가능성이다. 상태와 의사결정은 파일과 로컬 DB에 남고, 산출물은 무결성 해시로 검증된다. 우리가 컨텍스트 윈도우나 외부 워크플로 엔진에 상태를 맡기지 않는 이유가 여기 있다 — 상태가 파일이면 git으로 추적되고, 크래시에 안전하며, “에이전트가 무엇을 왜 했는가”를 사후에 재현하고 검사할 수 있다. 자율성과 감사 가능성은 트레이드오프가 아니다. 같은 설계의 양면이다.

무엇을 배웠나

자체 제품과 내부 운영에 이 원리들을 적용하며 배운 것은 단순하다. 결정론으로 짤 수 있는 건 끝까지 결정론으로. LLM은 마지막 1마일에서, 게이트해서. 사람은 승인자로 루프에 남긴다. 같은 사상은 제품에서도 반복된다 — 우리 식단 서비스의 생성 엔진도 LLM 없이 결정적 알고리즘으로 주 단위 식단을 짠다. 자율의 성숙도는 모델 크기가 아니라 게이트와 감사 설계의 성숙도다.

맡긴다는 건 통제를 잃는 게 아니다

당신의 회사에도 사람이 매주 반복하는 운영 워크스트림이 있다 — 모니터링, 정리, 보고, 후속 조치. 우리는 그것을 통제 가능하고 감사 가능한 방식으로 에이전트에 옮기는 런타임 원리를 자체 운영으로 검증해 왔다. 마법을 약속하지는 않는다. 우리가 가진 건 안전하게 상시 도는 런타임이고, 그 엔진은 당신의 제품에 이식할 수 있다.