이름을 붙일 때가 됐다: AAOS와 CLMS

지금까지 우리는 두 시스템을 이름 없이 이야기해 왔다. 한쪽은 에이전트가 워크스트림을 끝까지 소유하는 자율 운영 런타임이었고, 다른 한쪽은 정적 RAG 너머에서 컨텍스트를 살아있는 자산으로 다루는 인프라였다. 각각을 따로 소개하면서도, 정작 둘이 어떻게 맞물리는지는 미뤄 두었다.

이 둘은 따로 만든 게 아니다. 처음부터 함께 돌도록 설계됐고, 우리는 매일 우리 자신의 운영 위에서 그렇게 돌린다. 이제 이름을 붙이고, 함께 소개할 때가 됐다.

이제 이름을 붙일 때가 됐다 — AAOS와 CLMS

AAOS는 자율 AI 운영 시스템이다. OS라고 부르는 이유가 있다. 에이전트가 단발 태스크를 넘어 하나의 워크스트림을 소유하려면, 깨어나고 상태를 읽고 판단하고 행동하고 보고하는 운영 루프를 떠받치는 런타임이 필요하다. 그 런타임의 원리는 결정론 우선이다 — 전 경로를 먼저 일반 코드로 확정하고, LLM은 정책이 명시적으로 허가한 지점에서만 가산적으로 호출된다. 되돌릴 수 없는 행위는 승인 게이트 앞에서 멈추고, 상태와 의사결정은 파일로 남아 사후에 감사된다. 자율성의 성숙도는 모델 크기가 아니라 게이트와 감사 설계에서 나온다.

CLMS는 그 위에 얹히는 동적 메모리·컨텍스트 층이다. 운영이 길어지면 결정이 쌓이고, 그중 일부는 번복되거나 갱신된다. 정적 검색은 “지금 무엇이 가장 유사한가”는 답해도 “지금 무엇이 여전히 유효한가”는 답하지 못한다. CLMS는 컨텍스트에 수명을 부여한다 — 낡은 것을 지우는 대신 대체된 것으로 표시하고(supersession-over-deletion), 지금 얼마나 유효한지(currency)를 1급 개념으로 다룬다.

개념적 관계는 단순하다. OS가 운영을 떠받치고, 컨텍스트 층이 시간에 따라 변하는 맥락을 currency 있게 공급한다. 자율 운영 노드가 좋은 판단을 내리려면, 지금 무엇이 여전히 유효한지를 정확히 받아야 한다. 운영과 기억은 분리된 두 기능이 아니라 같은 엔진의 양면이다.

왜 이게 어려운가 — 규모 압력 아래 기억의 currency

긴 프로젝트를 떠올려 보자. 처음엔 “소스 A로 가자”고 정했다가, 몇 주 뒤 “아니, B로 바꾸자”가 된다. 결정은 한 번 내려지고 끝나지 않는다. 계속 번복되고 갱신되며 쌓인다.

문제는 노드의 작업 예산이 유한하다는 데 있다. 한 번의 판단에 끌어올 수 있는 컨텍스트의 양은 정해져 있는데, 결정 저장소는 시간이 갈수록 무한히 커진다. 이 비대칭이 딜레마를 만든다. 쌓인 결정을 다 보여주면 맥락이 잡음에 묻히고(context rot), 낡았다고 옛 결정을 통째로 숨기면 “이게 왜 지금의 결정이 됐는지”를 잃는다. 무엇을 보여주고 무엇을 접어둘지 — 이 기억의 currency 문제가 자율 운영의 일관성을 직접 좌우한다.

이건 직관으로 풀고 싶은 유혹이 큰 문제다. “낡은 건 빼고 최신만 보여주면 되지 않나?” 그런데 직관은 종종 틀린다. 그래서 우리는 이걸 주장하지 않고 측정했다.

그래서 측정했다 — 사전 등록된 실험 한 판

우리는 메모리가 압력을 받는 상황을 일부러 만들었다. 빠듯한 작업 예산에 계속 커지는 결정 저장소를 얹고, 서로 다른 메모리 뷰 정책 아래에서 장기간 돌렸다 — 낡은 결정을 그냥 숨기는 쪽부터, 변경의 흐름을 살려 보여주는 쪽까지. 측정은 모킹 없이 실제 로컬·frontier 모델과 실제 백엔드 위에서, 여러 시드의 신뢰구간으로 했다.

발견은 직관과 어긋났다. 가장 단순해 보이는 처방 — “낡은 건 빼고 최신만 보여준다” — 이 ‘why’를 무너뜨렸다. 변경의 흐름을 가린 뷰에서는 “이게 왜 지금처럼 바뀌었나”에 답하는 능력이 크게 떨어졌고, 더 강한 frontier 모델일수록 이 붕괴가 더 선명했다 — 모델이 똑똑해서 막을 수 있는 문제가 아니라는 뜻이다. 반대로 변경의 흐름을 맥락과 함께 살려 보여준 뷰는 그 능력을 되살렸다. “왜 바뀌었나”를 묻는 소비자에게 이건 측정된 차별점이다.

직관적인 빠른 처방 몇 가지가 오히려 역효과를 낸다는 것도 같은 실험에서 드러났다. 흰 코끼리를 생각하지 말라는 말이 오히려 흰 코끼리를 떠올리게 하는 것과 같은 역설이, 메모리를 다루는 방식에도 있었다. 그래서 우리는 직관 대신 측정을 따른다.

이 결과를 믿을 수 있게 만든 건 방식이다. 우리는 무엇을 합격으로 볼지 가설과 합격선을 측정 전에 못 박아 두었고(사전 등록), 모킹 없이 실제 모델과 백엔드 위에서 fail-loud로 돌렸으며, 여러 시드로 신뢰구간을 잡고, 온도를 0으로 두어 재현 가능하게 했고, frontier 모델 효과가 결론을 흐리지 않도록 교차로 검증했다. 규율은 이 글의 주인공이 아니다. 다만 직관에 반하는 결론을 주장이 아니라 증거로 만든 건 이 방식이다.

우리가 지향하는 방향 — 자율 운영과 살아있는 컨텍스트

측정은 설계 원칙을 가리킨다. 절대 하드 삭제하지 않는 비손실 저장소 위에, 소비자의 관점과 규모에 맞춰 컨텍스트 뷰를 제공한다 — ‘why’를 묻는 소비자에게는 변경의 맥락을 살린 뷰를, 지금 상태만 필요한 소비자에게는 더 압축된 현재 중심의 뷰를. 저장소가 커질수록 뷰는 더 정제되어야 currency가 유지된다.

이것이 두 시스템이 함께 가는 방향이다. AAOS 노드는 자기 결정의 이유를 설명할 수 있는 자율 운영으로, CLMS는 시간에 따라 살아 변하는 컨텍스트 인프라로. 운영 노드가 좋은 판단을 내리는 건, 그 아래 컨텍스트 층이 지금 무엇이 유효한지를 정확히 공급할 때다.

천장도 분명히 해 둔다. 이 결과는 한정된 모델군과 한 과제군에서 측정한 것이다. 우리는 이것을 보편 법칙으로 주장하지 않는다 — 더 넓은 모델·과제로의 일반화는 우리가 다음에 할 일로 이름 붙여 둔 숙제다. 그 방법론과 수치를 더 깊이 들여다보는 후속 글은 따로 준비하고 있다.

엔진은 운영에서 증명된다

우리는 “AI 기능”을 얹지 않는다. 운영을 떠받치는 OS와, 그 위에서 살아 변하는 컨텍스트 엔진을 짓는다. 그리고 그 설계를 주장이 아니라 측정으로 증명한다. AAOS와 CLMS는 데모가 아니라, 우리가 매일 우리 자신의 운영 위에서 돌리고 측정하는 엔진이다.

워크스트림을 끝까지 소유하는 자율 운영, 그리고 시간이 지나도 썩지 않는 컨텍스트.