// tag · 3 posts

#evaluation

AI는 인프라 위에서 자란다

AI의 진짜 몸은 화면 밖 전기·물·반도체 위에 있고, 그 인프라는 소수에게 쏠린다. 인프라를 못 가진 작은 회사가 설 자리는 어디인가 — 같은 모델로도 결과를 가르는 데이터·피드백 루프·평가, 그리고 그 위에서 문제를 끝까지 푸는 일에 대한 생각.

에이전트가 워크스트림을 소유하는 자율 운영 OS(AAOS)와 그 위에서 시간에 따라 살아 변하는 컨텍스트 층(CLMS). 두 시스템을 처음 함께 소개하고, 기억의 currency를 사전 등록된 실험으로 측정해 본 우리의 관점을 공유한다.

AI 품질에서 가장 위험한 문장은 "좋아진 것 같다"이다. 규칙 하나, 판단자 하나를 바꿀 때마다 같은 잣대로 다시 재고 회귀를 먼저 잡는 일 — 한국어 도메인 코퍼스에서 "좋아졌다"를 주장이 아니라 측정으로 바꾼 eval 하네스 이야기.