두뇌가 먹는 연료(데이터)와 두뇌가 굴러갈 엔진(컴퓨트).
두 영역을 묶은 이유는 한 가지 — 둘 중 하나라도 빠지면 에이전트는 한 발짝도 못 움직입니다.
이번 AWS Summit에서 데이터 트랙과 인프라 트랙을 들으면서 깨달은 게 하나 있습니다 … … AI 에이전트가 제대로 일하려면 두 가지가 필요하다는 거예요 … 먹을 연료, 그리고 굴러갈 엔진.
연료 쪽은 AI-Ready Data라는 개념으로 시작합니다. 한 줄로 말하면, "우리 회사 데이터가 LLM이 곧바로 쓸 수 있는 상태인가" 라는 질문입니다.
보통 데이터는 Amazon S3 같은 객체 스토리지에 깔리고요, 그걸 검색 가능하게 만드는 게 Amazon OpenSearch입니다. 그런데 단순 키워드 검색으론 부족하니까, 텍스트를 벡터로 임베딩해서 의미 기반 검색을 합니다 … 이게 바로 RAG—Retrieval-Augmented Generation—의 핵심이에요. 모델이 답하기 전에 회사 데이터에서 관련 문서를 먼저 끌어오는 거죠.
올해의 진화는 GraphRAG입니다. 그냥 문서를 찾는 게 아니라, 문서 사이의 관계까지 그래프로 두고 그 위에서 검색하는 방식입니다. 미래에셋증권이 상품 지식 DB를 GraphRAG로 만든 사례가 대표적이었습니다.
데이터 파이프라인 쪽에선 CDC와 Lakehouse가 두 키워드예요. CDC는 Change Data Capture—운영 DB에서 변경분만 실시간으로 흘려보내는 방식이고요, Lakehouse는 그 데이터를 받아서 분석·AI 학습에 쓰는 통합 저장소입니다. 이 둘이 짝을 이뤄 "실시간 AI-Ready 데이터"를 만드는 거예요.
이제 엔진 쪽입니다. AI 모델을 실제로 돌리는 실리콘 얘기예요.
크게 두 종류—훈련용 칩과 추론용 칩. AWS는 자체 칩으로 Trainium과 Inferentia를 갖고 있어요. Trainium은 모델 학습 전용, Inferentia는 운영 추론 전용입니다. NVIDIA GPU 의존도를 낮추고 비용을 잡겠다는 전략이죠.
대안으로 NVIDIA GPU를 쓰고 싶으면 EC2 P/G 인스턴스가 있고, 그 모든 컴퓨트를 신뢰성 있게 격리하는 AWS Nitro System이 기반에 깔립니다.
그런데 대규모 학습은 한 대로 안 되니까 클러스터가 필요합니다. HyperPod이 그 답이에요—수백 대 GPU를 한 묶음으로 묶고, 한 대 장애 나도 자동 복구하는 관리형 학습 클러스터. 그 위에 잡 스케줄러로 Slurm이 EKS 위에서 도는 구성이 올해 부각됐습니다. 하이퍼커넥트가 발표한 게 그 사례였어요.
마지막으로 EC2 Capacity Blocks는 GPU를 미리 예약해두는 서비스인데, GPU 품귀 시대에 등장한 안전장치입니다.
정리하면 … 데이터는 S3에 깔고, OpenSearch와 RAG·GraphRAG로 검색 가능하게 만들고, CDC와 Lakehouse로 실시간 갱신. 그게 AI 연료.
그걸 Trainium·Inferentia·GPU 위에서 돌리고, HyperPod 클러스터에 묶어 굴리는 게 AI 엔진. 이 둘이 갖춰져야 비로소 두뇌(에이전트)가 일을 할 수 있다 … 이게 핵심이었습니다.
데이터를 RAG로 깔아놓고도 추론 칩이 비싸면 무용지물. 반대로 좋은 GPU를 사놓고도 데이터가 "AI-Ready"가 아니면 텅 빈 라인. 그래서 보통 회사가 AI 도입 의사결정을 내릴 때 데이터와 인프라는 한 묶음으로 봅니다.
아래 5개를 알면 데이터 트랙 90%는 해석 가능합니다.
모델을 돌리는 실리콘 층. 비용·속도가 여기서 결정됨.
사용자 질문 → 답 한 줄 사이에서 데이터·인프라가 어떻게 합주하는지.
이번엔 깊이보다 흐름 잡기에 초점. 스크립트 다시 읽으면 거의 다 풀림.
AWS칩 = 자체 / EC2 P/G = NVIDIA. 둘 다 같은 일을 하지만 선택은 비용·성능·생태계로 결정.
두뇌·공장·연료·엔진까지 다 갖추면 이제 두 가지가 남습니다. 이 모든 걸 안전하게 지키는 보안(Zero Trust·KMS·DevSecOps), 그리고 이 모든 게 실제로 돈을 버는 곳—피지컬 AI·비즈니스 응용(Robotics FM·Amazon Connect·Quick Suite 등). 이번처럼 스크립트 함께 갑니다.