AWS에서 AI 플랫폼을 구축하는 경로는 무엇이 있나요?

크게 세 가지입니다. (A) AWS 매니지드 — Bedrock과 Strands SDK, AgentCore로 인프라 운영 없이 시작합니다. (B) EKS와 오픈소스 — vLLM, llm-d, Langfuse 등을 자체 호스팅하여 최대 제어권을 확보합니다. (C) 하이브리드 — Bedrock과 EKS를 조합해 비용, 통제, 속도의 균형을 맞춥니다.

매니지드 서비스와 오픈소스 자체 구축 중 무엇을 선택해야 하나요?

빠른 출시와 운영 부담 최소화가 중요하면 Bedrock AgentCore 기반 매니지드 접근이 적합합니다. 모델 선택의 자유도, 데이터 주권, 비용의 장기 최적화가 중요하면 EKS 기반 오픈 아키텍처가 적합합니다. 대부분의 엔터프라이즈는 두 가지를 조합한 하이브리드로 수렴합니다.

Bedrock AgentCore는 언제 선택하나요?

서버리스 Agent 런타임으로 인프라 관리 없이 프로덕션 Agent를 운영하려는 경우 선택합니다. GPU 노드 운영, 스케일링, 모델 서빙 스택을 직접 관리하지 않아도 되며, 트래픽이 가변적이거나 초기 PoC 단계에서 운영 오버헤드를 줄이는 데 유리합니다.

AI 플랫폼 선택 가이드: 매니지드 vs 오픈소스 vs 하이브리드

2026-04-17 작성2026-07-17 수정12분 읽기

고객이 AI를 직접 개발하려 할 때 가장 먼저 직면하는 질문은 "매니지드 서비스를 쓸 것인가, 오픈소스로 직접 구축할 것인가?"입니다. 이 문서는 SageMaker Unified Studio, Bedrock AgentCore, EKS 기반 오픈 아키텍처 중 고객 상황에 맞는 최적 접근을 선택할 수 있도록 의사결정 프레임워크를 제공합니다.

AI 플랫폼 구축 경로는 크게 3가지로 나뉩니다:

(A) AWS 매니지드: Bedrock + Strands SDK + AgentCore로 인프라 운영 없이 시작
(B) EKS + 오픈소스: vLLM, llm-d, Langfuse 등 자체 호스팅으로 최대 제어권 확보
(C) 하이브리드: Bedrock과 EKS를 조합하여 비용·통제·속도의 균형 달성

선행 문서

이 문서를 읽기 전에 다음 문서를 먼저 참조하세요:

플랫폼 아키텍처 — 6 레이어 + 3 플레인 설계 청사진
기술적 도전과제 — 5가지 핵심 과제 분석

AWS AI 플랫폼 서비스 랜드스케이프

AWS AI 서비스는 4개의 Tier로 계층화됩니다. 고객은 하위 Tier에서 시작하여 필요에 따라 상위 Tier로 이동합니다.

Tier 구분의 핵심:

Tier 1-3: AWS 매니지드 서비스로 인프라 운영 없이 시작할 수 있습니다.
Tier 4: 세밀한 제어, 비용 최적화, 데이터 주권이 필요할 때 선택합니다.
대부분의 고객은 Tier 1에서 시작하여 점진적으로 확장하며, 엔터프라이즈는 Tier 3과 Tier 4를 하이브리드로 조합하는 경향이 있습니다.

SageMaker Unified Studio

통합 AI 개발 환경

SageMaker Unified Studio는 2024년 12월 re:Invent에서 프리뷰로 공개되고 2025년 3월 정식 출시(GA)된 통합 AI 개발 환경으로, ML/데이터/분석 작업을 하나의 IDE에서 수행할 수 있도록 설계되었습니다. 기존에는 SageMaker Studio Classic, Athena, Glue Studio 등 분산된 도구를 개별적으로 사용해야 했지만, Unified Studio는 이를 하나로 통합합니다.

핵심 차별점

기능	설명	기존 대비 개선
통합 IDE	JupyterLab + SQL 편집기 + 노코드 인터페이스	SageMaker Studio Classic 대비 데이터+ML 통합
Built-in MLflow	실험 추적, 모델 레지스트리, 모델 비교	별도 MLflow 서버 운영 불필요
Lakehouse 통합	Apache Iceberg 테이블, Glue Catalog 네이티브 연동	데이터 엔지니어링 → ML 파이프라인 원스톱
거버넌스 협업	Amazon DataZone 기반 IAM 공유, 데이터 계보 추적	팀 간 안전한 데이터/모델 공유
통합 컴퓨팅	학습, 노트북, 파이프라인을 단일 환경에서 관리	리소스 파편화 방지

포지셔닝: 언제 선택하는가?

핵심 메시지

SageMaker Unified Studio는 **개발 환경(Tier 2)**입니다. Bedrock(추론)이나 EKS(서빙)와 보완 관계이며, 특히 데이터 팀과 ML 팀이 하나의 플랫폼에서 협업해야 할 때 가장 큰 가치를 제공합니다.

플랫폼 비교 매트릭스

고객의 상황에 따라 최적 접근이 다릅니다. 5가지 핵심 평가축으로 각 플랫폼 옵션을 비교합니다.

AI 플랫폼 5축 비교 매트릭스

평가축	Bedrock + AgentCore	SageMaker Unified Studio	EKS+오픈소스	하이브리드
비용 구조	사용량 과금, GPU 관리 불필요	인스턴스+사용량 혼합, 노트북/학습 별도	Spot/MIG 최적화, 초기 투자 필요	Bedrock + 자체 SLM 혼합, Cascade 66% 절감
운영 부담	최소 — AWS 완전 관리	낮음 — 인프라 관리 최소, ML 워크플로우 집중	중간 — K8s/GPU 운영 역량 필요 (Auto Mode로 절감)	중간 — 두 환경 모두 이해 필요
데이터 주권	AWS 리전 내 처리	VPC 격리, 학습 데이터 S3 내 유지	완전 제어 — VPC 내 모델+데이터 격리	워크로드별 선택적 격리
커스터마이징	제한적 — Bedrock 지원 모델, Guardrails 범위 내	MLflow, 커스텀 파이프라인, Fine-tuning 지원	완전 유연 — 모든 오픈 모델, LoRA, 커스텀 게이트웨이	필요에 따라 선택적 확장
Time-to-Value	2-4주 — API 호출만으로 시작	4-8주 — 환경 구성 + 파이프라인 설정	2-4개월 — 클러스터 + GPU + 모델 서빙 구축	1-3개월 — Bedrock 시작 + EKS 점진 확장

비용 상세 분석

자체 호스팅과 Bedrock의 상세 비용 비교(손익분기점, Cascade Routing 절감 효과)는 코딩 도구 비용 분석을 참고하세요.

의사결정 플로우차트

고객 미팅에서 활용할 수 있는 의사결정 흐름입니다. 핵심 질문에 답하면서 최적 접근을 찾아갑니다.

플로우차트는 출발점입니다

이 플로우차트는 대화의 시작점이지, 최종 결론이 아닙니다. 실제 고객 상황은 복합적이며, 대부분의 엔터프라이즈는 하이브리드 접근으로 수렴합니다.

네 번째 결정축: 데이터 주권

앞의 플로우차트는 워크로드·볼륨·역량을 기준으로 했지만, 규제 산업에서는 **데이터 주권(Sovereignty)**이 다른 모든 기준에 우선하는 하드 제약으로 작용합니다. 주권 요구는 Public → In-country → Hybrid → Air-gapped 스펙트럼으로 나타나며, 요구 강도가 높을수록 매니지드 의존도는 낮아지고 자체 호스팅·온프레미스 비중이 커집니다.

주권 수준	추론 위치	권장 접근
Public	리전 제약 없음	AWS Native
In-country	국내 리전 고정	Bedrock Geographic CRIS + SCP 리전 강제
Hybrid	온프레미스 + in-country	EKS Hybrid Nodes + 자체 호스팅
Air-gapped	완전 격리	온프레미스 EKS 전용

데이터 주권은 의사결정의 첫 번째 필터로 두는 것이 안전합니다. 주권 제약이 EKS 자체 호스팅 또는 하이브리드를 강제하면, 비용·볼륨 기준의 결론보다 우선합니다.

소버린 & 하이브리드 상세

SCP 리전 강제 정책, Bedrock Geographic cross-Region inference, EKS Hybrid Nodes 기반 하이브리드·in-country 자체 호스팅 구현은 소버린 & 하이브리드 배포를 참조하세요.

고객 성숙도별 권장 경로

고객의 현재 AI/ML 성숙도에 따라 시작점과 확장 경로가 달라집니다.

AI 플랫폼 성숙도 경로

성숙도	특징	권장 스택	핵심 서비스	기간
Level 1 — AI 탐색기	AI/ML 워크로드 없음, 빠른 PoC 필요	AWS 매니지드 우선	Bedrock API + Strands SDK + AgentCore	2-4주
Level 2 — AI 구축기	ML 일부 운영, 학습 파이프라인 필요	SageMaker + Bedrock 하이브리드	SageMaker Unified Studio + Bedrock + S3/Glue	1-3개월
Level 3 — AI 최적화기	대규모 추론, 비용 압박, 커스텀 모델	EKS 오픈 아키텍처 + Cascade Routing	EKS + vLLM/llm-d + kgateway + Bifrost + Langfuse	3-6개월

각 레벨별 상세 가이드:

Level 1 (탐색): → AWS Native 플랫폼
Level 2 (구축): → SageMaker-EKS 통합
Level 3 (최적화): → EKS 기반 오픈 아키텍처, 추론 게이트웨이

하이브리드 조합 패턴

대부분의 엔터프라이즈는 단일 접근이 아닌 하이브리드로 수렴합니다. 검증된 4가지 조합 패턴입니다.

하이브리드 패턴 요약

패턴	구성	적합 시나리오	복잡도
Bedrock + EKS SLM	Bedrock(추론) + EKS 자체 SLM(고빈도)	API 비용 절감이 급한 대규모 추론	★★☆☆☆
SageMaker 학습 + EKS 서빙	SageMaker(학습/실험) + EKS+vLLM(서빙)	ML 팀과 서빙 팀이 분리된 조직	★★★☆☆
AgentCore + 자체 모델	AgentCore(Agent 런타임) + EKS(커스텀 모델 추론)	Agent 운영은 AWS, 모델은 자체 호스팅	★★★☆☆
Full Stack	Unified Studio(개발) + Bedrock(외부) + EKS(자체) + AgentCore(운영)	엔터프라이즈 AI CoE, 전체 AI 라이프사이클 관리	★★★★☆

패턴 1: Bedrock + EKS SLM (Cascade Routing)

사용 시점: 월 추론 볼륨이 50만 건을 초과하며, 요청의 60-70%가 단순 작업(코드 완성, 번역, 요약)인 경우

핵심 가치: Bedrock API의 품질을 유지하면서 비용을 40-60% 절감

참고: 추론 게이트웨이 & Cascade Routing

패턴 2: SageMaker 학습 + EKS 서빙

사용 시점: 커스텀 모델을 학습하고, 추론 비용을 최소화하려는 경우

핵심 가치: SageMaker의 관리형 학습 환경 + EKS의 비용 효율적 서빙

참고: SageMaker-EKS 통합

패턴 3: AgentCore + 자체 모델

사용 시점: Agent 런타임은 서버리스로 운영하되, 특정 도메인 모델은 자체 호스팅하려는 경우

핵심 가치: AgentCore의 서버리스 운영성 + 커스텀 모델의 도메인 정확도

참고: AWS Native 플랫폼

패턴 4: Full Stack (SageMaker + Bedrock + EKS)

가장 복잡하지만 최대 유연성을 제공하는 패턴입니다:

데이터 & 학습: SageMaker Unified Studio + Pipelines
프로덕션 추론: Bedrock API (고신뢰 작업) + EKS vLLM (고볼륨 작업)
Agent 런타임: AgentCore (서버리스) + Kagent (Kubernetes 네이티브)
Observability: CloudWatch (매니지드) + Langfuse (자체 호스팅)

이 패턴은 대규모 엔터프라이즈에서 팀별로 다른 요구사항을 충족하기 위해 선택합니다. 아키텍처 복잡도가 높으므로, 명확한 운영 책임 경계와 서비스 카탈로그가 필수입니다.

참고: 하이브리드 아키텍처의 기술적 구현은 SageMaker-EKS 통합을 참고하세요.

비용 시뮬레이션 요약

월 추론 볼륨에 따른 최적 옵션과 예상 비용입니다.

월 추론 볼륨	최적 옵션	예상 월 비용	비고
~10만 건	Bedrock API	~$300-500	GPU 관리 불필요, 가장 빠른 시작
~50만 건	Bedrock + Cascade	~$800-1,200	SLM으로 단순 요청 분리 시작
~150만 건	하이브리드 전환점	~$2,500-3,500	자체 호스팅 손익분기 근접
~500만 건+	EKS 자체 호스팅	~$3,500-5,000	Spot + Cascade로 60%+ 절감

상세 비용 분석

구체적인 인스턴스 비용, Spot 절감률, Cascade Routing 효과에 대한 상세 분석은 코딩 도구 비용 분석을 참고하세요.

고객 Discovery 체크리스트

고객 미팅에서 최적 접근을 파악하기 위한 10가지 핵심 질문입니다.

현재 AI/ML 워크로드를 운영하고 있습니까? → 성숙도 레벨 판단
월간 추론 요청 규모는 어느 정도입니까? → 비용 최적화 경로
Open Weight 모델 자체 호스팅이 필요합니까? → EKS 필요성
데이터 주권 또는 VPC 격리 요구사항이 있습니까? → 자체 호스팅/하이브리드
팀 내 Kubernetes 운영 경험이 있습니까? → 운영 부담 평가
ML 학습과 데이터 엔지니어링을 함께 수행합니까? → SageMaker Unified Studio
월 예산 범위는 어느 정도입니까? → 비용 구조 매칭
프로덕션 배포 목표 시점은 언제입니까? → Time-to-Value 경로
멀티클라우드 또는 온프레미스 하이브리드 요구가 있습니까? → EKS Hybrid Nodes
현재 사용 중인 AWS 서비스는 무엇입니까? → 기존 투자 활용

AI 플랫폼 선택 가이드: 매니지드 vs 오픈소스 vs 하이브리드

AWS AI 플랫폼 서비스 랜드스케이프

SageMaker Unified Studio

통합 AI 개발 환경

핵심 차별점

포지셔닝: 언제 선택하는가?

플랫폼 비교 매트릭스

의사결정 플로우차트

네 번째 결정축: 데이터 주권

고객 성숙도별 권장 경로

하이브리드 조합 패턴

패턴 1: Bedrock + EKS SLM (Cascade Routing)

패턴 2: SageMaker 학습 + EKS 서빙

패턴 3: AgentCore + 자체 모델

패턴 4: Full Stack (SageMaker + Bedrock + EKS)

비용 시뮬레이션 요약

고객 Discovery 체크리스트

참고 자료

공식 문서

논문 / 기술 블로그

관련 문서 (내부)

AWS AI 플랫폼 서비스 랜드스케이프​

SageMaker Unified Studio​

통합 AI 개발 환경​

핵심 차별점​

포지셔닝: 언제 선택하는가?​

플랫폼 비교 매트릭스​

의사결정 플로우차트​

네 번째 결정축: 데이터 주권​

고객 성숙도별 권장 경로​

하이브리드 조합 패턴​

패턴 1: Bedrock + EKS SLM (Cascade Routing)​

패턴 2: SageMaker 학습 + EKS 서빙​

패턴 3: AgentCore + 자체 모델​

패턴 4: Full Stack (SageMaker + Bedrock + EKS)​

비용 시뮬레이션 요약​

고객 Discovery 체크리스트​

참고 자료​

공식 문서​

논문 / 기술 블로그​

관련 문서 (내부)​

AWS AI 플랫폼 서비스 랜드스케이프

SageMaker Unified Studio

통합 AI 개발 환경

핵심 차별점

포지셔닝: 언제 선택하는가?

플랫폼 비교 매트릭스

의사결정 플로우차트

네 번째 결정축: 데이터 주권

고객 성숙도별 권장 경로

하이브리드 조합 패턴

패턴 1: Bedrock + EKS SLM (Cascade Routing)

패턴 2: SageMaker 학습 + EKS 서빙

패턴 3: AgentCore + 자체 모델

패턴 4: Full Stack (SageMaker + Bedrock + EKS)

비용 시뮬레이션 요약

고객 Discovery 체크리스트

참고 자료

공식 문서

논문 / 기술 블로그

관련 문서 (내부)