본문으로 건너뛰기

AI 플랫폼 선택 가이드: 매니지드 vs 오픈소스 vs 하이브리드

고객이 AI를 직접 개발하려 할 때 가장 먼저 직면하는 질문은 "매니지드 서비스를 쓸 것인가, 오픈소스로 직접 구축할 것인가?"입니다. 이 문서는 SageMaker Unified Studio, Bedrock AgentCore, EKS 기반 오픈 아키텍처 중 고객 상황에 맞는 최적 접근을 선택할 수 있도록 의사결정 프레임워크를 제공합니다.

AI 플랫폼 구축 경로는 크게 3가지로 나뉩니다:

  • (A) AWS 매니지드: Bedrock + Strands SDK + AgentCore로 인프라 운영 없이 시작
  • (B) EKS + 오픈소스: vLLM, llm-d, Langfuse 등 자체 호스팅으로 최대 제어권 확보
  • (C) 하이브리드: Bedrock과 EKS를 조합하여 비용·통제·속도의 균형 달성
선행 문서

이 문서를 읽기 전에 다음 문서를 먼저 참조하세요:


AWS AI 플랫폼 서비스 랜드스케이프

AWS AI 서비스는 4개의 Tier로 계층화됩니다. 고객은 하위 Tier에서 시작하여 필요에 따라 상위 Tier로 이동합니다.

Tier 구분의 핵심:

  • Tier 1-3: AWS 매니지드 서비스로 인프라 운영 없이 시작할 수 있습니다.
  • Tier 4: 세밀한 제어, 비용 최적화, 데이터 주권이 필요할 때 선택합니다.
  • 대부분의 고객은 Tier 1에서 시작하여 점진적으로 확장하며, 엔터프라이즈는 Tier 3과 Tier 4를 하이브리드로 조합하는 경향이 있습니다.

SageMaker Unified Studio

통합 AI 개발 환경

SageMaker Unified Studio는 2024년 하반기에 출시된 통합 AI 개발 환경으로, ML/데이터/분석 작업을 하나의 IDE에서 수행할 수 있도록 설계되었습니다. 기존에는 SageMaker Studio Classic, Athena, Glue Studio 등 분산된 도구를 개별적으로 사용해야 했지만, Unified Studio는 이를 하나로 통합합니다.

핵심 차별점

기능설명기존 대비 개선
통합 IDEJupyterLab + SQL 편집기 + 노코드 인터페이스SageMaker Studio Classic 대비 데이터+ML 통합
Built-in MLflow실험 추적, 모델 레지스트리, 모델 비교별도 MLflow 서버 운영 불필요
Lakehouse 통합Apache Iceberg 테이블, Glue Catalog 네이티브 연동데이터 엔지니어링 → ML 파이프라인 원스톱
거버넌스 협업Amazon DataZone 기반 IAM 공유, 데이터 계보 추적팀 간 안전한 데이터/모델 공유
통합 컴퓨팅학습, 노트북, 파이프라인을 단일 환경에서 관리리소스 파편화 방지

포지셔닝: 언제 선택하는가?

핵심 메시지

SageMaker Unified Studio는 **개발 환경(Tier 2)**입니다. Bedrock(추론)이나 EKS(서빙)와 보완 관계이며, 특히 데이터 팀과 ML 팀이 하나의 플랫폼에서 협업해야 할 때 가장 큰 가치를 제공합니다.


플랫폼 비교 매트릭스

고객의 상황에 따라 최적 접근이 다릅니다. 5가지 핵심 평가축으로 각 플랫폼 옵션을 비교합니다.

AI 플랫폼 5축 비교 매트릭스
평가축Bedrock + AgentCoreSageMaker Unified StudioEKS+오픈소스하이브리드
비용 구조사용량 과금, GPU 관리 불필요인스턴스+사용량 혼합, 노트북/학습 별도Spot/MIG 최적화, 초기 투자 필요Bedrock + 자체 SLM 혼합, Cascade 66% 절감
운영 부담최소 — AWS 완전 관리낮음 — 인프라 관리 최소, ML 워크플로우 집중중간 — K8s/GPU 운영 역량 필요 (Auto Mode로 절감)중간 — 두 환경 모두 이해 필요
데이터 주권AWS 리전 내 처리VPC 격리, 학습 데이터 S3 내 유지완전 제어 — VPC 내 모델+데이터 격리워크로드별 선택적 격리
커스터마이징제한적 — Bedrock 지원 모델, Guardrails 범위 내MLflow, 커스텀 파이프라인, Fine-tuning 지원완전 유연 — 모든 오픈 모델, LoRA, 커스텀 게이트웨이필요에 따라 선택적 확장
Time-to-Value2-4주 — API 호출만으로 시작4-8주 — 환경 구성 + 파이프라인 설정2-4개월 — 클러스터 + GPU + 모델 서빙 구축1-3개월 — Bedrock 시작 + EKS 점진 확장
비용 상세 분석

자체 호스팅과 Bedrock의 상세 비용 비교(손익분기점, Cascade Routing 절감 효과)는 코딩 도구 비용 분석을 참고하세요.


의사결정 플로우차트

고객 미팅에서 활용할 수 있는 의사결정 흐름입니다. 핵심 질문에 답하면서 최적 접근을 찾아갑니다.

플로우차트는 출발점입니다

이 플로우차트는 대화의 시작점이지, 최종 결론이 아닙니다. 실제 고객 상황은 복합적이며, 대부분의 엔터프라이즈는 하이브리드 접근으로 수렴합니다.


고객 성숙도별 권장 경로

고객의 현재 AI/ML 성숙도에 따라 시작점과 확장 경로가 달라집니다.

AI 플랫폼 성숙도 경로
성숙도특징권장 스택핵심 서비스기간
Level 1 — AI 탐색기AI/ML 워크로드 없음, 빠른 PoC 필요AWS 매니지드 우선Bedrock API + Strands SDK + AgentCore2-4주
Level 2 — AI 구축기ML 일부 운영, 학습 파이프라인 필요SageMaker + Bedrock 하이브리드SageMaker Unified Studio + Bedrock + S3/Glue1-3개월
Level 3 — AI 최적화기대규모 추론, 비용 압박, 커스텀 모델EKS 오픈 아키텍처 + Cascade RoutingEKS + vLLM/llm-d + kgateway + Bifrost + Langfuse3-6개월

각 레벨별 상세 가이드:


하이브리드 조합 패턴

대부분의 엔터프라이즈는 단일 접근이 아닌 하이브리드로 수렴합니다. 검증된 4가지 조합 패턴입니다.

하이브리드 패턴 요약
패턴구성적합 시나리오복잡도
Bedrock + EKS SLMBedrock(추론) + EKS 자체 SLM(고빈도)API 비용 절감이 급한 대규모 추론★★☆☆☆
SageMaker 학습 + EKS 서빙SageMaker(학습/실험) + EKS+vLLM(서빙)ML 팀과 서빙 팀이 분리된 조직★★★☆☆
AgentCore + 자체 모델AgentCore(Agent 런타임) + EKS(커스텀 모델 추론)Agent 운영은 AWS, 모델은 자체 호스팅★★★☆☆
Full StackUnified Studio(개발) + Bedrock(외부) + EKS(자체) + AgentCore(운영)엔터프라이즈 AI CoE, 전체 AI 라이프사이클 관리★★★★☆

패턴 1: Bedrock + EKS SLM (Cascade Routing)

사용 시점: 월 추론 볼륨이 50만 건을 초과하며, 요청의 60-70%가 단순 작업(코드 완성, 번역, 요약)인 경우

핵심 가치: Bedrock API의 품질을 유지하면서 비용을 40-60% 절감

참고: 추론 게이트웨이 & Cascade Routing


패턴 2: SageMaker 학습 + EKS 서빙

사용 시점: 커스텀 모델을 학습하고, 추론 비용을 최소화하려는 경우

핵심 가치: SageMaker의 관리형 학습 환경 + EKS의 비용 효율적 서빙

참고: SageMaker-EKS 통합


패턴 3: AgentCore + 자체 모델

사용 시점: Agent 런타임은 서버리스로 운영하되, 특정 도메인 모델은 자체 호스팅하려는 경우

핵심 가치: AgentCore의 서버리스 운영성 + 커스텀 모델의 도메인 정확도

참고: AWS Native 플랫폼


패턴 4: Full Stack (SageMaker + Bedrock + EKS)

가장 복잡하지만 최대 유연성을 제공하는 패턴입니다:

  • 데이터 & 학습: SageMaker Unified Studio + Pipelines
  • 프로덕션 추론: Bedrock API (고신뢰 작업) + EKS vLLM (고볼륨 작업)
  • Agent 런타임: AgentCore (서버리스) + Kagent (Kubernetes 네이티브)
  • Observability: CloudWatch (매니지드) + Langfuse (자체 호스팅)

이 패턴은 대규모 엔터프라이즈에서 팀별로 다른 요구사항을 충족하기 위해 선택합니다. 아키텍처 복잡도가 높으므로, 명확한 운영 책임 경계와 서비스 카탈로그가 필수입니다.

참고: 하이브리드 아키텍처의 기술적 구현은 SageMaker-EKS 통합을 참고하세요.


비용 시뮬레이션 요약

월 추론 볼륨에 따른 최적 옵션과 예상 비용입니다.

월 추론 볼륨최적 옵션예상 월 비용비고
~10만 건Bedrock API~$300-500GPU 관리 불필요, 가장 빠른 시작
~50만 건Bedrock + Cascade~$800-1,200SLM으로 단순 요청 분리 시작
~150만 건하이브리드 전환점~$2,500-3,500자체 호스팅 손익분기 근접
~500만 건+EKS 자체 호스팅~$3,500-5,000Spot + Cascade로 60%+ 절감
상세 비용 분석

구체적인 인스턴스 비용, Spot 절감률, Cascade Routing 효과에 대한 상세 분석은 코딩 도구 비용 분석을 참고하세요.


고객 Discovery 체크리스트

고객 미팅에서 최적 접근을 파악하기 위한 10가지 핵심 질문입니다.

  1. 현재 AI/ML 워크로드를 운영하고 있습니까? → 성숙도 레벨 판단
  2. 월간 추론 요청 규모는 어느 정도입니까? → 비용 최적화 경로
  3. Open Weight 모델 자체 호스팅이 필요합니까? → EKS 필요성
  4. 데이터 주권 또는 VPC 격리 요구사항이 있습니까? → 자체 호스팅/하이브리드
  5. 팀 내 Kubernetes 운영 경험이 있습니까? → 운영 부담 평가
  6. ML 학습과 데이터 엔지니어링을 함께 수행합니까? → SageMaker Unified Studio
  7. 월 예산 범위는 어느 정도입니까? → 비용 구조 매칭
  8. 프로덕션 배포 목표 시점은 언제입니까? → Time-to-Value 경로
  9. 멀티클라우드 또는 온프레미스 하이브리드 요구가 있습니까? → EKS Hybrid Nodes
  10. 현재 사용 중인 AWS 서비스는 무엇입니까? → 기존 투자 활용

참고 자료

공식 문서

논문 / 기술 블로그

관련 문서 (내부)