본문으로 건너뛰기

14개 문서가 "monitoring" 태그에 분류되었습니다

모든 태그 보기

EKS Node Monitoring Agent

AWS EKS 클러스터의 노드 상태를 자동으로 감지하고 보고하는 Node Monitoring Agent의 아키텍처, 배포 전략, 제한사항, 모범 사례를 다룹니다.

Eval Gate · Registry · KPI

학습된 체크포인트의 Threshold 검증, kgateway 기반 Canary 점진 배포, MLflow Registry 버전 관리, 회귀 시 자동 롤백, 비용·품질 KPI 대시보드 구성.

NVIDIA GPU 스택

GPU Operator, DCGM, MIG, Time-Slicing, Dynamo의 아키텍처와 EKS 통합

관측성 & 모니터링

Agent 실행 추적·LLM 호출 모니터링·에이전트 수명주기 관측성을 다루는 문서 모음

운영 & 거버넌스

AI 플랫폼 모니터링, Observability, 평가, 컴플라이언스, 도메인 특화 운영 가이드

통합 & 비용

SageMaker 하이브리드 통합·Observability 스택 배포·코딩 도구 비용 분석