Llama 4 FM 서빙 벤치마크: GPU vs AWS Custom Silicon
vLLM 기반 Llama 4 모델 서빙에서 GPU 인스턴스(p5, p4d, g6e)와 AWS 커스텀 실리콘(Trainium2, Inferentia2)의 성능 및 비용 효율성 비교 벤치마 크
vLLM 기반 Llama 4 모델 서빙에서 GPU 인스턴스(p5, p4d, g6e)와 AWS 커스텀 실리콘(Trainium2, Inferentia2)의 성능 및 비용 효율성 비교 벤치마 크