대규모 AI 서비스 운영을 위한 Kubernetes GPU 클러스터 도입기
엔지니어링데이 2025 · YouTube
소개
네이버 사내 기술 교류 행사인 NAVER ENGINEERING DAY 2024(10월)에서 발표되었던 세션을 공개합니다. [발표 내용] 스노우 AI 서비스의 운영 개선을 위해 기존 GPU 서버 인프라를 Kubernetes 클러스터로 이전하는 과정에서 맞닥뜨린 기술적 문제들과 해결 방법을 공유합니다. [대상] AI 서비스 운영을 위해 GPU 서버 기반의 Kubernetes 클러스터 도입을 고려하는 엔지니어 [목차] - SNOW, AI, GPU, 그리고 Kubernetes - GPU 인프라 이전을 위한 고려 사항 - Kubernetes와 유연한 GPU 자원 스케쥴링 - Kubernetes GPU 클러스터의 미래
유사한 리소스
[팀네이버 컨퍼런스 DAN25] MLXP: GPU 효율화를 선도하는 대규모 MLOps 플랫폼
DAN 2025 · YouTube
ARC로 확장가능한 GPU 서비스 개발 인프라 구축하기
엔지니어링데이 2025 · YouTube
Kubernetes GPU 클러스터에서 AI 서비스 오토스케일링하기
엔지니어링데이 2025 · YouTube
AI가 지켜보는 데이터 파이프라인: 노이즈 제거부터 장애 대응까지
엔지니어링데이 2025 · YouTube
서비스 장애를 예방하는 방법: Chaos Engineering
엔지니어링데이 2025 · YouTube
AI 경량화: 더 빠르고 저렴한 AI 서비스 - 백동원_NE DAY 23. 10
엔지니어링데이 2025 · YouTube