[팀네이버 컨퍼런스 DAN25] MLXP: GPU 효율화를 선도하는 대규모 MLOps 플랫폼
DAN 2025 · YouTube
소개
[팀네이버 컨퍼런스 DAN25] MLXP: GPU 효율화를 선도하는 대규모 MLOps 플랫폼 본 세션에서는 Kubernetes 기반 MLOps 플랫폼을 전사적으로 운영한 경험을 바탕으로 효율적인 GPU 자원 운영을 위한 쿼터 할당 시스템, 스케줄링 전략, 그리고 SRE 관점의 실전 사례를 공유합니다. 목차 1. 팀네이버 GPU 효율화를 위한 MLXP 멀티테넌트 클러스터 - 한정된 GPU 자원 운영의 한계 - Kubernetes 기반 쿼터 시스템 아키텍처 - GPU 운영 효율화를 위한 할당·회수 정책 및 자동화 전략 2. GPU 활용 극대화를 위한 스케줄링 전략과 구현 - 자원 파편화 문제 및 고도화된 스케줄러의 필요성 (feat. Volcano) - Distributed Bin-packing 알고리즘 - 분산 학습 및 개발용 Specialized Node Pool 구성 - Workload Category별 Preemption 전...
유사한 리소스
[팀네이버 컨퍼런스 DAN25] 메신저 속 AI 오퍼레이터: LLM 기반 ChatOps 도구와 함께하는 팀네이버 SRE
DAN 2025 · YouTube
ARC로 확장가능한 GPU 서비스 개발 인프라 구축하기
엔지니어링데이 2025 · YouTube
Ray를 활용한 GPU Util 100% MLOps: 배치처리부터 모델 서빙까지
엔지니어링데이 2025 · YouTube
Kubernetes GPU 클러스터에서 AI 서비스 오토스케일링하기
엔지니어링데이 2025 · YouTube
대규모 AI 서비스 운영을 위한 Kubernetes GPU 클러스터 도입기
엔지니어링데이 2025 · YouTube
토스ㅣSLASH 24 - Kubernetes CPU 알뜰하게 사용하기
SLASH · YouTube