🎤 컨퍼런스

[팀네이버 컨퍼런스 DAN25] MLXP: GPU 효율화를 선도하는 대규모 MLOps 플랫폼

DAN 2025 · YouTube

소개

[팀네이버 컨퍼런스 DAN25] MLXP: GPU 효율화를 선도하는 대규모 MLOps 플랫폼 본 세션에서는 Kubernetes 기반 MLOps 플랫폼을 전사적으로 운영한 경험을 바탕으로 효율적인 GPU 자원 운영을 위한 쿼터 할당 시스템, 스케줄링 전략, 그리고 SRE 관점의 실전 사례를 공유합니다. 목차 1. 팀네이버 GPU 효율화를 위한 MLXP 멀티테넌트 클러스터 - 한정된 GPU 자원 운영의 한계 - Kubernetes 기반 쿼터 시스템 아키텍처 - GPU 운영 효율화를 위한 할당·회수 정책 및 자동화 전략 2. GPU 활용 극대화를 위한 스케줄링 전략과 구현 - 자원 파편화 문제 및 고도화된 스케줄러의 필요성 (feat. Volcano) - Distributed Bin-packing 알고리즘 - 분산 학습 및 개발용 Specialized Node Pool 구성 - Workload Category별 Preemption 전...

원본 보기