레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드
엔지니어링데이 2025 · YouTube
소개
네이버 사내 기술 교류 행사인 NAVER ENGINEERING DAY 2025(5월)에서 발표되었던 세션을 공개합니다. [발표 내용] 이 세션에서는 BERT기반 모델인 SPLADE모델의 대규모 실시간 서비스를 위한 최적화 방법에 대해서 이야기 합니다. 세상에서 가장 빠른 BertTokenizer 구현체인 FlashTokenizer 의 개발 배경과 성능에 대해 소개합니다. [강의 대상] 실시간 서빙을 위한 모델 추론 최적화가 필요하신 분들 [목차] - Introduction - Model Simplify - Inference Optimization(basic) - Postprocess Optimization - Preprocess Optimization - Inference Optimization(advanced) - Service
유사한 리소스
Preview AI_1 @if(kakao)2021
if kakao · YouTube
Preview Data @if(kakao)2021
if kakao · YouTube
Ray를 활용한 GPU Util 100% MLOps: 배치처리부터 모델 서빙까지
엔지니어링데이 2025 · YouTube
Kubernetes GPU 클러스터에서 AI 서비스 오토스케일링하기
엔지니어링데이 2025 · YouTube
대규모 언어모델 너도 나도 업무에 사용해보자: To Beginner - 이주성_NEDAY 23.07
엔지니어링데이 2025 · YouTube
AI 경량화: 더 빠르고 저렴한 AI 서비스 - 백동원_NE DAY 23. 10
엔지니어링데이 2025 · YouTube