🎤 컨퍼런스

레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드

엔지니어링데이 2025 · YouTube

소개

네이버 사내 기술 교류 행사인 NAVER ENGINEERING DAY 2025(5월)에서 발표되었던 세션을 공개합니다. [발표 내용] 이 세션에서는 BERT기반 모델인 SPLADE모델의 대규모 실시간 서비스를 위한 최적화 방법에 대해서 이야기 합니다. 세상에서 가장 빠른 BertTokenizer 구현체인 FlashTokenizer 의 개발 배경과 성능에 대해 소개합니다. [강의 대상] 실시간 서빙을 위한 모델 추론 최적화가 필요하신 분들 [목차] - Introduction - Model Simplify - Inference Optimization(basic) - Postprocess Optimization - Preprocess Optimization - Inference Optimization(advanced) - Service

원본 보기