화면을 이해하고 행동하는 AI - GUI Agent 개발기
if kakao · YouTube
소개
if(kakao)25 멀티모달 언어모델을 활용해 브라우저 화면을 이해하고 자동으로 조작하는 에이전트 모델의 개발 과정을 소개합니다. #TECH #AI #Multimodal 카카오에서 VLM 기반 멀티모달 모델을 연구·개발하고 있는 기대환(dion.g)입니다. 카카오에서 VLM 기반 멀티모달 모델을 연구·개발하고 있는 홍은빈(erin.hh)입니다. 발표자료 보기 📍https://if.kakao.com/2025/session?sessionId=51 📍if.kakao.com if(kakao)25 홈페이지 : https://if.kakao.com/2025 #카카오 #kakao #이프카카오25
유사한 리소스
카카오톡 AI 에이전트를 위한 온디바이스 모델 최적화 및 적용
if kakao · YouTube
눈으로 보고, 귀로 듣고, 입으로 말하는 AI – 통합 멀티모달 언어모델 Kanana-o 개발기
if kakao · YouTube
AI 플랫폼 하드웨어부터 코드까지: GPU, LLMOps, Agentic Coding으로 완성하는 AI 플랫폼
if kakao · YouTube
All About LLM: 카카오 AI메이트, 학습부터 서빙까지의 모든 것
if kakao · YouTube
사용자 발화에서 응답까지: 그래프 기반 에이전트로 동작하는 AI 서비스
if kakao · YouTube
카나나 앱 메이트 개발기
if kakao · YouTube