맥북 AI 추론 속도 5배 높이는 기술 등장 - 웹어셈블리+Metal 제로카피 실험맥북이나 맥 스튜디오에서 로컬 AI를 돌려본 적 있으신가요? 그렇다면 이 이야기가 꽤 흥미로울 거예요.최근 한 개발자가 애플 실리콘에서 WebAssembly(웹어셈블리)와 GPU가 메모리를 직접 공유하는 기술을 구현하는 데 성공했어요. AI 대화 문맥(컨텍스트)을 저장했다가 복원하는 속도가 5.45배 빨라졌고, 대화 상태를 파일로 저장해 다른 기기로 이전하는 것도 가능해졌거든요.핵심만 먼저 (TL;DR)애플 실리콘의 통합 메모리(UMA) 덕분에 WebAssembly ↔ GPU 데이터 복사가 불필요해짐KV 캐시(AI 대화 문맥) 복원이 처음부터 재계산하는 것보다 5.45배 빠름M1 맥북에서 Llama 3.2 1B 모델 토큰당..