노트북 로컬 LLM 구동 조건 — Llama·Gemma 실행 RAM·VRAM·NPU 가이드

인터넷 연결 없는 출장지에서 문서 요약과 코드 리뷰를 AI에게 맡길 수 있다면 어떨까. 로컬 LLM은 이를 가능하게 한다. 노트북 RAM과 GPU 스펙에 따라 어떤 모델을 얼마나 빠르게 실행할 수 있는지 결정된다. RAM 요구량과 GPU 가속 효과를 단계별로 정리한다.

로컬 LLM이란 무엇인가

로컬 LLM은 ChatGPT나 Claude 같은 클라우드 AI와 달리 노트북 자체에서 모델을 실행한다. 인터넷이 없어도 동작하고, 입력한 내용이 외부 서버로 전송되지 않는다. Hugging Face 공식 기준 2025년 주요 로컬 LLM으로는 Meta Llama 3 시리즈, Google Gemma 2, Mistral 7B, Qwen 2 등이 있다. 모두 무료로 내려받아 상업적 용도로도 활용 가능한 오픈소스 모델이다.

핵심 제약은 RAM이다. LLM 모델은 실행 중 모든 파라미터(가중치)를 메모리에 올려야 한다. 모델 파일 크기가 곧 최소 필요 RAM과 비례한다. 4bit 양자화로 압축하면 원본 대비 메모리 사용량이 약 75% 줄어 노트북에서도 실용적인 모델을 실행할 수 있다.

모델 크기별 RAM 요구량

모델4bit 양자화 RAM권장 RAM특징
Gemma 2 2B~3GB8GB가벼운 요약·번역 용도
Mistral 7B~4GB16GB코드·텍스트 생성 우수
Llama 3 8B~5GB16GB범용 대화·분석 우수
Gemma 2 9B~6GB16GB고품질 텍스트 생성
Llama 3.1 16B~10GB32GB고급 추론·긴 문서 처리
Llama 3 70B~42GB64GB+소비자 노트북에서 불가

GPU(VRAM) 가속의 효과

CPU만으로 Llama 3 8B를 실행하면 토큰 생성 속도가 1~2 tok/s 수준이다. NVIDIA RTX 4060 노트북(VRAM 8GB)으로 GPU 가속(CUDA)을 적용하면 12 tok/s로 8~12배 빠른 속도를 낸다(NVIDIA 공식). 사람이 읽는 속도(약 5 tok/s)보다 빠른 수준으로 실시간 대화가 자연스러워진다.

VRAM 용량도 중요하다. GPU로 모델을 실행하려면 모델 전체가 VRAM에 올라가야 한다. Llama 3 8B(4bit 양자화 5GB)는 VRAM 6~8GB에서 구동 가능하다. VRAM이 부족하면 모델이 분할되어 일부는 CPU RAM에서 처리해 속도가 낮아진다. 게이밍 vs 크리에이터 노트북 RTX 4060·4070 비교에서 VRAM 용량별 노트북 선택 기준을 확인할 수 있다.

NPU로 LLM을 돌릴 수 있을까

Copilot+ PC의 NPU(40 TOPS 이상)는 Microsoft Copilot 기능에 특화된 온디바이스 AI 가속 유닛이다. 범용 LLM 실행보다는 특정 Windows 기능(실시간 자막·번역·이미지 생성)에 최적화돼 있다. Ollama나 LM Studio로 실행하는 범용 LLM은 현재 NPU 대신 GPU·CPU를 사용한다. NPU를 직접 LLM 추론에 활용하는 오픈소스 지원은 2025년 기준 제한적이다.

Apple Silicon(M시리즈)은 통합 메모리 아키텍처로 CPU·GPU·NPU가 같은 메모리 풀을 공유하여 LLM 추론에서 효율적으로 동작한다. MacBook Pro M4 Pro(32GB 통합 메모리)에서 Llama 3 70B(4bit 양자화 42GB)를 제한적으로 실행하는 사례도 있다. 노트북 AI NPU 성능 비교 2025에서 NPU 성능 비교를 확인할 수 있다.

추천 실행 프레임워크 — Ollama vs LM Studio

Ollama는 터미널 명령어로 모델을 내려받고 실행할 수 있는 프레임워크다. Windows·macOS·Linux 모두 지원. ollama run llama3 한 줄로 모델 다운로드와 대화 시작이 가능하다. 개발자가 API로 로컬 LLM을 연동할 때도 Ollama가 편리하다.

LM Studio는 GUI 기반으로 모델 검색·다운로드·대화까지 그래픽 인터페이스에서 처리한다. LLM을 처음 시작하는 사용자에게 적합하다. 두 프레임워크 모두 무료이며 NVIDIA CUDA, Apple Metal 가속을 지원한다.

로컬 LLM 환경 구성 단계별 가이드

자주 묻는 질문

RAM 16GB 노트북에서 어떤 LLM을 실행할 수 있나요?
Llama 3 8B(4bit 양자화, 5GB)를 쾌적하게 실행할 수 있다. Mistral 7B, Gemma 2 9B도 동작한다. 70B 이상 모델은 16GB RAM으로 부족하다(Hugging Face 공식).
GPU가 없는 노트북에서도 LLM을 실행할 수 있나요?
CPU만으로도 실행 가능하나 토큰 생성 속도가 1~2 tok/s로 매우 느리다. RTX 4060 노트북 GPU(VRAM 8GB)를 사용하면 12 tok/s로 8~12배 빠르다(NVIDIA 공식). 실사용 체감 차이가 크다.
Ollama와 LM Studio 중 어떤 것을 사용해야 하나요?
Ollama는 터미널 명령어 방식으로 개발자 친화적이다. LM Studio는 GUI 인터페이스로 LLM 입문자에게 적합하다. 둘 다 무료이며 NVIDIA CUDA, Apple Metal 가속을 지원한다(Hugging Face 공식).

로컬 LLM 실행 가능 여부는 RAM 용량이 결정하고, 실용적인 속도는 VRAM이 결정한다. 핵심은 세 가지다. 첫째, 노트북 RAM의 50% 이하 크기 모델을 선택한다(16GB RAM → 8B 모델). 둘째, GPU(VRAM 6~8GB 이상)가 있으면 CPU 대비 8~12배 빠른 속도가 가능하다. 셋째, 4bit 양자화 모델을 선택하면 메모리 부담을 75% 줄이면서 품질 손실을 최소화한다. 메모리 대역폭이 LLM 추론 속도에 미치는 영향은 노트북 LPDDR5 vs LPDDR5x 성능 비교에서 확인할 수 있다.