1️⃣ 환경 준비
- Homebrew로 Python 설치 (권장)
macOS 기본 Python은 제한적이므로 Python 3.12 설치 권장brew install python@3.12 - 가상환경 생성 및 활성화
python3.12 -m venv ~/llama32_3b_envsource ~/llama32_3b_env/bin/activate
2️⃣ MLX 설치
pip install --upgrade pip
pip install mlx
pip install mlx-lmMLX는 Llama 모델을 쉽게 불러올 수 있는 Python 패키지입니다.
3️⃣ Hugging Face 로그인 및 토큰 설정
- Hugging Face 사이트에서 Access Token 생성 (Fine-grained, 모델 읽기 권한)
- 이름: 예시llama_local_use
- 권한: Read access to all public gated repos you can access 정도면 충분 - MLX에서 토큰 저장
huggingface-cli login
- 토큰 입력
- "Add token as git credential?" → n (No)
로그인 성공 시 토큰이 ~/.cache/huggingface/token에 저장됩니다.
4️⃣ Llama 3.2 모델 실행(자동 다운로드)
4-1. 텍스트 생성
ppython -m mlx_lm generate \
--model meta-llama/Llama-3.2-3B-Instruct \
--prompt "Hello, how are you?" \
--max-tokens 300 \
--temp 0.74-2. 대화형 모드
python -m mlx_lm.chat --model meta-llama/Llama-3.2-3B-Instruct모델이 로컬에 없으면 자동 다운로드되며, 이미 다운로드되어 있으면 바로 실행됩니다.
5️⃣ 실행 최적화 팁 (3B 모델 기준)
--max_new_tokens 300→ 생성 길이 늘리기--temperature 0.7→ 답변 다양성 조절
6️⃣ 자동 실행용 Bash 스크립트 예시
#!/bin/bash
# 3B 모델용 가상환경 경로
VENV_PATH="$HOME/llama32_3b_env"
# 가상환경 활성화
source "$VENV_PATH/bin/activate"
# 사용자 프롬프트 인자 확인
PROMPT=${1:-"Hello, how are you?"}
# 모델 실행
python -m mlx_lm generate \
--model meta-llama/Llama-3.2-3B-Instruct \
--prompt "$PROMPT" \
--max-tokens 800 \
--temp 0.7
사용 방법:
chmod +x run_llama32_3B.sh
./run_llama32_3B.sh "자바스크립트 기본 문법 설명해줘"