1️⃣ 환경 준비
- Homebrew로 Python 설치 (권장)
macOS 기본 Python은 제한적이므로 Python 3.12 설치 권장
brew install python@3.12 - 가상환경 생성 및 활성화
python3.12 -m venv ~/llama32_mlx_env
source ~/llama32_mlx_env/bin/activate
2️⃣ MLX 설치
pip install --upgrade pip
pip install mlx
MLX는 Llama 모델을 쉽게 불러올 수 있는 Python 패키지입니다.
3️⃣ Hugging Face 로그인 및 토큰 설정
- Hugging Face 사이트에서 Access Token 생성 (Fine-grained, 모델 읽기 권한)
- 이름: 예시llama_local_use
- 권한: Read access to all public gated repos you can access 정도면 충분 - MLX에서 토큰 저장
huggingface-cli login
- 토큰 입력
- "Add token as git credential?" → n (No)
로그인 성공 시 토큰이 ~/.cache/huggingface/token에 저장됩니다.
4️⃣ Llama 3.2 모델 실행
4-1. 텍스트 생성
python -m mlx_lm.generate --model meta-llama/Llama-3.2-1B-Instruct --prompt "Hello, how are you?"
4-2. 대화형 모드
python -m mlx_lm.chat --model meta-llama/Llama-3.2-1B-Instruct
모델이 로컬에 없으면 자동 다운로드되며, 이미 다운로드되어 있으면 바로 실행됩니다.
5️⃣ 실행 최적화 팁 (1B 모델 기준)
--max_new_tokens 300→ 생성 길이 늘리기--temperature 0.7→ 답변 다양성 조절- 1B 모델은 복잡한 코드 생성, 번역, 긴 설명에는 한계가 있으므로 필요 시 7B 이상 모델 사용 권장
6️⃣ 자동 실행용 Bash 스크립트 예시
#!/bin/bash
VENV_PATH="$HOME/llama32_mlx_env"
source "$VENV_PATH/bin/activate"
PROMPT=${1:-"Hello, how are you?"}
python -m mlx_lm.generate --model meta-llama/Llama-3.2-1B-Instruct --prompt "$PROMPT"
사용 방법:
chmod +x run_llama32.sh
./run_llama32.sh "자바스크립트 기본 문법 설명해줘"
이미 다운로드된 모델이면 바로 실행됩니다.
댓글 없음:
댓글 쓰기