월요일, 10월 20, 2025

macOS M2에 MLX + Llama 3.2 3B 설치 및 실행 가이드

 

1️⃣ 환경 준비

  1. Homebrew로 Python 설치 (권장)
    macOS 기본 Python은 제한적이므로 Python 3.12 설치 권장
    brew install python@3.12
  2. 가상환경 생성 및 활성화
    python3.12 -m venv ~/llama32_3b_env
    source ~/llama32_3b_env/bin/activate

2️⃣ MLX 설치

pip install --upgrade pip
pip install mlx
pip install mlx-lm
MLX는 Llama 모델을 쉽게 불러올 수 있는 Python 패키지입니다.

3️⃣ Hugging Face 로그인 및 토큰 설정

  1. Hugging Face 사이트에서 Access Token 생성 (Fine-grained, 모델 읽기 권한)
    - 이름: 예시 llama_local_use
    - 권한: Read access to all public gated repos you can access 정도면 충분
  2. MLX에서 토큰 저장
    huggingface-cli login
    - 토큰 입력
    - "Add token as git credential?" → n (No)

로그인 성공 시 토큰이 ~/.cache/huggingface/token에 저장됩니다.

4️⃣ Llama 3.2 모델 실행(자동 다운로드)

4-1. 텍스트 생성

ppython -m mlx_lm generate \
  --model meta-llama/Llama-3.2-3B-Instruct \
  --prompt "Hello, how are you?" \
  --max-tokens 300 \
  --temp 0.7

4-2. 대화형 모드

python -m mlx_lm.chat --model meta-llama/Llama-3.2-3B-Instruct

모델이 로컬에 없으면 자동 다운로드되며, 이미 다운로드되어 있으면 바로 실행됩니다.

5️⃣ 실행 최적화 팁 (3B 모델 기준)

  • --max_new_tokens 300 → 생성 길이 늘리기
  • --temperature 0.7 → 답변 다양성 조절

6️⃣ 자동 실행용 Bash 스크립트 예시

#!/bin/bash

# 3B 모델용 가상환경 경로
VENV_PATH="$HOME/llama32_3b_env"

# 가상환경 활성화
source "$VENV_PATH/bin/activate"

# 사용자 프롬프트 인자 확인
PROMPT=${1:-"Hello, how are you?"}

# 모델 실행
python -m mlx_lm generate \
  --model meta-llama/Llama-3.2-3B-Instruct \
  --prompt "$PROMPT" \
  --max-tokens 800 \
  --temp 0.7

사용 방법:

chmod +x run_llama32_3B.sh
./run_llama32_3B.sh "자바스크립트 기본 문법 설명해줘"


댓글 없음: