장림의 수다: 2025

1️⃣ 환경 준비

Homebrew로 Python 설치 (권장)
macOS 기본 Python은 제한적이므로 Python 3.12 설치 권장
brew install python@3.12
가상환경 생성 및 활성화
python3.12 -m venv ~/llama32_3b_env
source ~/llama32_3b_env/bin/activate

2️⃣ MLX 설치

pip install --upgrade pip
pip install mlx
pip install mlx-lm

MLX는 Llama 모델을 쉽게 불러올 수 있는 Python 패키지입니다.

3️⃣ Hugging Face 로그인 및 토큰 설정

Hugging Face 사이트에서 Access Token 생성 (Fine-grained, 모델 읽기 권한)
- 이름: 예시 llama_local_use
- 권한: Read access to all public gated repos you can access 정도면 충분
MLX에서 토큰 저장
huggingface-cli login
- 토큰 입력
- "Add token as git credential?" → n (No)

로그인 성공 시 토큰이 ~/.cache/huggingface/token에 저장됩니다.

4️⃣ Llama 3.2 모델 실행(자동 다운로드)

4-1. 텍스트 생성

ppython -m mlx_lm generate \
  --model meta-llama/Llama-3.2-3B-Instruct \
  --prompt "Hello, how are you?" \
  --max-tokens 300 \
  --temp 0.7

4-2. 대화형 모드

python -m mlx_lm.chat --model meta-llama/Llama-3.2-3B-Instruct

모델이 로컬에 없으면 자동 다운로드되며, 이미 다운로드되어 있으면 바로 실행됩니다.

5️⃣ 실행 최적화 팁 (3B 모델 기준)

--max_new_tokens 300 → 생성 길이 늘리기
--temperature 0.7 → 답변 다양성 조절

6️⃣ 자동 실행용 Bash 스크립트 예시

#!/bin/bash

# 3B 모델용 가상환경 경로
VENV_PATH="$HOME/llama32_3b_env"

# 가상환경 활성화
source "$VENV_PATH/bin/activate"

# 사용자 프롬프트 인자 확인
PROMPT=${1:-"Hello, how are you?"}

# 모델 실행
python -m mlx_lm generate \
  --model meta-llama/Llama-3.2-3B-Instruct \
  --prompt "$PROMPT" \
  --max-tokens 800 \
  --temp 0.7

사용 방법:

chmod +x run_llama32_3B.sh
./run_llama32_3B.sh "자바스크립트 기본 문법 설명해줘"

1️⃣ 환경 준비

Homebrew로 Python 설치 (권장)
macOS 기본 Python은 제한적이므로 Python 3.12 설치 권장
brew install python@3.12
가상환경 생성 및 활성화
python3.12 -m venv ~/llama32_mlx_env
source ~/llama32_mlx_env/bin/activate

2️⃣ MLX 설치

pip install --upgrade pip
pip install mlx

MLX는 Llama 모델을 쉽게 불러올 수 있는 Python 패키지입니다.

3️⃣ Hugging Face 로그인 및 토큰 설정

Hugging Face 사이트에서 Access Token 생성 (Fine-grained, 모델 읽기 권한)
- 이름: 예시 llama_local_use
- 권한: Read access to all public gated repos you can access 정도면 충분
MLX에서 토큰 저장
huggingface-cli login
- 토큰 입력
- "Add token as git credential?" → n (No)

로그인 성공 시 토큰이 ~/.cache/huggingface/token에 저장됩니다.

4️⃣ Llama 3.2 모델 실행

4-1. 텍스트 생성

python -m mlx_lm.generate --model meta-llama/Llama-3.2-1B-Instruct --prompt "Hello, how are you?"

4-2. 대화형 모드

python -m mlx_lm.chat --model meta-llama/Llama-3.2-1B-Instruct

모델이 로컬에 없으면 자동 다운로드되며, 이미 다운로드되어 있으면 바로 실행됩니다.

5️⃣ 실행 최적화 팁 (1B 모델 기준)

--max_new_tokens 300 → 생성 길이 늘리기
--temperature 0.7 → 답변 다양성 조절
1B 모델은 복잡한 코드 생성, 번역, 긴 설명에는 한계가 있으므로 필요 시 7B 이상 모델 사용 권장

6️⃣ 자동 실행용 Bash 스크립트 예시

#!/bin/bash
VENV_PATH="$HOME/llama32_mlx_env"
source "$VENV_PATH/bin/activate"
PROMPT=${1:-"Hello, how are you?"}
python -m mlx_lm.generate --model meta-llama/Llama-3.2-1B-Instruct --prompt "$PROMPT"

사용 방법:

chmod +x run_llama32.sh
./run_llama32.sh "자바스크립트 기본 문법 설명해줘"

이미 다운로드된 모델이면 바로 실행됩니다.

장림의 수다

월요일, 10월 20, 2025

macOS M2에 MLX + Llama 3.2 3B 설치 및 실행 가이드

1️⃣ 환경 준비

2️⃣ MLX 설치

3️⃣ Hugging Face 로그인 및 토큰 설정

4️⃣ Llama 3.2 모델 실행(자동 다운로드)

4-1. 텍스트 생성

4-2. 대화형 모드

5️⃣ 실행 최적화 팁 (3B 모델 기준)

6️⃣ 자동 실행용 Bash 스크립트 예시

macOS에 MLX + Llama 3.2 1B 설치 및 실행 가이드

1️⃣ 환경 준비

2️⃣ MLX 설치

3️⃣ Hugging Face 로그인 및 토큰 설정

4️⃣ Llama 3.2 모델 실행

4-1. 텍스트 생성

4-2. 대화형 모드

5️⃣ 실행 최적화 팁 (1B 모델 기준)

6️⃣ 자동 실행용 Bash 스크립트 예시

프로필

구글

블로그 보관함

BOOKS

LINKS

태그