본문 바로가기

Ai 취미생활

맥미니 M4에 OpenClaw + Gemma 4 무료 로컬 AI 설치하기 — Ollama 연동 완전 가이드

 

 

OpenClaw를 맥미니에 세팅하고 나니 자연스럽게 드는 생각이 있었습니다. "API 비용 없이, 완전히 무료로 돌릴 수는 없을까?" 그 답이 바로 Gemma 4 + Ollama 조합입니다. 구글이 무료로 공개한 Gemma 4 모델을 맥미니에서 직접 실행하고, OpenClaw의 두뇌로 연결하는 방법을 기록으로 남깁니다.

 

📌 이 글에서 알 수 있는 것
  • Gemma 4 모델 4종(E2B·E4B·26B·31B)의 크기별 스펙과 맥미니 메모리별 추천 조합
  • Ollama 설치 → Gemma 4 다운로드 → OpenClaw 연결까지 복사-붙여넣기로 따라 할 수 있는 단계별 가이드
  • 맥미니에서 부팅 시 자동 실행·모델 상시 로드로 24시간 유지하는 최적화 설정

🤖 Gemma 4란? — 구글이 무료로 공개한 로컬 AI 모델

Gemma 4는 구글이 2026년 공개한 오픈소스 멀티모달 AI 모델입니다. 텍스트뿐 아니라 이미지·오디오도 처리할 수 있으며, 상업적 사용도 무료로 허용됩니다. Anthropic Claude API처럼 사용량에 따라 비용이 청구되는 게 아니라, 한 번 다운로드하면 인터넷 없이도 완전 무료로 로컬에서 실행됩니다.

Claude API vs Gemma 4 로컬 비교
  • Claude API — 뛰어난 성능, 사용량 과금 (월 $5~수십 달러), 인터넷 필요
  • Gemma 4 로컬 — 무료, 완전한 프라이버시, 인터넷 불필요, 맥미니 메모리 소비

📊 Gemma 4 모델 크기 완전 비교 — 맥미니 메모리별 추천

Gemma 4는 총 4가지 크기로 제공됩니다. 'E'는 Effective(유효 파라미터)의 약자로, Per-Layer Embedding 기술로 작은 크기에 성능을 극대화한 모델입니다.

모델 파라미터 구조 컨텍스트 필요 RAM 맥미니 추천 사양
E2B 2.3B (유효)
5.1B (전체)
Dense
35레이어
128K ~5GB
(4-bit 기준)
M4 16GB 이상
E4B ~4B (유효) Dense
멀티모달
128K ~5GB
(4-bit 기준)
M4 16GB 이상
26B A4B 25.2B (전체)
3.8B (활성)
MoE
30레이어
256K ~18GB
(4-bit 기준)
M4 24GB (빡빡)
M4 Pro 48GB 권장
31B 30.7B Dense
60레이어
256K ~24GB
(4-bit 기준)
M4 Pro 48GB 이상
🎯 맥미니 M4 메모리별 한눈에 추천
  • M4 16GBgemma4:e4b 추천 (5GB 사용, 여유 있음)
  • M4 24GBgemma4:e4b (여유) 또는 gemma4:26b (약간 빡빡)
  • M4 Pro 48GBgemma4:31b (풀 성능, 여유 있음)

※ MoE(Mixture-of-Experts): 추론 시 전체 파라미터 중 일부만 활성화하는 구조. 26B 전체 중 3.8B만 실제 작동 → 속도와 메모리 효율 모두 우수.

📋 설치 전 준비물

  • 맥미니 M4 (macOS 13 Ventura 이상) — 메모리 16GB 이상 권장
  • OpenClaw 설치 완료 상태 (미설치 시 이전 글 참고)
  • 터미널 — Spotlight(⌘+Space) → "Terminal"
  • 여유 저장 공간 — E4B: 약 5GB / 26B: 약 17GB / 31B: 약 25GB
  • 인터넷 연결 — 모델 최초 다운로드 시에만 필요 (이후 오프라인 가능)

🚀 STEP 1 — Ollama 설치

Ollama는 Gemma 4 같은 오픈소스 AI 모델을 맥미니에서 쉽게 실행하게 해주는 런타임입니다. OpenClaw가 Gemma 4와 대화하려면 이 Ollama가 중간에서 서버 역할을 합니다.

① 터미널에서 아래 명령어 실행

curl -fsSL https://ollama.ai/install.sh | sh

또는 ollama.com/download 에서 Mac 버전 앱을 직접 다운로드해도 됩니다.

② 설치 확인

ollama --version

→ 버전 번호가 출력되면 성공.

🚀 STEP 2 — Gemma 4 모델 다운로드

맥미니 메모리에 맞는 모델 하나를 골라 아래 명령어를 실행하세요. 최초 1회만 다운로드하면 이후에는 오프라인으로도 사용 가능합니다.

M4 16GB — E4B 권장 (약 5GB 다운로드)

ollama pull gemma4:e4b

M4 16GB — 더 가벼운 E2B (약 3GB 다운로드)

ollama pull gemma4:e2b

M4 24GB / M4 Pro 48GB — 26B MoE (약 17GB 다운로드)

ollama pull gemma4:26b

M4 Pro 48GB — 31B Dense 풀 성능 (약 25GB 다운로드)

ollama pull gemma4:31b

다운로드 후 정상 동작 확인 (간단한 테스트)

ollama run gemma4:e4b "안녕, 잘 작동하고 있어?"

→ 터미널에서 바로 Gemma 4의 답변이 출력되면 정상입니다. Ctrl+D 로 종료.

🚀 STEP 3 — Ollama 서버 시작

OpenClaw이 Gemma 4와 통신하려면 Ollama가 백그라운드에서 API 서버로 실행 중이어야 합니다.

ollama serve

이 명령을 실행하면 http://localhost:11434 에서 API 서버가 열립니다. 터미널 창은 이 상태로 유지하거나, 아래 백그라운드 명령으로 실행해도 됩니다.

nohup ollama serve >/dev/null 2>&1 &

→ 백그라운드에서 실행되어 터미널을 닫아도 서버가 유지됩니다.

🚀 STEP 4 — OpenClaw에서 Gemma 4 연결 (핵심)

OpenClaw 설정 파일을 열어 AI 공급자를 Ollama로 바꿔줍니다.

① 설정 파일 열기

nano ~/.openclaw/openclaw.json

② AI 공급자(provider) 섹션을 아래처럼 수정

"provider": {
  "type": "ollama",
  "baseUrl": "http://localhost:11434",
  "model": "gemma4:e4b"
}

모델 이름은 다운로드한 것에 맞게 변경하세요:

  • gemma4:e2b / gemma4:e4b / gemma4:26b / gemma4:31b

③ 저장 후 OpenClaw 재시작

openclaw restart

nano 저장: Ctrl+OEnterCtrl+X

💡 주의: Ollama 연결 시 URL 끝에 /v1을 붙이지 마세요. OpenAI 호환 엔드포인트가 아닌 네이티브 Ollama API를 사용합니다.
✅ 올바른 형태: http://localhost:11434
❌ 잘못된 형태: http://localhost:11434/v1

✅ STEP 5 — 텔레그램으로 첫 메시지 테스트

텔레그램에서 OpenClaw 봇에 메시지를 보내 Gemma 4가 잘 응답하는지 확인합니다.

테스트 메시지 예시

  • "안녕! 지금 어떤 모델이야?"
  • "오늘 날씨 어때? (인터넷 없이 로컬이라 모른다고 하면 정상!)"
  • "간단한 파이썬 코드 for문 예시 하나 만들어줘"

응답이 오면 Gemma 4 ↔ Ollama ↔ OpenClaw ↔ 텔레그램 연결이 모두 완료된 것입니다. 🎉

💡 맥미니 24시간 운영 최적화 설정

① 모델 항상 메모리에 올려두기 (응답 속도 대폭 향상)

echo 'export OLLAMA_KEEP_ALIVE="-1"' >> ~/.zshrc && source ~/.zshrc

→ 기본값은 5분 후 모델을 메모리에서 내림. -1 설정 시 항상 로드 상태 유지 (응답 지연 없음)

② 컨텍스트 창 크기 늘리기 (긴 대화 가능)

echo 'export OLLAMA_CONTEXT_LENGTH=32768' >> ~/.zshrc && source ~/.zshrc

→ 기본 2048 토큰에서 32K로 확장. 메모리 여유가 있다면 더 높여도 됩니다.

③ Ollama 부팅 시 자동 시작 등록

# 시스템 설정 → 일반 → 로그인 항목 → Ollama 앱 추가

→ 맥미니 재시작 후에도 Ollama가 자동으로 실행됩니다.

④ 현재 로드된 모델 확인

ollama ps

→ 현재 메모리에 올라와 있는 모델과 크기 확인 가능

📌 Ollama 자주 쓰는 명령어 모음

명령어 기능
ollama list 다운로드된 모델 목록 확인
ollama ps 현재 메모리에 로드된 모델 확인
ollama run gemma4:e4b 터미널에서 직접 Gemma 4와 대화
ollama pull gemma4:e4b 모델 최신 버전으로 업데이트
ollama rm gemma4:e2b 모델 삭제 (용량 확보)
ollama stop gemma4:e4b 메모리에서 모델 내리기

⚠️ 알아두면 좋은 주의사항

  • M4 16GB + 26B 조합은 비권장 — 맥OS가 기본으로 약 3~5GB를 사용하므로, 26B(~18GB) 로드 시 스왑 메모리가 발생해 응답이 느려질 수 있습니다. 16GB라면 E4B가 최선입니다.
  • 첫 응답이 느린 건 정상 — OLLAMA_KEEP_ALIVE 미설정 상태에서는 첫 메시지 시 모델 로드에 수십 초가 걸립니다. STEP 5의 최적화 설정 후 해결됩니다.
  • Gemma 4는 인터넷 검색 불가 — 로컬 모델이므로 실시간 웹 정보는 모릅니다. 최신 뉴스·주가 조회 등이 필요하면 Claude API 연결을 병행하거나 OpenClaw의 웹 검색 플러그인을 추가해야 합니다.
반응형