Ubuntu에서 Ollama를 운영할 때는 보통 설치 → systemd 서비스 확인 → 모델 pull → GPU/원격접속 설정 → 모니터링/업데이트 순서로 관리하면 됩니다. 공식 Linux 문서도 systemd 서비스 파일을 사용하는 운영 방식을 안내합니다.
기본 설치
- 설치는 공식 스크립트로 진행합니다:
curl -fsSL https://ollama.com/install.sh | sh또는 Ubuntu용 안내에 맞는 설치 방법을 사용합니다. 설치가 끝나면ollama.service가 만들어지고 자동 시작됩니다. docs.ollama+1 - 상태 확인은
systemctl status ollama로 하고, 실행 중인지ss -napt | grep 11434또는curl http://127.0.0.1:11434/api/tags로 확인합니다. 기본적으로 Ollama API는127.0.0.1:11434에서 열립니다. server-world
서비스 운영
ollama serve는 수동 실행,systemd는 상시 운영에 적합합니다. 터미널을 닫아도 계속 돌아가게 하려면 systemd 서비스로 운용하는 것이 정석입니다.reddit+1- 재시작은
sudo systemctl restart ollama, 중지는sudo systemctl stop ollama, 자동 시작은sudo systemctl enable ollama로 관리합니다.server-world+1
모델 관리
- 모델은
ollama pull llama3.1:8b,ollama pull qwen3:8b처럼 내려받고,ollama list로 확인합니다. 이후ollama run 모델명으로 테스트합니다.docs.ollama - 실제 서비스에서는 자주 쓰는 모델만 유지하고, 나머지는 지우거나 교체해 디스크와 메모리를 아끼는 편이 좋습니다.docs.ollama
GPU 설정
- Linux에서 Ollama가 systemd로 실행될 때는 환경변수를 서비스 오버라이드로 넣는 방식이 권장됩니다. 예를 들어
sudo systemctl edit ollama.service후[Service]에Environment="OLLAMA_HOST=0.0.0.0:11434"같은 식으로 추가합니다.mostlytech+1 - NVIDIA/AMD/Intel GPU 활용 여부는 드라이버와 환경에 따라 달라지며, GPU가 없으면 CPU-only로 동작합니다. Ubuntu 안내에서도 GPU가 없을 경우 CPU 모드로 실행된다고 설명합니다.server-world
원격 접속
- 다른 PC에서 쓰려면
OLLAMA_HOST=0.0.0.0:11434로 바인딩을 바꾸고,ufw에서 포트를 열어야 합니다. 예:sudo ufw allow 11434/tcp또는 LAN만 허용하는 규칙을 쓰는 것이 안전합니다.glukhov+1 - 단, Ollama는 기본적으로 인증/레이트리밋이 없으므로 공개 인터넷에 직접 노출하면 안 됩니다. 가능하면 Tailscale/WireGuard/SSH 터널 같은 방식으로 제한하는 것이 좋습니다.serverman.co+1
운영 팁
- 안정성 우선이면 systemd 상시 구동 + LAN/VPN 제한 + 필요한 모델만 pull이 가장 깔끔합니다.glukhov+1
- 성능 우선이면 GPU 드라이버를 먼저 잡고, 큰 모델 대신
7B~8B급 모델로 시작하는 편이 관리가 쉽습니다.mostlytech+1
가능합니다. 가장 쉬운 방법은 OLLAMA_KEEP_ALIVE=-1로 서버를 띄워서, 현재 많이 쓰는 1개 모델만 메모리에 계속 유지하는 것입니다. Ollama는 기본적으로 모델을 약 5분 후 언로드하지만, OLLAMA_KEEP_ALIVE나 요청별 keep_alive로 유지 시간을 조절할 수 있습니다.insiderllm+1
1개 모델만 상시 유지하는 방법
방법 A: 서버 전체에 적용
ollama.service에 환경변수를 넣습니다.
bashsudo systemctl edit ollama.service
아래 추가:
text[Service]
Environment="OLLAMA_KEEP_ALIVE=-1"
적용:
bashsudo systemctl daemon-reload
sudo systemctl restart ollama
이렇게 하면 서버가 실행되는 동안 모델이 계속 메모리에 남아 있게 됩니다.docs.ollama+1
방법 B: 특정 모델만 유지
한 번만 호출해서 그 모델을 계속 유지시킬 수도 있습니다.
bashcurl http://localhost:11434/api/generate -d '{
"model": "qwen3:8b",
"prompt": "keep alive",
"keep_alive": -1
}'
이 방식은 그 요청으로 활성화한 1개 모델만 오래 붙잡는 용도로 쓰기 좋습니다.insiderllm+1
3개 모델 중 1개만 상시 운영할 때
Ollama는 기본적으로 현재 메모리에 올라간 모델이 있으면 그 모델을 유지하고, 다른 모델을 쓰면 그쪽으로 바뀌면서 메모리를 다시 사용합니다. 그래서 실무적으로는:
- 상시 쓸 1개 모델만
keep_alive=-1 - 나머지 2개는 필요할 때만 호출
- 필요 없는 모델은
ollama stop 모델명으로 내리기
이 방식이 가장 단순합니다.ollama.apidog+2
추천 운영 방식
항상 붙여둘 모델
- 캘린더 CRUD, 음성 명령 처리용이면 가장 자주 쓰는 1개 모델만 상시 유지하세요.
- 예:
qwen3:8b또는glm-4.7-flash같은 주력 모델 1개.ollama+1
나머지 모델
- 테스트용, 백업용, 고성능 모델은 필요할 때만 로드
- 사용 후
ollama stop 모델명으로 정리
bashollama stop qwen3:8b
확인 명령
현재 어떤 모델이 올라와 있는지 보려면:
bashollama ps
이걸로 실제로 메모리에 상주 중인 모델을 확인할 수 있습니다.
Ollama LLM을 별도 서버에 설치하고 OpenClaw에서 원격으로 사용하는 방법은 서버에서 Ollama를 외부 접근 가능하게 설정한 후, OpenClaw 구성 파일에서 서버 주소를 지정하는 것입니다. 이 과정은 Ubuntu나 Linux 서버에서 주로 적용되며, 보안 주의가 필요합니다.
Ollama 서버 설정 (별도 서버)
- 서버(Linux/Ubuntu)에 Ollama 설치:
curl -fsSL https://ollama.com/install.sh | sh실행.recording-it.tistory - 원격 접근 허용:
OLLAMA_HOST=0.0.0.0:11434환경변수 설정.
systemd 서비스 편집 (systemctl edit ollama.service) 후[Service] Environment="OLLAMA_HOST=0.0.0.0"추가하고 재시작 (sudo systemctl daemon-reload && sudo systemctl restart ollama). - 모델 다운로드:
ollama pull llama3.1:8b(또는 원하는 모델, 추천 8B). - 방화벽 확인:
sudo ufw allow 11434로 포트 개방, 서버 IP 확인 (예: 192.168.x.x).blog.naver
OpenClaw 클라이언트 설정 (다른 컴퓨터)
- OpenClaw 설치:
npm install -g openclaw(Node.js 필요).recording-it.tistory - 온보딩 실행:
openclaw명령으로 마법사 실행, Quick Start 선택 후 Ollama provider 선택.recording-it.tistory - 구성 파일 수정 (
~/.openclaw/openclaw.json또는 해당 경로):
text{ "agent": { "provider": "ollama", "model": "llama3.1:8b", "baseUrl": "http://서버IP:11434" } }서버 IP를 실제 주소로 변경.open-clawai+1 - 재시작:
openclaw restart또는systemctl restart openclaw-gateway.recording-it.tistory
테스트 및 주의사항
다른 컴퓨터에서 curl http://서버IP:11434/api/tags로 Ollama 연결 확인.growth-coder.tistory
OpenClaw에서 Telegram 등 앱 연동 후 “hello” 테스트. GPU 서버 추천, 보안 위해 VPN/SSH 터널 사용.fdcservers+1
