Локальные модели — запуск LLM на своём железе без облака. Данные не уходят на сторону, запросы не упираются в лимиты и тарифы, всё работает офлайн.
Движки
llama.cpp
Низкоуровневый движок инференса на C/C++. Основа, на которой построено большинство остальных инструментов. Формат весов — GGUF.
brew install llama.cpp
llama-cli -hf ggml-org/Llama-3.2-1B-Instruct-GGUF -p "Привет"
- Максимум контроля: оффлоад слоёв на GPU, размер контекста, тип квантизации.
- Кроссплатформенно (CUDA, Metal, Vulkan, CPU).
llama-server— собственный HTTP-сервер с OpenAI-совместимым API.
MLX
Фреймворк Apple для машинного обучения на Apple Silicon. Использует unified memory и Metal — на Mac заметно быстрее и экономнее по памяти, чем альтернативы.
pip install mlx-lm
mlx_lm.generate --model mlx-community/Llama-3.2-3B-Instruct-4bit --prompt "Привет"
- Нативный под M-чипы, нет накладных расходов на копирование между CPU/GPU.
mlx-communityна Hugging Face — готовые квантизованные веса.- Можно не только инференс, но и дообучение (LoRA).
Интерфейсы к движкам
Ollama
Самый простой старт. Обёртка над llama.cpp с реестром моделей и HTTP API.
brew install ollama
ollama run llama3.2
- Реестр готовых моделей (
ollama pull ...), квантизация из коробки. - OpenAI-совместимый API на
localhost:11434— легко подключить к существующим клиентам. - Modelfile для кастомных system-prompt и параметров.
omlx
Как ollama, но поверх mlx: графический интерфейс и OpenAI-совместимый API.
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx
omlx start