grigory@ozhegov.name:~$ cd ~/заметки/AI/Local Models

Local Models

~$ cat .

Локальные модели — запуск LLM на своём железе без облака. Данные не уходят на сторону, запросы не упираются в лимиты и тарифы, всё работает офлайн.

Движки

llama.cpp

Низкоуровневый движок инференса на C/C++. Основа, на которой построено большинство остальных инструментов. Формат весов — GGUF.

brew install llama.cpp
llama-cli -hf ggml-org/Llama-3.2-1B-Instruct-GGUF -p "Привет"

Максимум контроля: оффлоад слоёв на GPU, размер контекста, тип квантизации.
Кроссплатформенно (CUDA, Metal, Vulkan, CPU).
llama-server — собственный HTTP-сервер с OpenAI-совместимым API.

MLX

Фреймворк Apple для машинного обучения на Apple Silicon. Использует unified memory и Metal — на Mac заметно быстрее и экономнее по памяти, чем альтернативы.

pip install mlx-lm
mlx_lm.generate --model mlx-community/Llama-3.2-3B-Instruct-4bit --prompt "Привет"

Нативный под M-чипы, нет накладных расходов на копирование между CPU/GPU.
mlx-community на Hugging Face — готовые квантизованные веса.
Можно не только инференс, но и дообучение (LoRA).

Интерфейсы к движкам

Ollama

Самый простой старт. Обёртка над llama.cpp с реестром моделей и HTTP API.

brew install ollama
ollama run llama3.2

Реестр готовых моделей (ollama pull ...), квантизация из коробки.
OpenAI-совместимый API на localhost:11434 — легко подключить к существующим клиентам.
Modelfile для кастомных system-prompt и параметров.

omlx

Как ollama, но поверх mlx: графический интерфейс и OpenAI-совместимый API.

brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx

omlx start

~$ ls

▸Chrome Built-in AIСуммаризация и перевод прямо в браузере через встроенную модель Gemini Nano — без бэкенда и без затрат на API.