[СРАВНЕНИЕ] Ollama vs LM Studio vs GPT4All: запускаем ИИ без

Месяц назад я понял, что отправляю в OpenAI слишком много лишнего. Рабочие черновики, внутренние заметки, куски кода с именами переменных, по которым понятно что за проект. Не то чтобы я параноик, но как-то неуютно. Решил разобраться с локальными моделями — и провёл несколько вечеров, пробуя три самых популярных варианта.

Спойлер: все три работают. Но ощущения совершенно разные.

Ollama — для тех, кто не боится терминала

Начал с Ollama, потому что о ней больше всего пишут в технических блогах. Установка под Windows через официальный установщик — минута. Потом открываешь терминал и пишешь:

ollama run llama3

Модель скачивается, запускается, и ты сразу в чате прямо в консоли. Никакого интерфейса, никаких кнопок — просто промпт.

Первые полчаса я кайфовал от минимализма. Потом понял: для нормальной работы нужен либо фронтенд поверх, либо придётся смириться с тем, что всё идёт через API. Ollama поднимает локальный REST API на порту 11434 — и это реально удобно, если ты разработчик. Подключаешь любой клиент или пишешь скрипты. Но если хочется просто поговорить с моделью — немного аскетично.

Зато выбор моделей огромный. Llama 3, Mistral, Phi-3, Gemma, Qwen — всё скачивается одной командой. Я запустил Mistral 7B на ноутбуке с 16 ГБ RAM, и он работал вполне сносно. Не молниеносно, но терпимо.

Главная боль — нет никакого GUI для управления моделями. Хочешь посмотреть что скачано — ollama list. Хочешь удалить — ollama rm. Для меня это нормально, но знакомый, которому я советовал попробовать, через пять минут сказал "не моё" и закрыл терминал.

LM Studio — когда хочется по-человечески

LM Studio я поставил следующим и сразу почувствовал разницу. Полноценное десктопное приложение: поиск моделей прямо внутри, чат, настройки параметров — temperature, context length — всё крутилками, а не флагами командной строки.

Скачал Llama 3 8B прямо из встроенного браузера моделей, который работает через Hugging Face. Загрузил модель, открыл чат — всё заработало. На это ушло минут десять вместе с загрузкой.

Интерфейс чата похож на что-то среднее между Claude и обычным мессенджером. Несколько чатов, переключение между моделями, история. Для повседневного использования — прямо то что нужно.

Дело в том, что LM Studio активно тянет модели с Hugging Face, и там попадаются квантизованные версии непонятного происхождения — GGUF-файлы от случайных авторов. Называется примерно "TheBloke/Mistral-7B-v0.1-GGUF", и поди разберись что внутри. Это не проблема самого приложения, просто надо понимать откуда берёшь.

Ещё одно наблюдение: LM Studio довольно прожорлива по RAM в режиме ожидания. Модель загружена, я ушёл заниматься другим — через час возвращаюсь и вижу что система подтормаживает. Небольшой момент, но заметный.

Зато есть встроенный сервер, совместимый с OpenAI API. Можно запустить локальный сервер и подключить любое приложение, которое умеет работать с OpenAI, — просто поменяв базовый URL. Я так подключил один инструмент для работы с текстом, который обычно ходит в облако. Сработало без переписывания кода.

GPT4All — самый доступный, но с оговорками

GPT4All я оставил напоследок, и это, наверное, была ошибка. На фоне LM Studio он смотрится немного бледнее, хотя изначально именно GPT4All был флагманом "локального ИИ для всех".

Установка простая, интерфейс понятный, есть свой каталог моделей. Всё работает. Но выбор моделей заметно меньше, и часть из них — собственные дообученные версии от Nomic AI, компании за GPT4All. Не то чтобы плохо, но хочется того же зоопарка, что у Ollama или LM Studio.

На практике единственная фича, которой нет у конкурентов из коробки, — LocalDocs. Подключаешь папку с документами, и модель отвечает на вопросы по ним. Я попробовал на папке с рабочими заметками в Markdown — работает, хотя не без глюков. Иногда модель уверенно цитирует то, чего в документах нет. Классический hallucination, только локальный.

Производительность на моей машине была чуть хуже, чем у двух других при тех же моделях. Не драматично, но заметно.

Что я в итоге выбрал и почему

Честно — использую Ollama с Open WebUI поверх. Это отдельный веб-интерфейс, который ставится за пятнадцать минут и превращает Ollama в нормальное приложение с историей, несколькими моделями и поддержкой картинок для мультимодальных моделей. Получается лучшее из двух миров: гибкость Ollama плюс человеческий интерфейс.

Но если нужно рекомендовать что-то без дополнительных шагов — скажу LM Studio. Ставишь, скачиваешь модель, работаешь. Никаких дополнительных инструментов.

GPT4All имеет смысл если нужна функция LocalDocs и не хочется разбираться с настройкой — там всё уже встроено.

Железо: что реально нужно

Этот вопрос я видел везде, когда сам искал информацию, — поэтому отвечу честно по своему опыту.

На ноутбуке с 16 ГБ RAM и без дискретной видеокарты работают модели до 7–8 миллиардов параметров в 4-битной квантизации. Скорость генерации — примерно 5–15 токенов в секунду. Медленнее облачных сервисов, но для несрочных задач вполне. Модели на 13B уже упираются в память и работают заметно хуже.

С другой стороны, если есть видеокарта с 8+ ГБ VRAM — всё меняется. Генерация ускоряется в несколько раз, и 13B становятся вполне рабочими. Ollama автоматически определяет GPU и использует его, у LM Studio тоже есть эта опция.

Что меня удивило больше всего — качество ответов у локальных Llama 3 8B и Mistral 7B оказалось выше, чем я ожидал. Для суммаризации, переформулировки, простых вопросов — вполне достаточно. До GPT-4 не дотягивают, но с GPT-3.5 поспорят.

Главное что я вынес из этого эксперимента: локальные модели — это уже не хобби для энтузиастов. Рабочий инструмент с реальными компромиссами. Медленнее, требует железа, последних моделей нет. Зато данные никуда не уходят, работает без интернета, и после начальной настройки вообще не требует внимания.

Попробую ещё поиграться с RAG поверх Ollama — если получится что-то интересное, напишу.