LangChain vs LlamaIndex: что выбрать для своего проекта

Если вы начали строить что-то с LLM и дошли до момента выбора фреймворка — скорее всего, вы уже видели оба названия. LangChain и LlamaIndex. Оба популярны, оба на Python, оба решают похожие задачи. И оба могут стать источником боли, если выбрать не то.

Разберём честно: чем они отличаются, где каждый выигрывает, и как не потратить две недели на рефакторинг после неправильного выбора.

Откуда вообще взялась путаница

LangChain появился в октябре 2022 года — почти сразу после выхода ChatGPT. Харрисон Чейз выложил библиотеку на GitHub, и она взлетела: 50 тысяч звёзд за несколько месяцев. Идея была простая — дать разработчикам "цепочки" для соединения LLM с инструментами, памятью, поиском.

LlamaIndex (тогда ещё GPT Index) появился примерно тогда же, в ноябре 2022-го. Джерри Лю строил его с другой точки зрения: как эффективно загрузить данные в контекст модели и работать с ними.

Оба проекта росли параллельно, оба добавляли похожие фичи, и к 2024 году граница между ними размылась. Но фундаментальная разница никуда не делась.

В чём реальная разница

LangChain — это фреймворк для построения приложений. Его сила в оркестрации: агенты, цепочки вызовов, интеграции с десятками инструментов. Хотите, чтобы модель сама решала — искать в интернете или лезть в базу данных? LangChain для этого.

LlamaIndex — это фреймворк для работы с данными. Его сила в индексировании и поиске: загрузить 500 PDF, разбить на чанки, построить векторный индекс, найти нужное. RAG-пайплайны — его родная стихия.

Грубо говоря: LangChain думает о том, что делать с ответом модели. LlamaIndex думает о том, что подать модели на вход.

На практике это выглядит так. Если вы строите чат-бота, который умеет бронировать встречи, отправлять письма и отвечать на вопросы по документации — LangChain. Если вы строите поиск по внутренней базе знаний компании из 10 тысяч документов — LlamaIndex.

Где LangChain выигрывает

Агенты. Это главное. LCEL (LangChain Expression Language) позволяет строить сложные пайплайны декларативно, и экосистема инструментов огромная: Tavily для поиска, браузер, Python REPL, SQL, API любого сервиса.

Я видел проекты, где команда из трёх человек за месяц собрала агента, который мониторит Jira, пишет черновики ответов в Slack и эскалирует задачи по приоритету. На LangChain. Потому что там уже были готовые интеграции с Jira и Slack, и не нужно было писать коннекторы с нуля.

Ещё один плюс — LangSmith. Это их платформа для трейсинга и дебаггинга. Когда агент делает что-то странное, LangSmith показывает каждый шаг цепочки. Для продакшена это не опция, а необходимость.

Минус — сложность. LangChain абстрагирует много всего, и когда что-то ломается, найти причину бывает мучительно. Документация местами отстаёт от кода. В марте 2024 они выпустили LangChain v0.2 с серьёзными breaking changes, и часть команд потратила неделю на миграцию.

Где LlamaIndex выигрывает

RAG. Retrieval-Augmented Generation. Если вам нужно, чтобы модель отвечала на вопросы по вашим документам — LlamaIndex делает это лучше и с меньшим количеством кода.

Конкретно: загрузчики данных (SimpleDirectoryReader читает PDF, Word, Notion, Confluence, GitHub — из коробки), гибкие стратегии чанкинга, несколько типов индексов (векторный, граф знаний, summary), и очень удобный QueryEngine.

Команда Notion использовала LlamaIndex для внутреннего поиска по базе знаний — об этом они писали в своём блоге в 2023 году. 40 миллионов страниц, и время ответа под 2 секунды.

LlamaIndex также лучше работает с иерархическими данными. Если у вас есть документы с разделами, подразделами, таблицами — их можно индексировать с сохранением структуры, и модель будет понимать контекст лучше.

Минус — агенты слабее. Они есть, но экосистема инструментов меньше. Если нужна сложная оркестрация — придётся писать больше руками.

Как выбирать на практике

Три вопроса, которые закрывают 80% случаев.

Первый: у вас много данных, которые нужно искать? Если да — LlamaIndex. Корпоративная база знаний, юридические документы, техническая документация — всё это его территория.

Второй: вам нужны агенты с инструментами? Если да — LangChain. Особенно если инструменты стандартные (поиск, API, базы данных) — там уже есть готовые интеграции.

Третий: вы не знаете, что именно нужно? Честно — начните с LlamaIndex. Он проще в освоении, меньше магии, легче дебажить. Потом, если понадобятся агенты, можно добавить LangChain поверх или переписать конкретный модуль.

И да — их можно комбинировать. LlamaIndex как слой данных, LangChain как слой оркестрации. Некоторые команды так и делают. Это добавляет сложности, но иногда оправдано.

Что происходит с ними сейчас

Оба проекта активно развиваются. LangChain в 2024 году поднял $25 млн в раунде Series A и активно пушит LangGraph — библиотеку для построения агентов на основе графов состояний. Это серьёзный шаг вперёд по сравнению с классическими цепочками.

LlamaIndex в том же году выпустил LlamaCloud — облачный сервис для управления данными и пайплайнами. Плюс LlamaParse — парсер документов, который понимает таблицы и сложную вёрстку лучше, чем большинство open-source решений.

Мне кажется, что через год-два разрыв между ними станет ещё чётче: LangChain уйдёт в агентов и оркестрацию, LlamaIndex — в управление данными и RAG-инфраструктуру. И это хорошо. Лучше два сильных инструмента, чем один, который пытается делать всё.

Итог

Выбор простой, если честно ответить на вопрос: что является ядром вашего приложения — данные или действия?

Данные, поиск, документы — LlamaIndex. Агенты, инструменты, сложная логика — LangChain. Оба — комбинируйте, но осторожно.

И не тратьте неделю на сравнение бенчмарков. Возьмите свою реальную задачу, напишите прототип на каждом за день, и посмотрите, где код получился чище. Это скажет больше, чем любая статья.