Месяц назад я решил провести эксперимент. Взял четыре голосовых ассистента и попробовал использовать каждый из них в реальных делах — не в синтетических тестах типа "спроси что-нибудь умное", а в той рутине, которая у меня есть каждый день. Переговоры, задачи, напоминания, поиск информации на ходу.
Результат меня немного удивил. Не тем, кто победил. А тем, насколько разные у них слабые стороны.
Что я вообще тестировал
Четыре штуки: ChatGPT Voice, Google Gemini Live, Apple Siri с новым движком и Alexa+, которую Amazon перезапустил в начале года. Все на телефоне, все в реальных условиях — в машине, на прогулке, между встречами.
Про методологию сразу: я не замерял задержку в миллисекундах и не гонял их по двумстам вопросам из датасета. Меня интересовало другое — насколько с ними комфортно работать в живом режиме, когда ты не готовишь запрос заранее, а говоришь как человек.
ChatGPT Voice: умный, но разговорчивый
Начал с него, потому что именно его больше всего обсуждали после январского обновления. Первые двадцать минут я был впечатлён. Голос естественный, паузы не механические, умеет переспросить когда что-то непонятно.
Потом я заметил проблему: он слишком много говорит. Я спрашиваю "какая погода завтра в Питере" — он начинает с объяснения, что у него нет доступа к реальному времени, потом предлагает альтернативы, потом уточняет. Пока заканчивал, я уже успел сам открыть прогноз.
Для задач типа "помоги мне сформулировать мысль" или "давай разберём этот вопрос" — отличный. Для быстрых справочных запросов — раздражает. Неделю я пытался его приручить через системный промпт, и частично это помогло. Но склонность к развёрнутым ответам там, где не просили, никуда не делась.
Google Gemini Live: самый быстрый и самый поверхностный
Gemini оказался полной противоположностью. Скорость реакции заметно выше, чем у остальных. Понимает перебивания, не теряется когда начинаешь фразу и переформулируешь на ходу.
Но качество ответов на сложные вопросы разочаровало. Несколько раз он давал уверенно неверную информацию — не устаревшую, а просто неправильную. Я проверил руками. И это неприятно именно потому, что скорость и уверенный голос создают иллюзию надёжности. Доверяешь — а зря.
На практике для навигации, простых справок, быстрых задач он работает хорошо. Интеграция с экосистемой Google реально сильная: без проблем достаёт события из Calendar, напоминает про почту. Вот здесь чувствуется домашняя среда.
Siri: долгое ожидание, короткая радость
Когда Apple объявила про новый движок на базе собственных моделей, я ждал многого. Ну наконец-то, говорил я себе — прошло несколько лет, и Siri наконец перестанет переспрашивать "что вы имели в виду?" в ответ на простейший запрос.
Отчасти так и вышло. Базовые задачи он стал выполнять чище, быстрее, реже ломается на нестандартных формулировках.
Всё, что выходит за пределы экосистемы Apple, — по-прежнему больно. Я попросил помочь с задачей, которая требовала двух шагов логики, — он завис. Не технически, а концептуально: дал ответ на один шаг, второй проигнорировал. Когда я переспросил, начал с начала.
Если ты глубоко в iPhone, iPad, Mac и AirPods — Siri стал заметно лучше. За пределами этого мира он всё ещё выглядит туристом.
Alexa+: тёмная лошадка
Честно признаюсь — я почти не ждал от неё ничего интересного. Alexa в моей голове была ассистентом для умного дома: выключи свет, поставь таймер. Но Amazon сделал неожиданную вещь.
Alexa+ умеет выполнять многошаговые задачи через сторонние сервисы лучше, чем остальные из этой четвёрки. Я попросил забронировать столик через OpenTable — сделала. Попросил найти и заказать доставку — справилась. Не идеально, на каждом шаге были подтверждения, но логика работала.
Проблема в другом. Голос и "личность" у неё деревянные по сравнению с конкурентами. Разговор с Alexa ощущается как заполнение формы вслух. Функционально — да. Приятно — нет.
Что я понял после месяца
Попытка найти "лучший" ассистент — немного неправильная постановка вопроса. Дело в том, что у каждого из них есть своя ниша, и они почти не пересекаются.
ChatGPT Voice хорош для работы с мыслями, текстом, аргументами — когда не торопишься и хочешь поговорить. Gemini — для скорости и Google-экосистемы. Siri — если ты полностью в Apple. Alexa+ — если нужен ассистент, который реально может что-то сделать в интернете за тебя.
Я пробовал жить с каждым по неделе как основным и в итоге вернулся к гибридной схеме. Голосом активирую Gemini для быстрых справок и навигации. Когда надо подумать вслух — открываю ChatGPT. Странно, что в 2025-м это всё ещё звучит как компромисс, а не как "вот один инструмент, который закрывает всё".
Может, через год ситуация изменится. Но пока — нет.
