Блог

Новый алгоритм Яндекса «Палех» - нейронные сети на страже поисковика


2 ноября 2016 года Яндекс объявил о запуске нового поискового алгоритма «Палех». Данный алгоритм нацелен на то, чтобы сделать выдачу по длинным и уникальным запросам более правильной и  отображать результаты наиболее точно, относительно того, что пользователи спрашивают у Яндекса.

По статистике поисковика оказывается, что примерно половина запросов (100 миллионов запросов из всего 280 миллионов запросов в день), которые задают пользователи являются уникальными или редкими. И если для частых и лаконичных запросов (например [вконтакте] или [купить тойота камри]) выдача давно адекватно сформирована, то по редким и уникальным запросам (например [дорогой яндекс посоветуй пожалуйста новые интересные игры про фей для плантика] или [фильм про человека который выращивал картошку на другой планете]) было крайне сложно найти ответ, да и просто соответствующую информацию. По этой причине и было дано название новому алгоритму, т.к. природа таких запросов схематично похожа на Жар-птицу на палехской миниатюре:


Природа появления таких запросов различна – это и новые пользователи поисковых систем, которые только начинают своё знакомство со всемирной паутиной и ещё не научились более точно формулировать свои вопросы к поисковику.  Или это запросы с неким эмоциональным фоном, когда не получается точно сформулировать фразу в виду различных причин. Помогает появлению таких фраз и голосовой поиск. Распознавание речи сейчас стало намного лучше, чем несколько лет назад, как по качеству, так и по времени обработки сигнала. И люди, которые пользуются данным сервисом, всё больше «перестают сдерживать себя» в формулировке своих вопросов.

Понять, что нужно показать ссылку на фильм «Марсианин» по запросу [фильм про человека который выращивал картошку на другой планете] довольно сложно, т.к. данные слова не учитываются ни в meta-тегах описания страниц, ни в заголовке этих же страниц. «Классические» методы ранжирования наиболее релевантных документов просто не подходят. Решением стало использование искусственных нейронных сетей, которые не просто смотрят содержание страниц, но и пытаются понимать её содержимоё и сопоставлять его с запросом пользователя. В данный момент Яндексом запущен семантический вектор, который определяет принадлежность введенного запроса по координатам в трехсотмерном пространстве.

Применение нового способа определения релевантных документов не ограничивается лишь для уникальных и редких запросов. По официальному заверению «Палех» применяется в сервисе Яндекс.Картинки, в общем поисковом ранжировании сайтов и ряде других сервисов компании. Это означает, что и для коммерческих сайтов, которые ориентируются в первую очередь не на уникальные запросы, придётся принимать во внимание появление нового фактора ранжирования – искусственного интеллекта. Однако, утверждать как нововведение повлияло на поисковую выдачу для коммерческих сайтов ещё рано. Во-первых, прошло ещё слишком мало времени, чтобы можно было назвать точечные изменения новым правилом. Во-вторых, сейчас «Палех» учитывает только заголовки страниц, но, скорее всего, скоро он начнёт учитывать всю информацию на страницах. Остаётся надеяться, что данная история будет далека от того, как Макрософт запустил бота с разработанными ими искусственным интеллектом, который за сутки стал нацистом и возненавидел человечество.

Поделиться