Яндекс: с новым алгоритмом «Палех»

Благодаря использованию нейронных сетей крупнейший российский поисковик обещает находить релевантные страницы не только по наличию нужных ключевых слов, но и… по смыслу самих запросов, в том числе уникальных и неповторимых. Именно для этого разработан алгоритм «Палех». 

Современные поисковые системы спокойно справляются с подавляющим большинством запросов пользователей. «Вконтакте», «купить холодильник», «биография Тома Хэнкса», «карта Ростовской области», «как научиться вязать» – подобные обращения к Яндексу не вызывают у него трудностей. Но проблема, что все такие запросы – шаблонные, типовые, с высокой и средней частотой. А ведь кроме них существуют низкочастотные поисковые фразы, которые могут даже не повторяться. Статистика утверждает: уникальных запросов действительно много – до 100 миллионов в день, практически треть (!) от всех обращений к Яндексу. На первый взгляд может показаться, что достаточно применить стандартные механизмы поисковой системы: от анализа контента на наличие ключевых слов до поведенческих факторов. Но в реальности это сработает не всегда…

Палех: для широкого хвоста запросов
Назван алгоритм в честь палехской живописи, в которой часто рисовали характерную птицу с широким хвостом – намек на длинный хвост уникальных запросов

Разберем на примере, который приводят представители самого поисковика в презентации «Палеха». Допустим, человек хочет найти фильм, но не помнит ни названия, ни актеров, а только сюжет в общих чертах – и задает запрос «фильм про человека, который выращивал картошку на другой планете». Для того, кто смотрел «Марсианин» с Мэттом Дэймоном, ответ очевиден. Но не для поисковой машины. Ее стандартные механизмы не сработают: таких слов на странице нет , а поведенческие факторы для столь низкочастотного запроса не накоплены. Более того, если применить обычные стандарты ранжирования, выдача по запросу будет абсурдной. Поисковик может показать страницы, где в тайтле есть фразы «Планета рецептов – картофель гратен» или «Календарь посадок: когда сажать картошку в разных регионах». Без понимания смысла запроса эти варианты логичны: в одном случае «планета» и «картофель», в другом «сажать картошку» – все лучше, чем ничего…

Палех: нейросети учатся понимать запросы
Также огромный хвост птицы удачно лег на схематическое изображение нейросетей, где все понятия связаны друг с другом по множеству параметров

И тут на помощь придут нейронные сети. Тема эта модная, перспективная: в таком случае машинное обучение выходит на новый уровень, близкий к реальному мышлению человека – недаром же нейросети называют искусственным интеллектом. Их суть работы выглядит следующим образом. Создатели алгоритма показывают ему запрос и варианты ответа на него, указывая, где правильные и неправильные. А нейронная сеть старается вычленить у корректных вариантов что-то общее, чтобы впредь выбирать их самостоятельно. Лучше всего принцип понятен на поиске картинок (где он уже применяется, к слову сказать). Если дать системе тысячу фотографий котиков и сто тысяч – других животных, с высокой долей вероятности нейросеть «запомнит» котов. Ведь все изображения можно перевести в набор векторов, которые нужно сравнить. И если векторы, «ответственные» за торчащие уши, глаза с характерным зрачком и усатой мордахой, на картинке совпадают с заданной моделью, то перед нами – фото кошачьих.

Палех: пока ориентируется только на заголовки
Благодаря новому алгоритму заголовок страницы может быть очень близким к запросу, хотя по формальным признакам поисковиков общего у них нет ничего

Но анализ текста на порядок сложнее. Для этого разработчики Яндекса даже внедрили термин «семантический вектор» – он характеризует смысл слов, их «направление», а не просто форму. Если не вдаваться в длинные объяснения механизма машинного обучения, все в итоге сводится к тому, что по тому самому запросу про другую планету и картошку поисковик предложит страницу с заголовком «Марсианин (2015) смотреть бесплатно онлайн»! И это работает, по заверениям Яндекса, во всех темах, включая коммерческие: к примеру, по запросу «купить загородный дом в Подмосковье» может быть показана страница с заголовком «Продажа коттеджей: Москва, Московская область». Правда, есть важный нюанс: «Палех» учитывает тайтлы страниц, а на анализ всего текста его возможностей еще не хватает. Но в Яндексе уверены: с развитием технологий прогресс будет. И не далек тот день, когда поисковик сможет действительно понимать смысл запроса и предлагать на него ответы так, как это делал бы живой человек.

Комментариев 0: