Что такое «машинное обучение» и как оно используется в ранжировании?

Популярность
1 Star2 Stars3 Stars4 Stars5 Stars
Loading...
Активность 1 079 0
Поделиться с друзьями:

На сегодняшний день стало сложно придумать такой запрос, по которому находится меньше десяти страниц. По многим запросам результатов поиска уже миллионы. Интернет растет очень быстро и с каждым днём страниц становится все больше. Если показывать все страницы, в которых использованы слова запроса, то чтобы найти нужный ответ пользователю придется перелистать десятки страниц результатов поиска. Потому перед поисковой системой стоит задача расположить найденные страницы таким образом, чтобы сверху оказались наиболее подходящие пользователю или другими словами – наиболее релевантные, чтобы быстро дать ответ на вопрос человека. Процесс упорядочивания поисковых результатов в соответствии с запросом пользователя называется ранжированием. Этот процесс определяет качество ответа на вопрос, который задает пользователь в поисковой строке. 

Написать для поисковой системы программу, в которой предусмотрен каждый возможный запрос и для каждого пользователя найден лучший ответ, невозможно. Запросов слишком много, так запросов к Яндексу ежедневно более ста миллионов, примерно четвертая часть из них – неповторяющиеся. Потому поисковая система должна уметь принимать решения самостоятельно и сама определять, какой ответ хороший, а какой — нет. Для этого поисковик должен уметь обучаться.

Такая задача, как научить машину обучаться самостоятельно, существует не только в поисковых технологиях. Термин «машинное обучение» появился еще в 50-х годах и обозначает попытку научить компьютер находить решение для задач, которые легко даются человеку, но формализовать путь их решения сложно. В результате машинного обучения компьютер может демонстрировать поведение, которое в него не было явно заложено.

Система поиска должна научиться строить правила, которые будут определять для каждого запроса качественные ответы. С этой целью поисковик анализирует свойства поисковых запросов и проводит анализ веб сайтов. У каждой страницы есть те или иные признаки, например: количество ссылок на эту страницу в интернете или наличие в тексте слов запроса, а также их количество и расположение. Нужно учитывать также и регион, из которого поступил запрос. Свойства запроса и страницы, которые имеют значение для ранжирования и которые можно измерять числами, называются факторами ранжирования. Чтобы качество поиска было высоким важно учитывать множество различных факторов.

Кроме факторов ранжирования системе поиска необходимы так называемые образцы – страницы, которые пользователи считают подходящими ответами на свои запросы. Существуют специалисты – асессоры, которые занимаются оцениванием того насколько страница подходит или не подходит для ответа на каждый запрос. Асессоры составляют обучающую выборку, которая содержи различные запросы в тех пропорциях, в которых их запрашивают люди. Поисковая система устанавливает зависимость между страницами на обучающей выборке и подбирает оптимальную формулу ранжирования, которая показывает релевантные запросу сайты среди первых результатов поиска, что очень важно знать при seo продвижении сайта в поисковых системах.

Переобучение

Машинное обучение начало применяться в поисковых технологиях с начала 2000-х годов. Каждая поисковая система используют свою модель. Одной из ключевых проблем, которая возникает при машинном обучении — это переобучение. Компьютер оперирует большим количеством признаков страниц и запросов, а размер обучающей выборки или же, другими словами, оценок асессоров не очень велик, компьютер начинает находить несуществующие закономерности.

Решая эту проблему, Яндекс внедрил метод машинного обучения, который называется Матрикснет. Его ключевая особенность – он устойчив к переобучению. Это позволяет учитывать большое количество различных факторов ранжирования и не бояться, что машина найдет несуществующие закономерности.