Оформити заявку

Що таке «машинне навчання» і як воно використовується в ранжируванні?

Що таке «машинне навчання» і як воно використовується в ранжируванні? - Фото 1
11/09/2013
admin

На сьогоднішній день стало складно придумати такий запит, за яким знаходиться менше десяти сторінок. За багатьма запитам результатів пошуку вже мільйони. Інтернет зростає дуже швидко і з кожним днем ​​сторінок стає все більше. Якщо показувати всі сторінки, в яких використані слова запиту, то щоб знайти потрібну відповідь користувачеві доведеться перегорнути десятки сторінок результатів пошуку. Тому перед пошуковою системою стоїть завдання розташувати знайдені сторінки таким чином, щоб зверху виявилися найбільш підходящі користувачеві або іншими словами – найбільш релевантні, щоб швидко дати відповідь на питання людини. Процес упорядкування пошукових результатів відповідно до запиту користувача називається ранжируванням. Цей процес визначає якість відповіді на питання, який задає користувач в пошуковому рядку.

Написати для пошукової системи програму, в якій передбачено кожен можливий запит і для кожного користувача знайдений кращий відповідь, неможливо. Запитів занадто багато, так запитів до Яндексу щодня більше ста мільйонів, приблизно четверта частина з них – не повторюються. Тому пошукова система повинна вміти приймати рішення самостійно і сама визначати, яку відповідь хороший, а який – ні. Для цього пошуковик повинен вміти вчитися.

Таке завдання, як навчити машину навчатися самостійно, існує не тільки в пошукових технологіях. Термін «машинне навчання» з’явився ще в 50-х роках і позначає спробу навчити комп’ютер знаходити рішення для завдань, які легко даються людині, але формалізувати шлях їх вирішення складно. В результаті машинного навчання комп’ютер може демонструвати поведінку, яке в нього не було явно закладено.

Система пошуку повинна навчитися будувати правила, які будуть визначати для кожного запиту якісні відповіді. З цією метою пошуковик аналізує властивості пошукових запитів і проводить аналіз веб сайтів. У кожної сторінки є ті чи інші ознаки, наприклад: кількість посилань на цю сторінку в інтернеті або наявність в тексті слів запиту, а також їх кількість і розташування. Потрібно враховувати також і регіон, з якого надійшов запит. Властивості запиту і сторінки, які мають значення для ранжирування і які можна вимірювати числами, називаються факторами ранжування. Щоб якість пошуку було високим важливо враховувати безліч різних чинників.

Крім чинників ранжирування системі пошуку необхідні так звані зразки – сторінки, які вони вважають потрібними відповідями на свої запити. Існують фахівці – асесори, які займаються оцінюванням того наскільки сторінка підходить або не підходить для відповіді на кожен запит. Асесори складають навчальну вибірку, яка місти різні запити в тих пропорціях, в яких їх запитують люди. Пошукова система встановлює залежність між сторінками на навчальній вибірці і підбирає оптимальну формулу ранжирування, яка показує релевантні запиту сайти серед перших результатів пошуку, що дуже важливо знати при seo просування сайту в пошукових системах.

перенавчання
Машинне навчання почало застосовуватися в пошукових технологіях з початку 2000-х років. Кожна пошукова система використовують свою модель. Однією з ключових проблем, яка виникає при машинному навчанні – це перенавчання. Комп’ютер оперує великою кількістю ознак сторінок і запитів, а розмір навчальної вибірки або ж, іншими словами, оцінок асессоров не дуже великий, комп’ютер починає знаходити неіснуючі закономірності.

Вирішуючи цю проблему, Яндекс впровадив метод машинного навчання, який називається Матрикснет. Його ключова особливість – він стійкий до перенавчання. Це дозволяє враховувати велику кількість різних факторів ранжирування і не боятися, що машина знайде неіснуючі закономірності.