Продвижение Поисковая оптимизация
Звоните +7 (495) 649-68-38
Приезжайте
Реализованных проектов
0112
Количество запросов в топе
1500

Как поисковые системы определяют словоформы?

 

Словоформы в ПС Яндекс

Наш великий и могучий русский язык не только красив, но и очень сложен. Часто даже интуитивное представление носителей языка идет вразрез с формальным. Например, кто из нас вспомнит, что формально «лучший» − форма слова «хороший», так как является превосходной степенью этого прилагательного? В то же время «прекрасный» и «прекрасно» − это разные слова, так как принадлежат разным частям речи: «прекрасный» − прилагательное, «прекрасно» − наречие.

 Результаты машинного разбора еще разительнее отличаются от нашего интуитивного представления. В данной статье мы разберем, как видит словоформы Яндекс и как это влияет на поисковую выдачу.

Отличия машинных словоформ

 В нашем языке несколько сотен тысяч слов, причем каждое из них имеет по десятку, а то и не одному, словоформ. Каждая словоформа, в свою очередь, имеет несколько свойств (падеж, род, число, наклонение и т.д.). Если взять любое прилагательное, то оно может находиться в семи падежах, краткой форме, двух числах, трех родах, двух степенях, быть одушевленными или неодушевленным. Таким образом, каждое прилагательное имеет 129 словоформ. Более половины из них будут отличаться окончаниями.

Некоторые морфологические словари ради экономии места группируют слова по окончаниям в определенные морфологические группы. Например, прилагательные «ползучий» и «могучий» имеют одинаковые окончания в одних и тех же словоформах. Такие слова объединяются, и для них указывается только основа, общая для всех словоформ, и номер морфологической группы: «могучий, могуч*, группа №21».

Большинство электронных баз работают по схожему принципу. Если сохранять все словоформы по отдельности, придется выделить около 500МБ памяти, в то время как для группы хватит 10. Конечно, 500МБ для крупного сервера − это совсем не много, однако нужно учесть, что работы над морфологией Яндекса велись около 10 лет назад, а тогда покупка сотен серверов с большим объемом памяти была дорогостоящим удовольствием. С тех времен правила русского языка не менялись, а потому не было необходимости переписывать морфологию − тем более, что любое ее системное изменение привело бы к необходимости переписывания других частей кода.

Синонимы и словоформы

В результатах поиска словоформы выделяются жирным. Впрочем, как и синонимы. Именно поэтому мы точно не можем сказать, считает ли поисковая система слова в снипете и запросе как формы одного слова или синонимы? Чтобы отключить подсветку синонимов и оставить только словоформы, в Яндексе можно воспользоваться оператором «+».

Синонимы и словоформы

Большая часть современных морфологических баз данных основаны на словаре Зализняка, в котором ради экономии места на страницах были введены морфологические группы. Однако ввиду того, что Зализняк и его коллеги работали над словарем более 40 лет назад, он грешит некоторыми «архаизмами». Например, глаголы, их причастия и деепричастия (написать/написавший) считаются словоформами, в то время как глаголы совершенного и несовершенного вида (писать/написать) − нет.

Синонимы и словоформы

Проведя проверку в Яндексе на такие архаизмы (их можно найти в базе АОТ.ru), вы выясните, что он содержит их практически в полном составе. Правда, стоит учесть, что Яндекс применяет базу «синонимов», и одной из целей является именно исправление разницы восприятия словоформ людьми и машинами. Так, если в запросе «делать дымовую шашку» жирным выделится и слово «сделать», то если добавить «+» перед словом «делать», то подсветка слова «сделать» исчезнет.

Как понимает словоформы Google

Английский язык далеко не так сложен, как русский. Не такая богатая у него и морфология: у слов бывает лишь несколько словоформ. Именно поэтому необходимости в группировке слов с целью оптимизации памяти не возникает. Возможно, именно ради общности кода русской и английской версий морфология Google не использует группы, а потому лишена недостатков Яндекса.

Если вы введете в этой поисковой системе запрос «сделанный», то искаться будет вовсе не слово «делать», как Яндекс. Ради эксперимента можете набрать в Яндексе и Гугле фразу «как сделанный пирог». Почти всегда Google выделяет жирным только словоформы, однако отключить подсвечивание слова «сделать», когда вы ищете «делать», в это поисковой системе не получится. Таким образом, получается, что в Гугле «делать» и «сделать» − словоформы, а в Яндексе − синонимы.

Как это ни странно, в Google русская морфология реализована правильнее, чем в Яндексе. Еще более парадоксален тот факт, что такая система − это следствие того, что Гугл пришел к нам из Америки. Впрочем, не всегда «правильнее» значит «лучше». Выдача какой поисковой системы релевантнее − очень спорный вопрос. Как и то, что именно поисковик должен выдавать в ответ на запрос «как сделанный пирог».

Разница в результатах ранжирования

То, что Яндекс подсвечивает или не досвечивает словоформы с помощью плюса, обозначает, что часть словоформ определяются сразу морфологией, другие − как синонимы. Очень может быть, что Яндекс не делает разницы в ранжировании для морфологических и синонимальных словоформ.

Сегодня не существует ни метода для оценивания разницы выдачи, ни программных средств для ее расчета. Вручную проанализировать выдачу по нескольким сотням запросов очень сложно. Таким образом, доказать, что существует какая-либо разница в ранжировании различных типов словоформ, невозможно. Единственный путь − найти косвенные подтверждения.

Если запрашивать у поисковика машинные словоформы, то число найденных страниц будет отличаться не более чем на 1%. А вот при запросе словоформ-синонимов разница намного существеннее, от 10 до 30%:

  • «сделать гугл стартовой страницей» - 5 миллионов
  • «сделал гугл стартовой страницей» - 5 миллионов
  • «делать гугл стартовой страницей» - 7 миллионов
  • «делал гугл стартовой страницей» - 7 миллионов

Интересно сравнить и изменения в выдаче между Google и Яндексом. В первой поисковой системе разницы между запросами «как правильно делать пирог» и «как правильно сделать пирог» практически нет. В Яндексе в первой десятке совпадут только 2 запроса из десяти, да и те существенно поменяют позиции.

Есть и группа слов, которые выделяются жирным по очень странному принципу. Например, если ввести слово «купить», то будут подсвечиваться и его словоформы несовершенного вида (например, «покупать»), причем даже если вы поставите «+». Все дело в том, что Яндекс ввел для этого слова исключение, хотя для WordStat «купить» и «покупать» так и остались разными словами. Если бы по синонимам и словоформам результаты выдачи были одинаковыми, то никакого резона делать исключения для этого слова не было бы.

«Купить» очень популярный запрос (WordStat свидетельствует, что у него более 40 миллионов показов в месяц), поэтому были предприняты дополнительные действия для улучшения его ранжирования. Может, улучшение результатов выдачи от введения прямой связи между «покупать» и «купить» и неочевидно, но разработчикам и асессорам виднее. Существует еще один пример, по которому улучшение выдачи не вызывает сомнений.

Речь идет о словах «варить» и «варка». По WordStat «варить» имеет миллион показов, «варка» − около 100 тысяч. Однако если статью не проверял SEO-специалист, то называться она будет «Варка кофе», а вовсе не «Как варить кофе». Польза от такого исключения для ранжирования налицо.

Как говорится, исключения лишь подтверждают правила. Мы же на основе проведенных исследований можем говорить, что морфологические словоформы ранжируются выше, чем словоформы-синонимы.

Высокочастотные запросы

Выделение синонимов жирным выключается не только при добавлении «+». Обратите внимание: если набрать в строке поиска «гостиницы Москвы», то слово «отели» подсвечиваться не будет. А вот если ввести «гостиницы Москвы центр» или «гостиницы Киева», то подсветка снова включится. Значит, существует некий порог, который, видимо, зависит от количества страниц в индексе или релевантности первых сайтов, а не от частотности запроса. Как только этот порог преодолевается, синонимы не включаются в выдачу, чтобы не ухудшить ее результаты.

Общие правила распознавания словоформ

Совершенный и несовершенный вид глагола − синонимы, а не словоформы

  • актуально лишь для Яндекса
  • делать≠сделать
  • исключения: купить/покупать, выщипать/выщипать, отправить/отправлять

Глаголы, причастия и деепричастия являются словоформами

  • актуально лишь для Яндекса
  • сделать = сделанный = сделал = сделавший и т.д.

так как причастия склоняются по числу, роду и падежу, как прилагательные, и по залогу, как глаголы, то у каждого глагола по Яндексу более 100 словоформ. А у слова «купить», которое является исключением, их еще больше. Причастия можно использовать для улучшения ранжирования глаголов (например, «купленный», «купивший» для слова «купить»).

Общие правила распознавания словоформ

 Разные части речи не являются словоформами друг друга

  • актуально лишь для Яндекса
  • покупка ≠ покупатель ≠ покупать
  • красиво спеть ≠ петь красиво
  • силач ≠ сильный
  • исключения: варить/варка, а также все глаголы, причастия и деепричастия

 

Все словоформы существительных имеют один род

  • актуально и для Яндекса, и для Google
  • красавец ≠ красавица
  • учитель ≠ учительница

 

Превосходная степень прилагательного является одной из словоформ

  • актуально лишь для Яндекса
  • хороший = лучший
  • добрый = добрейший = добрейшего = добрейшая = добрейшее
  • красивый = красивейший и т.д.
  • обратите внимание: прекрасный ≠ красивый (эти слова являются синонимами)

 

Сравнительная степень прилагательного является одной из его словоформ

  • актуально и для Яндекса, и для Google
  • добрый = добрее
  • красивый = красивее
  • обратите внимание: в Google хороший ≠ лучше, поскольку эту словоформу поисковик относит к превосходной степени.

 

В Google объединение слов происходит по интуитивному их сходству, а не по формальным правилам русского языка, что отлично видно на примере «хороший»-«лучше». У остальных прилагательных сравнительная степень относится к обычной, а не превосходной форме.

Как уже говорилось выше, скорее всего релевантность словоформ-синонимов в поисковых системах ниже, чем у морфологических словоформ. Поэтому, если вы оптимизируете страницу, лучше используйте словоформы в машинном представлении. Особенно актуален этот совет, если вы вставляете популярное уточнение в  шаблон ресурса, поскольку таким образом вы изменяете до нескольких тысяч страниц.

 

P.S. Нужно отметить, что несмотря на то, что структура морфологической базы Яндекса очень похожа на словарь Зализняка, это ни в коем случае нельзя считать плагиатом, ведь способы правильной реализации определенных вещей всегда схожи. К тому же принцип структурирования нельзя считать объектом авторского права.

Наша специализация — работа с разными объемами и тематиками. Сайты-визитки, порталы, интернет-магазины.

Нами успешно реализовано более 113 проектов.