Индексация сайта. Часть 3. Что нужно исключать из поиска?

Что нужно исключать из поиска

Введение

Алгоритм работы поисковой машины прост. Специальная программа, так называемый краулер, обращается к сайту и загружает в базу все найденные и не запрещенные страницы. После чего, из всего списка вычисляются претенденты на попадание непосредственно в поиск.

Основная задача SEO-специалиста заключается в том, что бы краулер загружал только те разделы, которые мы хотим видеть в поиске. Причин для этого несколько.

  1. Во-первых, если в поиск попадает множество не предназначенных для этого страниц, то процент отказов будет очень высок. К примеру, если в индексе оказываются результаты вычисления калькулятора, то о хороших поведенческих факторах можно забыть. Кому интересно попасть на страницу с итогами каких-то вычислений?

  2. Во-вторых, поисковик тратит на сайт ограниченное количество времени. То есть, если у Вас много «мусора», то в процессе индексации до нужных разделов краулер может просто не добраться;

  3. В-третьих, если у страницы есть дубли URL, это может привести к путанице и потере позиций;

  4. В-четвертых, когда у Вас тысячи исключенных из поиска страниц, то делать анализ индекса очень трудно;

  5. Множество других причин, о которых мы расскажем ниже.

Далее мы расскажем, что нужно исключать из поиска, как это делается и что в итоге должно получиться.

Что нужно исключать из поиска?

Исключать из поиска необходимо все то, что не предназначено для посетителя, имеет низкое качество, относится к CMS и является технической ошибкой. А вот и подробный список.

  • Все файлы, относящиеся к системе управления контентом;

  • Документы, которые не индексирует поисковая система. К примеру, flash файлы;

  • Дубли URL. То есть, если один и тот же контент доступен по 2 или более URL адресам, то необходимо оставить лишь один, канонический. Это можно сделать путем запрета всех остальных;

  • Страницы с неуникальным контентом, в том числе цитаты из законов и книг;

  • Различного рода подборки. К примеру, сортировка по автору, категории, метке, тэгу и т.д.;

  • Разделы с небольшим количеством контента. Тут имеются ввиду практически пустые страницы;

  • Итоги поиска по сайту;

  • Результаты вычислений калькуляторов и других интерактивных сервисов;

  • Страницы форм отправки сообщения со словами «Спасибо, сообщение отправлено»;

  • Все, что отдает ответ 404 или ошибки;

  • Страницы, которые очень долго загружаются;

  • Все, что содержит вирусы и вредоносный код. Бывает такое, что часть страниц на сайте заражена вредоносным кодом. Весь материал нужно срочно исключить из индекса и «лечить»;

  • Автоматически генерируемые URL с одинаковым контентом;

  • Сортировки товаров по ценам, датам и другим параметрам;

  • Страницы, которые имеют переадресации. Однако тут есть исключения. Если материал давно находится в поиске, но его URL меняется, то необходимо сделать 301 редирект. Вот такой URL из поиска исключать уже не надо. Это может привести к потере позиций.

  • Папки с дубликатами изображений разного размера. К примеру, папки с миниатюрами для фотогалереи;

  • Страницы, находящиеся в разработке или на обслуживании.

А так же, все то, что вводит поисковую систему и пользователей в заблуждение.

Как исключать страницы из поиска?

Исключаем файлы CMS (системы управления контентом)

Все файлы системы управления контентом исключаются в файле robots.txt при помощи инструкции Disallow:. Для большинства стандартных CMS предусмотрены готовые решения в которых уже исключено все необходимое. К примеру, для WordPress запрет индексации системных файлов выглядит таким образом:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /author*

Часть файлов и папок исключена при помощи масок.

Исключаем дубли URL

Для того, что бы исключить дубли URL, необходимо понять, откуда они берутся и что с ними делать. Есть несколько основных способов формирования.

  1. Особенности работы CMS;

    Многие системы управления при появлении новой страницы создают несколько URL адресов. К примеру, технический — /?p=1532&preview=true и итоговый — /indeksaciya-sayta-chast-3/. Не редки случаи, когда в выдаче появляются оба варианта URL. Такого быть не должно.

    Решение: Необходимо еще на стадии разработки сайта запретить индексацию всех технический адресов. Это можно сделать при помощи маски. В нашем случае это будет  Disallow: /*?*.

  2. Появление нового адреса;

    Если по какой-то причине было принято решение о смене URL, никогда не забывайте закрывать старый адрес страницы от индексации. Так же возможен вариант создания редиректа 301.

    Решение: Меняя адрес страницы всегда закрывайте старый URL. Это делается за 5 минут в файле robots.txt при помощи директивы Disallow:. 

Исключаем сортировки по авторам, тэгам и меткам

На сайтах с большим количеством страниц распространена сортировка по категориям, тэгам, меткам, авторам и другим параметрам. Итоги данной сортировки не несут никакого уникального контента для поисковой системы, поэтому их лучше закрыть от индексации.

У каждой системы управления свои префиксы и папки для тэгов, авторов и других параметров. Тут нету универсального средства.

Для WordPress это выглядит так:

Disallow: /tag
Disallow: /author*

Исключаем динамические URL с одним контентом

В случае, если Ваш сайт имеет динамические адреса, но контент при этом остается неизменным, Вам необходимо использовать инструкцию Clean-param:.

Подробнее о Clean-param: можно прочесть в нашей статье о настройке robots.txt — dh-agency.ru/sozdayom-robots-txt/

Что в итоге должно получиться?

В итоге, у Вас должны полностью отсутствовать исключенные страницы, а количество загруженных быть очень близко к числу в поиске.

Из индекса должен пропасть всяческий «мусор», а обход сайта роботом занимать меньше времени.

После решения всех проблем с индексацией, Вы обоснованно можете ожидать увеличения органического трафика.

Понравилась статья? Сделай репост

Добавить комментарий

Войти с помощью: