Исключаем страницы из результатов поиска Яндекса

Введение
Что нужно исключать из поиска
Как исключать страницы из поиска
Что в итоге должно получиться?

Введение

Алгоритм работы поисковой машины прост. Специальная программа, так называемый краулер, обращается к сайту и загружает в базу все найденные и не запрещенные страницы. После чего, из всего списка вычисляются претенденты на попадание непосредственно в поиск.

Основная задача SEO-специалиста заключается в том, что бы краулер загружал только те разделы, которые мы хотим видеть в поиске. Причин для этого несколько.

Во-первых, если в поиск попадает множество не предназначенных для этого страниц, то процент отказов будет очень высок. К примеру, если в индексе оказываются результаты вычисления калькулятора, то о хороших поведенческих факторах можно забыть. Кому интересно попасть на страницу с итогами каких-то вычислений?
Во-вторых, поисковик тратит на сайт ограниченное количество времени. То есть, если у Вас много «мусора», то в процессе индексации до нужных разделов краулер может просто не добраться;
В-третьих, если у страницы есть дубли URL, это может привести к путанице и потере позиций;
В-четвертых, когда у Вас тысячи исключенных из поиска страниц, то делать анализ индекса очень трудно;
Множество других причин, о которых мы расскажем ниже.

Далее мы расскажем, что нужно исключать из поиска, как это делается и что в итоге должно получиться.

Что нужно исключать из поиска?

Исключать из поиска необходимо все то, что не предназначено для посетителя, имеет низкое качество, относится к CMS и является технической ошибкой. А вот и подробный список.

Все файлы, относящиеся к системе управления контентом;
Документы, которые не индексирует поисковая система. К примеру, flash файлы;
Дубли URL. То есть, если один и тот же контент доступен по 2 или более URL адресам, то необходимо оставить лишь один, канонический. Это можно сделать путем запрета всех остальных;
Страницы с неуникальным контентом, в том числе цитаты из законов и книг;
Различного рода подборки. К примеру, сортировка по автору, категории, метке, тэгу и т.д.;
Разделы с небольшим количеством контента. Тут имеются ввиду практически пустые страницы;
Итоги поиска по сайту;
Результаты вычислений калькуляторов и других интерактивных сервисов;
Страницы форм отправки сообщения со словами «Спасибо, сообщение отправлено»;
Все, что отдает ответ 404 или ошибки;
Страницы, которые очень долго загружаются;
Все, что содержит вирусы и вредоносный код. Бывает такое, что часть страниц на сайте заражена вредоносным кодом. Весь материал нужно срочно исключить из индекса и «лечить»;
Автоматически генерируемые URL с одинаковым контентом;
Сортировки товаров по ценам, датам и другим параметрам;
Страницы, которые имеют переадресации. Однако тут есть исключения. Если материал давно находится в поиске, но его URL меняется, то необходимо сделать 301 редирект. Вот такой URL из поиска исключать уже не надо. Это может привести к потере позиций.
Папки с дубликатами изображений разного размера. К примеру, папки с миниатюрами для фотогалереи;
Страницы, находящиеся в разработке или на обслуживании.

А так же, все то, что вводит поисковую систему и пользователей в заблуждение.

Как исключать страницы из поиска?

Исключаем файлы CMS (системы управления контентом)

Все файлы системы управления контентом исключаются в файле robots.txt при помощи инструкции Disallow:. Для большинства стандартных CMS предусмотрены готовые решения в которых уже исключено все необходимое. К примеру, для WordPress запрет индексации системных файлов выглядит таким образом:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /author*

Часть файлов и папок исключена при помощи масок.

Исключаем дубли URL

Для того, что бы исключить дубли URL, необходимо понять, откуда они берутся и что с ними делать. Есть несколько основных способов формирования.

Особенности работы CMS;

Многие системы управления при появлении новой страницы создают несколько URL адресов. К примеру, технический — /?p=1532&preview=true и итоговый — /indeksaciya-sayta-chast-3/. Не редки случаи, когда в выдаче появляются оба варианта URL. Такого быть не должно.

Решение: Необходимо еще на стадии разработки сайта запретить индексацию всех технический адресов. Это можно сделать при помощи маски. В нашем случае это будет Disallow: /*?*.
Появление нового адреса;

Если по какой-то причине было принято решение о смене URL, никогда не забывайте закрывать старый адрес страницы от индексации. Так же возможен вариант создания редиректа 301.

Решение: Меняя адрес страницы всегда закрывайте старый URL. Это делается за 5 минут в файле robots.txt при помощи директивы Disallow:.

Исключаем сортировки по авторам, тэгам и меткам

На сайтах с большим количеством страниц распространена сортировка по категориям, тэгам, меткам, авторам и другим параметрам. Итоги данной сортировки не несут никакого уникального контента для поисковой системы, поэтому их лучше закрыть от индексации.

У каждой системы управления свои префиксы и папки для тэгов, авторов и других параметров. Тут нету универсального средства.

Для WordPress это выглядит так:

Disallow: /tag
Disallow: /author*

Исключаем динамические URL с одним контентом

В случае, если Ваш сайт имеет динамические адреса, но контент при этом остается неизменным, Вам необходимо использовать инструкцию Clean-param:.

Подробнее о Clean-param: можно прочесть в нашей статье о настройке robots.txt — dh-agency.ru/sozdayom-robots-txt/

Что в итоге должно получиться?

В итоге, у Вас должны полностью отсутствовать исключенные страницы, а количество загруженных быть очень близко к числу в поиске.

Из индекса должен пропасть всяческий «мусор», а обход сайта роботом занимать меньше времени.

После решения всех проблем с индексацией, Вы обоснованно можете ожидать увеличения органического трафика.

Индексация сайта. Часть 3. Что нужно исключать из поиска?