- Введение
- Что нужно исключать из поиска
- Как исключать страницы из поиска
- Что в итоге должно получиться?
Введение
Алгоритм работы поисковой машины прост. Специальная программа, так называемый краулер, обращается к сайту и загружает в базу все найденные и не запрещенные страницы. После чего, из всего списка вычисляются претенденты на попадание непосредственно в поиск.
Основная задача SEO-специалиста заключается в том, что бы краулер загружал только те разделы, которые мы хотим видеть в поиске. Причин для этого несколько.
-
Во-первых, если в поиск попадает множество не предназначенных для этого страниц, то процент отказов будет очень высок. К примеру, если в индексе оказываются результаты вычисления калькулятора, то о хороших поведенческих факторах можно забыть. Кому интересно попасть на страницу с итогами каких-то вычислений?
-
Во-вторых, поисковик тратит на сайт ограниченное количество времени. То есть, если у Вас много «мусора», то в процессе индексации до нужных разделов краулер может просто не добраться;
-
В-третьих, если у страницы есть дубли URL, это может привести к путанице и потере позиций;
-
В-четвертых, когда у Вас тысячи исключенных из поиска страниц, то делать анализ индекса очень трудно;
-
Множество других причин, о которых мы расскажем ниже.
Далее мы расскажем, что нужно исключать из поиска, как это делается и что в итоге должно получиться.
Что нужно исключать из поиска?
Исключать из поиска необходимо все то, что не предназначено для посетителя, имеет низкое качество, относится к CMS и является технической ошибкой. А вот и подробный список.
-
Все файлы, относящиеся к системе управления контентом;
-
Документы, которые не индексирует поисковая система. К примеру, flash файлы;
-
Дубли URL. То есть, если один и тот же контент доступен по 2 или более URL адресам, то необходимо оставить лишь один, канонический. Это можно сделать путем запрета всех остальных;
-
Страницы с неуникальным контентом, в том числе цитаты из законов и книг;
-
Различного рода подборки. К примеру, сортировка по автору, категории, метке, тэгу и т.д.;
-
Разделы с небольшим количеством контента. Тут имеются ввиду практически пустые страницы;
-
Итоги поиска по сайту;
-
Результаты вычислений калькуляторов и других интерактивных сервисов;
-
Страницы форм отправки сообщения со словами «Спасибо, сообщение отправлено»;
-
Все, что отдает ответ 404 или ошибки;
-
Страницы, которые очень долго загружаются;
-
Все, что содержит вирусы и вредоносный код. Бывает такое, что часть страниц на сайте заражена вредоносным кодом. Весь материал нужно срочно исключить из индекса и «лечить»;
-
Автоматически генерируемые URL с одинаковым контентом;
-
Сортировки товаров по ценам, датам и другим параметрам;
-
Страницы, которые имеют переадресации. Однако тут есть исключения. Если материал давно находится в поиске, но его URL меняется, то необходимо сделать 301 редирект. Вот такой URL из поиска исключать уже не надо. Это может привести к потере позиций.
-
Папки с дубликатами изображений разного размера. К примеру, папки с миниатюрами для фотогалереи;
-
Страницы, находящиеся в разработке или на обслуживании.
А так же, все то, что вводит поисковую систему и пользователей в заблуждение.
Как исключать страницы из поиска?
Исключаем файлы CMS (системы управления контентом)
Все файлы системы управления контентом исключаются в файле robots.txt при помощи инструкции Disallow:. Для большинства стандартных CMS предусмотрены готовые решения в которых уже исключено все необходимое. К примеру, для WordPress запрет индексации системных файлов выглядит таким образом:
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /author*
Часть файлов и папок исключена при помощи масок.
Исключаем дубли URL
Для того, что бы исключить дубли URL, необходимо понять, откуда они берутся и что с ними делать. Есть несколько основных способов формирования.
-
Особенности работы CMS;
Многие системы управления при появлении новой страницы создают несколько URL адресов. К примеру, технический — /?p=1532&preview=true и итоговый — /indeksaciya-sayta-chast-3/. Не редки случаи, когда в выдаче появляются оба варианта URL. Такого быть не должно.
Решение: Необходимо еще на стадии разработки сайта запретить индексацию всех технический адресов. Это можно сделать при помощи маски. В нашем случае это будет Disallow: /*?*.
-
Появление нового адреса;
Если по какой-то причине было принято решение о смене URL, никогда не забывайте закрывать старый адрес страницы от индексации. Так же возможен вариант создания редиректа 301.
Решение: Меняя адрес страницы всегда закрывайте старый URL. Это делается за 5 минут в файле robots.txt при помощи директивы Disallow:.
Исключаем сортировки по авторам, тэгам и меткам
На сайтах с большим количеством страниц распространена сортировка по категориям, тэгам, меткам, авторам и другим параметрам. Итоги данной сортировки не несут никакого уникального контента для поисковой системы, поэтому их лучше закрыть от индексации.
У каждой системы управления свои префиксы и папки для тэгов, авторов и других параметров. Тут нету универсального средства.
Для WordPress это выглядит так:
Disallow: /tag
Disallow: /author*
Исключаем динамические URL с одним контентом
В случае, если Ваш сайт имеет динамические адреса, но контент при этом остается неизменным, Вам необходимо использовать инструкцию Clean-param:.
Подробнее о Clean-param: можно прочесть в нашей статье о настройке robots.txt — dh-agency.ru/sozdayom-robots-txt/
Что в итоге должно получиться?
В итоге, у Вас должны полностью отсутствовать исключенные страницы, а количество загруженных быть очень близко к числу в поиске.
Из индекса должен пропасть всяческий «мусор», а обход сайта роботом занимать меньше времени.
После решения всех проблем с индексацией, Вы обоснованно можете ожидать увеличения органического трафика.