Robots.txt: что не делать? Управляйте Google, как вам нравится!

  1. Исключенные подстраницы видны в поисковой выдаче
  2. Страница входа Cisco
  3. Страница «следующего блога» WordPress.com
  4. Robots.txt может испортить входящий линк-сок
  5. 3 больших сайта, которые тратят впустую PageRank
  6. # 1 - Digg.com
  7. # 2 - Blogger.com & Blogspot.com
  8. № 3 - IBM
  9. Robots.txt - хорошая практика
  10. NOINDEX
  11. 301 Redirect
  12. Rel = каноническое
  13. Защита паролем
  14. Как эффективно использовать Robots.txt
  15. Плохие боты
  16. конкуренты
  17. Поддержка не-HTML и системных элементов
  18. Дополнительное чтение
  19. Хороший robots.txt в 6 шагов
  20. Форум MaxROY.com

В Интернете существуют популярные сайты с огромным количеством входящих ссылок, чьи подстраницы блокируются на уровне файла robots.txt до того, как поисковые роботы роботов , что наносит им большой вред. На вашем сайте также есть ошибки в файле robots.txt? Из следующего текста вы узнаете, как роботы поисковых систем обрабатывают файлы, заблокированные в файле robots.txt, смеются над веб-мастерами известных сайтов и ошибками, совершенными ими, и узнаете, как не совершать такие ошибки самостоятельно .


Основанный в 1994 году, Протокол об исключении роботов, используемый среди других в файлах robots.txt предполагалось использовать веб-мастерами для определения того, какие файлы или каталоги сайтов должны быть доступны для роботов поисковых систем, а какие - нет. Роботы большинства поисковых систем все еще слушают команды, которые они содержат, но только в некоторой степени.

Исключенные подстраницы видны в поисковой выдаче

Даже те боты, которые обычно подчиняются командам из файлов robots.tst (роботы Google и другие крупные поисковые системы), хотя они не сканируют содержимое исключенной подстраницы, они все равно могут поместить ее в индекс . Мы все видим такие «частичные» ссылки в результатах поиска. Ниже приведены два примера подстраниц, которые были исключены из индекса на уровне файла robots.txt, но которые все еще видны в Google.

Страница входа Cisco

Помечено на скриншоте подстраницы входа Веб-сайт Cisco был заблокирован в файле robots.txt, но Google отображает его усеченную ссылку на второй странице результатов запроса 'login'. В списке результатов отображается как URL-адрес подстраницы, так и ее тег [title]. Содержание мета-описания [description] или фрагмента текста с подстраницы отсутствует.

Страница «следующего блога» WordPress.com

Одной из самых популярных страниц WordPress.com является www.wordpress.com/next. Эта подстраница заблокирована в файле robots.txt и все же появляется в Google на четвертом месте по запросу «следующий блог».

Как видите, размещение подстраницы в файле robots.txt недостаточно, чтобы Google не отображал ее в списке результатов.

Robots.txt может испортить входящий линк-сок

Проблема с файлом robots.txt заключается в том, что он не только остается неэффективным при блокировании индексации подстраниц, но также может способствовать потере PageRank, который поступает на наш сайт.

Когда вы блокируете индексацию подстраницы в файле robots.txt, поисковые системы не будут сканировать контент, ВКЛЮЧАЯ ССЫЛКИ , с этой подстраницы. Это означает, что если есть какие-либо ссылки на подстраницу, то следующая ссылка будет больше не отображаться, она застрянет. Вы создаете тупик.

Вы создаете тупик

(Если изображение выше выглядит знакомым, это потому, что на самом деле Вы видели его раньше , Спасибо, Рэнд!)

Конечно, ссылки, приходящие на заблокированную подстраницу , принесут некоторые выгоды всему сайту , но их потенциал не будет использован полностью. Вы теряете возможность переноса pagerank с заблокированной подстраницы на другие, более важные подстраницы сайта.

3 больших сайта, которые тратят впустую PageRank

Я искал в Интернете самые неловкие неудачи. Я взял список 500 лучших SEOmozu и я нацелились лезвие OpenSiteExplorera на веб-сайт Digg.com и список его подстраниц, на которые он ссылается на самые уникальные домены. Результаты довольно страшные:

(Эй, там Diggu ! Вы тратите много ссылочного сока!)

Вот как мы пришли к первому серьезному случаю неправильного использования robots.txt.

# 1 - Digg.com

Блокируя доступ роботов из robots.txt, роботы подузлов, которые возглавляют космическое число 425 000 ссылок из уникальных доменов (" Отправить в Digg "), Digg.com причинил себе столько вреда, сколько вы можете себе представить.

Что можно сказать хорошего о Digg, так это то, что между поиском ошибок и написанием этой статьи большинство проблемных записей исчезло из файла robots.txt. Поскольку вы больше не можете смотреть это в прямом эфире, я публикую скриншот, содержащий ошибочную версию файла robots.txt, а также список файлов, проиндексированных в Google, из каталога digg.com/submit:

Как вы можете видеть ниже, Google еще не проиндексировал ранее заблокированный контент:

Я ожидаю, что люди из Digga увидят, что, когда они удалят robots.txt со своих наиболее часто связанных страниц, лавинообразный рост трафика. Чтобы не заполнять SERP подстраницами ненужным контентом, Diggu должен удалить их из индекса, используя метатег «noindex» , помещенный в robots.txt. Только это гарантирует, что вы не заблокируете поток ссылочного сока, не позволяя Google отображать релевантные подстраницы в результатах поиска.

Если вы не сильны в использовании «noindex», просто вставьте метатег ниже в разделе [head] соответствующей подстраницы.

<meta name = "robots" content = "noindex, follow">

Добавляя значение «follow» к тегу, вы говорите ботам не индексировать данную подстраницу, а переходить по ссылкам, размещенным на ней . В типичных случаях это рекомендуемое решение, поскольку оно не блокирует поток ссылочного сока на другие страницы сайта. Давайте возьмем страницу результатов поиска со ссылками на страницы в качестве примера. Возможно, вы не хотите, чтобы такая подстраница отображалась в результатах поиска, поскольку содержимое последующих страниц результатов будет меняться ежедневно. Если вы используете noindex, следуйте методу, поисковая система будет переходить по ссылкам, перечисленным на подстранице, и, вероятно, будет индексировать их.

Вы также можете использовать «noindex, nofollow», но трудно найти цель этого действия, оно по сути равносильно вышеупомянутой блокировке соковой ссылки из robots.txt.

# 2 - Blogger.com & Blogspot.com

Принадлежность к Google Сайты блогов Blogger и Blogspot показывают, что каждый может что-то улучшить. То, как эти сайты связаны друг с другом, не является хорошей практикой, что приводит к значительным потерям в соке ссылок.

Blogger - это бренд платформы блогов Googlowa, которая размещает блоги в домене blogspot.com. Проблема с блокировкой файла ссылки сока и файла robots.txt этого сайта заключается в том, что robots.txt полностью блокирует поддомен www.blogspot.com. Если этого недостаточно, попытка посетить основной сайт Blogspot заканчивается перенаправлением 302 на Blogger.com.

Примечание: все другие субдомены, кроме "www", доступны для роботов.

Лучшим решением было бы просто направить 301 с главной страницы Blogspot.com на главную целевую страницу Blogger.com. Поэтому запись в robots.txt должна быть полностью удалена. Такое небольшое изменение откроет скрытую силу более 4600 уникальных доменов, ссылающихся на этот сайт. Это действительно много ссылок.

№ 3 - IBM

IBM, в свою очередь, блокирует подстраницу в файле robots.txt, который связан со 1001 ссылкой из уникальных доменов. Честно говоря, эта подстраница не только заблокирована на уровне robots.txt, но также запускает тройное перенаправление 302 на другой сайт - см. Ниже:

Когда популярная подстраница удаляется или перемещается , обычно лучше установить перенаправление 301, ведущее к наиболее заменяющему контенту.

Robots.txt - хорошая практика

В вышеупомянутых примерах крупных известных сайтов мы обсуждали некоторые распространенные ошибки, допущенные в файле robots.txt, и способы их обхода. Однако не все из них. Ниже приведен список способов остановить индексирование выбранных подстраниц без потери ссылочного сока.

NOINDEX

В большинстве случаев лучшая альтернатива для исключить подстраницы на уровне robots.txt - метатег роботов , Использование метатега robots со значением «noindex», НО «nofollow», гарантирует, что подстрока будет отсутствовать в результатах поиска, но все равно будет передавать сок ссылок. Выпей торт и съешь торт :-).

301 Redirect

Robots.txt не подходит для обмена ненужными, неважными подстраницами. Если подстраница не существует (она была удалена или перемещена), не прекращайте ее блокировать. Установите его с 301 на другую подстраницу, идеально подходящую для ожиданий пользователей Интернета. Для получения дополнительной информации о перенаправлениях см. Центр Знаний Seomoz.org ,

Rel = каноническое

Не блокируйте дубликаты ваших подстраниц в файле robots.txt. Если вы используете rel = canonical, вы удаляете лишние версии из индекса, консолидируя ссылочную ссылку всех дублированных версий. Используйте этот метод везде, где это возможно. Для получения дополнительной информации о канонализации и правильном использовании rel = canonical см. Центр Знаний ,

Защита паролем

Если вы хотите защитить часть содержимого вашего сайта от посторонних лиц, robots.txt не является эффективным инструментом. Если вы публикуете конфиденциальную информацию, пожалуйста, обеспечьте доступ к ней с помощью пароля. Если вы создаете подстраницу входа, добавьте к ней метатег noindex. Если вы подозреваете, что такая подстраница может накапливать много входящих ссылок, не забудьте связать ее с другими важными подстраницами вашего сайта. Благодаря этому вы дадите им ссылку сока.

Как эффективно использовать Robots.txt

Лучший совет по использованию файла robots.txt - не использовать его вообще . Ну, почти на всех. Используйте его, чтобы указать, что роботы имеют полный доступ ко всем файлам на сайте, а также чтобы показать роботам файл с картой сайта XML. И это все.

Ваш файл robots.txt должен выглядеть следующим образом:

------

Пользователь-агент: *
Disallow:

Карта сайта: http://www.twojawitryna.pl/sitemap.xml

------

Плохие боты

В начале этого текста я упомянул, что «роботы большинства поисковых систем все еще действительно слушают эти команды (...)», что означает, что есть роботы, которые ничего не делают с командами, содержащимися в robots.txt. С помощью файла robots.txt вы можете управлять «хорошими» роботами, но в то же время иметь возможность управлять «плохими» роботами. Я сразу же оставляю за собой право не допускать на сайт только роботов Google и Bing по трем причинам:

  • Поисковые системы часто меняют / обновляют имена своих роботов (например, была изменена фамилия бота Bing),
  • поисковые системы «выпускают» различные типы роботов в Интернет для различных типов контента (например, изображений, видео, мобильного контента и т. д.),
  • Вы не даете возможности новым поисковым системам (например, Blekko, Yandex), в то время как индустрия поисковых систем нуждается в большей конкуренции.

конкуренты

Если ваши конкуренты элементарно позиционируются, они непременно проверят ваш файл robots.txt , задаваясь вопросом, что они могут из него извлечь, чтобы получить преимущество над вами. Представьте, например, что ваша компания работает над редизайном сайта или новой линейкой продуктов, соответствующие подстраницы уже существуют, но вы решили запретить роботам индексировать их, поместив их в «Disallow» в файле robots.txt. Если ваш конкурент приедет, он заглянет в роботов и увидит заблокированный каталог с именем / new-product-test, он получил много преимуществ перед вами. Вы лучше держите такие вещи позади экрана входа в систему. Не избавляйтесь от всех своих секретов в файле robots.txt.

Поддержка не-HTML и системных элементов

  • Блокировка файла robots.txt от роботов до файлов .js и .css не требуется. Поисковые системы не будут сканировать их в любом случае, но иногда они хотят получить представление о них. Чтобы не быть разоблаченным, лучше дать им это понимание,
  • Если вы хотите запретить роботам получать доступ к документам в форматах, отличных от HTML (например, PDF), лучше использовать тег х-роботы в заголовке HTTP (спасибо Билл Нордвалл за предложение такой возможности!),
  • Фотография! Каждый сайт использует правила изображения или изображения, которые используются для пролистывания сайта, которые не должны быть проиндексированы. Помните, что по возможности такие изображения должны отображаться с помощью CSS, а не тега [img]. Это остановит роботов от их индексации.
  • Проверьте журналы сайта, чтобы увидеть, пытаются ли боты получить доступ к файлам не-HTML вашего сайта. Возможно, не о чем беспокоиться.

Дополнительное чтение

Они уже писали об ошибках в robots.txt Рэнд Фишкин и Энди Борода. Обратите внимание, однако, на дату публикации своих статей; оба были написаны во времена внутреннего скульптинга PageRank, выполненного с использованием атрибута nofollow. Другими словами, подробно, обе статьи могут быть устаревшими время от времени, в то время как общие принципы, представленные в них, остаются неизменными.

Рэнд Фишкин: Не случайно заблокировать сок ссылок с Robots.txt
Энди Берд: SEO связывает Gotchas даже с профессионалами

Хороший robots.txt в 6 шагов

  • Возьмите файл robots.txt вашего сайта. Если вы запрещаете доступ к нему («Запретить»), читайте дальше.
  • Перейдите на вкладку «Главные страницы» в Open Site Explorer, чтобы увидеть подстраницы вашего сайта, которые связаны с большинством ссылок с уникальных доменов, и выяснить размер «потери страниц». Это даст вам представление о том, как поместить проблему robots.txt в список ваших приоритетов.
  • Вы можете добавить метатег noindex в заголовки подстраниц, которые вы хотите удалить из индекса поисковой системы.
  • Установите 301 перенаправление с удаленных / перемещенных подстраниц, которые вы ранее заблокировали в robots.txt.
  • Добавьте тег rel = canonical в дубликаты заголовков подстраниц, которые вы ранее заблокировали в файле robots.txt.
  • Посмотрите, как растет трафик с поисковых систем!

Приятной оптимизации!

[Источник: Serious Robots.txt Злоупотребления и решения с высоким уровнем воздействия ]

Форум MaxROY.com

Вы заинтересованы в переадресации rel = canonical и 301? Взгляните на Forum.MaxROY.com, читайте:

    • Сколько PageRank вы теряете при перенаправлении 301? ,
    • Как избежать дублирования контента? ,
    • Rel = каноническое или 301 редирект? ,
    • Как я могу проверить, была ли установлена пересылка 301?
    • Как скрыть ссылки с конкурса на сайт?

Купить доступ к закрытому форуму MaxROY.com. Там вы найдете мнения и советы экспертов + хороший уровень обсуждения, гарантированный ограниченным доступом. Вы можете рассчитывать на наш ответ на каждый вопрос в области поискового маркетинга.

Вам понравилась статья?
Подпишитесь на рассылку,
и вы будете в курсе.

Txt?
Вам понравилась статья?