Robots.txt: что не делать? Управляйте Google, как вам нравится!

Исключенные подстраницы видны в поисковой выдаче
Страница входа Cisco
Страница «следующего блога» WordPress.com
Robots.txt может испортить входящий линк-сок
3 больших сайта, которые тратят впустую PageRank
# 1 - Digg.com
# 2 - Blogger.com & Blogspot.com
№ 3 - IBM
Robots.txt - хорошая практика
NOINDEX
301 Redirect
Rel = каноническое
Защита паролем
Как эффективно использовать Robots.txt
Плохие боты
конкуренты
Поддержка не-HTML и системных элементов
Хороший robots.txt в 6 шагов
Форум MaxROY.com

В Интернете существуют популярные сайты с огромным количеством входящих ссылок, чьи подстраницы блокируются на уровне файла robots.txt до того, как поисковые роботы роботов , что наносит им большой вред. На вашем сайте также есть ошибки в файле robots.txt? Из следующего текста вы узнаете, как роботы поисковых систем обрабатывают файлы, заблокированные в файле robots.txt, смеются над веб-мастерами известных сайтов и ошибками, совершенными ими, и узнаете, как не совершать такие ошибки самостоятельно .

Основанный в 1994 году, Протокол об исключении роботов, используемый среди других в файлах robots.txt предполагалось использовать веб-мастерами для определения того, какие файлы или каталоги сайтов должны быть доступны для роботов поисковых систем, а какие - нет. Роботы большинства поисковых систем все еще слушают команды, которые они содержат, но только в некоторой степени.

Исключенные подстраницы видны в поисковой выдаче

Даже те боты, которые обычно подчиняются командам из файлов robots.tst (роботы Google и другие крупные поисковые системы), хотя они не сканируют содержимое исключенной подстраницы, они все равно могут поместить ее в индекс . Мы все видим такие «частичные» ссылки в результатах поиска. Ниже приведены два примера подстраниц, которые были исключены из индекса на уровне файла robots.txt, но которые все еще видны в Google.

Страница входа Cisco

Помечено на скриншоте подстраницы входа Веб-сайт Cisco был заблокирован в файле robots.txt, но Google отображает его усеченную ссылку на второй странице результатов запроса 'login'. В списке результатов отображается как URL-адрес подстраницы, так и ее тег [title]. Содержание мета-описания [description] или фрагмента текста с подстраницы отсутствует.

Страница «следующего блога» WordPress.com

Одной из самых популярных страниц WordPress.com является www.wordpress.com/next. Эта подстраница заблокирована в файле robots.txt и все же появляется в Google на четвертом месте по запросу «следующий блог».

Как видите, размещение подстраницы в файле robots.txt недостаточно, чтобы Google не отображал ее в списке результатов.

Robots.txt может испортить входящий линк-сок

Проблема с файлом robots.txt заключается в том, что он не только остается неэффективным при блокировании индексации подстраниц, но также может способствовать потере PageRank, который поступает на наш сайт.

Когда вы блокируете индексацию подстраницы в файле robots.txt, поисковые системы не будут сканировать контент, ВКЛЮЧАЯ ССЫЛКИ , с этой подстраницы. Это означает, что если есть какие-либо ссылки на подстраницу, то следующая ссылка будет больше не отображаться, она застрянет. Вы создаете тупик.

Вы создаете тупик

(Если изображение выше выглядит знакомым, это потому, что на самом деле Вы видели его раньше , Спасибо, Рэнд!)

Конечно, ссылки, приходящие на заблокированную подстраницу , принесут некоторые выгоды всему сайту , но их потенциал не будет использован полностью. Вы теряете возможность переноса pagerank с заблокированной подстраницы на другие, более важные подстраницы сайта.

3 больших сайта, которые тратят впустую PageRank

Я искал в Интернете самые неловкие неудачи. Я взял список 500 лучших SEOmozu и я нацелились лезвие OpenSiteExplorera на веб-сайт Digg.com и список его подстраниц, на которые он ссылается на самые уникальные домены. Результаты довольно страшные:

(Эй, там Diggu ! Вы тратите много ссылочного сока!)

Вот как мы пришли к первому серьезному случаю неправильного использования robots.txt.

# 1 - Digg.com

Блокируя доступ роботов из robots.txt, роботы подузлов, которые возглавляют космическое число 425 000 ссылок из уникальных доменов (" Отправить в Digg "), Digg.com причинил себе столько вреда, сколько вы можете себе представить.

Что можно сказать хорошего о Digg, так это то, что между поиском ошибок и написанием этой статьи большинство проблемных записей исчезло из файла robots.txt. Поскольку вы больше не можете смотреть это в прямом эфире, я публикую скриншот, содержащий ошибочную версию файла robots.txt, а также список файлов, проиндексированных в Google, из каталога digg.com/submit:

Как вы можете видеть ниже, Google еще не проиндексировал ранее заблокированный контент:

Я ожидаю, что люди из Digga увидят, что, когда они удалят robots.txt со своих наиболее часто связанных страниц, лавинообразный рост трафика. Чтобы не заполнять SERP подстраницами ненужным контентом, Diggu должен удалить их из индекса, используя метатег «noindex» , помещенный в robots.txt. Только это гарантирует, что вы не заблокируете поток ссылочного сока, не позволяя Google отображать релевантные подстраницы в результатах поиска.

Если вы не сильны в использовании «noindex», просто вставьте метатег ниже в разделе [head] соответствующей подстраницы.

Добавляя значение «follow» к тегу, вы говорите ботам не индексировать данную подстраницу, а переходить по ссылкам, размещенным на ней . В типичных случаях это рекомендуемое решение, поскольку оно не блокирует поток ссылочного сока на другие страницы сайта. Давайте возьмем страницу результатов поиска со ссылками на страницы в качестве примера. Возможно, вы не хотите, чтобы такая подстраница отображалась в результатах поиска, поскольку содержимое последующих страниц результатов будет меняться ежедневно. Если вы используете noindex, следуйте методу, поисковая система будет переходить по ссылкам, перечисленным на подстранице, и, вероятно, будет индексировать их.

Вы также можете использовать «noindex, nofollow», но трудно найти цель этого действия, оно по сути равносильно вышеупомянутой блокировке соковой ссылки из robots.txt.

# 2 - Blogger.com & Blogspot.com

Принадлежность к Google Сайты блогов Blogger и Blogspot показывают, что каждый может что-то улучшить. То, как эти сайты связаны друг с другом, не является хорошей практикой, что приводит к значительным потерям в соке ссылок.

Blogger - это бренд платформы блогов Googlowa, которая размещает блоги в домене blogspot.com. Проблема с блокировкой файла ссылки сока и файла robots.txt этого сайта заключается в том, что robots.txt полностью блокирует поддомен www.blogspot.com. Если этого недостаточно, попытка посетить основной сайт Blogspot заканчивается перенаправлением 302 на Blogger.com.

Примечание: все другие субдомены, кроме "www", доступны для роботов.

Лучшим решением было бы просто направить 301 с главной страницы Blogspot.com на главную целевую страницу Blogger.com. Поэтому запись в robots.txt должна быть полностью удалена. Такое небольшое изменение откроет скрытую силу более 4600 уникальных доменов, ссылающихся на этот сайт. Это действительно много ссылок.

№ 3 - IBM

IBM, в свою очередь, блокирует подстраницу в файле robots.txt, который связан со 1001 ссылкой из уникальных доменов. Честно говоря, эта подстраница не только заблокирована на уровне robots.txt, но также запускает тройное перенаправление 302 на другой сайт - см. Ниже:

Когда популярная подстраница удаляется или перемещается , обычно лучше установить перенаправление 301, ведущее к наиболее заменяющему контенту.

Robots.txt - хорошая практика

В вышеупомянутых примерах крупных известных сайтов мы обсуждали некоторые распространенные ошибки, допущенные в файле robots.txt, и способы их обхода. Однако не все из них. Ниже приведен список способов остановить индексирование выбранных подстраниц без потери ссылочного сока.

NOINDEX

В большинстве случаев лучшая альтернатива для исключить подстраницы на уровне robots.txt - метатег роботов , Использование метатега robots со значением «noindex», НО «nofollow», гарантирует, что подстрока будет отсутствовать в результатах поиска, но все равно будет передавать сок ссылок. Выпей торт и съешь торт :-).

301 Redirect

Robots.txt не подходит для обмена ненужными, неважными подстраницами. Если подстраница не существует (она была удалена или перемещена), не прекращайте ее блокировать. Установите его с 301 на другую подстраницу, идеально подходящую для ожиданий пользователей Интернета. Для получения дополнительной информации о перенаправлениях см. Центр Знаний Seomoz.org ,

Rel = каноническое

Не блокируйте дубликаты ваших подстраниц в файле robots.txt. Если вы используете rel = canonical, вы удаляете лишние версии из индекса, консолидируя ссылочную ссылку всех дублированных версий. Используйте этот метод везде, где это возможно. Для получения дополнительной информации о канонализации и правильном использовании rel = canonical см. Центр Знаний ,

Защита паролем

Если вы хотите защитить часть содержимого вашего сайта от посторонних лиц, robots.txt не является эффективным инструментом. Если вы публикуете конфиденциальную информацию, пожалуйста, обеспечьте доступ к ней с помощью пароля. Если вы создаете подстраницу входа, добавьте к ней метатег noindex. Если вы подозреваете, что такая подстраница может накапливать много входящих ссылок, не забудьте связать ее с другими важными подстраницами вашего сайта. Благодаря этому вы дадите им ссылку сока.

Как эффективно использовать Robots.txt

Лучший совет по использованию файла robots.txt - не использовать его вообще . Ну, почти на всех. Используйте его, чтобы указать, что роботы имеют полный доступ ко всем файлам на сайте, а также чтобы показать роботам файл с картой сайта XML. И это все.

Ваш файл robots.txt должен выглядеть следующим образом:

------

Пользователь-агент: *
Disallow:

Карта сайта: http://www.twojawitryna.pl/sitemap.xml

------

Плохие боты

В начале этого текста я упомянул, что «роботы большинства поисковых систем все еще действительно слушают эти команды (...)», что означает, что есть роботы, которые ничего не делают с командами, содержащимися в robots.txt. С помощью файла robots.txt вы можете управлять «хорошими» роботами, но в то же время иметь возможность управлять «плохими» роботами. Я сразу же оставляю за собой право не допускать на сайт только роботов Google и Bing по трем причинам:

Поисковые системы часто меняют / обновляют имена своих роботов (например, была изменена фамилия бота Bing),
поисковые системы «выпускают» различные типы роботов в Интернет для различных типов контента (например, изображений, видео, мобильного контента и т. д.),
Вы не даете возможности новым поисковым системам (например, Blekko, Yandex), в то время как индустрия поисковых систем нуждается в большей конкуренции.

конкуренты

Если ваши конкуренты элементарно позиционируются, они непременно проверят ваш файл robots.txt , задаваясь вопросом, что они могут из него извлечь, чтобы получить преимущество над вами. Представьте, например, что ваша компания работает над редизайном сайта или новой линейкой продуктов, соответствующие подстраницы уже существуют, но вы решили запретить роботам индексировать их, поместив их в «Disallow» в файле robots.txt. Если ваш конкурент приедет, он заглянет в роботов и увидит заблокированный каталог с именем / new-product-test, он получил много преимуществ перед вами. Вы лучше держите такие вещи позади экрана входа в систему. Не избавляйтесь от всех своих секретов в файле robots.txt.

Поддержка не-HTML и системных элементов

Блокировка файла robots.txt от роботов до файлов .js и .css не требуется. Поисковые системы не будут сканировать их в любом случае, но иногда они хотят получить представление о них. Чтобы не быть разоблаченным, лучше дать им это понимание,
Если вы хотите запретить роботам получать доступ к документам в форматах, отличных от HTML (например, PDF), лучше использовать тег х-роботы в заголовке HTTP (спасибо Билл Нордвалл за предложение такой возможности!),
Фотография! Каждый сайт использует правила изображения или изображения, которые используются для пролистывания сайта, которые не должны быть проиндексированы. Помните, что по возможности такие изображения должны отображаться с помощью CSS, а не тега [img]. Это остановит роботов от их индексации.
Проверьте журналы сайта, чтобы увидеть, пытаются ли боты получить доступ к файлам не-HTML вашего сайта. Возможно, не о чем беспокоиться.

Дополнительное чтение

Они уже писали об ошибках в robots.txt Рэнд Фишкин и Энди Борода. Обратите внимание, однако, на дату публикации своих статей; оба были написаны во времена внутреннего скульптинга PageRank, выполненного с использованием атрибута nofollow. Другими словами, подробно, обе статьи могут быть устаревшими время от времени, в то время как общие принципы, представленные в них, остаются неизменными.

Рэнд Фишкин: Не случайно заблокировать сок ссылок с Robots.txt
Энди Берд: SEO связывает Gotchas даже с профессионалами

Хороший robots.txt в 6 шагов

Возьмите файл robots.txt вашего сайта. Если вы запрещаете доступ к нему («Запретить»), читайте дальше.
Перейдите на вкладку «Главные страницы» в Open Site Explorer, чтобы увидеть подстраницы вашего сайта, которые связаны с большинством ссылок с уникальных доменов, и выяснить размер «потери страниц». Это даст вам представление о том, как поместить проблему robots.txt в список ваших приоритетов.
Вы можете добавить метатег noindex в заголовки подстраниц, которые вы хотите удалить из индекса поисковой системы.
Установите 301 перенаправление с удаленных / перемещенных подстраниц, которые вы ранее заблокировали в robots.txt.
Добавьте тег rel = canonical в дубликаты заголовков подстраниц, которые вы ранее заблокировали в файле robots.txt.
Посмотрите, как растет трафик с поисковых систем!

Приятной оптимизации!

[Источник: Serious Robots.txt Злоупотребления и решения с высоким уровнем воздействия ]

Форум MaxROY.com

Вы заинтересованы в переадресации rel = canonical и 301? Взгляните на Forum.MaxROY.com, читайте:

Сколько PageRank вы теряете при перенаправлении 301? ,
Как избежать дублирования контента? ,
Rel = каноническое или 301 редирект? ,
Как я могу проверить, была ли установлена пересылка 301?
Как скрыть ссылки с конкурса на сайт?

Купить доступ к закрытому форуму MaxROY.com. Там вы найдете мнения и советы экспертов + хороший уровень обсуждения, гарантированный ограниченным доступом. Вы можете рассчитывать на наш ответ на каждый вопрос в области поискового маркетинга.

Вам понравилась статья?
Подпишитесь на рассылку,
и вы будете в курсе.

Лично я не сотрудничал с LinuxPL, но все говорят мне, что обслуживание клиентов на высоком уровне :) Может кто-нибудь сказать мне, если я не прав?
Лично я не сотрудничал с LinuxPL, но все говорят мне, что обслуживание клиентов на высоком уровне :) Может кто-нибудь сказать мне, если я не прав? «Наши клиенты ценят в первую очередь поддержку, работающую практически 24 часа в сутки, 365 дней в году по различным каналам связи, а также очень высокую гибкость и помощь в настройке услуг. И, конечно же, здесь низкие цены и более 13 лет опыта работы на рынке ». Давид Деренговски, системный администратор ИТ, Serveradmin.pl

Хорошо, так как он узнает, чтобы начать слушать прямо перед тем, как я собираюсь сказать «Хорошо, Google?
Хорошо, так как он узнает, чтобы начать слушать прямо перед тем, как я собираюсь сказать «Хорошо, Google?») «Это не имеет большого значения». (Компания Stealth устанавливает аудиослушатель, который слушает каждую комнату в мире, которую он может, и передает аудиоданные на корабль, когда он встречает неизвестный, возможно, индивидуально подобранный список ключевых слов - и это не страшно !?) «Вы можете отказаться , Это в Условиях предоставления услуг ». (Нет. Просто нет. Это не то, что является малейшим

Вам также может понравиться Как стереть HDD / SSD из BIOS?

Что такое CTR в Google AdSense?
Что такое CTR в Google AdSense? CTR или рейтинг кликов сильно различаются для разных типов сайтов. Ваши клики по объявлениям зависят от множества факторов, таких как темы вашего сайта, тип вашей аудитории, размещение рекламы на вашем сайте и многое другое. Определить идеальный рейтинг кликов для Google AdSense действительно сложно, поскольку у вас нет доступа к рейтингам кликов других веб-сайтов, таких как ваш собственный. Однако в Google AdSense есть встроенные

Что делать, если у нас не накоплено денег для этой цели?
Что делать, если у нас не накоплено денег для этой цели? Михал Крайковски, финансовый эксперт NOTUS Finanse и Ассоциации компаний финансового посредничества: Мы можем подать заявку на ипотеку для покупки рекреационного участка. Однако для его получения потребуется минимальный собственный взнос в размере не менее 10 процентов. ценности и положительная оценка кредитоспособности. Порядок предоставления финансирования не отличается от того, когда вы, например, хотите

Как человечество может использовать солнечную энергию в будущем?
Как человечество может использовать солнечную энергию в будущем?). Бывает и так, что некоторые фрагменты вымышлены, а отдельные мысли выражены в виде диалогов. Если честно, я не энтузиаст такого решения, потому что очень редко «история» не скучная и оказывается лучше, чем лаконичный подход к проблеме. К сожалению, книга Браницкого не является исключением в этом отношении. Два человека плавают на каноэ: молодой человек и парень, который намного старше его. Теперь они текут по лесу. говорить:

Или, может быть, вы не обращаете на это внимания так же, как я?
Или, может быть, вы не обращаете на это внимания так же, как я?

4. Как выбрать ключевые фразы, которые принесут вам прибыль?
4. Как выбрать ключевые фразы, которые принесут вам прибыль? Сколько фраз вы должны выбрать для позиционирования? Выберите отдельные слова или фразы? Фразы с ошибками Единственное и множественное число Где взять идеи для ключевых фраз? Как выбрать наиболее важные ключевые фразы? 5. Хороший адрес сайта - это основа электронного бизнеса Что такое домен? Доменные расширения

И как различается подходящая длина для разных типов видео, которые ваша организация может рассмотреть для размещения в Интернете?
И как различается подходящая длина для разных типов видео, которые ваша организация может рассмотреть для размещения в Интернете? Какая длина видео на YouTube самая лучшая? Когда вы впервые зарегистрируетесь на YouTube, ваша учетная запись будет ограничена видео до 15 минут, пока учетная запись не будет «проверена». (Чтобы узнать, как это сделать, прочитайте до конца сообщения.) После «проверки» вы можете опубликовать любое видео, которое не превышает 20 ГБ. С практической точки

Если клиент решит использовать код скидки, какие товары он будет использовать чаще всего?
Если клиент решит использовать код скидки, какие товары он будет использовать чаще всего? Согласно ответам, данным в опросе, поляки хотят максимально сэкономить на покупке одежды - этот вариант выбрали 68% респондентов. Далее мы используем дисконтные коды на покупку электронного оборудования (41%) , косметики (38%), а также на книги, музыку и фильмы (37%). С другой стороны, поляки неохотно пользуются скидками на продукты или мебель (соответственно

Как создать и доставить информацию для прессы в средства массовой информации, чтобы ее могли легко использовать журналисты и читать получатели?
Как создать и доставить информацию для прессы в средства массовой информации, чтобы ее могли легко использовать журналисты и читать получатели? Создание контента для различных медиа Продвижение в сети делится на «пуш» и «пул» акции. Промо-акция прерывает такие действия, как всплывающий баннер или всплывающее окно. Эта форма несколько навязчива, как рекламный ролик, который прерывает просмотр программы. С другой стороны, рекламная деятельность типа «тянуть» должна приводить к тому,

Txt?
Вам понравилась статья?
Что такое RADIUS?
Однако должно ли это включать аренду фотографа или посещение всей команды в фотостудии?
Какова ответственность бухгалтерии и на что следует обратить внимание при принятии решения об использовании таких услуг?
Лично я не сотрудничал с LinuxPL, но все говорят мне, что обслуживание клиентов на высоком уровне :) Может кто-нибудь сказать мне, если я не прав?
Хорошо, так как он узнает, чтобы начать слушать прямо перед тем, как я собираюсь сказать «Хорошо, Google?
Что такое CTR в Google AdSense?
Что такое CTR в Google AdSense?
Что делать, если у нас не накоплено денег для этой цели?

Robots.txt: что не делать? Управляйте Google, как вам нравится!

Исключенные подстраницы видны в поисковой выдаче

Страница входа Cisco

Страница «следующего блога» WordPress.com

Robots.txt может испортить входящий линк-сок

3 больших сайта, которые тратят впустую PageRank

# 1 - Digg.com

# 2 - Blogger.com & Blogspot.com

№ 3 - IBM

Robots.txt - хорошая практика

NOINDEX

301 Redirect

Rel = каноническое

Защита паролем

Как эффективно использовать Robots.txt

Плохие боты

конкуренты

Поддержка не-HTML и системных элементов

Дополнительное чтение

Хороший robots.txt в 6 шагов

Форум MaxROY.com

Вам понравилась статья?
Подпишитесь на рассылку,
и вы будете в курсе.

Похожие

Комментарии

Robots.txt: что не делать? Управляйте Google, как вам нравится!

Исключенные подстраницы видны в поисковой выдаче

Страница входа Cisco

Страница «следующего блога» WordPress.com

Robots.txt может испортить входящий линк-сок

3 больших сайта, которые тратят впустую PageRank

# 1 - Digg.com

# 2 - Blogger.com & Blogspot.com

№ 3 - IBM

Robots.txt - хорошая практика

NOINDEX

301 Redirect

Rel = каноническое

Защита паролем

Как эффективно использовать Robots.txt

Плохие боты

конкуренты

Поддержка не-HTML и системных элементов

Дополнительное чтение

Хороший robots.txt в 6 шагов

Форум MaxROY.com

Вам понравилась статья? Подпишитесь на рассылку, и вы будете в курсе.

Похожие

Комментарии

Вам понравилась статья?
Подпишитесь на рассылку,
и вы будете в курсе.