Блог Понтика Максима

Находим и удаляем дубли страниц replytocom

поиск и удаление дублей страниц Replytocom

Привет уважаемые читатели seoslim.ru. Если вы на сайте используете древовидные комментарии, обязательно сделайте поиск дублей страниц, чтобы узнать стоит ли бороться с дублированным материалом.

А то многие думают, что если закроют от индексации поисковиков ненужные страницы файлом robots.txt, то эта проблема им нестрашна. Спешу вас предупредить, что от копий страниц со ссылок вида replytocom роботс может не помочь.

Все вы помните, что не так давно поисковая система Google запустила новые алгоритмы (вернее их обновила), борющиеся с дублированным материалом на площадках. Результатом этой работы является намеренное занижение в ТОП выдаче, таких сайтов.

Под их раздачу попало много площадок известных блоггеров, и как непечально это признавать, но меня Гугул тоже не обошел стороной и теперь большинство моих продвигаемых запросов болтается где-то за пределами заветной десятки. В итоге трафик понизился с 600 уников в сутки до 50.

Что такое Replytocom?

Дело в том, что я совсем недавно обнаружил, что на моем блоге присутствует огромное множество копий веб-страниц, которые получаются автоматически из-за конструкции моего шаблона.

Движок WordPress действительно один из лучших, но у него, как и у остальных есть свои недостатки, одним из которых и является replytocom. По умолчанию в настройках этой СMS включена функция отображения Древовидных комментариев. Согласитесь очень красивое отображение комментариев в виде дерева. Всегда знаешь, кто на чей вопрос отвечает.

Древовидные комментарии

Однако все эти ответы создают точно такие же страницы статьи, на которой расположены. Единственное отличие у них только в том, что к ссылке на страницу будет еще добавлено слово ?replytocom. Чтобы вам, было, более понятно наведите курсор мыши в комментариях на ссылку Ответить и посмотрите, что за адрес подсвечивается в низу вашего браузера.

Как видите, данный ответ создал точно такую же страницу, но немного с другим адресом. Представляете, что будет, если все такие страницы попадут в индекс ПС. Учитывая тот факт, что комментариев оставлено уже несколько тысяч, то загреметь
под фильтр
будет дело времени.

Например, Гугл такие странички очень хорошо индексирует и загоняет их в так называемые сопли.

Поиск дублей страниц

Для того, чтобы проверить сайт на дубли страниц, необходимо в поиске Google ввести вот такой запрос:


site:site.ru replytocom

Только вместо site.ru вставьте адрес своего сайта. Посмотрите на скрине, сколько дублей дают мои древовидные комментарии.

Поиск дублей страниц

От таких цифр можно прийти в ужас. А я все ломал голову раньше из-за того, почему при анализе моего блога на сервисе cy-pr.com отображается, что в индексе всего 5% страниц.

Анализ блога

Оказывается, Google в основной индекс выложил только 5% от всего количества известных ему страниц, а остальные ушли в неосновную выдачу (сопли). Конечно же, это не есть хорошо. Получается вместо того, чтобы роботы ходили только по моим нужным мне страницам они тратят еще время на мусор, от которого я считаю нужно избавляться.

Как удалить дубли страниц replytocom

Первым делом нужно прекратить их появление. Для этого переходим в административную панель wordpress и выбираем меню Параметры далее Обсуждение.

Перед вами появятся все настройки комментирования ваших постов. Нас же интересует пункт Другие настройки комментариев. Здесь вам стоит снять галочку с Разрешить древовидные (вложенные) комментарии глубиной, тем самым запретив посетителям отвечать на конкретный комментарий.

Только не переживайте, что пропадут старые комментарии. Все останется, как и было раньше, а вот отображаться они будут в один столбик, друг за другом.

Еще можно закрыть эти дубли в файле robots.txt, добавив следующие директивы:


Disallow: /*?replytocomDisallow: /*?*Disallow: /*?

Однако здесь прошу обратить ваше внимание на следующий факт. Если вы что-то закрываете в роботс, это вовсе не значит, что поисковики не будут индексировать эти страницы.

Robots не является обязательным условием для исполнения роботами ПС. Если на какую-то запрещенную страницу стоит ссылка с другой записи, то Google легко может посчитать ее полезной и пустить в индекс.

Если по каким-то причинам у вас еще нет этого файла, тогда немедленно его создайте, можете воспользоваться статьей «
Правильный robots.txt для WordPress
».

Будет ошибочным считать, что запрет на страницу от индексации можно указать только в robots.txt. Хотя до недавнего времени я сам так считал.

:)

Удаление replytocom в Google Инструменты для веб-мастеров.

Скажу честно, что для своего удобства и удобства посетителей я все же решил пока не отключать древовидные комментарии в админ панели блога, поэтому пришлось их в ручную запретить от индексации Гуглом в панели инструментов для веб-мастеров.

Если вы еще не добавили свой ресурс в эту панель, то срочно это сделайте. Достаточно только подтвердить права владельца площадки. Затем переходите в раздел Сканирование далее Параметры URL и нажимаете кнопку Добавление параметра.

Удаление replytocom в Google

Затем нужно указать название параметра пишем replytocom, а все остальное заполните, как на скрине. Обратите внимание на пункт Какие URL, содержащие этот параметр, должен сканировать робот Googlebot?.

У меня раньше стояло На усмотрение робота Googlebot и все дубли комментариев были в индексе Гугла, поэтому лучше выбрать Никакие URL.

Добавление параметра replytocom

Говорить о возможностях этого инструмента можно очень долго, так как здесь можно отслеживать не только дубли страниц комментариев, а также и другие параметры, например feed (фиды). Но об этом в следующих статьях,
не пропустите
.

Файл htaccess 301 редирект

Еще победить дубли страниц в комментариях можно с помощью 301 редиректа, который будет автоматически перенаправлять всех на оригинальную страницу.

Найдите в корневой папке площадки файл .htaccess, который указывает, что делать серверу, где расположен сайт. Если его нет, тогда создайте, например в
программе Notepad++
 главное укажите правильное расширение.

Теперь добавьте в его содержимое следующие строчки:


RewriteCond %{QUERY_STRING} replytocom=RewriteRule ^(.*)$ /$1? [R=301,L]

Я вставил этот редирект в самом начале файла между тегами IfModule.

htaccess 301 редирект

После этого попробуйте опять выполнить поиск дублей страниц, а затем перейти по найденным ссылкам. Вы должны увидеть, как срабатывает 301 редирект htaccess и вас перекидывает на исходную страницу.

Остается только дождаться, пока выпадут из индекса дублированные страницы.

Вот и все что я хотел вам рассказать. В продолжение темы рекомендую посмотреть видео о том, как найти и удалить дубли replytocom.

Уверен, что у вас осталось много вопросов, поэтому жду ваших комментариев. Буду рад, если поделитесь собственным опытом поиска дублированного материала. До скорых встреч!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>