Контакты

Проверка на дубли. Причины неполных дублей. Способы поиска дублирующего контента

Мы разговаривали про дубли страниц сайта replytocom. Напомню суть прошлой статьи. Она в том, то не следует делать закрытым в Роботсе путь чему-либо на вашем блоге. Желательно наоборот, роботс сделать открытым, чтобы робот зашел, посмотрел, увидел тег и не стал индексировать дубли страниц.

Если же данные копии страниц будут закрыты, данный робот скорее всего подобные дубли наоборот проиндексирует. Желательно это запомнить! Далее давайте вспомним, как мы искали копии реплитоком в поисковике Гугл. Я напомню:

Автоматически пересылать в правильный домен

Как уже упоминалось, введенный домен может быть обменен по вашему желаемому адресу. Например, если вы посещаете наш веб-сайт через домен, адрес автоматически перейдет на сайт в адресной строке вашего браузера. Просто попробуй. Этот файл имеет центральное значение для функциональности вашего сайта. Это системный файл. Затем вы должны активировать соответствующий параметр в настройках программы. Пожалуйста, внимательно проверьте ваш сайт.

Устранение неполных дублей

Если вы не знакомы с этим, обратитесь за помощью к специалисту. В некоторых случаях ваш хост не позволит вам настроить этот файл. Первая строка сообщает веб-серверу, что что-то нужно изменить. За второй строкой следует название того, что нужно изменить.

site:ваш сайт replytocom , т.е. на примере моего это будет выглядеть site:сайт replytocom

Как искать дубли страниц на вашем блоге

Отлично. Сейчас мы поищем прочие копии страничек, а подробнее копии: feed, category, tag, comment-page, page, trackback, attachment_id, attachment

Их поиск проводим похожим образом, как мы искали дубли страниц реплитоком. Делаем все подобным образом, а именно зайдем в и внесем в поисковик любой блог, например site:realnodengi.ru feed

Третья строка используется для указания способа копирования. Тип пересылки является постоянным, поэтому подсказка. Функции не изменились. Инструменты: кричащая лягушка. Заголовки тегов должны содержать не более 55 символов, поскольку они в противном случае усекаются в списках результатов. Мета-описания должны иметь от 150 до 160 символов и содержать важные ключевые слова. Убедитесь, что, по крайней мере, ваши самые важные страницы имеют уникальное мета-описание.

  • Каждая страница должна иметь свой собственный тег заголовка.
  • Ключевые слова следует упомянуть в начале.
  • Все страницы имеют хорошее мета-описание.
  • Проверьте, правильно ли связаны ваши основные страницы.
  • Использовать ключевые слова в якорных текстах внутренних ссылок.
  • Имена файлов должны описывать содержимое изображения и содержать ключевые слова.
Как бы то ни было, решения были в основном непрозрачными и неудовлетворительными для администраторов.

Нажав «Показ скрытых результатов» мы увидим:


22 дубля страницы. Что значит feed? Это непонятный отросток в конце адреса статьи. Для любого вашего поста жмете ctr + u и скорее всего увидите ссылочку feed в конце. Другими словами, подобные ссылки необходимо удалять. Давайте войдем в роботс данного сайта, мы увидим:

За ним находится единственная страница, на которой можно искать дубликаты. Обнаруженные дубликаты могут быть отправлены одним щелчком мыши. После этого ничего не происходит. В общем, не следует ожидать времени реакции в 24 часа. Мы предполагаем, что реалистичное время реакции превышает пять рабочих дней. Если вы не можете найти дубликат в списке, вы также можете сообщить о дубликате непосредственно на странице. Просто нажмите «Страница отчета» и выберите «Двойная или неправильно классифицированная страница».

Вы создали веб-сайт, наполненный контентом и тем самым вложили много работы и времени в свое присутствие в Интернете? Затем вы также хотите убедиться, что все работает отлично: чтобы ваш сайт был хорошо указан в поисковых системах и был найден как можно чаще. И что никакие ошибочные или даже «спамные» действительные ссылки не мешают успеху вашего онлайн-присутствия. В этой статье мы объясним, как именно это работает и поможет вам оптимизировать вашу страницу.

То есть то, что нам не нужно . Что же нам делать, подобные запрещения в роботсе желательно удалить. Что бы робот на них не заходил и не индексировал их на «всякий случай».

Отлично! Мы сделали проверку страничек feed.

Возьмём другой сайт, например reall-rabota.ru и вставим page. У нас получится site:reall-rabota.ru page:

Нет проблем, в этой статье мы покажем вам различные функции и дадим вам обзор того, как получить важную информацию об оптимизации вашего веб-сайта. У вас есть небольшая компания, вы работаете самостоятельно или работаете на своем веб-сайте в частном порядке? Тогда у вас может не быть большого бюджета для инструментов анализа для оптимизации веб-страниц.

Вот лишь некоторые сведения, которые он предоставляет. Являются ли эти высококачественные ссылки или являются ли сайты спама, которые могут нанести вред вашей репутации?

  • Все страницы, которые ссылаются на ваш сайт.
  • Технические проблемы вашего сайта.
  • Или это приведет к другим ошибкам при попытке сканирования вашего сайта.
Нажмите «Добавить свойство».


Мы видим, что на данном сайте присутствует 61 дубль страниц page. От них необходимо избавляться. Я надеюсь, авторы данных блогов за анализ на меня не в обиде?

Подобный анализ проведите для своих блогов, и не только по данным копиям, но и по прочим, которые я приводил выше, таким как — category, tag и пр.

Затем вы должны убедиться, что вы являетесь владельцем домена. У вас есть пять вариантов проверки владельца. Если вы проверили себя, ваша панель инструментов выглядит примерно так. Обратите внимание, что ваши данные могут отображаться в течение нескольких часов.

Вы можете изменить следующие настройки с помощью шестерни в правом верхнем углу. Оба работают, ищите вариант, который вы предпочитаете. Измените настройку по умолчанию только в том случае, если это действительно необходимо - Например, если вы чаще всего меняете свой контент. Однако имейте в виду, что это может повлиять на вашу производительность, поэтому будьте осторожны с этой настройкой. С одной стороны, сама производительность сама по себе является фактором ранжирования, который определяет, сколько вы указали.

Ну как? Ваш результат вас порадовал?

Скорее всего не по всем данным словам вы найдете копии. Это конечно отлично! Но от тех, которые у вас имеются, придется избавиться! Давайте подумаем как?

Как убрать дубли страниц сайта решение проблемы

Во-первых , зайдите в мой роботс и скопируйте его себе, соответственно заменив сайт на название вашего сайта. Заменили? Отлично! Я думаю на многих блогах присутствовали запреты, как на сайте, приведенном выше.

Но особенно потому, что медленное время зарядки может отрицательно повлиять на удовлетворенность клиентов. Поэтому лучше оставить его по умолчанию. Кроме того, создайте один, чтобы перенаправить старый адрес на новый. Существуют два основных типа пользователей: «Ограниченные» пользователи и «неограниченные» пользователи. Используйте ограниченные учетные записи пользователей для людей, которые должны иметь доступ к данным, но не могут изменять какие-либо настройки.

Проверить сведения В этом разделе вы можете добавить новых владельцев, которые могут выполнять действия от имени вашего сайта. Это полезно, если вы хотите дать кому-то еще администрирование этих страниц. Вы найдете свои сообщения в меню внизу панели инструментов.

Во вторых , перепишите следующие строки в ваш файлик.htaccess:


Данный файл находится в вашей корневой папке, которая чаще всего называется public_html. Для этого я обычно открываю программу , переношу нужный файл на рабочий стол, открываю данный файлик софтом Notepad + +, вношу необходимые изменения и заменяю старый файл на новый.

Информация и данные по оптимизации сайта

Они делятся на следующие моменты. Мы перейдем к каждому пункту ниже. Вы недовольны своим кликом? Затем взгляните на этот раздел. Богатые карты. На ваших богатых картах есть ошибки, если они есть. Этот инструмент помогает сделать ваш контент более привлекательным. Используйте его, чтобы выделить события, рестораны, продукты, программные приложения, фильмы, книги и т.д. события, вы можете использовать этот инструмент, чтобы выделить имя, место, дату.

Нажмите на ошибку, затем вы получите подробную информацию об этом. Знаете ли вы дополнительные ссылки, которые появляются под результатами поиска? Если, однако, вы находитесь там, где вы не должны отображаться там, вы можете удалить его. Ускоренная мобильная страница. Если вы используете Ускоренные мобильные страницы, вы получите информацию об ошибках в том же пункте меню.

После закачки нового файла ваш.htaccess должен получиться примерно таким:


В третьих , вставляем в function.php после /*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/ function my_meta_noindex () { if (is_paged() // Все и любые страницы пагинации) {echo ""." "."\n";} } add_action("wp_head", "my_meta_noindex", 3); // добавляем свой noindex, nofollow в head

В четвертых , проходим в расширение All in One Seo Pack и делаем так:

Как найти дубли страниц?

Анализ поиска Анализ поиска позволяет увидеть много информации о том, какие ключевые слова используются, сколько пользователей обратились к вашему сайту с помощью ключевого слова поиска, как один период ведет себя по сравнению с другим. Вы можете проверить, используют ли ваши посетители настольные компьютеры или мобильные устройства.

Дубли внутренних страниц

В верхней части отчета вы увидите выбор из 4 показателей, которые вы можете выбрать из флажков. Для лучшего впечатления от анализа поиска мы рассмотрим два примера использования. Предположим, вы хотите узнать, сколько посетителей посетило ваш сайт с помощью определенного ключевого слова. Если положение страницы уменьшается, вам следует подумать о внесении некоторых изменений и улучшении этой конкретной страницы.

  • Теперь выберите «Устройства», а затем «Сравнить устройства».
  • Теперь вы можете выбрать период времени, который хотите проанализировать.
Благодаря поисковому анализу вы получаете много полезной информации.

Если у вас другой плагин, например SEO, поставьте noindex в разделах, похожих по смыслу.

В пятых , в «Параметрах» идем в «Настройки-Обсуждения» и удаляем галку с пунктика Разбития комментариев:

Пожалуйста, присмотритесь к этому вопросу и попробуйте свои возможности. Ссылки на ваш сайт В этом разделе показано, какие ссылки указывают на ваш сайт и каков ваш наиболее связанный контент. Если вы получите предупреждение о многих неестественных ссылках на ваш сайт, вы также можете найти их.

Если вы хотите сделать анализ обратной ссылки на своем веб-сайте или оптимизировать свой контент и стратегию построения ссылок, вы найдете здесь важную информацию. Внутренние ссылки Здесь вы можете найти общий обзор того, как ваши страницы связаны внутри. Нажмите на отдельные страницы, чтобы узнать, какие ссылки у них есть.


В заключение предлагаю подробное видео про дубли.

На этом не всё, существует ещё множество дублей страниц и прочего хлама. Его необходимо удалять. Самому это не всегда сделать просто, поэтому иногда необходимо обращаться к профессионалу. Но его не всегда найдешь, да и не станешь постоянно обращаться.

Внутренние ссылки указывают поисковой системе значение страницы. Поэтому важные страницы, такие как, Страницы вашего продукта прямо там. Если это так, вы будете проинформированы об этом. Международная ориентация Если ваш сайт соответствует целевой группе в определенной стране, вы можете указать, что результаты поиска отображают правильную версию на нужном языке для пользователей.

Удобство использования на мобильных устройствах. Проверьте, нуждается ли ваша страница в улучшении, когда она отображается на мобильных устройствах. Просто нажмите на указанную проблему, и вы получите подробную информацию. Регулярно проверяйте это, чтобы вы могли реагировать напрямую, если, например.

Отсюда, желательно все тонкости узнать самому. Это можно сделать как при лично общении, так и изучив материал. Я имею в виду видеокурс. На мой взгляд, видеокурс предпочтительнее, т.к. вы пройдете обучение дама перед своим монитором!

Я хочу предложить курс того же автора, видео которого вы сейчас смотрели. Это Александр Борисов! Известный блогер, издавший множество курсов! Так вод, недавно у него вышел новый курс, «Кибер-Блоггер» .

Устранение полных дублей

Этот список всегда должен иметь в виду. Если перечислены нерелевантные ключевые слова, вы можете оптимизировать свой контент соответствующим образом. Если ваши ключевые слова полностью не соответствуют вашим сайтам, на ваш сайт могут быть даже атакованы и введены скрытые ключевые слова. Если это так, вы найдете подробное руководство о том, как действовать.

В этом разделе представлен обзор всех заблокированных ресурсов на вашем веб-сайте. Например, полезно для продуктов, которые больше не предлагаются, для частных загрузок или для контента, которые должны быть видны только членам. Ошибки сканирования. Здесь вы обнаружите проблемы с вашим сайтом: например, вы увидите, что ошибки 404 «не найдены». Например, когда внешние веб-сайты ссылаются на подстраницы вашего веб-сайта, которые не существуют.



Я не просто так привел данный курс, я его изучил. Мне лично он понравился. Раньше, Яндекс показывал у меня проиндексированных страниц 1220, хотя реально их 250. Сейчас, после очистки, Яндекс показывает 490, Гугл 530. Согласитесь, данные цифры ближе к реальным!

В чем же упущение? Объяснение есть

Нажмите на ошибку, чтобы получить подробную информацию о том, на какой странице была размещена ссылка. Чтобы исправить ошибки, обратитесь к администратору сайта и попросите их исправить или удалить ссылки. Нажмите «Получить и отобразить», а затем нажмите кнопку, чтобы получить точную картину. Если вы создали новую страницу, вы также можете отправить ее через «Отправить в индекс».

Поиск полных дублей

Если страница не индексируется, она, вероятно, не связана с другими страницами и не может быть найдена. Однако есть и другие причины, такие как, Такие, как низкий или дублированный контент или контент низкого качества. Если проблема указана, исправьте ее как можно скорее.

Но, как это не покажется странным, на большом количестве сайтов данные цифры зашкаливают за 200000 дублей и более. Без всяких шуток! Сайты с подобными показателями в скором времени могут быть забанены поисковиком. Но давайте вернемся к курсу. Приведу слова Александра:


Основная страница в выдаче может замениться дублем

После устранения проблемы нажмите «Запрос подтверждения». Убедитесь, что ваш сайт защищен от атак. В этом разделе содержатся ссылки на другие полезные инструменты для поисковой оптимизации вашей страницы. Подробная информация, которую он предоставляет, покажет вам эффективность вашего сайта и эффективность ваших оптимизаций. Это позволяет постоянно совершенствовать ваше присутствие в Интернете, добиваться лучшего ранжирования в поисковой системе и, таким образом, в конечном итоге достичь более высоких показателей посетителей.

Подробнее обо всём этом на сайте Борисова, для этого просто кликните по картинке с курсом.

В основном работа проделана, дубли страниц будут удалены после индексации, но не сразу, вам придется подождать несколько месяцев! Успехов в продвижении вашего ресурса! Если вам известны другие способы, как убрать дубли страниц сайта, пишите в комментариях, изучим вместе!

Анекдот в каждой статье.

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства. Вот что пишут о дублях представители Яндекса:

Я думаю, не стоит надеяться, что в вашем случае алгоритм оценит все страницы правильно и его выбор совпадет с вашим 😉 - лучше самому избавиться от дублей на сайте.

Почему нужно избавляться от дублей?

Предлагаю для начала рассмотреть, чем опасны дубли страниц.

Ухудшается индексация сайта
Если в вашем проекте несколько тысяч страниц, и на каждую из них создается по одному дублю, то объем сайта уже «раздувается» в два раза. А что, если создается не один дубль, а несколько? В прошлом году мы проводили экспертизу новостного портала, в котором каждая новость автоматически публиковалась в семи разделах, то есть каждая страница сразу создавалась еще с шестью дублями.

Неправильно распределяется внутренний ссылочный вес
Часто дубли на сайте появляются в результате неправильных внутренних ссылок. В итоге страницы-дубли могут считаться более значимыми, чем основная версия. Не стоит забывать и про пользовательские факторы. Если посетитель попал на дубль страницы, то, соответственно, измеряются ее показатели, а не оригинала.

Изменение релевантной страницы в поисковой выдаче
Поисковый алгоритм в любой момент может посчитать дубль более релевантным запросу. Смена страницы в поисковой выдаче часто сопровождается существенным понижением позиций.

Как найти дубли?
Теперь давайте рассмотрим, как можно найти внутренние дубли на сайте.

1. Анализ данных Google Webmasters

Пожалуй, самый простой из способов. Для того чтобы найти страницы дублей, вам будет достаточно зайти в панель инструментов, выбрать вкладку «Вид в поиске» и перейти по ссылке «Оптимизация html»:


Наша цель - это пункты:
«Повторяющееся метаописание» . Здесь отображены страницы с одинаковыми описаниями (description);
«Повторяющиеся заголовки (теги title)» . В этом пункте находится список страниц с одинаковыми заголовками (Title).

Дело в том, что на страницах обычно совпадает не только контент, но и мета-данные. Проанализировав список страниц, отображаемых в этих вкладках, легко можно выявить такие дубли. Мы рекомендуем периодически проверять вышеупомянутые вкладки панели инструментов на наличие новых ошибок.

Проверить страницы на совпадающие заголовки можно даже в том случае, если доступа к панели у вас нет. Для этого вам нужно будет воспользоваться расширенным поиском поисковой системы или сразу ввести в поисковую строку соответствующий запрос.

Для Яндекса:

site: сайт title:(анализ сайтов)

Для Google :
site: сайт intitle:анализ сайтов

Разумеется, необходимо подставить свой домен и часть заголовка, дубль которого вы ищете.

2. Анализ проиндексированных документов
Анализ в первую очередь лучше проводить в той поисковой системе, в индексе которой находится больше всего страниц. В большинстве случаев это Google. С помощью оператора языка запросов «site» легко получить весь список проиндексированных страниц. Вводим в строку поиска:

site:сайт (не забудьте указать имя своего домена) и получаем список проиндексированных страниц.


Просматривая выдачу, обращайте внимание на нестандартные заголовки и url страниц.

Например, вы можете увидеть, что в выдаче попадаются страницы с идентификаторами на конце, в то время как на сайте настроены ЧПУ. Нередко уже беглый анализ проиндексированных страниц позволяет выявить дубли или другие ошибки.
Если на сайте большой объем страниц, то при анализе может помочь программа Xenu. Об использовании этого инструмента можно прочесть на блоге Сергея Кокшарова.

3. Поиск дублей по части текста
Два предыдущих способа помогают выявить дубли в тех случаях, когда на страницах совпадают мета-данные. Но могут быть и другие ситуации. Например, статья на сайте попадает сразу в несколько категорий, при этом в title и description автоматически добавляется название категории, что делает мета-данные формально уникальными. В этом случае ошибки в панели инструментов мы не увидим, а при ручном анализе сниппетов страниц такие дубли легко пропустить.

Для того чтобы выявить на сайте подобные страницы, лучше всего подойдет поиск по части текста.
Для этого нужно воспользоваться инструментом «расширенный поиск» и произвести поиск на сайте по части текста страницы. Текст вводим в кавычках, чтобы искать страницы с таким же порядком слов и формой, как в нашем запросе.
Так выглядит расширенный поиск в Яндексе:


А вот так в Google:


На сайтах может быть много сотен или даже тысяч страниц. Разумеется, не нужно анализировать все страницы. Их можно разбить по группам. Например, главная, категории, товарные карточки, новости, статьи. Достаточно будет проанализировать по 2-3 страницы каждого вида, чтобы выявить дубли или убедиться, что на сайте все в порядке.

Чистим сайт от дублей
После того как дубли обнаружены, можно приступать к их удалению.

Находим и устраняем причину появления дублей
Первое, что необходимо сделать - найти причину, из-за которой дубли на сайте появляются, и постараться ее устранить.
Причины могут быть различные, например:

  • ошибки в логике структуры сайта;
  • технические ошибки;
  • различные фильтры и поиск по сайту.

В каждом случае ситуацию необходимо рассматривать индивидуально, но если дубли функционально не полезны, то от них лучше просто отказаться.

Указываем канонический адрес страницы
Если страницы-дубли по каким-то причинам нельзя удалить, то следует указать поисковым роботам, какая страница является основной (канонической). Google ввел для этого специальный атрибут rel="canonical" (рекомендации по использованию атрибута).

Через некоторое время его стал поддерживать и Яндекс. И на сегодняшний день это основное официальное средство для борьбы с дублями страниц.

Использование 301 редиректа
До внедрения rel="canonical" 301 редирект был основным способом склейки страниц-дублей. И сейчас разработчики и оптимизаторы продолжают активно использовать 301 редирект для переадресации на основное зеркало сайта или со страниц с «/» или без него на конце.

Запрет к индексации в robots.txt
В файле robots.txt мы можем запретить доступ к определенным разделам или типам страниц, например, страницам, формируемым в результате поиска по сайту. Но это не избавит нас от дублей страниц в Google. Дело в том, что доступ к страницам будет запрещен, но если страницы уже попали в индекс, они после добавления запрета исключены не будут.

Следует отметить, что даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс. Например, на ваш контент могут ссылаться другие сайты.

Для того чтобы страница была удалена из индекса, на нее необходимо добавить , но при этом важно, чтобы страница не была закрыта в robots.txt. Иначе поисковый робот на нее не зайдет.

Еще одна цитата:
Если ваша страница продолжает появляться в результатах, вероятно, мы еще не просканировали ваш сайт после добавления тега. (Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.)

В связи с этим, если дубли на сайте уже есть, robots.txt не поможет удалить их из индекса Google.

Остается пожелать оптимизаторам успехов в борьбе с дублями и развитии своих проектов.

Понравилась статья? Поделитесь ей