Дубликаты страниц – невидимая проблема в продвижении. Внутренние дубли страниц – чем опасны, как найти и обезвредить Найти и убрать дубли страниц

Сегодня мы поговорим о дублях. А именно - что такое дубли страниц на сайте, чем они грозят продвижению, как их найти и убрать.

Что такое дубли страниц на сайте?

Дубли - это страницы с частично или полностью совпадающим контентом, но доступные по разным URL-адресам. Принято их классифицировать как четкие и нечеткие. Примером четких могут послужить зеркала главной страницы сайта:

site.ru
www.site.ru
site.ru/index.php

А нечетких - большие сквозные для всего ресурса участки текста:

Чем опасны дубли страниц?

1. Перескоки релевантных страниц в поисковой выдаче. Самая распространенная проблема, заключающаяся в том, что поисковая система не может однозначно определить, какой из документов следует показывать в выдаче по запросу, тематике которого они удовлетворяют. Как итог - broser rank и поведенческая информация размазываются по дублям, позиции постоянно скачут и далеко не в положительную сторону.

2. Снижение уникальности контента сайта. Ну, тут всё очевидно - идет снижение процента страниц с уникальным контентом, что не может не оказывать негативного влияния на его ранжирование.

Откуда берутся дубли страниц?

1. CMS. Очень популярная причина, берущая своё начало в несовершенстве работы используемой системы управления. Тривиальная ситуация для примера - когда одна запись на сайте принадлежит к нескольким категориям, чьи алиасы входят в URL самой записи. В итоге мы получаем откровенные дубли, например:

site.ru/category1/post/
site.ru/category2/post/

2. Служебные разделы. Тоже можно отнести к несовершенству функционирования CMS, но из-за распространенности проблемы, выношу её в отдельный пункт. Особенно тут грешат Joomla и Birix. Например, какая-либо функция на сайте (авторизация, фильтрация, поиск и т.д.) плодит параметрические адреса, имеющие идентичный контент относительно страницы без параметров в урле. Например:

site.ru/page.php
site.ru/page.php?ajax=Y

3. Человеческий фактор. Сюда можно отнести всё то, что является порождением рук человеческих:

Упомянутые ранее большие сквозные участки текста.
Сквозные статические блоки.
Банальное дублирование статей.

По второму пункту хотелось бы уточнить, что тут речь тут идет в первую очередь про код. На этот счет идет много дебатов, но я говорю абсолютно точно - большие участки сквозного кода - очень плохо. У меня минимум 3 кейса в практике было, когда сокрытие от роботов сквозняков увеличивало индексацию сайта с 20 до 60 тысяч страниц в течении всего одного-двух месяцев. Но тут банального в коде будет недостаточно, а потому я поговорю об этом в отдельном материале.

4. Технические ошибки. Что-то среднее между несовершенством работы CMS и человеческим фактором. Первый пример, который приходит в голову, имел место быть на системе Opencart, когда криво поставленная ссылка привела к зацикливанию:

site.ru/page/page/page/page/../..

Как найти дубли страниц на сайте?

Легче и надежнее всего это будет сделать, пройдя следующие 3 этапа.

1. Программная проверка сайта на дубли страниц. Берем NetPeak Spider, Screaming Frog SEO Spider или любую другую из подобных софтин для внутреннего анализа и сканируем сайт. Затем сортируем, например, по метазаголовкам, и обращаем внимание на их совпадение или полное отсутствие. Совпадение - повод для проверки этих страниц вручную, а отсутствие метаинформации - один из вероятных признаков технического раздела, который лучше закрыть от индексации.

2. 301 редирект. Этот вариант подойдет вам, если копии носят точечный характер и вы не хотите их закрывать от индексации по той или иной причине (например, на них уже кто-то успел поставить внешнюю ссылку). В таком случае просто настраиваем 301 редирект с дубля на основную страницу и проблема решена.

3. Link rel="canonical". Это является неплохим решением для описанной выше ситуации, когда один и тот же пост доступен по разным урлам. Для каждого такого поста внедряется в код тег вида , где http://site.ru/cat1/page.php - вариант урла записи, который вы хотите индексировать.

Данный тег программно внедряется для каждого поста и далее пусть у него будет хоть 100 урлов - на всех них в коде будет рекомендация для поисковой системы, какой урл вы советуете индексировать, а на какие не обращать внимания (на страницы, чей собственный url и url в link rel="canonical" не совпадают).

4. Google Search Console. Малопопулярный, но, тем не менее, работающий приём, к которому мы можем обратиться в разделе «Сканирование» - «Параметры URL» из Google Search Console.

Добавляя параметры в эту таблицу, мы можем сообщить поисковому роботу, что страницы ними никак не изменяют содержимого, а потому их можно не индексировать. Но, конечно, возможны и другие варианты, при которых содержимое раздела при включении параметра в адрес «перемешивается», оставаясь, однако, при этом неизменным по своему составу (например, сортировка по популярности записей в категории).

Указав об этом в данном разделе, мы тем самым поможем Google лучше интерпретировать сайт в процессе его сканирования. Сообщив о предназначении параметра в URL, вопрос об индексации таких страниц лучше оставить «На усмотрение робота Googlebot&rauqo;.

Часто задаваемые вопросы

Многостраничные разделы (пагинация) - дубли или нет? Закрывать ли от индексации?

Нет, не нужно их закрывать ни от индексации, ни ставить rel="canonical" на первую страницу раздела, так как они имеют уникальный относительно друг-друга контент, а потому не являются дублями. Поисковые системы прекрасно умеют распознавать пагинацию, ну а для пущей надежности достаточно будет снабдить их элементами микроразметки rel="next" и rel="prev". Например:

Урлы с хештегами (#) - дубли или нет? Удалять ли их?

Нет. Поисковая система по умолчанию не индексирует страницы с # в адресе, так что по этому поводу волноваться не надо.

Вот, наверно, и всё. Вопросы?

Дубль страницы - это еще одна копия страницы сайта, аналогичная по содержанию и наполнению. Выделяют два вида дублей:

Полный дубликат страницы - когда содержимое полностью идентично;
Частичный дубликат - когда наполнение страницы по большей степени одинаковое, но имеются отдельные различные элементы.

Почему дубли страниц плохо влияют на ранжирование сайта?

Поисковые системы воспринимают эти страницы, как отдельные страницы сайта, поэтому их наполнение из-за дублирования информации перестает быть уникальным. Кроме того, понижается ссылочный вес страницы, если она имеет дубль. Небольшое количество дублированных страниц может не стать большой проблемой, однако если их более 50% - вам срочно нужно исправлять ситуацию.

Откуда берутся дубли?

Самая распространенная причина - это генерация дублей страниц системой управления из-за неправильных настроек. Самый известный пример - CMS Joomla, с проблемой дублей на ней приходится сталкиваться чуть ли не на каждом сайте.

Частичные дубли часто встречаются на сайтах интернет-магазинов:

Они могут появляться на страницах пагинации, если те содержат одинаковый текст, изменяя лишь товары;
Неправильные настройки фильтра по каталогу могут порождать частичные и полные дубли;
Страницы карточек товаров могут стать дубликатами, если товар, к примеру, отличается лишь цветом или размером (для таких товаров нужно делать одну карточку с указанием всех характеристик).

Как найти дубли страниц?

Есть несколько способов поиска дубликатов страниц, каждый из которых может дать разные результаты.

1. Некоторые распространенные варианты дублей можно проверить вручную.

Настроено ли главное зеркало сайта (доступен ли он с www и без www);
Имеются ли нечеткие дубли со / и без / на конце url;
Наличие дублей с index.html, index.asp, index.php в конце url;
Доступность страницы с буквами как в нижнем, так и в верхнем регистре, также порождает дубли.

2. Проанализировать страницы, проиндексированные поисковыми системами.

Для этого в Google достаточно ввести запрос site:mysite.com - он покажет страницы общего индекса, то есть все, что поисковик успел проиндексировать на сайте.

3. Поиск по фрагменту текста

Вбивая в поиск длинные фрагменты текста, можно найти места, где он повторяется (а заодно и сайты, которые скопировали ваш текст). Но здесь есть два минуса: метод подходит, если на сайте мало страниц, и то, что поисковая система может анализировать запрос до определенной длины.

4. Заглянуть в панель вебмастера Google

В разделе «Вид в поиске» находим вкладку «оптимизация HTML» и ищем значение поля «Повторяющиеся метаописания» и «Повторяющиеся заголовки». Нажав на них, можно увидеть список всех страниц с повторяющимися тегами title и description и сами заголовки и описания.

5. Воспользоваться программой Xenu`s Link Sleuth

Программа распространяется бесплатно и способна определить url всех страниц сайта, включая скрипты и картинки, а также внешние ссылки. Кроме дубликатов в ней удобно искать битые ссылки - страницы, которые возвращают код 404.

Как устранить дубли страниц?

Для этого существует 4 действенных способа, самыми жесткими из которых. По нашему мнению, являются первые два.

1. Ручное удаление

Это можно сделать на небольших сайтах, хорошенько разобравшись в своей системе управления и сделав правильные настройки, чтобы предотвратить последующее появление дубликатов страниц.

2. Настройка 301 редиректа

301 редирект - это постоянное перенаправление пользователей с одной страницы на другую, что приводит к их склеиванию. Он позволяет передать странице до 99% ссылочного веса, как внутреннего, так и внешнего.

По поводу использования 301 редиректа написаны целые мануалы. Поэтому здесь мы вкратце приведем самые нужные для устранения дублей. Настраивается он либо через файл.htaccess в корневой директории сайта, либо через программный код.

Чтобы настроить главное зеркало, необходимо прописать следующий код:

1 - для редиректа с www на без www

Чтобы склеить нечеткие дубли со / и без него, воспользуйтесь кодом:

1 - убрать слэш

Постраничный редирект выглядит так:

Redirect 301 /oldpage.html http://www.site.com/newpage.html

Для формирования более сложных редиректов потребуется воспользоваться правилами. Существуют специальные сервисы, где можно сгенерировать код для настройки редиректа по определенному шаблону:

3. Использовать Rel=”Canonical”

Этот вариант лучше использовать в случае частичных дублей, так как неканоническая страница при этом не удаляется физически с сайта и доступна пользователям.

Для того, чтобы настроить канонические url , в коде страниц в блоке head прописывается ссылка:

«link rel="canonical" href="http://site.com/kopiya"/»

4. Настройка Robots.txt

Также действенный способ, но удалить уже проиндексированные дубликаты таким образом будет сложно.

С помощью директивы Disallow указываются все адреса и их типы, на которые роботам поисковых систем не стоит заходить для индексации. Например:

User-agent: Yandex

Disallow: /index*

Говорит о том, что поисковому боту Яндекс не стоит заходить на страницы, url которых содержит index.

Найти и устранить все дубликаты - основная задача на первых этапах продвижения сайта, иначе можно взяться просто не за те страницы, и долго искать проблему.

Мы разговаривали про дубли страниц сайта replytocom. Напомню суть прошлой статьи. Она в том, то не следует делать закрытым в Роботсе путь чему-либо на вашем блоге. Желательно наоборот, роботс сделать открытым, чтобы робот зашел, посмотрел, увидел тег и не стал индексировать дубли страниц.

Если же данные копии страниц будут закрыты, данный робот скорее всего подобные дубли наоборот проиндексирует. Желательно это запомнить! Далее давайте вспомним, как мы искали копии реплитоком в поисковике Гугл. Я напомню:

site:ваш сайт replytocom , т.е. на примере моего это будет выглядеть site:сайт replytocom

Как искать дубли страниц на вашем блоге

Отлично. Сейчас мы поищем прочие копии страничек, а подробнее копии: feed, category, tag, comment-page, page, trackback, attachment_id, attachment

Их поиск проводим похожим образом, как мы искали дубли страниц реплитоком. Делаем все подобным образом, а именно зайдем в и внесем в поисковик любой блог, например site:realnodengi.ru feed

Нажав «Показ скрытых результатов» мы увидим:

22 дубля страницы. Что значит feed? Это непонятный отросток в конце адреса статьи. Для любого вашего поста жмете ctr + u и скорее всего увидите ссылочку feed в конце. Другими словами, подобные ссылки необходимо удалять. Давайте войдем в роботс данного сайта, мы увидим:

То есть то, что нам не нужно . Что же нам делать, подобные запрещения в роботсе желательно удалить. Что бы робот на них не заходил и не индексировал их на «всякий случай».

Отлично! Мы сделали проверку страничек feed.

Возьмём другой сайт, например reall-rabota.ru и вставим page. У нас получится site:reall-rabota.ru page:

Мы видим, что на данном сайте присутствует 61 дубль страниц page. От них необходимо избавляться. Я надеюсь, авторы данных блогов за анализ на меня не в обиде?

Подобный анализ проведите для своих блогов, и не только по данным копиям, но и по прочим, которые я приводил выше, таким как — category, tag и пр.

Ну как? Ваш результат вас порадовал?

Скорее всего не по всем данным словам вы найдете копии. Это конечно отлично! Но от тех, которые у вас имеются, придется избавиться! Давайте подумаем как?

Как убрать дубли страниц сайта решение проблемы

Во-первых , зайдите в мой роботс и скопируйте его себе, соответственно заменив сайт на название вашего сайта. Заменили? Отлично! Я думаю на многих блогах присутствовали запреты, как на сайте, приведенном выше.

Во вторых , перепишите следующие строки в ваш файлик.htaccess:

Данный файл находится в вашей корневой папке, которая чаще всего называется public_html. Для этого я обычно открываю программу , переношу нужный файл на рабочий стол, открываю данный файлик софтом Notepad + +, вношу необходимые изменения и заменяю старый файл на новый.

После закачки нового файла ваш.htaccess должен получиться примерно таким:

В третьих , вставляем в function.php после /*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/ function my_meta_noindex () { if (is_paged() // Все и любые страницы пагинации) {echo "".""."\n";} } add_action("wp_head", "my_meta_noindex", 3); // добавляем свой noindex, nofollow в head

В четвертых , проходим в расширение All in One Seo Pack и делаем так:

Если у вас другой плагин, например SEO, поставьте noindex в разделах, похожих по смыслу.

В пятых , в «Параметрах» идем в «Настройки-Обсуждения» и удаляем галку с пунктика Разбития комментариев:

В заключение предлагаю подробное видео про дубли.

На этом не всё, существует ещё множество дублей страниц и прочего хлама. Его необходимо удалять. Самому это не всегда сделать просто, поэтому иногда необходимо обращаться к профессионалу. Но его не всегда найдешь, да и не станешь постоянно обращаться.

Отсюда, желательно все тонкости узнать самому. Это можно сделать как при лично общении, так и изучив материал. Я имею в виду видеокурс. На мой взгляд, видеокурс предпочтительнее, т.к. вы пройдете обучение дама перед своим монитором!

Я не просто так привел данный курс, я его изучил. Мне лично он понравился. Раньше, Яндекс показывал у меня проиндексированных страниц 1220, хотя реально их 250. Сейчас, после очистки, Яндекс показывает 490, Гугл 530. Согласитесь, данные цифры ближе к реальным!

Но, как это не покажется странным, на большом количестве сайтов данные цифры зашкаливают за 200000 дублей и более. Без всяких шуток! Сайты с подобными показателями в скором времени могут быть забанены поисковиком. Но давайте вернемся к курсу. Приведу слова Александра:

Подробнее обо всём этом на сайте Борисова, для этого просто кликните по картинке с курсом.

В основном работа проделана, дубли страниц будут удалены после индексации, но не сразу, вам придется подождать несколько месяцев! Успехов в продвижении вашего ресурса! Если вам известны другие способы, как убрать дубли страниц сайта, пишите в комментариях, изучим вместе!

Анекдот в каждой статье.

— , который работает над продвижением сайта. Он может создать две одинаковые главные страницы, которые отличаются адресами.

Алгоритмы поисковых систем работают автоматически, и нередко бывает так, что дубль воспринимается системой более релевантным, чем страница-оригинал. В результате выдача будет выдавать не оригинал, а его дубль. В свою очередь, дубль обладает другими параметрами, что позже скажется на пессимизации сайта.

Существуют различные способы поиска и проверки дублированных страниц. От исполнителя они требуют разной степени знаний CMS, а также понимания того, каким образом работает поисковый индекс. Попробуем показать Вам наипростейший способ для проверки сайта на дубли страниц. Сразу отметим, что данный способ является не очень то и точным. Но, в тоже время подобный способ позволяет совершать поиск дублей страниц сайта, и не занимает много времени.

Теперь давайте посмотрим, как сделать то же самое только в системе Google. В принципе, процедура ничем не отличается, потребуется совершить такие же действия, как и в Яндексе.

Поисковая система Яндекс сразу же предоставляет список дублей, а вот в Гугле, чтобы увидеть дубли, необходимо будет дополнительно нажать «Показать скрытые результаты», поскольку зачастую на экран выводится оригинал страницы.

С картинки видно что, в основной выдаче находится 1 страница сайта, и она же и является оригиналом. Но в индексе существуют другие страницы, являющиеся дублями. Чтобы их увидеть, нужно нажать на ссылку “Показать скрытые результаты”. В результате мы получаем список, где под номером 1 находится оригинал, а дальше уже размещены дубликаторы. Частенько дубли придется чистить вручную.

Как проверить сайт на дубли страниц

В ниже приведенной статье мы сегодня попытаемся рассмотреть много вопросов, касающихся проблемы дублирования страниц, что становится причиной возникновения дублей, как от этого избавиться, и вообще, почему нужно избавляться от дубликатов.

Для начала давайте разберемся, что кроется под понятием «дублирование контента». Нередко случается, что некоторые страницы могут содержать частично или в полной мере одинаковый контент. Понятно, что каждая отдельная страница имеет свой собственный адрес.

Причины возникновения дублей:

— владельцы сайта сами создают дубли для определенных целей. Допустим, это может быть страница для печати, которая позволяет посетителю коммерческого сайта скопировать необходимую информацию по определенному товару или услуге.

— они генерируются движком интернет-ресурса, поскольку это заложено в их теле. Определенное количество современных СMS могут выдавать похожие страницы с различными URL, которые размещены на разных директориях.

— ошибки вебмастера, который работает над продвижением сайта. Он может создать две одинаковые главные страницы, которые отличаются адресами.

— изменение структуры сайта. При создании нового шаблона с иной системой URL, новые страницы, вмещающие старый контент, получают другие адреса.

Мы перечислили возможные причины возникновения четких дублей, но существуют еще и нечеткие, то есть частичные. Зачастую подобные страницы имеют схожую часть шаблона ресурса, но контент их немного отличается. Подобными дублями могут быть страницы сайта, которые имеют одинаковый результат поиска или же отдельный элемент статьи. Чаще всего, такими элементами становятся картинки.

От дублированных страниц необходимо избавляться. Нет, это не вирус, но он также со временем разрастается, правда, это зависит не от самого ресурса. Дубли зачастую становятся последствием непрофессионального вебмастера, или же результатом неправильного кода сайта.

Важно знать, что дубли могут нанести ресурсу немалый ущерб. К каким же последствиям может привести наличие дублей на сайте? Во-первых, это ухудшение индексации ресурса. Согласитесь, что подобная ситуация не очень то обрадует владельца сайта. В то время как на продвижение ресурса постоянно тратятся финансы и время, ресурс начинает терять свою популярность за несколько дней. Глубина проблемы будет зависеть от количества дублей.

Бывает так, что главная страница может иметь пару-тройку дубликатов. С блогам дело обстоит несколько по-другому. Благодаря replytocom может быть огромное количество дублей из-за копирования комментариев. Получается, что чем популярнее блог, тем больше дубликатов он будет содержать. В свою очередь, системы поиска, в особенности Google, из-за наличия таких вот дублей занижает позиции ресурса.

Алгоритмы поисковых систем работают автоматически, и нередко бывает так, что дубль воспринимается системой более релевантным, чем страница-оригинал. В результате выдача будет выдавать не оригинал, а его дубль. В свою очередь, дубль обладает другими параметрами, что позже скажется на пессимизации сайта.

Что же у нас получается? Дублированные страницы становятся реальной помехой в индексации сайта, а также причиной неверного выбора поисковой системы релевантной страницы, снижают влияние естественных ссылок. Помимо этого, дубли неправильно распределяют внутренний вес, снижая силу продвигаемых страниц, а также меняя поведенческие показатели.

Как проверить сайт на дубли страниц?

Существуют различные способы поиска и проверки дублировааных страниц. От исполнителя они требуют разной степени знаний CMS, а также понимания того, каким образом работает поисковый индекс. Попробуем показать Вам наипростейший способ для проверки сайта на дубли страниц. Сразу отметим, что данный способ является не очень то и точным. Но, в тоже время подобный способ позволяет совершать поиск дублей страниц сайта, и не занимает много времени.

Для поиска и проверки собственного ресурса на наличие дубликатов, следует просто ввести в расширенный поиск поисковой системы специальный запрос. Если Вы используете расширенную версию поиска в Яндекс, можно получить довольно подробные результаты благодаря тому, что здесь имеется возможность вводить уточняющие параметры для запроса.

Нам понадобится адрес ресурса и та часть текста, дубликат которого мы хотим найти. Для этого нам потребуется на своей странице выделить фрагмент текста, после чего в расширенном поиске системы Яндекс ввести скопированный текст и адрес сайта. Теперь необходимо нажать кнопку «Найти», после чего система начнет поиск.

Результаты будут выведены не в обычном режиме. Список сайтов будет содержать только заголовки и сннипеты нашего ресурса. В том случае, когда система выдает единственный результат, это значит, что дубликатов данной страницы нет. А вот при выдаче нескольких результатов придется поработать.

Теперь давайте посмотрим, как сделать то же самое только в системе Google. В принципе, процедура ничем не отличается, потребуется совершить такие же действия, как и в Яндексе.

Расширенный поиск позволяет легко находить все дубликаты по определенному фрагменту текста. Безусловно, что таким способом мы не получим дублей страниц, которые не содержат указанного текста. Нужно сказать что, если дубль был создан искривленным шаблоном, то он только показывает, например, картинку из оригинала на другой странице. Разумеется, что если текста дубликат не содержит, то выше описанным способом его определить не удастся. Для этого необходим другой способ.

Второй способ также отличается своей простотой. Надо воспользоваться специальным оператором и запросить индексацию своего сайта, или же его отдельных страниц. После этого придется вручную смотреть выдачу в поиске дублей.

Правила синтаксиса необходимого запроса:

В той ситуации, когда в поиск вводится просто адрес главной страницы, нам показан список проиндексированных страниц с помощью поискового робота. А вот, если укажем адрес конкретной страницы, то система выводит уже проиндексированные дубли данной страницы.

Поисковая система Яндекс сразу же предоставляет список дублей, а вот в Гугле, чтобы увидеть дубли, необходимо будет дополнительно нажать «Показать скрытые результаты», поскольку зачастую на экран выводится оригинал страницы.

Как видно на картинке, в основной выдаче у нас находится одна страница сайта и она же является оригиналом. Но в индексе есть и другие страницы, которые являются дублями. Чтобы их увидеть, нужно нажать на ссылку “Показать скрытые результаты”. В результате мы получаем список, где под номером 1 находится оригинал, а дальше уже размещены дубликаторы. Частенько дубли придется чистить вручную.

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства.

Что такое дубли страниц?

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Дубли:

с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.
со слешем в конце, например, site.ru/seo/ и site.ru/seo
с.php или.html в конце, site.ru/seo.html и site.ru/seo.php

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Какими бывают дубликаты?

Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют:

Полные дубли - когда одна и та же страница размещена по 2-м и более адресам.
Частичные дубли - когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;
URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
Страницы комментариев;
Страницы для печати;
Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Влияние дублей на продвижение сайта

Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Как найти дубли страниц

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/ . Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.

Программа Netpeak Spider (платная с триалом)

Яндекс Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске > Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и метаописания. Вероятнее всего это дубли (частичные или полные).

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google и Yandex) и поискать дубли «глазами».

Сервисы онлайн

Есть сервисы, который проверяют дубли страниц на сайте онлайн. Например, сервис Siteliner.com (http://www.siteliner.com/). На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Удаление дублей страниц сайта

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:

Их физическому удалению - хорошее решение для статических дублей.
Запрещению индексации дублей в - подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
в файле-конфигураторе «.htaccess» - хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
Установке тега « » - лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.
Установке тега «meta name=»robots» content=»noindex, nofollow»» - решение для печатных версий, табов с отзывами на товарах.

Чек-лист по дублям страниц

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Запомните следующее:

Полные дубли - это когда одна и та же страница размещена по 2-м и более адресам. Частичные дубли - это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.
Полные дубликаты не трудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.
Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.
Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.
Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name=»robots» content=»noindex, nofollow»».