Зеркала, дубли страниц и Url адреса аудит вашего сайта или что может быть причиной краха при его SEO продвижении

Дубли страниц: что это, чем вредны, как найти и убрать

Приветствую вас, дорогие читатели SEO блога Pingo. В рамках курса SEO, сегодня мы поговорим о дублях. А именно — что такое дубли страниц на сайте, чем они грозят продвижению, как их найти и убрать.

Что такое дубли страниц на сайте?

Дубли — это страницы с частично или полностью совпадающим контентом, но доступные по разным URL-адресам. Принято их классифицировать как четкие и нечеткие. Примером четких могут послужить зеркала главной страницы сайта:

А нечетких — большие сквозные для всего ресурса участки текста:

Чем опасны дубли страниц?

1. Перескоки релевантных страниц в поисковой выдаче. Самая распространенная проблема, заключающаяся в том, что поисковая система не может однозначно определить, какой из документов следует показывать в выдаче по запросу, тематике которого они удовлетворяют. Как итог — broser rank и поведенческая информация размазываются по дублям, позиции постоянно скачут и далеко не в положительную сторону.

2. Снижение уникальности контента сайта. Ну, тут всё очевидно — идет снижение процента страниц с уникальным контентом, что не может не оказывать негативного влияния на его ранжирование.

3. Размытие ссылочного веса. Тут ситуация несколько аналогична той, что описана во втором пункте — идет «размазывание» внешних ссылок по дублям — будь то ситуации, когда посетитель решил поделиться страницей, оставив её URL на каком-либо, скажем, форуме, ну или вы, в процессе работы с сайтом, запутались и стали закупать часть ссылок на копии. Практически то же самое относится к внутреннему ссылочному весу.

Откуда берутся дубли страниц?

1. CMS. Очень популярная причина, берущая своё начало в несовершенстве работы используемой системы управления. Тривиальная ситуация для примера — когда одна запись на сайте принадлежит к нескольким категориям, чьи алиасы входят в URL самой записи. В итоге мы получаем откровенные дубли, например:

2. Служебные разделы. Тоже можно отнести к несовершенству функционирования CMS, но из-за распространенности проблемы, выношу её в отдельный пункт. Особенно тут грешат Joomla и Birix. Например, какая-либо функция на сайте (авторизация, фильтрация, поиск и т.д.) плодит параметрические адреса, имеющие идентичный контент относительно страницы без параметров в урле. Например:

3. Человеческий фактор. Сюда можно отнести всё то, что является порождением рук человеческих:

  • Упомянутые ранее большие сквозные участки текста.
  • Сквозные статические блоки.
  • Банальное дублирование статей.

По второму пункту хотелось бы уточнить, что тут речь тут идет в первую очередь про код. На этот счет идет много дебатов, но я говорю абсолютно точно — большие участки сквозного кода — очень плохо. У меня минимум 3 кейса в практике было, когда сокрытие от роботов сквозняков увеличивало индексацию сайта с 20 до 60 тысяч страниц в течении всего одного-двух месяцев. Но тут банального в коде будет недостаточно, а потому я поговорю об этом в отдельном материале.

4. Технические ошибки. Что-то среднее между несовершенством работы CMS и человеческим фактором. Первый пример, который приходит в голову, имел место быть на системе Opencart, когда криво поставленная ссылка привела к зацикливанию:

Как найти дубли страниц на сайте?

Легче и надежнее всего это будет сделать, пройдя следующие 3 этапа.

1. Программная проверка сайта на дубли страниц. Берем NetPeak Spider, Screaming Frog SEO Spider или любую другую из подобных софтин для внутреннего анализа и сканируем сайт. Затем сортируем, например, по метазаголовкам, и обращаем внимание на их совпадение или полное отсутствие. Совпадение — повод для проверки этих страниц вручную, а отсутствие метаинформации — один из вероятных признаков технического раздела, который лучше закрыть от индексации.

2. Google Webmaster Console. Затем идем в кабинет вебмастера Google, в раздел «Оптимизация HTML»:

Переходим в раздел, например, «Повторяющееся метаописание» и просматриваем страницы, содержащиеся в нем:

В целом данный пункт аналогичен первому. С той лишь разницей, что часто там можно найти дубли, которые не покажет вам парсер ввиду отсутствия ссылок на них на сайте. Тем не менее, они остаются копиями и с ними нужно бороться.

3. Поиск дублей на сайте вручную. Ну, это закрепляющий пункт, в рамках которого мы должны будем уделить полчаса-час на просмотр индекса, обращая внимания на адреса с параметрами или нечленораздельными алиасами.

Как убрать дубли страниц на сайте?

Прежде всего нужно устранить первопричину их появления. И правда — какой смысл корпеть-закрывать дубли от индексации, если через пару дней появятся новые? Это справедливо для ошибок фунционирования CMS, что решается самостоятельно (если дружите с программированием), ну или другим человеком (если дружите с программистами). Если же проблема решена, то можно заняться её хвостами.

1. Закрытие через robots.txt. Самый простой вариант. Как правило все дубли-порождения несовершенства системы управления сайтом, имеют одинаковую структуру алиасов, что позволяет закрыть их «по маске« путем добавления одной-двух директив в файл robots.txt. Подробнее о нем можно почитать тут.

2. 301 редирект. Этот вариант подойдет вам, если копии носят точечный характер и вы не хотите их закрывать от индексации по той или иной причине (например, на них уже кто-то успел поставить внешнюю ссылку). В таком случае просто настраиваем 301 редирект с дубля на основную страницу и проблема решена.

Подробнее о 301 редиректе можно почитать тут. Кроме того, зеркала сайта являются также, суть, дублями, так что их обработка ведется в том же ключе, о чем подробно расписано тут.

3. Link rel=»canonical». Это является неплохим решением для описанной выше ситуации, когда один и тот же пост доступен по разным урлам. Для каждого такого поста внедряется в код тег вида
, где http://site.ru/cat1/page.php — вариант урла записи, который вы хотите индексировать.

Данный тег программно внедряется для каждого поста и далее пусть у него будет хоть 100 урлов — на всех них в коде будет рекомендация для поисковой системы, какой урл вы советуете индексировать, а на какие не обращать внимания (на страницы, чей собственный url и url в link rel=»canonical» не совпадают).

4. Google Search Console. Малопопулярный, но, тем не менее, работающий приём, к которому мы можем обратиться в разделе «Сканирование» — «Параметры URL» из Google Search Console.

Добавляя параметры в эту таблицу, мы можем сообщить поисковому роботу, что страницы ними никак не изменяют содержимого, а потому их можно не индексировать. Но, конечно, возможны и другие варианты, при которых содержимое раздела при включении параметра в адрес «перемешивается», оставаясь, однако, при этом неизменным по своему составу (например, сортировка по популярности записей в категории).

Указав об этом в данном разделе, мы тем самым поможем Google лучше интерпретировать сайт в процессе его сканирования. Сообщив о предназначении параметра в URL, вопрос об индексации таких страниц лучше оставить «На усмотрение робота Googlebot&rauqo;.

Часто задаваемые вопросы

Многостраничные разделы (пагинация) — дубли или нет? Закрывать ли от индексации?

Нет, не нужно их закрывать ни от индексации, ни ставить rel=»canonical» на первую страницу раздела, так как они имеют уникальный относительно друг-друга контент, а потому не являются дублями. Поисковые системы прекрасно умеют распознавать пагинацию, ну а для пущей надежности достаточно будет снабдить их элементами микроразметки rel=»next» и rel=»prev». Например:

Урлы с хештегами (#) — дубли или нет? Удалять ли их?

Нет. Поисковая система по умолчанию не индексирует страницы с # в адресе, так что по этому поводу волноваться не надо.

Дубли страниц на сайте

Что такое дубли страниц?

Дубли страниц на сайте — это грубая SEO-ошибка, которая характеризуется тем, что контент одной страницы полностью идентичен содержанию другой. Таким образом, они в точности копируют друг друга, но при этом доступны по разным URL-адресам.

Самые частые причины возникновения дублей:

Не сделан редирект страниц, имеющих адреса с www и без www. В этом случае каждая страница сайта будет дублироваться, так как остается доступной по двум адресам, например:

http://www.site.ru/page и http://site.ru/page

Страницы сайта доступны по адресу со слэшем и без слэша:

http://site.ru/page/ и http://site.ru/page

Также URL страницы может быть с .php и .html на конце либо без расширения. Как правило, это связано с особенностями cms (административной панели сайта):

http://site.ru/page.html и http://site.ru/page; http://site.ru/page.php и http://site.ru/page

  • Отдельно стоит выделить неполные дубли страниц. В этом случае контент на двух разных страницах не будет идентичным на 100%. Сходство и дублирование может появляться по причине того, что некоторые блоки на сайте являются сквозными — например, это может быть блок о доставке, который отображается на страницах всех товаров.
  • Некоторые карточки со схожими товарами содержат идентичное описание, что также может рассматриваться как грубая ошибка.
  • Постраничная пагинация каталога с товарами. В этом случае текст и МЕТА-теги на всех страницах одной категории могут быть одинаковыми.
  • Как дубли влияют на ранжирование?

    Дубли негативно влияют на ранжирование вашего сайта — за наличие дубликатов страниц интернет-ресурс может с большой степенью вероятности подвергнуться пессимизации со стороны поисковых систем.

    1. Яндекс и Google очень трепетно относятся к уникальности контента на web-ресурсах. В случае, если данные на страницах дублируются, они признаются неуникальными. За это на сайт могут быть наложены санкции.
    2. Наличие большого количества дублей страниц сильно усложняет процесс индексации сайта и запутывает поисковых роботов.
    3. Затрудняется продвижение посадочных страниц, так как поисковая система не может выбрать релевантную страницу из двух одинаковых.
    4. Теряется «вес» страниц, поскольку распределяется между двумя одинаковыми документами.

    Подробно описывается негативное влияние дублей и методы борьбы с ними в статье Google «Консолидация повторяющихся URL»

    Яндекс, в свою очередь, предлагает на эту тему видеоурок «Поисковая оптимизация сайта: ищем дубли страниц», где разъясняется терминология и способы решения проблемы.

    Как обнаружить дубли у себя на сайте?

    С этим могут возникнуть трудности не только у обладателей больших web-ресурсов, но и у владельцев совсем небольших сайтов, так как некоторые дубли, возникающие из-за особенностей и ошибок CMS, очень сложно обнаружить. Быстро и без лишних трудозатрат найти дубли страниц можно с помощью сервиса Labrika. Для этого нужно посмотреть соответствующий отчет. Находится он в подразделе «Похожие страницы» раздела «SEO-аудит» в левом боковом меню:

    В отчете вы можете увидеть следующую информацию:

    1. Страница сайта, которая имеет дубль.
    2. Дубль этой страницы
    3. Процент схожести страниц. Благодаря этому проценту вы сможете определить, является ли дубль страницы полным.

    Получив данные из отчета, вы сможете сэкономить время и сразу начать устранять эти ошибки.

    Как устранить дубли на сайте?

    В первую очередь, необходимо установить характер дубля и уже после этого выбирать способ его устранения.

    1. Если дублей на сайте небольшое количество и их происхождение связано с ошибками CMS (допустим, страница доступна по адресам http://site.ru/category/tovar и http://site.ru/tovar), то самым простым методом решения проблемы будет следующий. Дубль необходимо запретить для индексации поисковых систем в robots.txt (также см. информацию о robots.txt от Google). Затем воспользоваться формой удаления URL из индекса в Яндекс.Вебмастер — https://webmaster.yandex.ru/tools/del-url/ и инструментом аналогичного назначения в Google Webmaster — https://www.google.com/webmasters/tools/url-removal. Подробнее про использование инструмента от Google вы можете прочитать здесь.
    2. Если появление дубликатов носит системный характер и связано с такими ошибками, как, например, несклеенный домен (страница доступна по адресу с www и без www), то в таком случае необходимо выбрать главное зеркало (например, адрес сайта без www), воспользоваться командой 301 redirect (перенаправление со страниц с www на страницы без них), которая прописывается в специальном файле htaccess.
    3. В случае, если вы имеете дело с постраничной пагинацией товаров одной категории, Яндекс советует использовать атрибут rel=»canonical». Более подробно о применении этого атрибута на страницах с пагинацией вы можете прочитать в статье Блога Яндекс «Несколько советов интернет-магазинам по настройкам индексирования».

    Читать дальше подобные статьи

    Онлайн SEO-сервис Labrika

    Получите рекомендации для продвижения сайта на основе 178 требований поисковых систем

    Поиск дублей страниц сайта: программы, сервисы, приёмы

    О теории дублирования контента на сайте я писал стать тут, где доказывал, что дубли статей это плохо и с дубли страниц нужно выявлять и с ними нужно бороться. В этой статье я покажу, общие приемы по выявлению повторяющегося контента и акцентирую внимание на решение этой проблемы на WordPress и Joomla.

    Еще немного теории

    Я не поддерживаю мнение о том, что Яндекс дубли страниц воспринимает нормально, а Google выбрасывает дубли из индекса и за это может штрафовать сайт.

    На сегодня я вижу, что Яндекс определяет дубли страниц и показывает их в Яндекс.Вебмастере на вкладке «Индексация». Более того, ту страницу, которую Яндекс считает дублем, он удаляет из индекса. Однако я вижу, что Яндекс примет за основную страницу первую, проиндексированную и вполне возможно, что этой страницей может быть дубль.

    Также понятно и видно по выдаче, что Google выбрасывает из поиска НЕ все страницы с частичным повторением материала.

    Вместе с этим, отсутствие дублей на сайте воспринимается поисковыми системами, как положительный фактор качества сайта и может влиять на позиции сайта в выдаче.

    Теперь от теории к практике: как найти дубли страниц.

    Поиск дублей страниц сайта

    Перечисленные ниже способы поиск дублей страниц не борются с дублями, а помогают их найти в поиске. После их выявления, нужно принять меры по избавлению от них.

    Программа XENU (полностью бесплатно)

    Программа Xenu Link Sleuth ( http://home.snafu.de/tilman/xenulink.html ), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

    Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и мета описаниям. Читать статью: Проверка неработающих, битых и исходящих ссылок сайта программой XENU

    Программа Screaming Frog SEO Spider (частично бесплатна)

    Адрес программы https://www.screamingfrog.co.uk/seo-spider/ . Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Статья: SEO анализ сайта программой Scrimimg Seo Spider

    Программа Netpeak Spider (платная с триалом)

    Сайт программы https://netpeaksoftware.com/spider . Еще один программный сканер для анализа ссылок сайта с подробным отчетом. Статья Программа для SEO анализа сайта Netpeak Spider

    Яндекс.Вебмастер

    Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование >>>Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

    поиск дублей страниц в Яндекс.Вебмастер

    Язык поисковых запросов

    Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google) и поискать дубли «глазами». Как это сделать читать в статье Простые способы проверить индексацию страниц сайта.

    Сервисы онлайн

    Есть онлайн сервисы, который показывают дубли сайта. Например, сервис Siteliner.com ( http://www.siteliner.com/ ) На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

    Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

    Google Search Console

    В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске>>>Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и мета описания. Вероятнее всего это дубли (частичные или полные).

    поиск дублей страниц в консоли веб-мастера Google

    Что делать с дублями

    Найденные дубли, нужно удалить с сайта, а также перенастроить CMS, чтобы дубли не появлялись, либо закрыть дубли от поисковых ботов мета-тегами noindex, либо добавить тег rel=canonical в заголовок каждого дубля.

    Как бороться с дублями

    Здесь совет простой, бороться с дублями нужно всеми доступными способами, но прежде всего, настройкой платформы (CMS) на которой строится сайт. Уникальных рецептов нет, но для Joomla и WordPress есть практичные советы.

    Поиск и удаление дублей на CMS Joomla

    CMS Joomla «плодит» дубли, «как крольчиха». Причина дублирования в возможностях многоуровневой вложенности материалов, размещения материалов разных пунктах меню, в различных макетах для пунктов меню, во встроенном инструменте пагинации (листания) и различной возможности сортировки материалов.

    Например, одна и та же статья, может быть в блоге категории, в списке другого пункта меню, может быть, в сортировке по дате выпуска и вместе с тем, быть в сортировке по количеству просмотров, дате обновления, автору и т.д.

    Встроенного инструмента борьбы с дублями нет и даже появление новой возможности «Маршрутизация URL» не избавляет от дублирования.

    Решения проблемы

    Решить проблему дублирования на сайтах Joomla помогут следующие расширения и приёмы.

    Бесплатный плагин «StyleWare Content Canonical Plugin». Сайт плагина: https://styleware.eu/store/item/26-styleware-content-canonical-plugin. Плагин фиксирует канонические адреса избранных материалов, статей, категорий и переадресовывает все не канонические ссылки.

    SEO Компоненты Joomla, Artio JoomSEF (бесплатный) и SH404 (платный). У этих SEO «монстров» есть кнопка поиска и удаления дублей, а также есть легкая возможность добавить каноническую ссылку и/или закрыть страницы дублей от индексации.

    Перечисленные расширения эффективно работают, если их ставят на новый сайт. Также нужно понимать, что при установке на рабочий сайт:

    • На сайте со статьями в индексе эти расширения «убьют» почти весь индекс.
    • Удаление дублей компонентами не автоматизировано и дубли всё равно попадают в индекс.
    • Хотя управлять URL сайта этими компонентами очень просто.

    Если дубль страницы попадет в индекс, то поисковики, не умея без указателей определять, какая страница является основной, могут дубль принять за основную страницу, а основную определить, как дубль. Из-за этого важно, не только бороться с дублями внутри сайта, но и подсказать поисковикам, что можно, а что нельзя индексировать. Сделать это можно в файле robots.txt, но тоже с оговорками.

    Закрыть дубли в robots.txt

    Поисковик Яндекс, воспринимает директиву Disallow как точное указание: материал не индексировать и вывести материал из индекса. То есть, закрыв на Joomla , страницы с таким url: /index.php?option=com_content&view=featured&Item >, а закрыть это можно такой директивой:

    вы уберете, из индекса Яндекс все страницы со знаком вопроса в URL.

    В отличие от Яндекс, поисковик Google не читает директиву Disallow так буквально. Он воспринимает директиву Disallow как запрет на сканирование, но НЕ запрет на индексирование. Поэтому применение директивы [Disallow: /*?] в блоке директив для Google файла robots.txt, на уже проиндексированном сайте, скорее приведет к негативным последствиям. Google перестанет сканировать закрытые страницы, и не будет обновлять по ним информацию.

    Для команд боту Google нужно использовать мета теги , которые можно добавить во всех редакторах Joomla, на вкладке «Публикация».

    Например, вы создаете на сайте два пункта меню для одной категории, один пункт меню в виде макета блог, другой в виде макета список. Чтобы не было дублей, закройте макет список мета-тегом noindex, nofollow, и это избавит от дублей в Google выдаче.

    Также рекомендую на сайте Joomla закрыть в файле robots.txt страницы навигации и поиска от Яндекс на любой стадии индексации и от Google на новом сайте:

    Стоит сильно подумать, об индексации меток, ссылок и пользователей, если они используются на сайте.

    Поиск и удаление дублей на CMS WordPress

    На WordPress создаваемый пост попадает на сайт как статья, и дублируется в архивах категории, архивах тегов, по дате, по автору. Чтобы избавиться от дублей на WordPress, разумно закрыть от индексации все архивы или, по крайней мере, архивы по дате и по автору.

    Использовать для этих целей можно файл robots.txt с оговорками сделанными выше. Или лучше, установить SEO плагин, который, поможет в борьбе с дублями. Рекомендую плагины:

    • Yast SEO ( https://ru.wordpress.org/plugins/wordpress-seo/ )
    • All in One SEO Pack ( https://ru.wordpress.org/plugins/all-in-one-seo-pack/ )

    В плагинах есть настройки закрывающие архивы от индексации и масса других SEO настроек, который избавят от рутинной работы по оптимизации WordPress.

    По практике скажу, что побороть дубли на WordPress можно, а вот с дублями на Joomla поиск дублей страниц требует постоянного контроля и взаимодействия с инструментами веб-мастеров, хотя бы Яндекс и Google.

    Что такое дубли страниц

    10 ноября 2017 года. Опубликовано в разделах: Азбука терминов. 4276

    Что такое дубли страниц на сайте

    Дубли могут возникать, когда используются разные системы наполнения контентом. Ничего страшного для пользователя, если дубликаты находятся на одном сайте. Но поисковые системы, обнаружив дублирующиеся страницы, могут наложить фильтрпонизить позиции и т. д. Поэтому дубли нужно быстро удалять и стараться не допускать их появления.

    Какие существуют виды дублей

    Дубли страниц на сайте бывают как полные, так и неполные.

    • Неполные дубли – когда на ресурсе дублируются фрагменты контента. Так, например, и разместив части текста в одной статье из другой, мы получим частичное дублирование. Иногда такие дубли называют неполными.
    • Полные дубли – это страницы, у которых есть полные копии. Они ухудшают ранжирование сайта.

    Например, многие блоги содержат дублирующиеся страницы. Дубли влияют на ранжирование и сводят ценность контента на нет. Поэтому нужно избавляться от повторяющихся страниц.

    Причины возникновения дублей страниц

    1. Использование Системы управления контентом (CMS) является наиболее распространённой причиной возникновения дублирования страниц. Например, когда одна запись на ресурсе относится сразу к нескольким рубрикам, чьи домены включены в адрес сайта самой записи. В результате получаются дубли страниц: например:
      wiki.site.ru/blog1/info/
      wiki.site.ru/blog2/info/
    2. Технические разделы. Здесь наиболее грешат Bitrix и Joomla. Например, одна из функций сайта (поиск, фильтрация, регистрация и т.д.) генерирует параметрические адреса с одинаковой информацией по отношению к ресурсу без параметров в URL. Например:
      site.ru/rarticles.php
      site.ru/rarticles.php?ajax=Y
    3. Человеческий фактор. Здесь, прежде всего, имеется ввиду, что человек по своей невнимательности может продублировать одну и ту же статью в нескольких разделах сайта.
    4. Технические ошибки. При неправильной генерации ссылок и настройках в различных системах управления информацией случаются ошибки, которые приводят к дублированию страниц. Например, если в системе Opencart криво установить ссылку, то может произойти зацикливание:
      site.ru/tools/tools/tools/…/…/…

    Чем опасны дубли страниц

    1. Заметно усложняется оптимизация сайта в поисковых системах. В индексе поисковика может быть много дублей одной страницы. Они мешают индексировать другие страницы.
    2. Теряются внешние ссылки на сайт. Копии усложняют определение релевантных страниц.
    3. Появляются дубли в выдаче. Если дублирующий источник будет снабжаться поведенческими метриками и хорошим трафиком, то при обновлении данных она может встать в выдаче поисковой системы на место основного ресурса.
    4. Теряются позиции в выдаче поисковых систем. Если в основном тексте имеются нечёткие дубли, то из-за низкой уникальности статья может не попасть в SERP. Так, например часть новостей, блога, поста, и т. д. могут быть просто не замечены, так как поисковый алгоритм их принимает за дубли.
    5. Повышается вероятность попадания основного сайта под фильтр поисковых систем. Поисковики Google и Яндекс ведут борьбу с неуникальной информацией, на сайт могут наложить санкции.

    Как найти дубли страниц

    Чтобы удалить дубли страниц, их сначала надо найти. Существует три способа нахождения копий на сайте.

    1. Нахождение дублей на сайте с помощью расширенного поиска Google. Укажите в расширенном поиске адрес главной страницы. Система выдаст общий список проиндексированных страниц. А если указать адрес конкретной страницы, то поисковик покажет весь перечень проиндексированных дублей. В отличие от Google, в Яндексе копии страниц сразу видны.
      Например, такой вид имеет расширенный поиск Google:
      На сайте может быть много страниц. Разбейте их на категории — карточки товара, статьи, блога, новости и ускорьте аналитический процесс.
    2. Программа XENU (Xenu Link Sleuth) позволяет провести аудит сайта и найти дубли. Чтобы получить аудит и произвести фильтрацию по заголовку требуется в специальную строку ввести URL сайта. Программа поможет найти полные совпадения. Однако через данную программу невозможно найти неполные дубли.
    3. Обнаружение дублей при помощи web – мастерской Google. Зарегистрируйтесь, и тогда в мастерской, разделе «Оптимизация Html», будет виден список страниц с повторяющимся контентом, тегами . По таблице можно легко найти чёткие дубли. Недостаток такого метода заключается в невозможности нахождения неполных дублей.
    4. Онлайн seo-платформа Serpstat проводит технический seo-аудит сайта по 55+ ошибок. Среди них есть блок для анализа дублируемого контента на сайте. Так сервис найдет дублирующиеся Title, Description, H1 на двух и больше страницах. Также видит случаи, когда H1 дублирует Title, на одной странице по ошибке прописаны два мета-тега Title и больше одного заголовка Н1.

      Чтобы сделать технический аудит в Serpstat, нужно зарегистрироваться в сервисе и создать проект для аудита сайта.

    Как убрать дубли страниц

    От дублей нужно избавляться. Необходимо понять причины возникновения и не допускать распространение копий страниц.

    • Можно воспользоваться встроенными функциями поисковой системы. В Google используйте атрибут в виде rel=»canonical». В код каждого дубля внедряется тег в виде
    • , который указывает на главную страницу, которую нужно индексировать.
    • Запретить индексацию страниц можно в файле robots.txt. Однако таким путём не получится полностью устранить дубли в поисковике. Ведь для каждой отдельной страницы правила индексации не провпишешь, это сработает только для групп страниц.
    • Можно воспользоваться 301 редиректом. Так, роботы будут перенаправляться с дубля на оригинальный источник. При этом ответ сервера 301 будет говорить им, что такая страница более не существует.

    Дубли влияют на ранжирование. Если вовремя их не убрать, то существует высокая вероятность попадания сайта под фильтры Panda и АГС.

    Настраиваем файл .htaccess для правильной индексации сайта

    Каждый раз, когда приходится провести технический аудит сайтов клиентов, я начинаю смотреть, что попало в индекс поисковых систем. Зачастую в поиск попадают дубли страниц, а Яндекс и Google видят один и тот же сайт, как два разных.

    Что бы активно заняться продвижением, покупкой ссылочной массы и сэкономить бюджет вашей компании, необходимо заранее привести сайт в порядок и настроить служебный файл .htaccess.

    Рассмотрим по порядку, что нам необходимо прописать. Есть множество всяких настроек, я расскажу о том, что я использую. Со временем, буду дополнять новые проверенные настройки.

    Настраиваем основное зеркало сайта

    Основной ошибка, когда сайт доступен по двум адресам, с www или без:

    Точной информации, что лучше использовать, я не нашел. Но чаще склонен использовать название домена без www. Считаю, что использование www в названии, чаще актуально в off-лайне, для рекламы, баннерах, визитках. Визуальное видение названия с www подразумевает, что речь идет о сайте в интернете.

    Смотрим, что нужно прописать:

    • главное зеркало с www

    RewriteEngine On
    RewriteCond % ^site.ru
    RewriteRule (.*) http://www.site.ru/$1 [R=301,L]

    • главное зеркало без www

    RewriteEngine On
    RewriteCond % ^www.site.ru$ [NC]
    RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]

    Убираем дубль главной страницы /index.php

    Далее, сайт может быть доступен как:

    Убираем /index.php из индексации:

    RewriteCond % ^[A-Z]<3,9> /index.php HTTP/
    RewriteRule ^index.php$ http://site.ru/ [R=301,L]

    Исправляем слэш в URL адресе

    Например страница доступна со слэшем и без него:

    Необходимо выбрать что-то одно. Честно, не уверен насколько это серьезно для продвижения сайта, будет ли вес страницы разбиваться пополам? Но есть один отрицательный момент, когда страница без слэша на конце, или наоборот, отдает ответ сервера 404. Посмотрим решение.

    • Убираем слэш на конце URL адреса:
    • Добавляем слэш в конец URL адреса:

    301 Редирект с одной страницы на другую

    Если адрес вашей страницы поменялся и вам необходимо сделать перенаправление на новую, используем следующий формат записи:

    Redirect /old.php http://site.ru/new.php

    Как проверить ответ сервера?

    В процессе настройки файла .htaccess или после всех проделанных операций на сайте, необходимо убедиться в правильности работы вашего ресурса. Есть различные интернет-сайты для проверки, я использую сервис Яндекса — » Проверка ответа сервера». Для проверки необходимо добавить сайт в панель Яндекс.Вебмастер.

    Надеюсь данная статья поможет вам с помощью служебного файла .htaccess добиться правильной индексации сайта. Не забывайте включать директиву модуля RewriteEngine On !

    Зеркала, дубли страниц и Url адреса аудит вашего сайта или что может быть причиной краха при его SEO продвижении

    You can post now and register later. If you have an account, sign in now to post with your account.

    Похожий контент

    399.00 руб
    Скачать/Купить дополнение

    SEO Генератор мета тегов (категории, товары), SEO URL
    Модуль SEO генератор мета описания позволяет провести оптимизацию всех категорий и товаров. Очень прост в эксплуатации
    Можно перезаписать meta по все товарам, категориям, либо модуль будет сам будет искать не заполненные meta и сохранять информацию о заполнении.
    Все что от Вас требуется, это задать шаблон для заполнения meta.

    Также добавлена возможность автоматической массовой генерации отсутствующих SEO URL в товарах и категориях,
    при нажатии на кнопку Обновить ЧПУ (SEO URL) модуль проставить URL во всех товарах и категориях в которых они отсутствуют.

    Возможность устранения дублей SEO URL

    ПРИМЕР заполнения прилагается в скриншоте.

    УСТАНОВКА
    1. Установить модификатор через Установку дополнения, очистить кешь.
    2. Скопировать папку admin в корень сайта.
    ПРИМЕЧАНИЕ
    Модуль не закублен с открытым исходным кодом, не требует ключа активации.
    Тех. поддержка осуществляется для клиентов купившим модуль для конкретного ресурса, поэтому при покупке обязательно указываем Ваш домен.

    https://opencartforum.com/profile/723002-legioner26/?tab=field_core_pfield_13 ->> Собственный программный модуль по парсингу товаров под управлением OpenCart

    Добавил legioner26 Добавлено 31.03.2019 Категория SEO, карта сайта, оптимизация Системные требования Сайт разработчика Старая цена 850 Метод активации Без активации Ioncube Loader Нет OpenCart 2.3
    2.2
    2.1
    2.0 ocStore 2.3
    2.2
    2.1 OpenCart.Pro, ocShop Opencart.pro 2.3
    Opencart.pro 2.1 Обращение к серверу разработчика Нет

    Модуль SEO генератор мета описания позволяет провести оптимизацию всех категорий и товаров. Очень прост в эксплуатации
    Можно перезаписать meta по все товарам, категориям, либо модуль будет сам будет искать не заполненные meta и сохранять информацию о заполнении.
    Все что от Вас требуется, это задать шаблон для заполнения meta.

    Также добавлена возможность автоматической массовой генерации отсутствующих SEO URL в товарах и категориях,
    при нажатии на кнопку Обновить ЧПУ (SEO URL) модуль проставить URL во всех товарах и категориях в которых они отсутствуют.

    Возможность устранения дублей SEO URL

    ПРИМЕР заполнения прилагается в скриншоте.

    УСТАНОВКА
    1. Установить модификатор через Установку дополнения, очистить кешь.
    2. Скопировать папку admin в корень сайта.
    ПРИМЕЧАНИЕ
    Модуль не закублен с открытым исходным кодом, не требует ключа активации.
    Тех. поддержка осуществляется для клиентов купившим модуль для конкретного ресурса, поэтому при покупке обязательно указываем Ваш домен.

    https://opencartforum.com/profile/723002-legioner26/?tab=field_core_pfield_13 ->> Собственный программный модуль по парсингу товаров под управлением OpenCart

    При копировании товара (функционал в админке) — создаются 2 копии, вместо 1.

    Сначала думал из-за какого-то модуля. Поставил чистый ocStore 3.0.2. Проблема сохранилась.
    Подскажите в чем может быть проблема, куда смотреть?

    Столкнулся с проблемой, что Опера делает дубли при добавлении новых модулей. Например, создаешь новый html-блок, и после сохранения появляется дубликат с новым id.
    https://monosnap.com/file/CAWNzoJOkjVzECqtrJpxqTXScLPJ25

    Поставил в лог запись и вижу, что контроллер отрабатывает два раза:
    2019-05-18 8:23:11 — extension 2019-05-18 8:23:25 — index() 2019-05-18 8:23:35 — index() 2019-05-18 8:23:35 — POST 2019-05-18 8:23:35 — addModule 2019-05-18 8:23:35 — index() 2019-05-18 8:23:35 — POST 2019-05-18 8:23:35 — addModule 2019-05-18 8:23:35 — extension
    Замечено в версии OPR/62.0.3319.0 (Edition developer). На обычной Опере нормально и в других браузерах тоже. Проверял на opencart 2.x, 3.x. В приватном окне тоже самое.
    Возможно добавилось что-то в настройках самой Оперы?

    Появилось наверное после последнего обновления, но точно не скажу.

    Есть у кого возможность проверить?

    UPDATE: Сделал полный реинсталл. Проблема пропала при версии 59.0.3218.0. Сразу после обновления проблема появилась.

    Внутренние дубли страниц – чем опасны, как найти и обезвредить.

    Наличие внутренних дублей страниц может привести к ошибкам индексации сайта и даже свести на нет результаты продвижения. К примеру, если у продвигаемой страницы есть дубли, после очередного апдейта один из них может заменить в выдаче нужную страницу. А это обычно сопровождается существенным проседанием позиций, так как у дубля, в отличие от продвигаемой страницы, нет ссылочной массы.

    Откуда берутся дубли страниц?

    Как я только что упоминала, дубли бывают четкие и нечеткие.
    Четкие дубли – это страницы с абсолютно одинаковым контентом, которые имеют разные URL-адреса. Например, страница для печати и ее обычный оригинал, страницы с идентификаторами сессий, одни и те же страницы с разными расширениями (.html, .php, .htm). Большинство четких дублей генерируются движком сайта, но есть и такие, которые возникают из-за невнимательности вебмастера. К примеру, разные URL для главной страницы – у одного нашего клиента до недавнего времени «морда» совершенно статичного сайта (без движка) была доступна по трем разным URL-адресам: site.ru/, site.ru/index.html и site.ru/default.html. Очень часто четкие дубли появляются после замены дизайна и структуры сайта – все страницы получают новые URL-адреса, но старые адреса тоже работают, и в результате каждая страница доступна по 2 разным URL.

    Нечеткие дубли – это страницы с очень похожим контентом:
    где контентная часть по объему намного меньше сквозной части: страницы галерей (где само содержание страницы состоит из одной лишь картинки, а остальное – сквозные блоки), страницы товарных позиций с описанием товара всего одним предложением и т.д..
    страницы, на которых частично (или полностью, но в разном порядке) повторяется одно и то же содержание. Например, страницы категорий товаров в интернет-магазинах, на которых одни и те же товары отсортированы по разным показателям (по цене, по новизне, по рейтингу и т.д.) или страницы рубрик, где пересекаются одни и те же товары с одними и теми же описаниями. А также страницы поиска по сайту, страницы с анонсами новостей (если один и тот же анонс используется на нескольких страницах) и т.д.

    Как определить, есть ли на сайте дубли?

    Определить наличие внутренних дублей на сайте можно с помощью поиска Яндекса. Для этого в поисковой строке в расширенном поиске нужно ввести кусок текста страницы, подозреваемой в дублях (текст нужно вводить в кавычках), указав в строке «на сайте» свой домен. Все найденные страницы могут быть четкими или нечеткими дублями друг друга:

    Определить дубли можно и с помощью поиска Google. Для этого нужно в поисковую строку ввести кусок текста проверяемой страницы в кавычках и через пробел указать область поиска – site:examplesite.ru. Пример запроса на проверку дублей:

    “Длинное предложиение из десяти-пятнадцати слов со страницы, которую мы подозреваем в том, что у нее есть дубли и хотим подтвердить или опровергнуть это” site:examplesite.ru

    Если дубли найдутся, это будет выглядеть так:

    Как избавиться от дублей страниц?

    Оптимальный способ избавления от дублей зависит от того, каким образом дубль появился на сайте и есть ли необходимость оставлять его в индексе (например, если это страница товарной категории или галереи).

    Директива Disallow в Robots.txt

    Директива “Disallow” используется для запрещения индексации страниц поисковыми роботами и для удаления из базы уже проиндексированных страниц. Это оптимальный вариант борьбы с дублями в случаях, если дублированные страницы находятся сугубо в конкретных директориях или если структура URL позволяет закрыть много дублей одним правилом.
    Например, если нужно закрыть все страницы с результатами поиска по сайту, которые находятся в папке www.examplesite.ru/search/, достаточно в Robots.txt прописать правило:

    Другой пример. Если знак «?» является идентификатором сеанса, можно запретить индексацию всех страниц, содержащих этот знак, одним правилом:

    Таким образом можно запрещать к индексации четкие дубли: страницы для печати, страницы идентификаторов сессий и т.д., страницы поиска по сайту и т.д.
    Описание директивы «Disallow» в разделе помощи Яндекса
    Описание правил блокировки и удаления страниц в справке Google

    Тег rel=canonical

    Тег rel=canonical используется для того, чтоб указать роботам, какая именно страница из группы дублей должна участвовать в поиске. Такая страница называется канонической.
    Для того, чтоб указать роботам каноническую страницу, необходимо на неосновных страницах прописать ее URL:

    Такой способ избавления от дублей отлично подходит в том случае, если дублей достаточно много, но закрыть их единым правилом в Robots.txt невозможно из-за особенностей URL.

    301 редирект

    301 Permanent Redirect используется для переадресации пользователей и поисковых ботов с одной страницы на другую. Использовать этот способ нужно в случае, если некоторые страницы в результате смены движка или структуры сайта поменяли URL, и одна и та же страница доступна и по старому, и по новому URL. 301 редирект дает сигнал поисковым ботам, что страница навсегда сменила адрес на новый, в результате чего вес cтарой страницы передается новой (в большинстве случаев).

    Настроить редирект с одной страницы на другую можно, прописав в файле .htaccess такое правило:

    Redirect 301 /category/old-page.html http://www.melodina.ru/category/new-page.html

    Можно настроить и массовый редирект со страниц одного типа на другой, но для этого нужно, чтоб у них была одинаковая структура URL.

    Творческий подход

    Бывают случаи, когда страницы, имеющие признаки нечетких дублей, действительно содержат полезную информацию, и удалять их из индекса не хотелось бы. Что делать в таком случае? Менять, добавлять или уникализировать контент.
    Например, если проблема с нечеткими дублями возникла из-за слишком объемной навигации, нужно искать способы увеличить контентную часть или сократить сквозные блоки.

    Часто бывает, что страницы с описаниями товаров одной и той же категории очень похожи друг на друга. Уникализировать такой текст не всегда возможно, а закрывать к индексации нецелесообразно (это уменьшает контентную часть). В этом случае можно посоветовать добавлять на страницы какие-то интересные блоки: отзывы о товаре, список отличий от других товаров и т.д.

    В случае, если в разных рубриках выводится много одних и тех же товаров с одинаковыми описаниями, тоже можно применить творческий подход. Допустим, есть интернет-магазин сумок, где одни и те же товары выводятся сразу в нескольких категориях. Например, женская кожаная сумка с ручкой от Chanel может выводиться сразу в 4-х категориях женские сумки, кожаные сумки, сумки с ручкой и сумки Chanel. В этом нет ничего плохого, так как сумка действительно подходит для всех 4-х категорий, но если анонс с описанием сумки выводится во всех этих категориях, это может навредить (особенно если пересекающихся товаров много). Выход – либо не выводить анонсы на страницах рубрик вообще, либо сокращать их до минимум и автоматически менять описания в зависимости от категорий, на которых выводится товар.
    Пример: Стильная [женская] [кожаная] cумка черного цвета [Chanel] [с ручкой] на каждый день.

    Я встречала много разных вариантов внутренних дублей на сайтах разной сложности, но не было такой проблемы, которую нельзя было бы решить. Главное, не откладывать вопрос с дублями до тех пор, когда нужные страницы начнут выпадать из индекса и сайт станет терять трафик.

    9 SEO-ошибок, которые способны убить сайт

    Оптимизация сайта – довольно сложный и трудозатратный процесс. Если вам кажется, что у вас все идеально, то еще раз проверьте по пунктам свой ресурс. Ведь на ранжирование сайта в поисковой выдачи влияет множество факторов, даже от незначительных деталей зависит результат продвижения. Итак, давайте по порядку:

    1. Фильтры и санкции поисковых систем

    Этот пункт проверяется в Яндекс.Вебмастере: зайдите в раздел Диагностика, а потом в Безопасность и нарушения. В Google такую проверку можно осуществить в разделе Поисковый трафик, а затем перейти в Меры, принятые вручную.

    Как правило, некоторые даже не догадываются, что их сайт находится под фильтрами. Например, недавно к нам пришел пользователь с вопросом, почему сайт просел в выдаче. Мы посмотрели наличие фильтров и обнаружили такую картину:

    Шаблонные фразы уже давно всем надоели. Как можно принять решение о покупке, если везде одинаковые тексты? Поэтому обратите внимание на качество контента. Он должен быть уникальным, также не забываете про УТП.

    Если у вас копипаст, это грозит санкциями и понижению сайта в выдаче. Проверить свой сайт можно через сервисы text.ru или content-watch.ru.

    О том, как правильно писать тексты, как выделиться среди конкурентов и многом другом, читайте в нашей подборке статей.

    3. Теги title и description, H1-H3

    Правильно подобранные ключевые слова – это основа SEO-продвижения. К тому же это один из факторов влияющих на релевантность страницы.

    Неоднократно встречали, что title и description неправильно заполнены. Две наиболее распространенные ошибки – либо полное отсутствие ключевых слов, либо переспам с ключами в заголовке.

    Так делать не нужно, найдите золотую середину. И не забывайте, что теги должны быть предназначены не только для поисковых роботов, но и для людей. Как правильно прописать теги, можно посмотреть в этой статье.

    4. Протокол сайта HTTPS

    В начале 2017 года Google начал помечать все сайты, которые содержат формы, передающие персональные данные, как небезопасные. Этот пункт тоже влияет на ранжирование сайта в поисковой выдаче.

    Если еще не переехали на https, то рекомендуем исправить это как можно быстрее. Еще один важный момент – правильный алгоритм действий.

    Самая распространенная ошибка заключается в том, что многие просто настраивают 301-редирект со старой версии http на https после покупки SSL-сертификата. Но забывают о файле robots.txt, директиве Host, настройке вебмастеров. Поэтому ресурс, который находится на http, выпадает из индекса. А новый сайт на https еще не проиндексирован, поэтому все позиции улетают в трубу. Подробная инструкция по переезду на протокол https есть тут.

    5. Robots.txt

    Этот файл предназначен для поисковых роботов, в нем нужно указать параметры индексации сайта для ботов.

    Есть случаи, когда владельцы сайтов вовсе забывают про robots.txt. Например, недавно пришел в работу сайт, который не имел robots.txt, но был полностью открыт для индексации. Все настроили, сейчас все в порядке:

    Или второй вариант, когда сайт полностью закрыт от индексации. За это отвечают директивы Disallow и Allow, которые запрещают или разрешают индексирование разделов, отдельных страниц сайта или файлов. Для проверки файла у поисковых систем есть специальные инструменты: Яндекс и Google.

    6. Дубли страниц

    Страницы могут как полностью, так и частично совпадать друг с другом, но при этом у них будут разные URL.

    Поисковые роботы негативно относятся к дублям страниц, если обнаружили у себя такие, то рекомендуем их убрать. В 90% случаев дубли мешают продвижению.

    7. Зеркала сайта

    Зеркало сайта – это полная копия ресурса, доступная по разным адресам. Все зеркала важно склеить через 301 редирект.

    Если зеркало не склеено, то показатели тИЦ, вес внешних ссылок будут растекаться, так как для поисковиков это разные ресурсы. Все это мешает росту сайта в выдаче.

    Сайт не должен открываться по разным адресам, с www и без www, просто site.ru и site.ru/index.php, по http и https и т. д.:

    Вот небольшой чек-лист для проверки:

    • Сайт должен быть доступен только по одному протоколу http или https.
    • Выбрано главное зеркало сайта, с www или без www, указано в Вебмастере.
    • Настроен 301 редирект со всех зеркал.
    • Главная страница сайта доступна по одному адресу без /index.php, /index.html и т.п.

    8. Адаптивная верстка

    Пользователи все чаще используют мобильные устройства для поиска в Интернете, к тому же доля мобильного трафика превышает компьютерный. Также стоит отметить, что год назад Яндекс запустил алгоритм Владивосток. Если сайт не адаптирован под мобильные устройства, то он будет ранжироваться хуже.

    9. Скорость загрузки сайта

    Тут все просто. Пользователям не нравятся медленные сайты. Поисковые системы также отдают предпочтение быстрым, оптимизированным сайтам. Проверить скорость загрузки своего сайта можно с помощью инструмента Google. Красный – медленно, важно срочно увеличивать скорость, желтый – нормально, но нужно оптимизировать, зеленый – отлично.

    Это основные пункты, на которые стоит обратить внимание. Если у вас все отлично по ним, то можете не переживать за свой сайт. Если же наоборот увидели недочеты, срочно их исправляйте.

    Дублированный контент. Пора устранить вредоносных клонов!

    Что такое дублированный контент?

    Дублированный контент или просто дубли – это страницы на вашем сайте, которые полностью (четкие дубли) или частично (нечеткие дубли) совпадают друг с другом, но каждая из них имеет свой URL. Одна страница может иметь как один, так и несколько дублей.

    Как появляется дублированный контент на сайте?

    Как для четких, так и для нечетких дублей есть несколько причин возникновения. Четкие дубли могут возникнуть по следующим причинам:

    1. Они появляются из-за CMS сайта. Например, с помощью replytocom в WordPress, когда добавление новых комментариев создает автоматом и новые страницы, отличающиеся только URL.
    2. В результате ошибок веб-мастера.
    3. Из-за изменения структуры сайта. Например, при внедрении обновленного шаблона с новыми URL.
    4. Делаются владельцем сайта для определенных функций. Например, страницы с версиями текста для печати.

    Нечеткие дубли на вашем сайте могут появиться по следующим причинам:

      Если есть частичное повторение одинакового текста на разных страницах сайта.

    На примере показан анализ текста с главной страницы сайта в программе проверки уникальности «Text.ru». На картинке видно, с какими еще страницами этого же сайта и на сколько процентов он совпадает:

    Из-за страниц пагинации, когда в одном разделе несколько страниц.

    Пример страниц пагинации. Они находятся под цифрами 1, 2, 3 и т. д. Такое можно встретить, например, в блогах, где много статей или в многостраничных каталогах. И чтобы бесконечно не скролить вниз, делается их разбивка на внутренние страницы по номерам:

    Почему дублированный контент вредит сайту?
    1. Негативно влияет на продвижение в поисковой выдаче. Поисковые роботы отрицательно относятся к дублированному контенту и могут понизить позиции в выдаче из-за отсутствия уникальности, а следовательно, и полезности для клиента. Нет смысла читать одно и то же на разных страницах сайта.
    2. Может подменить истинно-релевантные страницы. Робот может выбрать для выдачи дублированную страницу, если посчитает ее содержание более релевантным запросу. При этом у дубля, как правило, показатели поведенческих факторов и/или ссылочной массы ниже, чем у той страницы, которую вы целенаправленно продвигаете. А это значит, что дубль будет показан на худших позициях.
    3. Ведет к потере естественных ссылок. Когда пользователь делает ссылку не на прототип, а на дубль.
    4. Способствует неправильному распределению внутреннего ссылочного веса. Дубли перетягивают на себя часть веса с продвигаемых страниц, что также препятствует продвижению в поисковиках.
    Как проверить, есть у вас дубли или нет?

    Чтобы узнать, есть у страниц сайта дубли или нет, существует несколько способов.

      Проверка через расширенный поиск (например, yandex.ru/advanced.html). Для этого просто вбиваете адрес сайта и фрагмент текста со страницы, контент которой надо проверить на дубли, в соответствующие поля формы и смотрите результат. Если в выдаче появилась только одна страница, то дублей нет. Если результатов больше, это говорит о том, что у страницы сайта все такие есть дубли, и с этим надо что-то делать.

    На примере показано, что у страницы сайта нашлось несколько дублей через расширенный поиск Яндекс


    Проверка через программы оценивания уникальности (например, «Text.ru»). Итоги проверки покажут вам, с какими сайтами и их внутренними страницами совпадает анализируемый текст и на сколько процентов.

    Бизнес в сети

    Заработок в сети для начинающих, арбитраж трафика, психология, профайлинг, юмористические рассказы

    Склейка страниц. Зеркала сайта и редиректы, удаление дублей

    Склейка страниц — процесс склеивания в индексе страниц с полным или частичным одинаковым содержанием. Причина склейки дублирующих друг друга страниц поисковыми роботами — это чистка Интернета от лишнего контента.

    Под склейкой понимается то, что старый адрес теперь считать за новый адрес Выполняется склейка страниц при помощи редиректов

    Редирект — это автоматическое перенаправление пользователя с одного веб-адреса на другой. С помощью команды редиректа можно сделать одну и ту же страничку, доступной с нескольких разных адресов (URL).

    Пример Vk.com открывается и с адреса vkontakte.ru
    Для чего нужен редирект?
    1. При смене доменного имени – для сохранения рейтингов сайта
    2. Если один и тот же сайт должен открываться с нескольких разных доменов (англоязычный и русскоязычный, склейка нескольких доменов на один)
    3. Смена «движка» (CMS) сайта или значительное изменение сайта. Например, если раньше у вас не применялось ЧПУ, а потом вы решили его настроить.
    4. Для склеивания домена с www и без www (настройка зеркал сайта)

    Чтобы проверить свой сайт на склейку домена — введите в адресной строке браузера (не в поиске) адрес вашего сайта с www и без – сайт должен открыться по одному и тому же адресу, независимо как вы написали.

    На примере ниже – домены не были склеены, и поисковый робот видел на сайте в 2 раза больше страниц чем реально существовало

    То есть он видел все страницы с www и также видел все страницы без www
    После корректной склейки доменов – из индекса выпали половина страниц. (было 500 стало 250)
    Теперь весь контент на сайте потерял свои дубли, повысилась уникальность, что важно для роста в поиске.

    Техдокументация
    https://help.yandex.ru/webmaster/robot-workings/managing-redirects.xml
    https://support.google.com/webmasters/answer/93633?hl=ru

    Поиск дублей
    Полные дубли – нужно настроить 301 редирект
     www.site.ru
     site.ru/
     site.ru/page
     site.ru/page/
     site.ru/index.php

    Ошибка 404 (английскими, цифрами, русскими тоже должна работать)
    Ошибка 404 или Not Found («не найдено») стандартный код ответа о том, что сервер не может найти данные согласно запросу.

    Пользователи наиболее часто сталкиваются с ошибкой 404 при переходе по битым ссылкам
    Стандартная страница ошибки 404 выводится вне дизайна сайта, на ней нет навигации и обычный
    пользователь испугается и уйдет с сайта. Так мы теряем клиентов

    Поэтому создают пользовательские страницы 404.
    — в заголовке страницы обязательно пишите «ошибка 404»
    — необходимо показать пользователю, что он на нужном сайте
    — указать возможную причину ошибки
    — необходимо заверить пользователя что нужная страница будет найдена
    — дать пользователю навигацию, поиск
    — дизайн похожий с дизайном сайта
    Пример http://www.arhitek24.ru/kljlkj

    4 – Микроразметка
    Обязательно давайте задание программисту настроить микроразметку адреса компании – в футере сайта

    САЙТ ОБЯЗАТЕЛЬНО ДОЛЖЕН ПРОХОДИТЬ ТЕСТ
    https://developers.google.com/structured-data/testing-tool/?hl=ru
    Техдокументация — https://developers.google.com/structured-data/

    5- Оптимизация адресов страниц URL
    Человекопонятные урлы (ЧПУ) надо делать
    Требования к ЧПУ:
     Ключевой запрос в урле
     Не очень длинный
     Использовать разделитель между словами тире, а не нижнее подчеркивание
     Лучше не делать урлы на русском языке

    Все эти настройки выполняются на сайте ДО НАЧАЛА активного продвижения!
    Как все это настроить?
    1 – проверяем пошагово все моменты
    2 – записываем где нашли проблемы
    3 – ставим задачу программисту
    4 – еще раз проверяем в процессе приема работы программиста

    Ссылка на основную публикацию