GOMC-European-Winner-2015
google-partner
certificate-econda
 | Wiki | SEO — Поисковая оптимизация | 

Duplicate Content — дублированный контент

Как правило, дублированный контент возникает, как только под несколькими разными URL отображается одинаковый или схожий контент. Это происходит как внутри одного домена, так и на различных веб-страницах.

Дублированный контент может возникать в следующих случаях:

  • Содержание объединяется, продается или нелегально копируется.
  • Содержание веб-страницы ошибочно отображается под другим доменом или поддоменом (например, без «www»).
  • Содержание повторно используется в различных категориях (к примеру, дополнительно в новостном блоке).
  • Система управления контентом (Content Management System) не присвоила однозначных URL содержанию.
  • В онлайн-магазинах различные фильтры атрибутов создают одинаковые списки товаров.

 

При очень похожем содержании говорят о «практически дублированном контенте» (Near Duplicate Content), что также может привести к проблемам. Многократно скопированные блоки текста (например, тизер или повторяющиеся тексты) могут рассматриваться поисковыми системами как дублированный контент.

Обновление Brandy 2004 года наряду с обновлением Bourbon 2005 года улучшили способности поисковика Google распознавать дублированный контент.
Чтобы владелец интернет-страницы или SEO смогли обнаружить дублированный контент, может использоваться программа Duplicate Content Checker.

Дублированный контент, возникающий в связи с неправильной конфигурацией сервера

Основы предотвращения возникновения дублированного контента в пределах одной веб-страницы заложены в конфигурации сервера. При этом с данными проблемами можно относительно легко справиться:

ДУБЛИРОВАННЫЙ КОНТЕНТ ИЗ-ЗА ПОДДОМЕНА CATCH-ALL / WILDCARDS

Если домен одинаково отвечает на всех поддоменах, то в одной из элементарнейших единиц внутренней оптимизации сайта OnPage SEO существует ошибка. Это очень легко проверить, если сначала запросить «http://www.DOMAIN.ru», а потом «http://DOMAIN.ru» (т. е. без «www»). Если на обеих страницах отображается одно и то же содержание (а в адресной строке всё-таки заданный домен), то необходимо срочно действовать. В наихудшем случае сервер будет отвечать при всех поддоменах, т. е., к примеру, при «http://subdomain.DOMAIN.ru». Данные страницы с одинаковым содержанием также называют дублетами. С точки зрения поисковой системы это всё – разные веб-страницы, имеющие, однако, одинаковое содержание. Но что тогда делать поисковой системе? Чтобы поисковые системы не принимали подобное решение, необходимо правильно сконфигурировать сервер. На часто используемом сервере Apache, к примеру, речь идет о модуле mod-rewrite. С помощью файла .htaccess в корневом каталоге веб-страницы можно заставить реагировать ее только на корректный домен – а остальные поддомены будут автоматически переадресовывать на корректный домен:

RewriteEngine On
# ! Пожалуйста, помните о том, чтобы необходимо заменить «DOMAIN» на соответствующий домен Вашего проекта!
RewriteCond %{HTTP_HOST} !^www.DOMAIN.ru$ [NC]
RewriteRule (.*) http://www.DOMAIN.ru/$1 [R=301,L]

Предварительно следует определиться, будет ли содержать основной домен «www» или будет без этих символов? Если речь идет о международных интернет-страницах, следует поставить вопрос об обозначении страны в качестве поддомена (например, «http://ru.DOMAIN.com/»).

ДУБЛИРОВАННЫЙ КОНТЕНТ ИЗ-ЗА ОТСУТСТВУЮЩИХ ЗАВЕРШАЮЩИХ СЛЭШЕЙ

Другая широко распространенная форма дублированного контента возникает при использовании завершающих слэшей. При этом речь идет об URL, не содержащих названия файлов, а указывающих на каталоги. К примеру:
http://www.DOMAIN.ru/folder_a/folder_b/

Таким образом (стандартно) загружается индекс файлов подпапки «folder_b». В зависимости от конфигурации равным образом может ответить следующий URL:
http://www.DOMAIN.ru/folder_a/folder_b

Т. е. отсутствует последний слэш. При этом сервер сначала пытается найти файл «folder_b», однако он не существует, при этом сервер устанавливает, что существует папка с таким именем. Поскольку сервер не может вывести излишнее в этом случае сообщение об ошибке («Файл не существует»), он вместо этого отображает индексный файл данной папки. Само по себе это мелочь, но, к сожалению, из-за этого возникает дублированный контент (как только ссылка направляет на «неправильный» URL). Данную проблему можно устранить различными путями:

  • 301 Redirect посредством .htaccess
  • Canonical Tag, показывающий на корректный URL
  • Блокировка посредством robots.txt
  • Исправление всех ссылок с учетом правильного написания (сложно с входящими ссылками)

 

С точки зрения практики наилучшими методами являются 301 Redirect посредством .htaccess плюс исправление неверных ссылок. Таким способом уменьшаются ненужные затраты поисковика на сканирование, что потом благоприятным образом сказывается в другом месте веб-страницы.

Действия с дублированным контентом

К задачам Onpage (внутренней) оптимизации не только относится предотвращение возникновения дублированного контента, но и его идентификация, чтобы затем оказывать на него целенаправленное воздействие. Прежде всего, важным является то, что веб-мастер и SEO-администраторы приняли меры устранения дублированного содержания. Поскольку идентификация роботами поисковых систем происходит все быстрее, то и одинаковое содержание быстрее находится в сети. Вследствие этого опасность потери рэнкинга или даже исключения из индекса становится еще более вероятной.

Проверка наличия дублированного контента — DUPLICATE CONTENT CHECKER

Для первичного анализа предлагается использовать так называемый Duplicate Content Checker для проверки текста на плагиат. Данный инструмент сперва идентифицирует похожую или даже одинаковую информацию в сети. Прежде всего, с подобными проблемами сталкиваются онлайн-магазины, которые передают данные о своих товарах в виде CSV-файлов порталам для сравнения цен или платформам для интернет-продаж, таким как Amazon. Мэтт Каттс (Matt Cutts) уже высказался по данной проблеме.

УНИКАЛЬНОСТЬ ТЕКСТА

Первым выводом было бы создавать различные тексты для собственной домашней страницы и порталов для сравнения цен и продаж. И даже если на первый взгляд это может показаться сизифовым трудом, индивидуальный подход к созданию текстов для различных страниц оправдывает себя. С одной стороны, тем самым усиливаются позиции собственной страницы, а с другой стороны, страницы, где приводится сравнение цен, приобретают индивидуальные и, тем самым, более интересные для Google и пользователя тексты.

КРАЖА КОНТЕНТА

Если внешний дублированный контент возник в связи с «кражей контента», необходимо обратиться к соответствующему веб-мастеру с просьбой либо снабдить одинаковое содержание указанием на оригинальный источник, либо удалить его. При многочисленных случаях будет достаточно одной простой просьбы. В крайнем случае, можно даже угрожать наложением юридических взысканий.

ПЕРЕАДРЕСАЦИЯ 301

Если внешний дублированный контент возникает из-за того, что веб-мастер работает с двумя интернет-страницами с одинаковым содержанием на двух или более различных доменах, достаточно будет 301 Redirect, что бы избежать появления дублированного содержания.

КАНОНИЧЕСКИЙ ТЕГ И ROBOTS.TXT

При внутреннем дублированном контенте на собственной веб-странице на выбор представлено несколько альтернативных вариантов действия. Важным инструментом здесь является Canonical Tag. При этом на дублирующей подстранице имеется ссылка на оригинальную страницу, и дублирующая страница не учитывается при индексации. Кто хотел бы быть совсем уверенным, что подстраница с дублированным контентом вообще не будет индексирована, может пометить ее тегом «noindex». Чтобы дополнительно исключить дублированный контент из процесса сканирования, упомянутые подстраницы могут быть указаны соответствующим образом в документе robots.txt.

Избежать Duplicate Content

Чтобы избежать появления дублированного контента, предлагается точно планировать иерархию страницы. Тем самым уже заранее могут быть определены возможные источники возникновения повторяющегося содержания. При размещении товаров в онлайн-магазинах должны быть приняты все меры для простой имплементации канонических тегов. На уровне текста это значит: чем более индивидуальным будет текст, тем лучше это будет для Google и пользователя и тем лучше это поможет избежать дублированного контента.