НЕ ПРОПУСТИТЬ ИНТЕРЕСНОЕ

Свежие обсуждения

Sorry. No data so far.

Работа над ошибками — быстрый вывод сайта из-под фильтра Яндекс

Некоторое время назад из поиска Яндекс исчезли все страницы блога www.ithabits.ru кроме первой. Произошло это внезапно и, естественно, неожиданно. Узнать непосредственно в службе поддержки Яндекс причину наложения санкций не получилось, но судя по симптомам это мог быть фильтр Яндекса АГС.

Нужно было исправлять сложившуюся неприятную ситуации и выводить сайт из-под АГС фильтра. Для этого на основе анализа характеристик сайтов, наиболее часто попадающих под санкции поисковых систем, был составлен план “работы над ошибками”. Главной задачей выполнения пунктов плана было постараться максимально избежать повторения характеристик таких сайтов.

Выход из под фильтра Яндекса

План “работы над ошибками” получился в трех категориях:

  1. Оптимизация HTML (кстати, у Google в “Инструменты для веб-мастеров” есть раздел с таким названием;
  2. Оптимизация контента;
  3. Общение с поддержкой Яндекса.

Непосредственно в план вошли следующие пункты:

  • Поиск и удаление дублей страниц;
  • Проверка внутренней перелинковки;
  • Ключевые слова (Keywords) – проверка на переоптимизацию;
  • Улучшение представления контента за счет использования заголовков и выделения слов в тексте (теги h2 – h4, Strong, b), заголовков и описания статей (Title, Description).

 

Сегодня у меня нет 100-процентной уверенности, что выполнение именно этих мероприятий позволило очень быстро вывести блог из-под АГС фильтра Яндекса (меньше 4-х недель), но то, что в результате сайт стал лучше для посетителей – это точно.

Поиск и удаление дублей страниц в WordPress

Причины появления и характер дублей контента

Причин появления в индексе поисковой системы дублей страниц сайта великое множество. В первую очередь это особенности работы движка и ошибки, допущенные в настройках сайта и html-коде.

Дубли могут быть полными и неполными.

Полные дубли страниц – одна и та же страница имеет различные URL. Например, www.yoursitename.ru, yoursitename.ru, www.yoursitename.ru/, www.yoursitename.ru/index.html, www.yoursitename.ru/default.html, и т.д.

Неполные дубли страниц – страницы разные, но имеют большое количество одинакового контента.

Типичным представителем страницы, содержащей неполные дубли контента, может оказаться первая страница сайта с анонсами статей, полученными с помощью тега <!—more—>.

Другой распространенной причиной появления большого количества страниц, полностью состоящих из неполных дублей контента, является отсутствие запрета на индексирование в файле robots.txt соответствующих разделов сайта. Ярким примером могут служить страницы меток (тегов).

Если не хочется разбираться и писать robots.txt “с нуля”, то в сети можно найти массу примеров “правильного” файла robots.txt для WordPress. Можно даже особенно и не искать, а открыть содержимое этого файла в браузере набрав в строке:

http://sitename.ru/robots.txt

где sitename.ru – url любого сайта, работающего на WordPress, которому вы доверяете.

Именно так было и с www.ithabits.ru – в качестве основы для robots.txt был найден и использован подходящий образец.

В файле robots.txt присутствовала строка:

Disallow: /tag/

Это давало основание предположить, что страниц, образованные от меток индексироваться не будут. Несмотря на это через некоторое время я обнаружил и в Яндекс и в Google большое количество таких страниц.

Причина выяснилась очень быстро. Дело оказалось в том, что при настройке WordPress поле “Префикс для меток” в разделе “Параметры” –> “Настройки постоянных ссылок” было оставлено пустым. WordPress решил, что в этом случае он волен назначить префикс меток по своему усмотрению и добавил впереди два символа из настроек ЧПУУлыбка. В результате этого получилось /xxtag/, то есть совсем не то, что было прописано в robots.txt.wordpess-tag

Проблема было решена заполнением соответствующих полей и исправлением в robots.txt Disallow: /tag/ на /tags/ с последующим “ручным” удалением ненужных страниц из поиска.

Помимо меток ненужные страницы могут создавать поиск, рубрики (кто-то их закрывает, кто-то нет), страницы для печати и так далее.

Мощным источником внутренних дублей контента является атрибут ссылок TITLE (об этом отдельно чуть ниже).

Как найти дубли страниц

Для поиска дублей контента можно предложить несколько проверенных способов. Искать будем с помощью самих поисковых систем.

Для начала можно набрать в строках поиска Яндекса и Google:

site:yoursitename.ru

— yoursitename.ru – url исследуемого сайта:

Индекс сайта в Яндекс

Индекс сайта в Google

 

В результате поиска будет показано содержимое индексов поисковых систем, относящееся к соответствующему сайту. Это может помочь найти полные дубли страниц.

Если общее количество страниц в индексах поисковых систем соответствует реальному количеству записей и страниц сайта, то оснований для беспокойства нет. Если много больше, то нужно искать и закрывать источник. Соответственно, если меньше, то что-то не так с индексацией сайта, или опять же фильтр.

Для того, чтобы найти дубли страниц, можно воспользоваться расширенным поиском Яндекса. В строке поиска нужно ввести в кавычках фразу из текста проверяемой страницы, а сам поиск ограничить пределами исследуемого сайта. Количество слов фразы должно быть таким, которое сделает текст уникальным.

В примере взят фрагмент текста анонса одной из статей на первой странице данного блога:

Поиск дублей страниц сайта в Яндекс

Три страницы, содержащие одинаковые фрагменты текста, соответствуют самой статье, анонсу статьи на первой странице и анонсу на странице рубрики.

Абсолютно такой же результат может быть получен в обычном поиске, но после выбранной фразы в кавычках через пробел нужно дописать site:yoursitename.ru.

Такой поисковый запрос можно использовать и в Google.

Для справки. Запрос site:yoursitename.ru/& покажет страницы, которые участвуют в поиске.

Очень полезно периодически заглядывать в «Инструменты для веб-мастеров» Google. В разделе «Оптимизация/Оптимизация HTML» Google показывает найденные роботом ошибки в структуре сайта. Интересно, что имеющиеся ошибки могут проявится не сразу, а по мере наполнения сайта контентом. Так было в моем случае с дублированием метаописаний рубрик на страницах /page/n.

С полными дублями страниц нужно бороться всеми доступными способами к которым относятся:

  • соответствующие записи Disallow: в robots.txt;
  • редирект с одних страниц на другие (нужные) в файле .htaccess (Redirect 301);
  • использование тега rel=canonical.

Что касается неполных дублей страниц, то подход должен быть строго индивидуальным – возможно, что помимо дублей контента такие страницы содержат другую полезную информацию и закрывать их от индексации все же не стоит.

Внутренние дубли контента, генерируемые атрибутом TITLE ссылок

Практически все автоматически генерируемые элементами тем WordPress ссылки содержат атрибут TITLE. К таким элементам можно отнести некоторые функции WordPress, виджеты и плагины.

Если посмотреть содержимое атрибута TITLE таких ссылок, то становится очевидно, что оно просто копирует анкоры. Иными словами, каждая такая ссылка содержит повторяемый два раза текст.

Скорее всего большого криминала в этом нет, хотя ценность такого содержимого атрибута TITLE ссылок весьма сомнительна. Ну разве что всплывающий при наведении на ссылку текст дополнительно указывает на выделение.

Намного интереснее все со ссылками, которые генерирует виджет WordPress “Рубрики”.

Если рубрика не содержит описания, то перед ее названием в TITLE будет добавлен текст “Просмотреть все записи в рубрике…”.

Title-Rubriki

В настройках виджета этот текст никак не настраивается и убрать его тоже нельзя.

А вот если рубрики имеют развернутые описания, как, например, на www.ithabits.ru, то все становится совсем плохо.

Title-Rubriki-Description

В совокупности объема текста в описаниях рубрик хватит на хорошую статью. И вот текст этой “статьи” без какого-либо изменения оказывается продублирован абсолютно на всех страницах блогаУдивленная рожица.

Избавиться от этой напасти можно следующим образом.

Для начала нужно отказаться от использования в сайдбаре виджета “Рубрики”. Вместо него размещаем в соответствующем месте файла sidebar.php (или другом подобном файле вашей темы WordPress) вызов функции wp_list_categories с необходимыми параметрами.

Самым главным в данном случае будет параметр use_desc_for_title – по умолчанию он установлен в “1”, что и приводит к выводу описания рубрик в TITLE.

<?php
wp_list_categories(«orderby=name&order=asc&use_desc_for_title=0»);
?>

Описания рубрик исчезнут, но вместо них в TITLE опять появится “Посмотреть все записи…”. Если это не устраивает, то можно пойти дальше и поступить так, как было предложено в этой статье.

<?php
$categoriesVar = wp_list_categories(«orderby=name&order=asc&use_desc_for_title=0&echo=0»);
$categoriesVar = str_replace( «Посмотреть все записи в рубрике » , ‘ ‘ , $categoriesVar );
echo $categoriesVar;
?>

Параметр echo=0 предотвращает вывод результата выполнения функции и дает возможность обработать его дополнительно, а именно, убрать ненужный текст.

Можно пойти еще дальше и совсем убрать TITLE из ссылок на страницы рубрик (что и было сделано).

<?php
$categoriesVar = wp_list_categories(«orderby=name&order=asc&use_desc_for_title=0&echo=0»);
$categoriesVar = preg_replace( ‘/title=\»(.*?)\»/’ , ‘ ‘ , $categoriesVar );
echo $categoriesVar;
?>

В конечном счете все виджеты в сайдбаре блога были заменены на соответствующий php-код, который генерирует ссылки без атрибута TITLE.

Оптимизация контента

Надо сказать, что описанная выше оптимизация html-кода темы блога потребовала не так много усилий. Основное время ушло как раз на работу с текстами.

Внутренние дубли контента в анонсах к публикациям

Опять же с целью минимизации внутренних дублей контента было принято решение по возможности отказаться от использования <!—more—> для анонсов статей. В этой связи практически ко всем публикациям анонсы (цитаты) были написаны или переработаны так, чтобы они, во-первых, давали читателю максимальное представление о содержании статьи, во-вторых, не повторяли слово в слово фрагменты основного текста.

Проверка внутренней перелинковки

В этом пункте работ использовались два простых правила:

  1. В тексте статьи не должно быть более одной ссылки на один и тот же источник;
  2. Используемые в текстах ссылки должны быть максимально релевантными теме статьи.

Следующие два пункта относятся к категории оптимизации HTML:

  • Главным образом с целью повышения удобства читателей, на основе плагина “Wordpress Popular Posts” в сайдбаре был сделан блок “Популярное”;
  • С первой страницы сайта был удален блок «Свежие записи» который, по сути дела, просто дублировал основные ссылки на статьи.

Проверка ключевых слов и выражений

Для работы с ключевыми словами использовались традиционные SEO инструменты: Статистика ключевых слов Яндекс и Подбор ключевых слов в Google. Кроме этого есть программа Site-Auditor от Ашманова, которая предназначена для решения тех же задач.

Для анализа страниц сайта на тошноту и плотность ключевых слов использовался в основном такой онлайновый ресурс.

А вот задача, которая решалась в результате подбора и анализа ключевых слов была, мягко говоря, противоположной традиционным установкам SEO. А именно, как можно меньше совпадений ключевых фраз Яндекса в текстах и заголовках.

Кто его знает, что Яндексу могло не понравиться на самом деле.

Улучшение представления контента

Работа по оптимизации представления контента сайта явилась наиболее трудоемкой и, как представляется, самой ценной.

Большинство публикации, благо их было не так много, подверглись серьезной переработке. Помимо рерайтинга отдельных фрагментов текстов они были структурированы за счет новых заголовков h2h3.

Выделение отдельных слов и фраз тегами Strong было сведено к абсолютному минимуму (первоначально в некоторых статьях в этом смысле наблюдался явный перебор).

Ко всем статьям были сделаны заголовки (Title) и описания (Description) максимально отвечающие главной теме статьи.

Например, одна из статей блога называется “Перенос Windows 7 на твердотельный диск небольшого объема. Часть 1. Подготовка”. Если посмотреть ее содержание, то станет ясно, что никакого переноса в первой части еще нет, зато есть расчет места, занимаемого Windows 7 на диске. Соответственно в Title было написано “Как уменьшить место, занимаемое Windows 7 на диске”.

Одним словом – релевантность, еще раз релевантность и забота о читателе, который пришел на блог.

Общение со службой поддержки Яндекс

После того, как весь описанный комплекс мероприятий был выполнен, я вновь обратился в службу поддержки Яндекс с просьбой еще раз проверить сайт www.ithabits.ru на соответствие рекомендациям. Через несколько дней страницы блога вновь появились в поиске. А еще через день из Яндекс пришло письмо следующего содержания:

Здравствуйте, Александр!

Сейчас с Вашим сайтом все в порядке, в ближайшее время он должен начать индексироваться и затем отсутствующие страницы смогут появиться в поиске. Скорее всего, это произойдет в течение двух недель.


С уважением, Платон Щукин
Служба поддержки Яндекса
http://help.yandex.ru/

Комментарии: 5. Присоединяйтесь к обсуждению!

  1. Спасибо, долго искал как убрать описание в рубриках, будем пробывать.

  2. Благодарю за информацию!

  3. Присоединяюсь к комментам юзеров. Уже не раз приходилось выводить сайт и фильтра Яндекс, и постоянно успешно!))

  4. Спасибо, информация, конечно, полезная. Жаль только, что ответ от ТП Яндекса обычно содержит максимум воды и минимум конкретики. Будем пробовать.

    • Яндекс организация недружественная. Могу сказать, что техподдержка у них отсутствует как класс. Пресловутый Платон Щукин это на 99% почтовый робот, рассылающий всем одни и те же отписки типа «Пилите, Шура, пилите. Они золотые».
      К сожалению, после выхода из под фильтра летом прошлого года, в декабре ithabits.ru постигла новая незадача — вдруг скачком катастрофически упал трафик посетителей из Яндекс. При этом с Гугл все осталось без изменений. То есть все статьи в индексе есть, а трафик никакой. И вот тут переписка с техподдержкой не принесла никаких результатов кроме недоумения и огорчения. Чего я только не делал? Предлагал свои версии произошедшего с просьбой подтвердить или опровергнуть. Показывал бредовость поисковой выдачи Яндекс по тематическим запросам тематики блога. Например, можно сравнить выдачи по запросу «winsxs» в Yandex и Google и все станет понятно без слов. В конце концов мне ответил, вроде как, не робот и откровенно сказал — ничего мы вам не скажем, не приставайте, что хотим, то и творим. Ну собственно, на этом все и закончилось.
      Яндекс хорош с теми, кто платит им деньги. А на всех остальных ему просто наплевать. Ярчайший пример нашей нынешней действительности. Можно сказать — какова страна, такой у нее и поисковик.

Написать комментарий

Subscribe without commenting