Поисковые машины

 Известно, что пользователи, попадающие на сайт из поисковых машин, дают до сорока процентов трафика. Поэтому позаботиться о правильном индексировании Вашего сайта в поисковых машинах весьма полезно. Под «правильным индексированием» я имею в виду, что должна быть соблюдена релевантность запроса и содержания сайта, т.е., говоря простым и доступным языком, содержание сайта должно соответствовать запросу (некоторые «мастера» злоупотребляют наборами не отвечающих реальности ключевых слов. Например, когда моя сестра готовила к выпуску компакт-диск с локальными копиями первых уровней Web-страниц, слово «х#й» и иже с ним встречалось на серверах весьма солидных компаний, ничего общего не имеющих с подобного рода лексикой:-).

Каков рейтинг поисковых машин на практике, какими машинами пользуются больше, какими — меньше?

На первом месте с колоссальным отрывом от остальных идет Google. Эта поисковая машина лидировала еще до того как там появился поиск по различным языкам (в том числе — по русскоязычным документам).  Следует также учесть, что русскоязычные пользователи находятся не только в России, но и в Болгарии, Чехии и Словакии, в Польше, Израиле, Германии, не говоря уже о бывших республиках СССР — Украина, Белоруссия … (Особо хочу сказать о прибалтах: это они при встрече на улицах какого-нибудь Каунаса или Таллинна не знают русского языка, а перед монитором, особенно если очень нужно, очень даже знают:-))

Следующая по популярности поисковая машина, как ни странно, самая молодая в России — Яndex. 

Рамблер — третья серьезная поисковая машина для русскоязычных пользователей.

Ну и на последнем месте по моему рейтингу идут Апорт-Поиск.

А зачем же поисковые машины для раскрутки сайта?

Все очень просто, как я уже говорил, поисковые машины могут дать до сорока процентов трафика к сайту. А чтобы это происходило, необходимо, чтобы Ваш сайт был правильно проиндексирован, а для этого необходимо знать, как это делается.

А делается это следующим образом: либо робот поисковой машины сам добирается до вашего сайта, либо Вы сами указываете сайт в соответствующем интерфейсе (AddUrl), который наличествует в любой уважающей себя поисковой машине. Первый вариант страдает затянутостью (пока еще робот доберется, может через день, может через год: Internet-то большой). Второй — требует затратить некоторое время (разнообразный софт для автоматической регистрации Вашего сайта в туче поисковых машин нам ничего не дает — машины-то импортные).

Чтобы все произошло в лучшем виде требуется:

  • на сайте должет быть хоть какой-нибудь текст. Картинки и тест на них поисковые машины игнорируют. Правда, можно продублировать текст в атрибуте alt тага img
  • В каждом документе сайта ОБЯЗАТЕЛЬНО должны присутствовать осмысленный заголовок (title), ключевые слова (keywords) и краткое описание (description). Это только пишут, что поисковые машины — полнотекстовые, на самом деле это не так.
  • Изготовление файла robots.txt (особенно, если у вас есть собственный сервер типа www.name.ru).
  • Прописка вручную в каждой интересующей Вас поисковой машине и последующий контроль индексирования Вашего сайта.

Итак, Вы уже зарегистрировали первую страницу своего сайта в различных поисковых машинах.

Вы думаете уже все в подрядке? Как бы не так. Если ссылка на Ваш сайт в ответе поисковой машины выводится на втором экране -«это так же плохо, как если бы ссылки вообще не было».  Иначе говоря, просто указать страницу в AddURL недостаточно. Необходимо заранее подготовить документ так, чтобы на соответствующие запросы к поисковой машине в ее ответе на запрос ссылка на Ваш документ находилась если не первой, то хотя бы в первой десятке ссылок (а лучше, если в этой десятке было несколько ссылок на Вашы документы:-). Что значит «подготовить»? Это чисто технический вопрос, ничего сверхестественного. Просто в секции HEAD каждого документа Вашего сайта стоит указать «говорящий» Title, KeyWords, Description и Robots.

Title: заголовок документа. Хороший осмысленный заголовок может заставить пользователя из множества других выбрать именно Вашу ссылку. Зачастую видишь примерно следующие заголовки: «Содержание» — чего, зачем — непонятно, не возникает желания проверять. Другой случай: на всех страницах сайта в качестве заголовка — «Добро пожаловать в компанию …» — тоже не слишком привлекательно проверять все таким образом озаглавленные документы. Представьте себе, что выбран режим поиска по заголовкам, без описания каждого документа.

KeyWords: ключевые слова. Именно содержимое этого контейнера влияет на релевантность документа запросу поиска.

<meta name=keywords content="разделенный запятыми список ключевых слов и устойчивых словосочетаний">

Сколько ни говорят, что поисковые машины — полнотекстовые, это не совсем верно, а вот содержимое этого контейнера точно попадет в индекс поисковой машины. К сожалению, создатели одной из крупнейших отечественных поисковых машин Rambler, не хотят отрабатывать этот контейнер. А зря.

  • в поле content не должно быть знаков конца строки, кавычек и других специальных символов, регистр символов роли не играет
  • не рекомендуется повторять одни и те же ключевые слова по нескольку раз, это может быть воспринято как spam и страница рискует быть удаленной из индекса поисковой машины.
  • не стоит делать одинаковые keywords для разных страниц Вашего сайта. Это, конечно проще, но содержимое самих документов различное. Если очень хочется автоматизировать этот процесс, можно написать программку, которая прописывала бы в это поле все выделенные блоки документа, например, то что стоит между тагами H, I и B.
  • если строка в content слишком длинная, не возбраняется сделать еще несколько аналогичных конструкций.
  • вообще говоря, общий объем ключевых слов одного документа может достигать до 50% объема этого документа.

Description: краткое описание документа. Довольно полезный контейер, его содержимое используется как краткое описание релевантных документов в ответе современных поисковых машин. Если этого контейнера нет, то выдаются некоторое количество строк с начала документа. Соответственно, не редкая катина, когда в самом начале документа расположен JavaScript, и вместо нормального описания выдается абракадабра в виде куска скрипта.

<meta name=description content="краткая аннотация документа">

  • в поле content не должно быть знаков конца строки, кавычек и других специальных символов.
  • желательно, чтобы здесь была осмысленная аннотация документа из пары-тройки человеческих предложений, чтобы пользователь поисковой машины помимо заголовка смог понять смысл документа.
  • к сожалению, отечественные поисковые машины пока не умеют работать с этим контейнером, хотя божатся, что в скором времени научатся.

Можно ли управлять действиями поисковых машин?

Можно, и даже нужно! Первое действие, которое для этого нужно совершить, это написать файл robots.txt и положить его в корень Вашего сервера. Этот файл популярно объясняет роботу поисковой машины что надо индексировать, а что не стоит. Например, зачем индексировать служебные файлы, типа статистических отчетов? Или результаты работы скриптов? Более того, многие «умные» машины просто не станут индексировать сервера, не найдя robots.txt. Кстати, в этом файле можно указать разные маски индексирования для разных поисковых машин.

Второе действие: снабдить страницы сайта МЕТА-тагами Robots. Это более гибкое средство управления индексацией, чем robots.txt. В частности, в этом таге можно предписать роботу поисковой машины не уходить по ссылкам на чужие сервера, например, в документах со списками ссылок. Формат этого безобразия таков:

<META NAME="ROBOTS" CONTENT="robot_terms">

robot_terms — это разделенный запятыми список следующих ключевых слов (заглавные или строчные символы роли не играют): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW.

NONE
говорит всем роботам игнорировать эту страницу при индексации (эквивалентно одновременному использованию ключевых слов NOINDEX, NOFOLLOW).
ALL
разрешает индексировать эту страницу и все ссылки из нее (эквивалентно одновременному использованию ключевых слов INDEX, FOLLOW).
INDEX
разрешает индексировать эту страницу
NOINDEX
неразрешает индексировать эту страницу
FOLLOW
разрешает индексировать все ссылки из этой страницы
NOFOLLOW
неразрешает индексировать ссылки из этой страницы

Если этот мета-таг пропущен или не указаны robot_terms, то по умолчанию поисковый робот поступает как если бы были указаны robot_terms=INDEX, FOLLOW (т.е. ALL). Если в CONTENT обнаружено ключевое слово ALL, то робот поступает соответственно, игнорируя возможно указанные другие ключевые слова.. Если в CONTENT имеются противоположные по смыслу ключевые слова, например, FOLLOW, NOFOLLOW, то робот поступает по своему усмотрению (в этом случае FOLLOW).

Если robot_terms содержит только NOINDEX, то ссылки с этой страницы не индексируются. Если robot_terms содержит только NOFOLLOW, то страница индексируется, а ссылки, соответственно, игнорируются.

Контроль за текущим состоянием Ваших документов в индексе поисковых машин.

Ну хорошо, Вы прочитали все, что было выше и так и сделали. Что же дальше? А дальше будет долгая, нудная и, главное, регулярная проверка на предмет того, как обстоят дела. Как ни печально, а придется уделять этому внимание хотя бы потому, что документы временами пропадают из поисковых машин. Почему? Знать бы… Итак, в хороших поисковых машинах можно посмотреть какие документы и сколько их в текущее время находится в индексе.  

Добавить комментарий

Вам надо войти, чтобы написать комментарий.