Белорусская цифровая библиотека





Сегодня в номере

Новости
  • altWebDeveloper #4
  • ASP.NET Developer Kits
  • Google остается лидером поиска в интернете
  • Microsoft открыла Hotmail для легального спама
  • Стартовал восьмой Российский интернет-форум
  • Новый российский сервис для пересылки файлов без электронной почты
  • Немецкая программа для обхода блокираторов рекламы
  • Конкурс для разработчиков .NET!
  • Новости .NET
  • "Десерт": Microsoft запатентовала яблоки
    Microsoft .NET
  • Доступ к файлам
  • Использование «ASP:XML runat=server> внутри страницы ASP.NET
  • Как сохранить позицию скроллинга странице после PostBack
  • Использование Microsoft Visual Studio .NET
  • Как создать решение с компонентами, написанными на разных языках
  • Вопросы и ответы конкурса разработчиков .NET
  • Visual Studio для "бедных"
  • ASP .NET Web Matrix
  • C# - инструмент разработки SharpDevelop
    Web-promoting
  • Стратегии позиционирования сайта в поисковых системах
  • Глоссарий терминов по поисковым системам
  • Что такое Robots.txt?
  • Трафик от ссылающихся сайтов
  • Анализ спроса и повышение видимости в поисковых машинах
  • Богатые и бедные проектовладельцы
  • Поисковые системы в интернете
  • Как выбрать поисковую машину
  • Как сделать веб-сайт эффективным
    .NET on-line
  • Англоязычные сайты
  • Русскоязычные сайты
  • Обмен ссылками
    Для души
  • Брюс Стерлинг
    Наш нейронный Чернобыль


    Рассылка журнала

    Рассылки@Mail.ru
    Новости altWebDeveloper

    © 2004 CAS "altDesign"
    Все права защищены

  • ..: altWebDeveloper - сетевой журнал для вебмастеров
    и разработчиков Microsoft .NET :..

    ..: Как выбрать поисковую машину :..



    Источник: Yandex.Ru

    При поиске в интернете важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом - релевантность, то есть соответствие ответа вопросу.

    1. Охват и глубина

    Под охватом имеется в виду объем базы поисковой машины: который измеряется тремя показателями - общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

    Как проверить:
    Некоторые машины пишут на своем сайте статистику робота. Но можно проверить и самому - надо задать несколько поисковых запросов, состоящих из одного слова (чтобы исключить влияние языка запросов, в том числе - различного трактования пробела), и при этом смотреть на статистику результатов, выдаваемую машиной - обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных "весов" - редкие, "средние" и "тяжелые" (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.
    Глубину хождения робота проверить сложнее - для этого надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на которые можно попасть только, например, за 6 переходов по ссылкам.

    2. Скорость обхода и актуальность ссылок

    Скорость обхода Сети показывает, насколько быстро происходит индексация свеже-добавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой машины (ее робота) является не только "захват" новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.

    Как проверить:
    Объективную информацию можно получить, проанализировав логи серверов - робот поисковой машины представляется обычно именем своей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только своего сайта, поэтому остается экспериментальный способ.

    Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковики и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Для определения актуальности ссылок - проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение "Not Found" свидетельствует о том, что документ более не существует.

    3. Качество поиска (субъективный показатель)

    Каждая поисковая машина имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

    Как проверить:
    Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при этом те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса ("расширенный поиск" в Апорте и Яндексе, "детальный запрос" в Рэмблере - варианты перевода на русский язык "advanced search").


    Кроме релевантности, существуют важные пользовательские характеристики.

    1. Скорость поиска

    Если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.

    Как проверить:
    Путем эксперимента - надо поискать запросы разной длины, разной <тяжести> слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик - около трех-четырех часов дня).

    2. Поисковые возможности

    (работа с языком документа, язык запросов)

    Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.).
    Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некоторые умеют искать словосочетания или слова на заданном расстоянии - это часто важно для получения разумного результата. Дополнительной возможностью является поиск в зонах документа - заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, который не требует знания операторов.

    Как проверить:
    Обычно эта информация публикуется на сервере поисковой машины (в Help'е). Тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

    3. Дополнительные удобства

    Это дополнительные возможности, которые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.

    Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с этими возможностями.


    Понятно, что предложенная исследовательская программа займет некоторое время. Кроме этого, поисковые машины, как и весь Интернет, не стоят на месте. Но "искалка" - одно из средств вашей работы, поэтому стоит уделить ее выбору некоторое внимание - по крайней мере, не меньшее, чем организации своего рабочего места.

    На Yandex.Ru был проведен опрос: зачем нужен Интернет и чего в нем не хватает (http://www.yandex.ru/polling/9.html). Интернет используют (в порядке убывания) как справочник (23.76%), инструмент исследования (15.45%), развлечение (14.15%), и только на четвертом месте - источник новостей (12.32%). Оптимистично прозвучало, что 10% пользователей всегда, а 73% часто удается найти нужную информацию. А не хватает в Интернете информации, хорошего поиска и порядка (в том числе: упорядоченности, структуры, структурности, структурированности, структуризации, а также системы, систематизации, системности, систематичности и систематизированности).

    Желаем успеха в поиске!


    При перепечатке любого материала с журнала или с сайта, видимая ссылка на источник http://altwebdeveloper.nm.ru и все имена, ссылки авторов обязательны.

    © 2004 CAS "altDesign"
    © Валерий В. Макеев (deepInfinity)



    @ library.by