Поиск, 02 лекция (от 20 октября)

Материал из eSyr's wiki.

(Различия между версиями)
Перейти к: навигация, поиск

Vissi (Обсуждение | вклад)
(Новая: К второй задаче из домашнего задания мало кто приступал, но в комментарии к соответствующему посту в ...)
К следующему изменению →

Версия 17:40, 20 октября 2010

К второй задаче из домашнего задания мало кто приступал, но в комментарии к соответствующему посту в ЖЖ был правильный ответ. Задание было [1]

Содержание

Сбор документов и подготовка к индексированию

В академии наук изучается паук
Академики гурьбой бьются в стенку головой
Не успокоимся пока не изучим паука!
/ Владлен Гаврильчик /

На сбор данных можно смотреть как со стороны поисковой системы, так и со стороны администратора сайта. Со стороны ПС это называется робот или «паук». Сперва владельцы сайтов стеснялись предоставлять контент роботу, теперь же, наоборот, стараются сделать страницы более привлекательными для ПС.

Клиентская сторона

В файл /robots.txt можно записать подсказки для ПС. Стандарт: [2]. С # начинается комментарий. User-Agent: * — инструкции для всех ПС. Директива Disallow: / — запретить всё. Disallow: /abc* — именно путь со *, а не любые пути, начинающиеся с abc. Запрещаются любые пути с соответствующим началом, например, /abc*a. На одной строчке — один путь. Пустая строка — новый поток инструкций. Директива Allow идёт перед директивами Disallow.

В тегах <meta> можно задавать метаинформацию о странице. Для роботов атрибуты тега: name="robots" content="NOINDEX" — не индексировать. Бывают также значения INDEX (по умолчанию, индесировать), NOFOLLOW — не надо переходить по ссылкам, FOLLOW — переходить по ссылкам (по умолчанию). Также бывают значения ALL и NONE. Крупные ПС обрабатывают также name="google" content="nocache" — не помещать в кэш. Исторически использовались теги с name="description", name="keywords". Чёрные оптимизаторы, к сожалению, зафлудили данные тэги, поэтому, google, например, их не использует. Нестандартным также является тег <noindex>этот текст не проиндексируется</noindex>, используется яндексом, поддерживается также рамблером. Также в теге <a href="…" rel="nofollow"></a> — не индексировать содержимое по данной ссылке. При индексации (для борьбы со спамерами) не учитывается вес ссылок с форумов и википедии.

Для «положительной» рекомендации по индексации (как индексировать сайт) можно указать директиву Sitemap в robots.txt. Сайтмап — это xml. Далее идёт <urlset xmlns="…"><url>…</url>… </urlset>. Размер Sitemap — не более 10МБ. Также имеется тэг loc, в нём можно указать дату последнего изменения и другую информацию (приоритет, частота изменения).

Серверная сторона

Структура веба по Бродеру: Исток <-> Компоненты сильной связности <-> Сток. Источник: [3].

Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, низка. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов.

Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резлолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая.

Выделение ссылок

Ссылки бывают абсолютные и относительные.

Книга по теме спецкурса: Маннинг «Введение в ИП».


Введение в информационный поиск


01 02 03 04 05 06 07 08 09


Календарь

Октябрь
13 20 27
Ноябрь
17 24
Декабрь
01 08 15 22


Эта статья является конспектом лекции.
Личные инструменты
Разделы