Поиск, 02 лекция (от 20 октября)

Материал из eSyr's wiki.

(Различия между версиями)

Текущая версия

К второй задаче из домашнего задания мало кто приступал, но в комментарии к соответствующему посту в ЖЖ был правильный ответ. Задание было [1]

Содержание

1 Сбор документов и подготовка к индексированию

[править] Сбор документов и подготовка к индексированию

В Академии Наук
Изучается Паук.
Академики гурьбой
Лупят стенку головой.
<...>
И не смиримся, пока
Не решим про Паука.

/Владлен Гаврильчик, 1975/

На сбор данных можно смотреть как со стороны поисковой системы, так и со стороны администратора сайта. Со стороны ПС это называется робот или «паук». Сперва владельцы сайтов стеснялись предоставлять контент роботу, теперь же, наоборот, стараются сделать страницы более привлекательными для ПС.

[править] Клиентская сторона

В файл /robots.txt можно записать подсказки для ПС. Стандарт: [2]. С # начинается комментарий. User-Agent: * — инструкции для всех ПС. Директива Disallow: / — запретить всё. Disallow: /abc* — именно путь со *, а не любые пути, начинающиеся с abc. Запрещаются любые пути с соответствующим началом, например, /abc*a. На одной строчке — один путь. Пустая строка — новый поток инструкций. Директива Allow идёт перед директивами Disallow.

В тегах <meta> можно задавать метаинформацию о странице. Для роботов атрибуты тега: name="robots" content="NOINDEX" — не индексировать. Бывают также значения INDEX (по умолчанию, индесировать), NOFOLLOW — не надо переходить по ссылкам, FOLLOW — переходить по ссылкам (по умолчанию). Также бывают значения ALL и NONE. Крупные ПС обрабатывают также name="google" content="nocache" — не помещать в кэш. Исторически использовались теги с name="description", name="keywords". Чёрные оптимизаторы, к сожалению, зафлудили данные тэги, поэтому, google, например, их не использует. Нестандартным также является тег <noindex>этот текст не проиндексируется</noindex>, используется яндексом, поддерживается также рамблером. Также в теге <a href="…" rel="nofollow"></a> — не индексировать содержимое по данной ссылке. При индексации (для борьбы со спамерами) не учитывается вес ссылок с форумов и википедии.

Для «положительной» рекомендации по индексации (как индексировать сайт) можно указать директиву Sitemap в robots.txt. Сайтмап — это xml. Далее идёт <urlset xmlns="…"><url>…</url>… </urlset>. Размер Sitemap — не более 10МБ. Также имеется тэг loc, в нём можно указать дату последнего изменения и другую информацию (приоритет, частота изменения).

[править] Серверная сторона

Структура веба по Бродеру: Исток <-> Компоненты сильной связности <-> Сток. Источник: [3].

Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, высока. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов.

Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая.

[править] Выделение ссылок

Ссылки бывают абсолютные и относительные.

Книга по теме спецкурса: Маннинг «Введение в ИП».

Введение в информационный поиск

01 02 03 04 05 06 07 08 09

Календарь

Октябрь	13	20	27
Ноябрь	17	24
Декабрь	01	08	15	22

Эта статья является конспектом лекции.

Получено с http://esyr.org/wiki/%D0%9F%D0%BE%D0%B8%D1%81%D0%BA%2C_02_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D1%8F_%28%D0%BE%D1%82_20_%D0%BE%D0%BA%D1%82%D1%8F%D0%B1%D1%80%D1%8F%29

Категории: Поиск | Лекции

@@ Строка 4: / Строка 4: @@
 ==Сбор документов и подготовка к индексированию==
-''В академии наук изучается паук''<br />
+''В Академии Наук''<br />
-''Академики гурьбой бьются в стенку головой''<br />
+''Изучается Паук.''<br />
-''Не успокоимся пока не изучим паука!''<br />
+''Академики гурьбой''<br />
-/ Владлен Гаврильчик /
+''Лупят стенку головой.''<br />
+''<...>''<br />
+''И не смиримся, пока''<br />
+''Не решим про Паука.''<br />
+/Владлен Гаврильчик, 1975/
 На сбор данных можно смотреть как со стороны поисковой системы, так и со стороны администратора сайта. Со стороны ПС это называется робот или «паук». Сперва владельцы сайтов стеснялись предоставлять контент роботу, теперь же, наоборот, стараются сделать страницы более привлекательными для ПС.
@@ Строка 23: / Строка 28: @@
 Структура веба по Бродеру: Исток <-> Компоненты сильной связности <-> Сток. Источник: [http://www9.org/w9cdrom/160/160.html].
-Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, низка. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов.
+Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, высока. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов.
-Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резлолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая.
+Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая.
 ===Выделение ссылок===

Поиск, 02 лекция (от 20 октября)

Материал из eSyr's wiki.

Текущая версия

Содержание

[править] Сбор документов и подготовка к индексированию

[править] Клиентская сторона

[править] Серверная сторона

[править] Выделение ссылок

Просмотры

Личные инструменты

Навигация

инструменты

Разделы

Спецкурсы

9 семестр

7 семестр

5 семестр

3 семестр

Поиск

Инструменты