zhChinese    enEnglish
  ПМ-ПУ  » Образование  » Программы курсов » Информационные системы и базы данных

Информационные системы и базы данных

Курс по выбору

Лектор: доцент Добрынин В.Ю.

1. Введение в проблематику информационного поиска

1.1. Электронные документы

1.1.1. Основные форматы электронных документов: HTML, XML, PostScript, PDF;
1.1.2. Индексирование документа, выделение основы слова.
1.1.3. Учет общеупотребительных слов.
1.1.4. Статические и динамические документы.

1.2. Электронные коллекции

1.2.1. Индексирование коллекции.
1.2.2. Построение описания коллекции.
1.2.3. Информационный агент для поиска и пополнения коллекции новыми документами.

1.3. Информационные потребности пользователя

1.3.1. Типы языков запросов
1.3.2. Расширение запроса пользователя.
1.3.3. Обратная связь по релевантности.
1.3.4. Локальный контекстный анализ.
1.3.5. Персональные агент.
1.3.6. Кластеризация и визуализация результатов поиска.

1.4. Архитектура системы поиска

1.4.1. Централизованная и децентрализованная архитектура.
1.4.2. Основные компоненты: индекс, брокер запросов, интерфейс пользователя.
1.4.3. Информационный агент, репозитарий описаний коллекций.
1.4.4. Критерии оценки качества поиска.
1.4.5. Полнота, точность, кривая полнота-точность, R-точность.

1.5. Тестирование систем поиска

1.5.1. Тестовые коллекции, TREC - Text Retrieval Conference;
1.5.2. Подготовка запросов.
1.5.3. Методы оценки релевантности; виды тестирования.

2. Основные модели информационного поиска

2.1. Булевская модель.

2.1.1. Булевский запрос;
2.1.2. Инвертированный файл.

2.2. Модель векторного пространства.

2.2.1. Профайл документа.
2.2.2. Формула Солтана для весов термов.
2.2.3. Оценка близости документа и запроса.

2.3. Вероятностная модель.

2.3.1. Характеристический вектор документа и решающее правило для оценки его релевантности запросу;
2.3.2. Вес терма;
2.3.3. Учет обратной связи по релевантности;
2.3.4. Пример использования вероятностной модели в системе Open Muscat.

2.4. Латентное семантическое индексирование.

2.4.1. Латентные факторы.
2.4.2. Сингулярная декомпозиция матрицы связи термов и документов.
2.4.3. Оптимальная малоранговая аппроксимация.
2.4.4. Образы термов и документов.

2.5. Вероятностное латентное семантическое индексирование.

2.5.1. Функция максимального правдоподобия.
2.5.2. Метод оценивания-максимизации.
2.5.3. Примеры использования данного метода: построение описания коллекции, фильтрация документов, кластеризация документов.

3. Технология поиска

3.1. Методы индексирования.

3.1.1. Анализ полнотекстового индексирования, реализованного в системе Open Muscat

3.2. Кластеризация

3.2.1. Иерархическая и неиерархическая кластеризация.
3.2.2. Методы иерархической кластеризации

3.3. Расширение запроса пользователя.

3.3.1. Применение обратной связи по релевантности для расширения запроса.

3.4. Представление результатов поиска.

3.4.1. Интеллектуальный интерфейс пользователя.
3.4.2. Кластеризация и ранжирование результатов

3.5. Маршрутизация запросов пользователя в распределенных поисковых системах

3.6. Информационные агенты.

3.6.1. Пример агента для автоматического пополнения тематической коллекции новыми релевантными документами

4. Программа практических занятий

Во время практических занятий каждый студент получает задание, связанное с реализацией одной из компонент поисковой системы. Особо поощряются разработки, в которых реализуется новый, оригинальный алгоритм, расширяется функциональность традиционных компонент, предлагаются новые архитектурные решения. Язык программирования: С, С++ или Perl.

Список рекомендуемой литературы

  1. OASIS: Система распределенного поиска в Интернет /Под ред. А. Пателя, Л.А. Петросяна, В. Розенштиля. СПб., 1999.
  2. Baeza-Yates R., Ribeiro-Neto B.. Modern Information Retrieval. New York: ACM Press, 1999.
  3. Труды конференций ACM SIGIR Conf. On Research and Development in Information Retrieval (www.acm.org/sigir)
  4. Труды конференций WWW (www9.org)
  5. Труды конференций TREC (Text Retrieval Conference) (trec.nist.gov)
  6. Электронная библиотека научной литературы в области компьютерных наук (citeseer.nj.nec.com/cs)