zhChinese    enEnglish
  ПМ-ПУ  » Структура » Преподаватели » Добрынин В. Ю. » Проект SOPHIA

Проект SOPHIA — SOPHisticated Information Analysis

Исполнители

Данный проект является совместным проектом факультета прикладной математики - процессов управления Санкт-Петербургского государственного университета и университета Ольстера (University of Ulster, Northern Ireland, UK). Со стороны факультета прикладной математики в работе принимают участие доцент Владимир Добрынин и студентка 5 курса Наталия Осипова (кафедра технологии программирования), со стороны университета Ольстера — Северо-Ирландская лаборатория инженерии знаний (NIKEL), директор David Patterson и его сотрудники.

Цель проекта

Разработка нового алгоритма кластеризации документов. Разработка на этой основе системы поиска информации в специализированных коллекциях документов с учетом уровня знаний и информационных потребностей пользователей.

Результаты

Работа по проекту началась в апреле 2003 года. К настоящему времени:

  1. Сделан доклад на Европейской конференции по информационному поиску ECIR'04: Dobrynin V., Patterson D, Rooney N., Contextual Document Clustering, Lecture Notes in Computer Science № 2997, Advances in Information Retrieval, 2004 year, p.167-180;
  2. Принята к опубликованию статья в IEEE : V.Dobrynin, D. Patterson, M. Galushka, N. Rooney. Retrieval System for the OHSUMED collection.
  3. Проведено тестирование системы на исследовательских коллекциях документов : Reuters-21578 (21,578 документов), 20Newsgroups (20,000 документов), OHSUMED (350,000 документов), новая коллекция Reuters (800,000 документов).
  4. Н. Осипова провела тестирование системы на реальной коллекции законодательных актов (65,000 документов) в рамках Российской программы тестирования поисковых систем РОМИП. Анализ результатов тестирования алгоритма SOPHIA при решении задачи классификации коллекции правовых документов

Особенности разрабатываемой системы

Наша система ориентирована на поиск информации в тех случаях, когда имеется доступ ко всей коллекции документов, среди которых будет проводиться поиск. Это могут быть все документы, доступные в локадьной сети некоторой компании, документы, опубликованные на сайте компании, результаты поиска в Web посредством поисковой системы типа Google, специализированная коллекция документов (законы, патенты, медицинские статьи и т.п.)

В данный момент система выполняет индексирование данных и поиск без ориентации на конкретного поиска. Вопросы персонализации будут разрабатываться позже.

Особенность алгоритма индексирования состоит в том, что составной частью индексирования является не только построение стандартных инвертированных файлов, но и кластеризация всех документов в большое число (1000+) тематически однородных кластеров. Задача кластеризации документов известна своей сложность. На ее проведение обычно затрачиваются значительные ресурсы, качество же построенных кластеров часто оставляет желать лучшего. В связи с этим кластеризация обычно выполняется для небольших коллекций документов, например, для результатов поиска некоторой поисковой системы с целью их предъявления пользователю в более удобном для анализа виде. В рамках проекта SOPHIA разработан новый алгоритм кластеризации, имеющий примерно линейную сложность. Это позволяет выполнять кластеризацию больших коллекций и реально обеспечить поиск основанный на кластеризации.

В области поиска система поддерживает два основных алгоритма поиска: наряду с обычным булевым поиском, основанным на использовании инвертированных файлов, обеспечивается семантический поиск, в результате которого как результат могут быть получены документы не содержащие ключевых слов звпроса, но релевантные запросу по теме. Существующие системы (например, Convera) обеспечивают возможность семантического поиска за счет использования внешних словарей, онтологий, семантических сетей. SOPHIA выявляет семантическое подобие документов полностью автоматически на основе оригинального алгоритма кластеризации.

В настоящее время интерфейс пользователя обеспечивает графическое представление результатов поиска в виде дерева, путешествуя по которому пользователь может быстро найти группы релевантных семантически подобных документов. Особенности системы позволяют получить большой объем информации о коллекции документов, о запросе и о результате поиска с точки зрения семантического подобия. Вся эта информация может использоваться для построения новых более эффективных интерфейсов, совмещающих стандартные методы формулировки запроса и просмотра результатов с новыми подходами к представлению как глобальной, так и локальной информации как о самой коллекции, так и о результатах поиска.