zhChinese    enEnglish
  ПМ-ПУ  » Информация » Тузов В. А.» SemLP-технология

Основные направления исследований, основанные на семантическом анализе текстов

(SemLP-технология, подробности на сайте: www.semlp.com).

Базовые задачи

Базовые задачи - это задачи, качественное решение которых невозможно получить без компьютерного семантического анализа текста.

Распознавание текстов. Под распознаванием текстов понимается построение полной синтаксической структуры предложений, адекватной его семантической структуре. Другими словами, осуществляется перевод с естественного языка на формальный семантический язык, с которым способен оперировать компьютер. В чистом виде такая возможность может быть полезна во всех задачах, где требуется распознавание текстов или речи. Наиболее распространенными являются задачи голосового управления и оптического распознавания текстов. Использование полноценного анализатора текстов способно значительно поднять качество распознавания в этих задачах. В особенности это касается распознавания речи, где до сих пор существуют значительные трудности при различении похоже звучащих слов. Механизм корректного выбора альтернатив с учетом смысла способен значительно (в несколько раз) сократить неоднозначность.

Поиск документов. Исходной основой для поиска обычно являются большие массивы неструктурированных или слабоструктурированных текстов на естественном языке. Массив текстов предварительно индексируется. Индекс содержит соответствия между некими базовыми сущностями, использующимися для поиска и документами их содержащими. В простейшем случае этими сущностями являются слова (или словоформы). В более развитых вариантах это может быть тема текста (документа), фрагменты фраз и утверждений или целые фразы или предложения. Возможен также поиск документов "похожих на данный". Качественный поиск по теме документа или степени похожести на данный документ требует умения правильно определять тематику документа. Индексы могут строится как автоматически, так и вручную. Автоматически строятся, как правило, только индексы на основе слов (и в очень ограниченном виде на основе определения тематики текста). SemLP-технология позволяет строить индексы любого типа, что дает возможность проводить очень точный поиск. Для локальных поисковых систем достижима полнота и релевантность порядка 90-95% и более.

Классификация и рубрикация документов, определение тематики документов. Несмотря на внешнюю простоту задачи рубрикации и определения тематики документов являются очень сложными в реализации. На основе только ключевых слов или синтаксической структуры простых словосочетаний удовлетворительно решить задачу нельзя. Фрагментарное использование общих семантических классов также принципиально ничего не меняет. Существующие системы обеспечивают точность классификации (а значит, и определения тематики) по сравнению с человеческой оценкой: без использования заранее заданных классов - порядка 10%, с использованием заранее заданных классов и настройкой на тематику текстов - до 60%. Другими словами, существующие системы не обеспечивают удовлетворительного решения этих задач. Рубрикация на основе SemLP-технология способна обеспечить точность без использования заранее заданных классов порядка 90-95% и при настройкой на тематику текстов близко к 100%. Предлагаемая система позволяет осуществлять гибкую настройку глубины и направления классификации и рубрикации в соответствии с требованиями заказчика. Большинство задач такого рода может быть решено с помощью системы на уровне, близком к тому, который доступен только эксперту.

Синтез текстов. В узком смысле под синтезом текстов здесь понимается построение фраз и предложений на естественном языке по записям на формальном языке. К порождаемым фразам может предъявляться или не предъявляться требование стилистической корректности, однако они в любом случае не должны содержать смысловых и грамматических ошибок. В систему заложены возможности, позволяющие проводить синтез текста, в том числе, и стилистически корректного. В случае полномасштабного синтеза, это, однако, является трудоемкой задачей, поскольку требует некоторой модификации словарей. В существующем виде возможен синтез простых двух- трех-словных словосочетаний, не всегда стилистически корректных. Эта возможность может быть очень полезна при аннотировании документов, краткой характеризации тем документов и т.п.

Проверка корректности текстов. Поскольку анализатор производит полный разбор предложений, с его помощью можно проверять грамматическую корректность текстов. Уровень ошибок анализатора (корректных сочетаний слов и фраз, которые анализатор принимает за ошибочные) на данный момент составляет от 2% до 5%. Однако, примерно в половине случаев такие употребления являются пограничными: это либо слишком сложные обороты, либо слишком неоднозначные, либо редко употребляемые. Уровень некорректных употреблений, которые допускает текущая версия анализатора, в несколько раз выше, поскольку он был ориентирован на работу с правильными предложениями и специальная задача поиска ошибок не ставилась. Модификация анализатора с целью диагностики ошибок может быть выполнена достаточно легко. В целом, система способна обеспечить качественно более высокий уровень проверки корректности текстов, чем существующие автоматические корректоры.

Построение тезаурусов и онтологий. Создание тезаурусов и онтологий до сих пор остается крайне сложной и трудоемкой работой. Степень автоматизации этого процесса очень низка. По сути дела, все определения создаются вручную. Автоматически может проверяться лишь согласованность накопленных определений. Альтернативой мог бы быть подход, когда определения понятий создаются по существующим текстам с такими описаниями (энциклопедии, учебники, справочники), а затем, при необходимости, корректируются в процессе диалога с экспертом. Для реализации такого подхода необходимо уметь проводить подробный анализ семантики текстов. Текущая реализация анализатора текста в рамках SemLP-технология обеспечивает детализацию семантических описаний достаточную для создания определений в базе знаний. На основе дальнейших преобразований и логического вывода в базе знаний возможно формирование определений понятий и ситуаций для тезаурусов и онтологий.

Автоматическое реферирование и аннотирование. Суть аннотирования (реферирования) текста заключается в формировании краткого описания основных тем текста. Существует два разных подхода к аннотированию. В первом случае выявляется небольшое количество предложений, существующих в тексте, которые наиболее полно отражают основные темы текста. Дополнительно часто выделяются ключевые слова. Во втором случае основные темы текста выявляются как смыслы, и уже эти смыслы выражаются новыми предложениями, новым текстом. Второй вариант в большинстве случаев значительно более предпочтителен, но он и значительно сложнее. Все современные системы аннотирования/реферирования основаны на первом варианте. SemLP-технология позволяет реализовать второй вариант в ограниченном виде: автоматический синтез коротких (в несколько слов) простых фраз или предложений. В целом, задача аннотирования включает определение тематики документов, выделение ключевых (по темам) слов и фраз с учетом смысла, поиск предложений, содержащих ключевые слова и фразы, и синтез на этой основе фраз и предложений, отражающих основные темы текста.