Раздел 10.
ИЗУЧЕНИЕ ОСНОВ АРХИТЕКТУРЫ И ВОЗМОЖНОСТЕЙ СИСТЕМЫ RETRIEVALWARE.
10.3. Типы запросов.
10.3.1. Как производится поиск в RetrievalWare.
В RetrievalWare реализованы три основных режима поиска: поиск по Смыслу, поиск по Образцу и Логический поиск. Если Вы хотите, то можете комбинировать эти режимы поиска в пределах одного запроса.
В режиме поиска по Смыслу RetrievalWare использует словари и тезаурусы в качестве базы знаний для обработки Ваших запросов. В этих источниках находится информация о значениях слов, их синтаксисе, вариантах написания и связях между словами. Эти связи между словами позволяют объединять их в "семантическую сеть".
В сети каждое значение слова имеет список связанных с ним слов и весов связей, указывающих как близко каждое слово связано с этим значением. Отдельные слова могут быть связаны с несколькими понятиями связями с различными весами. Вы можете контролировать, сколько и какие связи используются, изменяя уровень расширения запроса или не используя никакого расширения вообще.
Семантическая сеть позволяет RetrievalWare, выполнять поиск по смыслу или по отдельным значениям, вместо того, чтобы искать только точные совпадения со словами запроса. Например, запрос "вакантная должность" может также найти такие понятия, как "вакансия", "кандидат", "работа". Это происходит потому, что RetrievalWare может искать по смыслу, что обеспечивает гораздо более полный и подходящий набор ответов, чем у других программ полно-текстового поиска.
В режиме поиска по Шаблону Вы можете искать фрагменты текста, похожие по написанию на Ваш запрос; это может быть полезно, когда Вы имеете документы, содержащие ошибки распознавания отсканированного текста или слова со сложными вариантами написания.
Логический режим поиска - быстрый способ найти нужные документы, содержащие (или не содержащие) определенные слова.
10.3.2. Конвейер обработки запросов.
Процесс поиска RetrievalWare можно представить в виде конвейера, на вход которого Вы подаете слова запроса. Во время их движения по конвейеру, слова запроса подвергаются нескольким фазам анализа и обработки. Этот процесс может как расширять список искомых терминов, так и сужать его до тех пор, пока не будет получен окончательный список терминов запроса.
Сначала происходит разбор текста (строки символов разбиваются на слова, при этом распознаются даты и номера телефонов). Затем RetrievalWare использует словарь для морфологического анализа (приводя слова к более простым формам, удаляя из слов суффиксы и приводя их к единственному числу) и обработки идиом (опознавая фразы, которые имеют значения, отличающиеся от значений входящих в них слов, например, "железная дорога"). RetrievalWare также удаляет некоторые мало значимые слова (например, "с" или "на"), которые не играют большой роли при поиске информации.
При дальнейшем продвижении по конвейеру слова запроса расширяются при помощи словаря и связей в семантической сети. Когда RetrievalWare расширяет слова, то она находит новые слова и понятия, связанные со словами запроса и добавляют их к списку искомых слов. Искомые слова в списке оцениваются таким образом, чтобы слова запроса имели самый высокий вес, за ними шли сильно похожие, а после них - слабо похожие слова. Этот список искомых слов используется программой RetrievalWare, чтобы искать документы в библиотеке. В процессе поиска программа определяет:
- сколько точных совпадений содержится в документе
- сколько в нем содержится связанных с ними слов
- какие между ними связи (сильный синоним, антоним, связанное, и т.д.)
- расположение (расстояние в тексте друг от друга) удовлетворяющих запросу слов в документе.
Используя эту информацию, RetrievalWare определяет и ранжирует "совпадения", найденные в документах. На основании силы и числа совпадений, найденные документы сортируются по степени их соответствия запросу. Совпадения выделяются в тексте документа (Вы можете выбрать способ выделения совпадений, например, цветом, курсивом, полужирным шрифтом, и т.п.), так, чтобы Вы могли быстро найти наиболее подходящие места.
Общая схема процесса поиска:
|