Разработка методов повышения эффективности информационных технологий в архивной отрасли


Рис. 8. Соотношения многокомпонентных терминов в комплексе ИПТ ТКАД «Документы Октябрьской революции»



Pdf көрінісі
бет11/19
Дата10.03.2023
өлшемі373,52 Kb.
#171831
түріАвтореферат
1   ...   7   8   9   10   11   12   13   14   ...   19
Байланысты:
autoref-razrabotka-metodov-povysheniya-effektivnosti-informatsionnykh-tekhnologii-v-arkhivnoi-otras-0

22
Рис. 8. Соотношения многокомпонентных терминов в комплексе ИПТ
ТКАД «Документы Октябрьской революции»
ТКАД «История архитектуры и градостроительства»
ТКАД «История освоения космического пространства»
Третья глава
посвящена разработке и оценке эффективности методов
автоматического индексирования архивных документов, учитывающих свойст-
ва и особенности лексики архивных документов.
Для решения задач идентификации понятий и анализ неидентифициро-
ванных словоформ воспользуемся графовой формализацией модели линейной
системы уровней (ЛСУ) перехода от естественного языка к ИПЯ.
В основу ЛСУ положена трансформация элементов представления смыс-
ла
 F
=
 F(С),
где
 F
- процедура трансформации, С - элементы представления
смысла. Каждая такая трансформация определяет уровень представления. Мо-


23
дель допускает также преобразования в пределах одного уровня. Рассмотрим
графовую формализацию модели. Модель ЛСУ представляется ориентирован-
ным графом
 G - (F, Г),
где
 F
- множество вершин графа,
 а Г-
отображение
F в F.
Вершинам графа
 G
соответствуют процедуры, а дугам - связи между
процедурами.
Рассмотрим построение некоторой процедуры безотносительно
уровня детализации модели системы автоматического индексирования.
Пусть - операторы, которые необходимо выполнить для
преобразования элементов представления смысла
 С\
в элементы представления
смысла в пределах одного уровня; — средства, которые могут
быть использованы для реализации операторов — по-
рядки, определяющие возможные последовательности выполнения операторов
и при преобразовании
Процедура будет однозначно определенной, если фиксиро-
ваны: набор операторов , необходимый и достаточный для осу-
ществления преобразования ; множество средств , необ-
ходимых и достаточных для реализации всех операторов (каждое
средство
 t
закреплено за конкретным оператором ); некоторый порядок
; в котором должны быть реализованы все операторы средст-
вами
Таким образом, процедура
— множество допустимых вариантов процедур преобразования
Допустимость различных вариантов процедур определяется ограни-
чениями на показатели качества (стоимость разработки, время разработки,
стоимость эксплуатации и т.д.) и свойствами среды существования системы.
Для системы автоматического индексирования документов ТКАД такой средой
является АИПС на архивные документы.


24
Вследствие требования единой технологии и единого математического
обеспечения
Эти требования являются корректными, т.к. лексика документов ТКАД
имеет одинаковые свойства. Следовательно,
Используя графовую формализацию ЛСУ, можно представить систему ав-
томатического индексирования с идентификацией по ИПТ в виде графа (рис. 9).
Рис. 9. Граф связей процедур АИД при использовании ИПТ
где — процедура ввода текстов; — процедура графическо-
го анализа. — словоформа, — номер словоформы в предложении,
— номер предложения в тексте; — процедура семантической фильт-
рации; — процедура морфологического ана-
лиза. — префикс, —корень, —словообразовательный суффикс, —
словоизменительный суффикс; — окончание, — возвратная частица;
— процедура идентификации по ИПТ; — процедура формирования ПОД.
Использование ИПТ для идентификации смысловых единиц имеет сле-
дующие особенности: встретившиеся в тексте информационные термины, ко-
торые не зафиксированы в ИПТ системы, не включаются в поисковый образ
документа. Для обработки документов ТКАД, которые содержат, как было ус-
тановлено до 50% идентификаторов с единичной или низкой частотой ветре-


25
чаемости и которые появляются во входном потоке для информационной обра-
ботки в сгруппированном виде, этот фактор имеет существенное значение, т.к.
приводит к потере информации при поиске.
Данное положение приводит к необходимости включения в модель про-
цедуры анализа неидентифицированных словоформ.
Данную процедуру можно рассматривать как процедуру непосредст-
венного включения неидентифицированных словоформ в поисковый образ до-
кумента (ПОД). В этом случае мы будем иметь синонимию лексических еди-
ниц, вызванную флексиями. Для устранения этого явления вводим процедуру
нормализации неидентифицированных словоформ. Для нормализации исполь-
зуется морфологическая информация, полученная в результате выполнения
процедуры
В лексике архивных документов важную роль играют словосочетания. В
связи с этим для повышения качества поиска за счет снижения информацион-
ного шума вводится процедура синтеза многословных терминов (рис. 10). На
этом рисунке: — процедура ввода; — процедура графического анализа
текста; — процедура семантической фильтрации; — процедура морфоло-
гического анализа; — процедура идентификации по ИПТ; — процедура
нормализация словоформы; — процедура синтеза многословных терминов;
— процедура формирования ПОД.
Рис. 10. Граф связей процедур АИД с идентификацией по ИПТ,
нормализацией и синтезом неидентифицированных словоформ


26
В принципе возможен непосредственный переход от процедуры к
процедуре
В этом случае элементы можно использовать в качестве лексических
единиц ИПЯ, т.е. мы приходим к информационно-поисковому языку на базе
ключевых слов с чистой координацией. Однако поисковые характеристики
(точность, полнота) системы будут низкими из-за отсутствия явного выражения
парадигматических отношений, омонимии и полисемии ключевых слов.
Так же неэффективен непосредственный переход от процедуры к про-
цедуре Это связано с тем, что процедурой (морфологический уровень)
устраняется только синонимия лексических элементов, отличающихся своими
флексиями окончаниями, и не разрешается проблема установления парадигма-
тических отношений, учет которых повышает качество информационного по-
иска, например, за счет синонимии лексических единиц часто устанавливаю-
щейся в результате исторического исследования, и не всегда широко извест-
ной.
Задача идентификации заключается в сравнении понятия
 Р
текста с по-
нятием
 Р
r
, зафиксированным в ИПТ. Определим понятие как кортеж связан-
ных по смыслу словоформ Понятие считается идентифици-
рованным, если все
 L ,
выражающие Р, содержатся среди смы-
словых эквивалентов , выражающих , и схемы связей между словофор-
мами и вР и совпадают.
Будем рассматривать
 Р
как информационный профиль (сообщение), а
как информационный массив (совокупность сообщений). Очевидно, что
непосредственное сравнение
 Р
и невозможно, т.к. в тексте понятия не при-
сутствуют в явном виде, а выражаются через свои словоформы . Тогда задача
идентификации состоит в разработке метода поиска (структуры файлов и стра-
тегии поиска) сообщений
 Р
в информационном массиве на основе со-
четания и решается на основе создания вто-
ричной информационной совокупности.




Достарыңызбен бөлісу:
1   ...   7   8   9   10   11   12   13   14   ...   19




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет