Разработка методов повышения эффективности информационных технологий в архивной отрасли



Pdf көрінісі
бет10/19
Дата10.03.2023
өлшемі373,52 Kb.
#171831
түріАвтореферат
1   ...   6   7   8   9   10   11   12   13   ...   19
Байланысты:
autoref-razrabotka-metodov-povysheniya-effektivnosti-informatsionnykh-tekhnologii-v-arkhivnoi-otras-0


разделений, местных органов управлений.
Подобные лексические единицы обязательно должны быть зафикси-
рованы в информационно-поисковом тезаурусе в неизменном виде.
Изучение парадигматических отношений в лексике документов ТКАД
показало, что у лексических единиц рассмотренных предметных областей в
полной мере развиты отношения синонимии, иерархии и ассоциации. Были вы-
делены два класса синонимии: эквивалентность имманентная (лексические си-
нонимы, полное наименование и принятое сокращение, грамматические вари-
анты лексических единиц) и эквивалентность факультативная (контекстуальная
условная эквивалентность, например Гагаринская набережная - Фрунзенская
набережная).
Гистограммы распределения частот употребления лексических единиц
при индексировании различных видов архивных документов (рис. 3, 4, 5, 6, 7)
дают наглядное представление о количественном соотношении дескрипторов с


17
различными частотами употребления. При этом отчетливо выделяются группы
дескрипторов, имеющих одинаковую частоту.
Анализ гистограмм позволяет выделить две области в лексике докумен-
тов каждого тематического комплекса. Первая область (ядро) содержит высо-
кочастотные и низкочастотные дескрипторы с вторая - дескрипторы с
единичной частотой. Статистический анализ показывает, что количество одно-
частотных дескрипторов достаточно велико и составляет около 45 % всех деск-
рипторов ТКАД «Документы Октябрьской революции», 35 % дескрипторов
ТКАД «История архитектуры и градостроительства» и 27
 %
дескрипторов
ТКАД «История освоения космического пространства». Семантический анализ
показывает, что эти дескрипторы несут значительную смысловую нагрузку в
текстах архивных документах. Например, персоналии, наименования архитек-
турных объектов, названия приборов и экспериментов и т.д. Таким образом,
одночастотные дескрипторы играют значительную роль в лексике архивных
документов.
В прикладной лингвистике к низкочастотным лексическим единицам от-
носят и лексические единицы с , хотя они в ряде случаев представляют со-
бой пограничные явления. С учетом средней встречаемости лексических еди-
ниц (20-84) по фондам тематических комплексов архивных документов, стано-
вится ясно, что дескрипторы с частотами представляют собой с точ-
ки зрения употребления окказиональные лексические единицы. При свободном
индексировании для подготовки информационно-поискового тезауруса обычно
получается такая же картина, причем практически принято считать, что одно-
частотные лексические единицы явно случайные, двухчастотные большей ча-
стью случайные и только как минимум трехчастотные (обычно дескрипторы
с , в некоторых системах с ) единицы рассматриваются как объект
обязательной оценки на предмет включения в ИПТ.


18
Рис. 3. Распределение частот употребления лексических единиц для ТКАД
«История архитектуры и градостроительства»
Рис. 4. Распределение частот употребления лексических единиц для ТКАД
«История освоения космического пространства»


19
Таким образом, можно выделить низкочастотную лексику, для которой
и которая составляет: для ТКАД «История освоения космического про-
странства» - 40 %, для ТКАД «Документы Октябрьской революции» - 59 %,
для ТКАД «История архитектуры и градостроительства» -51 %.
Следовательно, можно сделать вывод о специфичности лексики архивных
документов, которая обычно отражается в автоматизированных информацион-
но-поисковых системах как случайная (оказиональная), играет настолько важ-
ную роль, что отбрасывание ее не позволит идентифицировать ряд документов,
а требования на точность и полноту поиска предусматривает выдачу конкрет-
ных документов (а не классов, как в АИПС системы научно-технической ин-
формации). В общем случае разница между выдачей индивидуального, кон-
кретного документа и класса документов, которая наблюдается в подходе к ин-
формационному поиску и его стратегии в архивах, является одной из черт, при-
ближающей АИПС на архивные документы к фактографическим информаци-
онным системам.
Частотные распределения лексических единиц для различных видов ар-
хивных документов представлены на рис. 5,6 и 7. Величина выборки составля-
ет 1000 лексических единиц для каждого вида документов.
Рис. 5. Частотное распределение лексических единиц (фотодокументы


20
Рис. 6. Частотное распределение лексических единиц (кинодокументы)
Рис. 7. Частотное распределение лексических единиц (фонодокументы)
Таким образом, соотношение низкочастотной лексики и ядерной лексики
примерно одинаковое. Низкочастотная лексика составляет: для фонодокумен-
тов - 47,8 %; для фотодокументов - 40 %; для кинодокументов - 57,6 %.
Статистические исследования появления низкочастотных дескрипторов
во входном потоке АИПС «История освоения космического пространства» по-
казывает, что для низкочастотных идентификаторов характерна тенденция к
симультанному появлению во входном потоке.
Особенно резко эта тенденция проявляется у лексических единиц с
что подтверждает окказиональный характер таких лексических единиц, по-
скольку совместная встречаемость в одной партии документов является для них
своеобразным контекстом, в котором реализуется их специфика. Если для ока-
зиональности необходимо единство контекста (оказиональность конструирует-


21
ся единством контекста), то такое единство проявляется в уникальности партии
документов, в пределах которой лежит вся частотность таких единиц. Данный
эффект можно объяснить систематизацией архивных документов по фондам и
внутри фонда по делам, т.е. в автоматизированную обработку документы по-
ступают в сгруппированном виде.
Необходимость отражения в поисковом образе документа лексики ока-
зиональной группы требует свободного индексирования. Анализ парадигмати-
ческих отношений в лексике документов ТКАД показывает необходимость ис-
пользования ИПТ для отражения в поисковых образах документов лексики
ядерной группы.
Исследования многокомпонентных лексических единиц в документах
ТКАД показало, что двухкомпонентные лексические единицы (61 %) играют
существенную роль при отражении смыслового содержания архивных доку-
ментов (рис. 8).
Необходимо отметить, что, применяя процедуру компрессии, можно за-
менить некоторые модели многокомпонентных лексических единиц двухком-
понентными. Так, например, в модели
 NcNmNp
(сварка с помощью лазера) вто-
рой элемент не является необходимым и модель может быть заменена моделью
NNm
(сварка лазером). Модель (расчет по методу Монте-Карло) мо-
жет быть заменена на модель
 NNp
(метод Монте-Карло).
Исследование образования словосочетаний, характерных для лексики ар-
хивных документов, позволило разработать и проанализировать лингвистиче-
ские модели образования двухкомпонентных терминов в лексике документов
ТКАД:
 A N, A (A)N, NNp,NNm,NNg, NpN.




Достарыңызбен бөлісу:
1   ...   6   7   8   9   10   11   12   13   ...   19




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет