Физическая структура БД в общем случае имеет вид, приведенный на рис. 1.22, и включает следующие компоненты:
файл (файлы) исходных (первичных) данных (текстов, бинарных данных) содержит собственно объекты, подлежащие
поиску, обработке и пр.;
файл (файлы) вторичной (справочной) информации (регистрационные карты, библиографические реестры и пр.) содержит описания исходных элементов (объектов). Важным видом справочных файлов являются классификаторы,
Рис. 1.22. Обобщенная физическая структура данных в БД
кодификаторы, тезаурусы, обеспечивающие полноту и компактность представления информации в БД;
индекс — файл (файлы), связывающий адрес (номер) объекта с его содержанием (значением атрибута объекта),
обычно состоит из инверсного списка и частотного словаря, который облегчает составление запросов на поиск и повышает обозримость БД;
словарь данных — файл, содержащий составленное с необходимой степенью подробности описание состава БД, документов, записей, агрегатов данных, их имена, типы и структуры, способы интерпретации и обработки.
Изменение содержания БД может осуществляться как в режиме конечного пользователя (диалоговый ввод или коррекция записей/документов по полям) — обычный для СУБД и редкий для АИПС, так и в режиме администратора БД (обычный для АИПС и реже для СУБД), при этом происходит массовый ввод или загрузка записей/документов.
П ри любом виде добавления документа/записи для каждого поля осуществляются анализ, обработка и согласованное помещение документа и его фрагментов в соответствующие физические файлы БД.
В конкретных случаях возможна менее полная комплектность приведенной физической схемы:
в фактографических (табличных) БД вторичный файл может являться основным накопителем информации, а текстовые и бинарные данные фигурируют в качестве необязательного приложения;
в справочно-библиографических БД текстовые данные находятся во вторичном файле, а первичный отсутствует;
в БД с полнотекстовым поиском может отсутствовать вторичный файл, а индексирование (построение частотных словарей и инверсных списков) проводится по первичному файлу (страницы или абзацы полных текстов);
может отсутствовать частотный словарь или инверсный список.
Надо отметить также вариативность физической реализации и взаимосвязи лингвистического и информационного обеспечения АИС:
словарь данных может физически входить в информационные файлы (первичный или вторичный);
классификаторы, кодификаторы, тезаурусы могут быть оформлены как физическими файлами (файлами ОС), так и входить в состав БД в виде отдельных таблиц (файлов БД, массивов и пр.) на логическом уровне и т. п.
Достарыңызбен бөлісу: |