6B06149 – «Ақпараттық жүйелер» мамандығына арналған «AZhN 1202– АҚпараттық ЖҮйелер негіздері»


Дәріс № 11. Документалдық АЖ. Документалдық-ақпараттық іздеу жүйелері. Семантикалық навигациялық жүйелер. Іздеу аппараты. Ақпараттық-іздеу тілі



бет20/66
Дата13.09.2023
өлшемі3,7 Mb.
#180956
1   ...   16   17   18   19   20   21   22   23   ...   66
Байланысты:
umkd akparatt k zhuieler negizderi 2022

Дәріс № 11. Документалдық АЖ. Документалдық-ақпараттық іздеу жүйелері. Семантикалық навигациялық жүйелер. Іздеу аппараты. Ақпараттық-іздеу тілі.

ДҚБЖ дамуының бастапқы бағыты құрылымдық деректерді өңдеуге бағытталған нақты Ақпараттық жүйелерді әзірлеу және пайдалану болды. Фактографиялық деректерді ұйымдастыру модельдері әзірленді, осындай деректерді жинақтау және физикалық сақтау бойынша бағдарламалық-техникалық шешімдер пысықталды, ДБ-ға сұрау салу тілдері іске асырылды.


Алайда, нақты Ақпараттық жүйелерді құру мәліметтерді алдын-ала құрылымдауды қажет етеді, мысалы, кестелер негізінде. Бұл көбінесе үлкен шығындарды талап етеді. Сонымен бірге құрылымданбаған ақпараттың үлкен көлемі жинақталуда: ұйымдастырушылық және әкімшілік құжаттарда немесе басқа мәтіндік көздерде. Мұндай ақпаратты фактографиялық жүйелерде ұсыну көбінесе экономикалық тұрғыдан ақталмайды.
50-ші жылдары басталған құрылымданбаған ақпаратты өңдеуді автоматтандыру мәселелерін теориялық зерттеу реляциялық модель сияқты деректерді ұсыну мен өңдеудің қатаң, толық және техникалық тұрғыдан жүзеге асырылатын моделін құруға әкелгенге дейін. Әзірге құжаттардың мазмұнын формальды сипаттау және сұраныстарды құру үшін қолдануға болатын стандартты ақпараттық-іздеу тілдері (SQL сияқты) әзірленбеген.
Документалдық(құжаттық) АЖ-дағы деректер элементі құжат болып табылады (фактографиялық ақпараттық жүйелерде элемент жазба болып табылады). Әдетте құжат мәтіндік файл деп түсініледі. Құжаттамалық ақпараттық жүйелердің негізгі міндеті мазмұны оның ақпараттық қажеттіліктеріне сәйкес келетін құжаттарды сақтау және пайдаланушыға беру болып табылады.
Құжаттамалық ақпараттық жүйе (ҚАЖ) — пайдаланушыға қажетті құжаттарды іздеу және беру құралдары бар құжаттардың бірыңғай қоймасы.
Құжаттық ақпараттық жүйелердің іздеу сипаты (олардың тағы бір атауын анықтады-ақпараттық-іздеу жүйелері.

Табылған құжаттардың пайдаланушының ақпараттық қажеттіліктеріне сәйкестігі пертиненттілік деп аталады. Құжаттардың семантикалық мазмұнын ресімдеудің теориялық және практикалық қиындықтарына байланысты пертиненттілік сапалы ұғымдарға көбірек жатады.


Құжаттар қоймасы мен іздеу механизмдерінің ерекшеліктеріне байланысты дискіні екі топқа бөлуге болады:
"индекстеу негізіндегі жүйелер;
"семантикалық-навигациялық жүйелер.
Семантика (грек тіл. semantikos-белгілеу) - тіл бірліктерінің мағынасы.
Семантикалық-навигациялық (гипермәтіндік) жүйелерде құжаттар қоймасына орналастырылатын құжаттар әртүрлі құжаттар немесе бір құжаттың жекелеген фрагменттері арасындағы мағыналық байланыстарға сәйкес келетін арнайы навигациялық конструкциялармен (гиперсілтемелермен) жабдықталады.
Индекстеуге негізделген жүйелерде бастапқы құжаттар дерекқорға ешқандай қосымша түрлендірусіз орналастырылады, бірақ сонымен бірге әр құжаттың семантикалық мазмұны кейбір іздеу кеңістігінде көрсетіледі. Құжатты іздеу кеңістігіне көрсету процесі индекстеу деп аталады және әр құжатқа белгілі бір индексті — іздеу кеңістігіндегі координатаны тағайындаудан тұрады. Құжат индексінің формализацияланған көрінісі құжатты іздеу әдісі деп аталады (астында). Пайдаланушы өзінің ақпараттық қажеттіліктерін арнайы тіл арқылы білдіріп, құжаттар базасына сұратудың (позаның) іздеу тәсілін қалыптастырады.
Белгілі бір критерийлер негізінде ДИС іздеу суреттері пайдаланушының сұранысының іздеу суреттеріне сәйкес келетін құжаттарды іздеуді және беруді жүзеге асырады.
Табылған құжаттардың пайдаланушының сұранысына сәйкестігі релеванттылық деп аталады.
Ақпарат іздеу жүйелері көмегімен қайсыбір сұраныстарды қанағаттандыратын ақпараттар, яғни құжаттар ізделінеді. Келесі схемада іздеу жүйесінің пайдаланушы сұранысы бойынша тауып беретін ақпарпты мен таба алмайтын ақпараты сұлба түрінде берілген.



N=a+b+c+d







Мұндағы
а – іздеу жүйесі тауып берген релевантты құжаттар саны;
b – іздеу жүйесі тауып берген релевантты емес құжаттар саны;
c – іздеу жүйесі тауып бермеген релевантты құжаттар саны;
d – іздеу жүйесі тауып бермеген релевантты емес құжаттар саны;
N – іздеу жүйесі тауып берген барлық (релевантты және релевантты емес) құжаттар саны;
Енді келесі суретке назар аударыңыздар.



Суреттен a < b < c екендігі көрініп тұр. Бұл көп жағдайда орын алатын жағдай. Кейде a, b және c қатынасы өзгеше де болады. Олардың қатынасының өзгеруі пайдаланушының сұранысты қаншалықты дұрыс құрғандығына(бергендігіне) және сұранысты қабылдау мезетінде АІЖ қанша және қандай құжаттарды индекстегендігіне байланысты.



Іздеу дәлдігі(Precision) немесе іздеу дәлдігінің коэффициенті іздеу жүйесі тауып берген релевантты құжаттар санының барлық табылған құжаттар санына қатынасына тең:

Егер АІЖ тауып берген релевантты емес құжаттарының саны нольге тең болса, Іздеу дәлдігі максималды мүмкін және 1-ге тең болады.
b=0 болған жағдайда

Бірақ мұндай нәтижеге жету мүмкін емес деуге болады. Сондықтан, әдетте, іздеу дәлдігін арттыру үшін релевантты емес құжаттар санын мүмкіндігінше кемітуге тырысады:
b 0 жағдайында P 1
b 0 жағдайына немесе b-ны кемітуге қалай қол жеткізуге болады?
Егер АІЖ ешқандай құжат тауып бермесе, Іздеу дәлдігі нольге тең болады.

болғанда



жағдайда

Нақты жағдайдағы АІЖ-де іздеу дәлдігінің коэффициенті 0,1 мен 1 аралығындағы мәнге ие болады. Әртүрлі АІЖ-де бірдей сұранысқа әртүрлі іздеу дәлдігінің коэффициенті берілуі мүмкін.




Достарыңызбен бөлісу:
1   ...   16   17   18   19   20   21   22   23   ...   66




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет