2.ҚАзақ тіліндегі жай сөйлемдердің онтологиялық моделі мәтіндік қҰжаттарды классификациялауда онтологияны қолдану қАзақ тіліндегі сөз тіркестерді өҢдеу


-суреттегі . Қазақ тілінің жай сөйлемінің онтологиялық модельінің фрагменті



бет3/4
Дата21.12.2022
өлшемі199,17 Kb.
#163811
1   2   3   4
Байланысты:
13 апта

1-суреттегі . Қазақ тілінің жай сөйлемінің онтологиялық модельінің фрагменті




Қысқаша белгіленуі

Атауы

SS(Simple Sentence)

Жай сөйлем

Q

Құрылымы

Q1

Бірінші индексті құрылым

S (Subject)

Бастауыш

A (Addition)

Толықтауыш

D (Determination)

Анықтауыш

C (Condition)

Пысықтауыш

P (Predicate)

Баяндауыш

N (Noun)

Зат есім

Adj (Adjective)

Сын есім

Num (Numeral)

Сан есім

Adv (Adverb)

Үстеу

Pron (Pronoun)

Есімдік

V (Verb)

Етістік

Құрастырылған онтологиялық моделдерді синтаксистік талдауға қолдануға болады. Синтаксистік талдаудың басты мақсаты – сөйлемнің құрылымын талдау. Құрылымды тілдің контексті бос грамматикасын талдауға сәйкес ағаш ретінде қабылдауға болады. Синтаксистік талдау нәтижесі сөздердің симантикалық базасына сілтеу жасайтын синтаксистік шығарылым бұтағы болып табылады. Синтаксистік талдау барысында сонымен бірге сөйлем құрылымымен байланысты қателер де табылады.




МӘТІНДІК ҚҰЖАТТАРДЫ КЛАССИФИКАЦИЯЛАУДА ОНТОЛОГИЯНЫ ҚОЛДАНУ
Онтология – интеллектуальды жүйелерде білімдерді ұсынудың бір түрі. Онтология деп қарастырылатын пәндік саланың ұғымдар жүйесін, олардың арасындағы қатынастар мен амалдарды түсінеміз, басқаша айтқанда, онтология – пәндік сала мазмұнының анықталуы (спецификациясы). Мысалы, «Интеллектуальды жүйелер» онтологиясы мынадай түрде болуы мүмкін: Интеллектуальды жүйелер = {интеллект; нейрон; нейрондық желі; кері байланыс; логика; білім; ...}, сонымен қатар концепттер арасындағы байланыстардан тұрады, «Кері байланыс – нейрондық желінің қасиеті».
Онтологияны рольдік кластерлеуде қолдану. Онтология концепттерін «нысан», «құрал», «қасиет» және «іс-әрекет» кластары (рольдері) бойынша рольдік кластерлеуде осы концепттерді (түйіндік ұғымдарды) әр түрлі мағыналық категорияларға орналастыру қарастырылады. Мұндай категория концепттері «қарапайым» деп аталады. Рольдердің мүмкін болатын комбинацияларын «күрделі» концепттерді құруда қолдану болады. Айталық, «компьютер жылдамдығын талдау әдісі» сияқты сөз тіркесін жоғарыда келтірілген рольдерге тән 4 қарапайым концепттен тұратын күрделі концепт ретінде қарастыруға болады. Бұл мысалда «әдіс» – құрал, «талдау» – іс-әрекет, «жылдамдық» – қасиет, «компьютер» – нысан ретінде болып тұр[1].
Құжаттар бойынша ақпараттық іздестіру есептерінде осыған ұқсас әдістерді қолдану біршама дәрежеде сұранысты құрайтын ұғымдар семантикасын есепке алуға мүмкіндік береді және іздеу дәлдігін жоғарылатады. «Әдісті талдау» деген сұратуда іздестіру жүйесі «әдіс»-ті – нысан ретінде, және «талдау»-ды – іс-әрекет ретінде түсінеді. Бұл ретте қажет емес құжаттар қарастырылмайды. Рольдік кластерлеуді қолдану іздестіру толықтығын жоғарылатуға қабілетті.
Онтологияны классификациялау мен кластерлеу есептерінде қолдану. Құжаттарды классификациялау мен кластерлеу есептерінде онтологияны қолдану табысты нәтижелерге жеткізіп отыр. Келтірілген жағдайлардың барлығында онтологияны қолдану пәндік саланы айқындайтын маңызды концепттер жинағын ұсынады. Олардың қолданылуы пәндік салаға жатпайтын ұғымдарды талдауға кететін машиналық уақытты жоғалтпауға мүмкіндік береді, ал классификациялауда – классификатордың аса шығындық оқытуларын жүргізбейді, себебі классификатор құрастырылған онтологиямен беріледі. Аталған есептерді шешу сапасы құрастырылған онтологияның сапасы мен толықтығына тікелей байланысты болады.
Құжаттық деректер қорын пайдаланатын мамандарға жұмыс барысында құжаттардың барлық жиынтығы емес, тек оны қызықтыратын пәндік салаға сәйкес құжаттар ғана қажет болуы мүмкін. Мұндайда, деректер қорындағы құжаттарды категориялар бойынша классификациялау есебі өзекті болып табылады. Мысал келтірсек, құжаттарды классификациялау спамдарды фильтрлеу есептерінде, хаттарды тақырыптар бойынша таратуда, электронды сауда жүйелерінде және де басқа көптеген интеллектуальды жүйелерде ерекше орын алады. Сонымен қатар, ақпараттық іздестіру есептерінде құжатты белгілі бір класқа алдын-ала топтастыру, сұраныс тақырыбына жатпайтын құжаттарды алып тастауға мүмкіндік береді, әрі уақыт пен есептеу қорларын үнемдейді.
Құжаттарды тақырыптар бойынша қолмен орналастыру классификациялаудың алғашқы әдісі болып табылады. Бірақ, бүгінгі таңда өңдеуге болатын құжаттардың саны өте көп, ал бұл сарапшылар жұмысы барысында, пайдамен салыстыруға келмейтін құралдар мен уақыт шығындарына әкеп соғады. Сондықтан, 1960 жылдардан бастап мәтіндік құжаттарды автоматты түрде классификациялау мәселелері үлкен қызығушылыққа ие болып келеді. Бұл саладағы сарапшы жұмысын автоматтандыруға арналған бастапқы тәсілдер, мәтінді өңдеу жүйелеріне «егер – онда» түріндегі ережелерді жазудан тұрды, яғни сарапшы берген шарт орындалған жағдайда құжат нақты тақырыпқа бөлініп отырды. Классификациялау шарты мынадай түрде болды: Егер (ДНФ) → Онда (категория), мұндағы, ДНФ – дизъюнктивті нормальды формада өрнектелген шарт, ал категория – бұл ДНФ ақиқат болғанда құжатты орналастыратын тақырыптар. Бұл әдістің қарапайым және тиімді екендігі көрініп тұр, бірақ ережелерді жазу және олардың өзектілігін негіздеу үшін сарапшы жұмысы талап етіледі.


Достарыңызбен бөлісу:
1   2   3   4




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет