Ордабекова Хафиза Арысбайқызы тіл біліміне кіріспе


Мәтін корпусы және сөздіктердің «Тіл ‒ Қазына» ұлттық



бет74/129
Дата17.10.2023
өлшемі0,73 Mb.
#186199
1   ...   70   71   72   73   74   75   76   77   ...   129
Байланысты:
Ордабекова Хафиза Арысбайқызы-emirsaba.org

3 Мәтін корпусы және сөздіктердің «Тіл ‒ Қазына» ұлттық
компьютерлік қоры. Мәтіндер корпусы лингвистикалық, филологиялық және
педагогикалық мәтіндер аясында топтастырылуы мүмкін. Компьютерлік
лингвистика лексикография, грамматика, мәтін лингвистикасы, типология,
контрастивтік лингвистика, аударма теориясы мен практикасы, әдебиеттану
ғылымы,
лингводидактика
сынды
пәнде
аясында
қарастырылады.
Корпустық лингвистиканың ішінде ең жақсы дамыған корпус түрі – ұлттық
корпус. Мұндай корпус түрі ұлттық тілді толық түрде бейнелейді. Ұлттық
корпустың негізі – сол тілдің жазба және сөйлеу түріндегі мәтіндерінің барлық
типтерінің бейнеленуі. Ұлттық корпус лексикография, жасанды интеллект,
әдебиеттану, сөйлеу тілін талдау мен жинақтау, академиялық сөздіктер мен
ғылыми грамматикалар құрастыру ісі, лингвистиканың өзге де салаларына
қатысты зерттеу түрлерін жүргізуді қамтамасыз етеді. Ұлттық корпуcты
ғылыми көпшілік қауым, тілшілер мен әдебиеттанушы, тарихшылар мен
гуманитарлық білім салаларының өкілдері пайдалана алады.Сонымен қатар
ұлттық корпустың ана тілі мен шет тілін оқытуда, оқулықтар мен
бағдарламалар құрастыруда маңызы жоғары деуге болады.
Қазақ тілінің тілдік корпусын зерттеуге арналған бұл жұмыстың
нәтижелері жоғарғы оқу орындарында оқытылатын «Қазақ тілінің
функционалды грамматикасы», «Компьютерлік лингвистика», «Морфология»,
«Мәтін лингвистикасы» салалары бойынша дәрістер мен семинар
сабақтарында пайдалануға болады.
Қазақ тіл білімінде корпустық лингвистика мәселесіне қатысты тілдік
корпус терминінің мәнін айқындап, оның лингвистикалық табиғатына
сипаттама беру; тілдік корпус жасаудың теориялық және практикалық
негіздемелерімен танысу; корпус жасаудың лингвистикалық деңгейін
компьютерлік деңгеймен байланыстыру; көркем тіл мен техника тілін
орайластыру; белгі-кодтар қоюдың кезеңдік әдіс-тәсілдерін меңгеру;
лингвистикалық белгі-кодтарды қоюдың теориялық және практикалық
мәселелерін шешу; морфологиялық талдаудың дәстүрлі принциптеріне сүйене
отырып, талдау үлгілеріне шолу жасау жұмыстары атқарылды.


118
Қазақ тілінің тілдік корпусын «Қазақ тілінің функционалды


грамматикасы», «Компьютерлік лингвистика», «Морфология», «Мәтін
лингвистикасы» салалары бойынша оқытылатын лекциялар мен семинар
сабақтарында пайдалануға болады.
Яғни қандай да бір көркем шығарма немесе басқа да жанр түрлерінен
алынған
мәтінді
корпустық
лингвистика
парадигматикалық
және
синтагматикалық қатынастар тұрғысынан алып, синтагмада, яғни тізбектеле
жатқан сөйлемдерді алдымен парадигматикалық қатарға түсіріп, бөлшектеп,
сол жекелеген сөйлем бөлшектерін қайтадан синтагмалық жүйеде тізбектей
лингвистикалық белгілер қоя отырып сипаттайды. Мұндай лексика-
грамматикалық, семантикалық, стилистикалық сипаттамалар, белгілі бір
сөзформаға морфологиялық, семантикалық, синтаксистік мағлұматтар
компьютерде автоматты түрде орындалады. Осы тұрғыдан алғанда біздің
айтып отырған мәтіннің әрбір бөлшегіне берілген лингвистикалық ақпарат,
жай тілдік сипаттама ғана емес, автоматтандырылған компьютерлік
лингвистиканың аясында қарастырылады.
Яғни бірінші кезеңде сөзформаның мүмкін варианттары автоматты түрде
түгелдей қамтылса, екінші кезеңде омоним сөзформалар анықталып, олардың
тұсына сұрақ белгілері қойылып отырады. Үшінші кезеңде анықталған
омонимдер, яғни бірдей сөзформалардың (ол сөз не сөздің формасы, яғни
грамматикалық формалар болуы мүмкін) лексикалық не грамматикалық
мағыналары мәтіндерден іздестіріліп, қай сөз табы екендігі анықталады.
Мұндай жұыс түрлерінің барлығы компьютерде арнайы бағдарламалар
негізінде жүзеге асырылады.
Тілдік корпус жасалғаннан кейін, зерттеуші белгілі бір тілдік құбылысты
компьютер жадынан интернет желісі арқылы іздеуіне болады. Іздеу белгілі бір
өлшемде іске асырылады. Мәселен, ізделетін нақты сөзформа көрсетіледі;
лексема, яғни түбір сөз беріледі; морфологиялық белгілері қойылады; басқа
сөзформалар/лексемалармен тіркесуі; сөйлемдегі қолданыс ерекшелігі (орын
тәртібі); мәтіннің шыққан уақыты мен жанры тағы басқа ақпараттар
көрсетіледі.
Компьютерлік бағдарламаға енгізілетін көркем әдеби шығармалар
мәтіндеріне морфологиялық талдау жасау барысында біршама мәселелер алдан
шықты. Оларды жалпылай айтсақ: біріншіден, қазақ тіл білімінде жекелеген
лексикалық бірліктерді сөз таптарына жатқызуда қайшы пікірлердің кездесуі,
екіншіден, кейбір грамматикалық формалардың тұрпат межесі мен мазмұн
межесінің түпкілікті айқын еместігі, үшіншіден, қазақ тілінің өзіндік
ерекшелігінен туындайтын контекст мәселесі, төртіншіден, авторлық қолданыс
ерекшеліктері,
бесіншіден,
мәтіндер
корпусын
жасауда
әзірленген
компьютерлік бағдарлама мүмкіндіктері. Бұл аталған жайттарды мысалдар
арқылы көрсетейік: Таң алдында бiр ғана сағат мызғығаны болмаса, Абай 


119



Достарыңызбен бөлісу:
1   ...   70   71   72   73   74   75   76   77   ...   129




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет