13 апта: Компьютерлік лингвистика



бет1/2
Дата03.01.2022
өлшемі30,65 Kb.
#108188
  1   2
Байланысты:
13,14,15 (Автосохраненный)

13 апта: Компьютерлік лингвистика


Лек: Компьютерлік лингвистика жəне қоғамды ақпараттандыру мəселесі
Қолданысымыздағы жаңа сөздер, пайда болып жатқан жаңа қызметтік лауазымдар аталмыш трансформацияның жаршысы істпетті. Әрбір мекемеде IT-ға, яғни ақпараттық технологияға жауапты бөлім немесе кемінде бір маман бар. 2009 жылы АҚШ Президенті Барак Обама Chief Technology Officer – жаңа технологиялар жөніндегі кеңесші лауазымын бекіткен болатын.

Ақпараттық технология­лардың адамзат өміріне әсерін зерттейтін атақты футуролог ғалым Рэймонд Курцвейлдің айтуы бойынша, 2035 жылы компьютердің ойлау қабілеті адамдыкімен теңеседі. Ал 2045 жылы компьютердің ойлау қабілеті немесе ғылым тілімен айтатын болсақ, оның жасанды интеллектісі барлық адамзаттың интеллектісінен асып түспек. 

Ал осы ақпараттық техноло­гияларды, соның ішінде жасанды интеллектіге негізделген технологияларды тіліміздің, тіл білімінің керегіне қалай жарата аламыз деген сұрақ баршамызды мазалауы тиіс. Себебі алдағы уақытта тілдің өміршеңдігі, оның кең қолданысқа енуі көп жағдайда технологияларға тәуелді болмақ.

Ақпарат алмасу тек технологиялық қарым-қатынас қана емес, сонымен қатар лингвистикалық құбылыс. Адамдардың тілді пайдалануы, сөз бен сөз тіркестерін қолдануы, мәліметтердің контекстуалдық ортасын түсінуі сынды мәселелер тіл білімінің маңыз­ды саласына айналып, компьютерлік ғылым мен лингвистиканың тоғысқан жерінде компьютерлік лингвистика саласы пайда болды. Аталған сала XX ғасырдың 50-60 жылдары қалыптаса бастағанымен, қарқынды дамуы 2000 жылдардан бастау алады. Компьютерлік лингвистика дегеніміз – тілді пайдалану мен түсіндіру мақсатында тілдік нормаларды математикалық және компьютерлік модельдеу. Түп мақсаты – жасанды интеллект құрастыру. 

Бүгінгі күнде компьютерлік лингвистика жетістіктері екі негізгі бағытта қолданылады. Біріншісі, тілдерді түсіну мен зерттеу әдістерін дамыту. Бұрын белгісіз болған заңдылықтар мен құбылыстарды ашу. Екіншісі, адам мен машина арасындағы байланысты жеңілдету. Бұл бағытта технологиялық шешімдер мен өнімдерге назар аударылады. Жоғарыда айтылғандай, компьютерлік лингвистика нәтижелері жасанды интеллектінің құрамдас бөлшегі. 

Әр мемлекет жасанды интеллектіні өз тілінде сөйлетуге тырысуда. Себебі болашақта есептеу қуаты мықты компьютерлер ғана тілді сақтау және оны дамытумен тиімді айналы­са алады. Сол себеп­ті дамыған елдерде компьютерлік лингвистика­ға жете назар аудары­лып, осы саланы дамытуға қыруар қаражат бөлінуде. 

Компьютерлік лингвистика алдында көптеген мақсаттар тұр. Олардың ішіндегі ең маңыздылары:

Бірінші, корпустық лингвистика. Тілдің электронды корпусын жасау және оны маңызды ақпаратпен толықтырып отыру. Бұл – тілдің бар байлығын, қолдану ерекшелігін сандық үлгіде топтастыру. Маңыздылығы бойынша кезек күттірмейтін жоба. Себебі тілге қатысты жасалмақ негізгі технологиялардың көпшілігі корпусқа сүйенетін болады. Басқаша айтқанда, ұлттық тіл корпусы компьютерлік лингвистиканың іргетасы. Өкінішке қарай, қазақ тілінің ұлттық тіл корпусы әлі жасалмаған. Алайда келесі жылы жасалады деп күтілуде. 

Екінші, қазақ тілінің қолданылуын жеңілдететін көмекші құралдар мен анықтамалық-ақпараттық портал. Қазіргі кезде Microsoft компаниясының Word атты мәтінді өңдеуге арналған өнімі қазақ тіліндегі мәтіннің орфографиясын ғана тексере алады. Әрине, бұның қазақ тіліндегі сөздерді қатесіз жазуға көмектескені анық. Дегенмен осы Word бағдарламасы ағылшын және орыс тілдеріндегі мәтінді нақты грамматикалық ережелер бойынша да тексереді.

«WikiBilim» қоғамдық қоры Мәдениет және спорт министрлігі Тілдерді дамыту және қоғамдық-саяси жұмыс комитетімен бірлесе, қазақ тілін сауатты жазуға көмектесетін көмекші құралдар мен ақпараттық-анықтамалық материалдардан тұратын sauat.kz  порталын жасауды жоспарлап отыр. Аталмыш жоба қазақ тілінің күнделікті өмірде, ресми қарым-қатынаста сауатты қолданылуына әсер етеді деп күтілуде.

Үшінші, электронды сөздіктер, тезаурустар жасақтау. Қазіргі кезде көптеген сапалы сөздіктер шығарылуда. Алайда ол сөздіктер дәстүрлі баспа кітап күйінде ғана. Ал адамдар уақытының көп бөлігін компьютердің алдында өткізеді және өзіне керек ақпаратты компьютерден алғанды қалайды. Осы орайда, сөздіктердің электронды нұсқада, ыңғайлы үлгіде болғаны өте маңызды деп білеміз. Біздің ұйым жүзеге асырып жатқан «Қазақстанның ашық кітапханасы» жобасының аясында «Қазақ тілінің әмбебап сөздігі» жұмыс істейді. Аталмыш сөздік А.Байтұрсынұлы атындағы Тіл білімі институтының белді ғалымдарымен бірлестікте жасалған. Сөздіктің негізін «Қазақ әдеби тілі» сөздігіндегі 150 000 аса сөз бен сөз тіркесі құрайды. Алдағы уақытта осы сөздікке енген сөз қорын тұтастай дыбыстық үлгіге түсіру мақсаты тұр. Сонымен қатар салалық, синоним, антоним және аударма сөздіктерімен толықтырып, барлық компьютерлерге, планшеттерге, смартфон­дарға арналған нұсқасын жасау өте маңызды мәселе. 

Төртінші, автоматты аударма жүйесі. Технология­лар­дың дамуы екі тілді аудармадан көптілді аударма жасау мүмкіндігін берді. Мысалы, бұл технология Google компаниясының аударма қызметінде жүзеге асырылған. Аталмыш жүйеге қазақ тілі өткен жылдың желтоқсан айында енгізілді. Енді қазақтілді қолданушылар қас-қағым сәтте қазақ тілінен әлемнің 90 тіліне аударма жасай алу мүмкіндігіне ие болды. Жобаны жүзеге асырушы ұйым ретінде аударма сапасын мінсіз деп айта алмаймыз. Алайда бұл қазақ тілін жасанды интеллектімен достастыруға жасалған алғашқы қадам деп білеміз. Жүйе өз-өзін дамыта алатын күрделі алгоритмге негізделгендіктен, аудармада жіберілетін қателіктер уақыт өте жөнделіп, аударма сапасы арта түспек.

Бесінші, мәтінге автоматты түрде сараптама жасау және сараптама негізінде қорытынды шығара алу. Бұл тілдегі болып жатқан өзгерістерді бақылауға көмектеседі. Сондай-ақ аталмыш технология мәтінді сараптау арқылы саяси, экономикалық, әлеу­меттік-психологиялық зерттеулер жасауға жол ашады. Өкінішке қарай, аталмыш технология қазақ тілінде қолжетімді емес.

Алтыншы, контенттің сандық трансформациясы. Көптеген елдерде ақпаратты тасымалдаудың аналогтық түрінен сандық үлгіге ауыстыру процесі жылдам жүзеге асырылуда. Себебі адамзат «қағаз мәдениетінен» «экран мәдениетіне» ауысуда. Ғалымдар­дың пайымдауынша, жақын болашақта қағаз күйіндегі кітаптардың орнын электронды кітаптар толықтырмақ. Алда айтып өткендей, біздің қоғамдық қор «Қазақстанның ашық кітапханасы» жобасын жүзеге асыруда. Жобаның мақсаты – қазақ тілінде жарық көрген барлық кітаптарды ең соңғы технологияға сүйене отырып, ыңғайлы сандық үлгіде жинақтау. Қазірдің өзінде кітапханамызда 4000-нан аса электронды кітап бар. Бұдан өзге 1500-ге жуық көркем шығарманың және 400 ертегінің толық аудионұсқасы орналастырылған. 

Жетінші, адам дауысын түсіну жүйесін құру. Адам мен машина қарым-қатынасының жаңа сапалық деңгейі – машинаның адам дауысын түсініп, оған қисынды түрде жауап бере алу мүмкіндігі. Мысалы, iPhone телефонына осындай қызметті атқара алатын Сири атты бағдарлама орнатылған. Бұл технология әзірше тек 17 тілде ғана, ағылшын, француз, неміс, жапон, корей, итальян, испан, қытай (мандарин мен кантон диалектілері), дат, нидерланд, португал, швед, тай, түрік, норвег және орыс тілдерінде жұмыс істейді. 

Сегізінші, мәтінді сөйлету технологиясы. Қазіргі таңда кез келген сандық үлгідегі мәтінді жасанды адам дауысымен дыбыстау технологиясы кеңінен қолданысқа енуде. Аталмыш технология зағип жандарға және тіл үйренуші азаматтарға таптырас құрал. Бірақ аталмыш технология қазақ тілінде қолжетімді емес. 

Бұл тек маңызды деген технологиялық шешімдер ғана. Бұдан өзге эволюциялық емес, революциялық жолмен дамып жатқан көптеген технологиялар бар. Осы орайда мемлекеттік тіл саясатын жүргізіп жатқан органдар мен тіл білімімен шұғылданушы мекемелер аталған технологиялардың дамуын жіті бақылып, ескеріп отыруы керек.

Қазақ тілінің алдында тұрған ең өзекті мәселелердің бірі – қазақ тілін технологиялармен жақындастыру. Себебі болашақта бізді қоршаған барлық дүниелер технологиялармен тығыз байланысты болмақ. Өздігінен жүретін көліктер мен ұшақтар, ақылды үйлер және басқа да озық технологиялардың көбі дауыспен басқарылады деп болжанып отыр. Айта кетерлік жайт, 2011 жылы біз ғаламдық Википедия энциклопедиясының қазақ тіліндегі тарауын дамыту жобасын бастаған кезде, кейбір сарапшылар «орыс және ағылшын тіліндегі Википедиялар жақсы дамыған, Интернеттен ешкім де қазақ тілінде ақпарат іздемейді, қазақ тіліндегі Википедияны дамытып қайтесіңдер» деген болатын. Жоба басталған кезде мақалалар саны 10 000-ның төңірегінде болатын. Бұл кезде ай сайын оқылатын беттердің саны 400 000 шамасында болатын. Ал 2014 жылғы мәліметтерге сүйенетін болсақ, мақала саны 200 000-нан асып, ай сайын қазақ тілінде оқылатын Википедиядағы беттердің саны 14 000 000-ға жетті. Бұл интернеттегі қазақ тіліндегі материалдарға сұраныс бар екендігін дәлелдейді және қазақ тілін технологиямен достастыруға болатынын көрсетеді. 

Егер біз мемлекеттік тілдің өміршеңдігін қамтамасыз етіп, оның кең қолданысқа енуін қаласақ, онда бар күшімізді тіл мен технологияны кешенді түрде достастыруға жұмсауымыз керек. 



Достарыңызбен бөлісу:
  1   2




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет