Нысан: ақпаратты еңгізетін оптикалық құралдардан мәтінді тануды қамтамасыздандыруға арналған бағдарламалық жабдықтауды жасау технологиясы. Пән: мәтінді кешенді тану бағдарламасы
Зерттеу бөлімі
1.1 Мәтінді оптикалық тану жүйесі туралы түсінік Бүгінгі уақытта баспадан шыққан мәтіндегі латын символдарын нақты тану мүмкін болады, егер сурет толық көрінсе. Мұндай есептің қойылымында нақтылық 99% пайыздан асады, абсолютті нақтылыққа адам ары қарай өңдеу арқылы қол жеткізуге болады. «Баспадан шығарылған» және стандартты қолжазба мәтінің тану мәселелері, сондай – ақ, басқа форматтағы (әсіресе өте көп символдар) баспадан шығарылған мәтіндер, қазіргі уақытта белсенді зерттеу құралдары болып табылады. Әдістердің дәл жұмыс жасауын бірнеше тәсілдермен өлшеуге болады. Мысалы, егер мамандық бойынша қандайда бір бағдарламалық жабдықтауда қолданылмайтын сөз кездесетін, жоқ сөзді іздеу барысында, қате көп кетуі мүмкін.
Кей уақытта он-лайн символдарды тануды символдарды оптикалық танумен шатыстырады. Соңғысы – бұл мәтіннің статистикалық формада берілуімен жұмыс жасайтын офф-лайн әдіс, символдарды он-лайн тану хатты жазу барысында козғалысты есепке алады. Мысалы, PenPoint OS қолданылатын он-лайн тануда немесе планшетті ДК қатардың қай жақтан: оңнан солға немесе солдан оңға жазылатының анықтауға болады.
Соңғы уақытта коммерциялық өнім ретінде қолжазба мәтінің тануға арналған он-лайн жүйелер көбіне белгілі болып барады, мұндай құрылғылардың алгоритмдері еңгізу сызығының жеке бөліктерінің бағыттары, жылдамдығы және реті белгілі фактіні қолданады. Сондай –ақ, қолданушы хаттың тек нақты бір формаларын қолдануды үйренеді. Бұл әдістер құжаттарды сканерлеу барысында бағдарламалық жабдықтауда қолданылмайды, сондықтан қолжазба мәтінін тану мәселесі ашық болып саналады. Артефактысыз қолжазба мәтіні суреттерінде нақтылық 80 % — 90 %, бірақ бір парақта ондаған қате болады. Мұндай технология тек шектеулі қосымшаларда пайдалы болуы мүмкін.
Зерттеудің тағы бір мәселесі қолжазба мәтінің тану болып табылады. Қазіргі уақытта қол жеткен нақтылық қолжазба мәтінінен төмен.Жоғары көрсеткіштер жанама және грамматикалық ақпараттарды қолданумен ғана қол жетеді. Мысалы, тану үдерісінде мәтіннің бөлек символдарына талдау жасағанша, сөздіктен толық сөзді іздеген жеңіл болады. Сондай – ақ, сөздің баяндауыш немесе бастауыш екендігін анықтауға тілдің грамматикасын білген көмектеседі. Кейбір уақытта қолжазба символдарының формаларында ақпарат жеткіліксіз болуы мүмкін, барлық қолжазба мәтінді тану үшін (98 % жоғары).
Қағазда берілген құжаттарды электронды формаға мәтіндік файл түріне аудару мәселесін шешу үшін OCR бағдарламасын қолдануға болады. OCR жүйелері факс бойынша келген құжаттың электронды немесе басып шығарылған көшірмесін алуға мүмкіндік береді. Дәл осылай қолжазба материалдарын өңдеуге мүмкіндік беретін эксперименталды жүйелер материалы (Intelligent Character Recognition) бар. Қысқаша, OCR жүйесінің жұмыс жасауын келесі түрде көруге болады. Сканерлеуші құрылғы көмегімен құжаттағы сурет оқылады. Мәтінді тану нәтижесінде мәтін ретінде пішімделіп құжаттың суреті файлда көрсетіледі. Осылай қағаздық құжат төмен өнімділіктен және қолдан еңгізуден өтіп кетіп, электронды формаға автоматты түрде түрлендіріледі.
OCR жүйесінің екі классын ерекше бөлуге болады— оқытылатын және интеллектуалды. Бірінші классты жүйенің іс-әрекетінің принципі анықтамадағы үлгімен символды салыстырумен негізделеді. Символ үлгімен сәйкес келген жағдайда тану аяқталып нәтижелі файлға қосылады. Мұндай тану тәсілі барысында құжаттағы үлгі және қаріп сәйкес келу керек, яғни жүйеде әр қаріп типінің өлшеміне арналған маска болуы керек, сондықтан бұндай жүйе біртипті және сапалы мәтінмен жұмыс жасаған жағдайда тиімді. Екінші жағдайда символдың «маскасы» оның үлгісіне алмастырылады, ол қаріптің кез –келген өлшеміне қолданылады.
Тану нақтылығын жоғарылату үшін интеллектуалды жүйелер қорытынды мәтінге бір қатар тексеру жасауға болады, мысалы, мәтінге жиілік талдау жасау және берілген символды мәтінде болу жиілігін, оның тілде болу жиілігін салыстыру немесе емле ережесіне сай символдардың теріс тіркесін анықтау.
OCR нақты жүйелерiнде әр түрлi тану механизмдері бар, олар кез келген мәтінді және қаріпті өңдеуге мүмкіншілік береді.
Бүгінгі күні мәтінді тану бойынша бірнеше сапалы бағдарламалық өнімдер белгілі, солардың ішіне өз еліміздің екі жүйесі, көбінесе орыс тілді (FineReader және CuneiForm) мәтіндерді тануға бағытталған. OCR жүйесінің орташа жұмыс жасау жылдамдығы, орташа қуатты құрылғыда шамамен минутына бір жазу парағы болады. Сапалы тану — орташа сападағы мәтінде 1000 белгіде бір немесе екі қате болады.
OCR жүйесін таңдағанда келесі шарттарды ұсынуға болады:
сатып алынған аппарат құрал мен қолда бар бағдарламалық жабдықтаумен үйлесімді болуы керек;
берілген мәтін типінің тануы және сканерлеу жылдамдығы, мысалы: факс — орыс тілі, әртүрлі сападағы көшірме, әртүрлі сападағы машиналық жазу және т.б.;