Ғылыми жоба тақырыбы: «Мәтінді тануға, аударуға арналған ocr- жүйесін моделдеу және жасау»


Мәтінді оптикалық танитын бағдарламалық жабдықтау түрлері



бет5/8
Дата12.11.2023
өлшемі2,67 Mb.
#191104
1   2   3   4   5   6   7   8
Байланысты:
Мәтінді тануға, аударуға арналған ОСR-жүйесін моделдеу және жасау

1.2.Мәтінді оптикалық танитын бағдарламалық жабдықтау түрлері
Мәтінді тану жүйелері жайында айтқанда негізгі бірінші орында бұл бағытта – ABBYY компаниясы орналасқан.
ABBYY FineReader - оптикалық танитын интеллектуалды жүйесі сандық фотосуреттерді, құжаттарды, PDF – файлдарды және қағаз құжаттарын тез және нақты электронды түрге аударады. ABBYY FineReader -дың тануы барысында құжаттың берілуін толық сақтайды: иллюстрациялар, суреттер,тізімдер және т.б. алған нәтижелерді Microsoft Office бағдарламаларында дұрыстауға, әртүрлі форматта сақтауға, электронды пошта арқылы жіберуге және интернетке шығаруға болады.

ABBYY FineReader құжаттарды тануда жаңа тәсілдер ұсынады. Құжатты FineReader парақтап емес, толық өңдеп талдайды, ол дегеніміз барлық ішкі құрылымы: жоғары және төменгі колонтитулдар, суреттер, диаграммалар, жазулар, қаріптер және т.б. Бастапқы құжаттың элементтері нәтижесі берілетін құжатта қалпына келтіріліп беріледі. Мысалы, Word бағдарламасына сақтау барысында жоғары және төменгі колонтитулдар, сноскалар Word мәтіндік редакторының нысанына сәйкес болып шығады.
ABBYY FineReader мәтінде веб-сайтқа сілтеме, электронды пошта адрестерін, файлдар, ftp-серверлер тауып оларды шығатын құжатта көрсетеді.
Мұндай құжаттар Word, PDF и HTML форматтарында сақталуы мүмкін. Сонымен қатар танылған мәтінге өз гиперсілтемелеріңізді қосуға болады.
PDF-файлдарды тану барысында, сыртқы сілтемелерден басқа ішкі (құжаттың басқа парақтарына) сілтемелер қалпына келтіріледі.
Жүйенің комплектіне ABBYY Screenshot Reader кірістірілген. Бұл экранның кез – келген аумағынан мәтінді тануға ыңғайлы және қарапайым қосымша. ABBYY Screenshot Reader қарапайым әдіспен көшіруге болмайтын – жүйелік хабарламалар, Flash-роликтардағы жазулар және т.б. өңдейтін форматқа түрлендіреді. Танылған мәтін және экраннан түсірілген сурет файл түрінде сақталып немесе алмастыру буферіне жіберіледі.

SILVERCODERS OCR Server


Бұл бағдарлама тануға арналған мықты коммерциялық серверлік жүйе және ол кәсіпорындарға арналған 189 тіл қарастырылған солардың арасында орыс тілі де бар. Ол корпоративті жүйелерде құжат айналымын интегралдауға арнайы жасалған. Еркін көшіруге нұсқасы жоқ, сондықтан бұл жүйені тексеруге қолданып көргем жоқ.
Free OCR
Free OCR – мәтінді оптикалық танитын ақысыз онлайн-сервис, ол tesseract движогын қолданады. Жүктелетін сурет өлшемі шектеулі 2 Мб. бұл бағдарламада JPG, GIF, TIFF BMP и PDF форматтары қарастырылады ( тек бірінші парақ, жақын арада бірінші 10 парақты қарастыруға уәде береді). Сонымен қатар, сағатына 10 сурет деген шектеу бар.
Сервис көптеген тілдерді таниды - орыс, украин, ағылшын, неміс, француз, түрік, көбі шығыс европа тілдері.
Img2txt
Img2txt – көп тілді мәтінді оптикалық танитын онлайн-сервис. JPG, PNG, TIFF форматтары қарастырылады және файлдың өлшемі 2 Мб-қа дейн. Болашақта PDF и DJVU форматтарды қарастыруға уәде береді. Википедияда сервис коммерциялық деп көрсетілген, бірақ сайттың өзінде лицензия типі және қолданылатын движогы жайында ақпарат берілмеген. Менің үш тестілік парақтарым ешқандай қиындықсыз танылды. Ешқандай ақы, не болмаса тіркеу сұралған жоқ.
OnlineOCR
OnlineOCR – тағы бір онлайн-сервис, енді бұл коммерциялық (28 тіл, орыс тілін қосқанда). TIFF (multi-page), JPEG/JPG, BMP, PCX, PNG, GIF, PDF (multi-page) еңгізуде форматтарды қабылдайды, файлдардың өлшемі 20 мб дейін; шығарылуы PDF, MS Word, MS Excel, HTML, RTF, TXT. Сатып алуға болатын ең төменгі пакет, 10 парақ 5 рублды құрады. Тіркелген қолданушының тану нәтижелері және жүктелген құжаттар сақталатын өз кабинеті болады. Өкінішке орай, сервиста тегін жұмыс жасау мүмкіншілігі шектеулі болғандықтан оны тестіден өткізу мүмкіншілігі болмады. СМС көмегі арқылы 10 парақтың ақысын төлеп жұмыс жасау да ойдағыдай шықпады.
NewOCR
NewOCR - OCR сервис, орыс тілін қосқанда 29 тілді қарастыратын тегін сервис. JPEG, PNG, GIF, BMP жән көп парақты TIFF форматтардағы файлдарды жүктеуге мүмкіншілік береді, өлшемі 5 Мб – қа дейн, сонымен қатар көп парақты PDF өлшемі 20 Мб – қа дейін. Мәтіннің көпколонкалы өңдеуі қарастырылған.




Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет