Дипломдук иш темасы: Жаңы кыргыз корпусундагы "Атоочтуктарды" энтектөө


Figure 1.1 The main page of Kyrgyz Corpus



Pdf көрінісі
бет26/66
Дата08.02.2022
өлшемі1,4 Mb.
#98772
түріДиплом
1   ...   22   23   24   25   26   27   28   29   ...   66
Байланысты:
diploma paper alinapdf

Figure 1.1 The main page of Kyrgyz Corpus 
Kyrgyz Corpus (2019-04-18): 
powered by CQPweb
 
Metadata for Kyrgyz Corpus (2019-04-18) 
Corpus title 
Kyrgyz Corpus (2019-04-18) 
CQPweb's short handles for this corpus 
kyrgyz_20190418 / KYRGYZ_20190418 
Total number of corpus texts 
84 
Total words in all corpus texts 
1,243,161 
Word types in the corpus 
92,263 
Type:token ratio 
0.0742 types per token 
Figure 1.1. represents the format of the Kyrgyz corpus. It contains both the content and the 
metadata and have the following simple structure: 

Corpus title – the title of a document; 

CQPweb’s short handles for this corpus; 

Total number of corpus texts; 

Total words in all corpus texts; 

Word types in the corpus; 

Type: token ratio.
In order to determine which toolkit should be associated with atoochtuk, we need to figure out to 
which part of speech to refer it to and disambiguate it. In this sense, using Kyrgyz Corpus query, 
we could obtain the following results:
The query result of the affix “ган" of the verbal adjective has returned 16 260 matches in 70
different texts (in 1,243,161 words [84 texts]; frequency: 12 688 instances per million words);


30 
The query result of the affix “ар" of the verbal adjective has returned 316 matches in 33 different 
texts (in 1,243,161 words [84 texts]; frequency: 126 instances per million words); 
The query result of the affix “бас" of the verbal adjective has returned 304 matches in 15
different texts (in 1,243,161 words [84 texts]; frequency: 85 instances per million words); 
The query result of the affix “оочу" of the verbal adjective has returned 103 matches in 70
different texts (in 1,243,161 words [84 texts]; frequency: 62 instances per million words); 
The query result of the affix “уучу" of the verbal adjective has returned 389 matches in 70
different texts (in 1,243,161 words [84 texts]; frequency: 132 instances per million words). 
(https://corpora.clarin-d.uni- saarland.de/cqpweb/kyrgyz_20190418/breakdown.php?qname-
gevevz7qu5f&concBrea kdownOf-both&pp350)
The table 1.3 represents adapting the Kyrgyz parts of speech for Apertium tagset symbols and 
provides a description of the designed tagset, corresponding to Apertium symbols. The table 
contains a list of tags classified by 9 major parts of speech. 


Достарыңызбен бөлісу:
1   ...   22   23   24   25   26   27   28   29   ...   66




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет