11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	186/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 182 183 184 185 186 187 188 189 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Таблица 5.
Таблица 6.

Часть речи
Частота (ipm)
1	и	conj	35801,8
2	в	pr	31374,2
3	не	part	18028
4	на	pr	15867,3
5	я	spro	12684,4
6	быть	v	12160,7
7	он	spro	11791,1
8	с	pr	11311,9
9	что	conj	8354
10	а	conj	8198

В современных словарях вместо многозначного термина слово ис- пользуется термин лемма — лексическая единица, совокупность всех словоформ с одинаковым лексическим значением. Это значит, что лемма быть в табл. 3 в корпусе представлена словоформами, включая отдельно словоформы с заглавной и строчной буквы: быть, Быть, был, Был, была, Была, было, Было, были, Были и т. д. Все эти словоформы посчитаны, и их количество указано рядом с леммой быть. Следовательно, можно еще

построить частотный словарь словоформ, где для каждой формы слова будет указана ее частота (см. Табл. 5).

Таблица 5. Некоторые словоформы леммы быть [Ляшевская, Шаров 2009]

Словоформа	Частота (ipm)
был	2049,1
Был	62,8
была	1215,6
Была	33,5
были	1148,2
Были	38,6
было	2797,3
Было	80,6

Частота леммы или словоформы может быть абсолютной — точное количество единиц в данном тексте, а может быть относительной — ко- личество лексических единиц в тексте, деленной на общий объем текста, измеренный в тех же единицах. И то и другое, не очень удобно, так как не позволяет сравнивать частоты из разных частотных словарей. В современ- ных частотных словарях используется так называемая общая частота — число употреблений на миллион слов корпуса, или ipm (instances per million words). В словаре [Ляшевская, Шаров 2009] она поясняется так:

«это общепринятая в мировой практике единица измерения частотности, которая упрощает сравнение частоты слова в разных частотных словарях и в разных корпусах. Дело в том, что выборки текстов, на которых измеря- ется частотность, могут довольно сильно отличаться по своим размерам. Например, если слово власть встречается 55 раз в корпусе размером 400 тыс. слов, 364 раза в миллионном корпусе и 40 598 раз в 100- миллионном корпусе современного русского языка и 55 673 раза в боль- шом 135-миллионном корпусе НКРЯ, то его частота в ipm составит 137.5, 364.0, 372.06 и 412.39, соответственно».
Следующая важная характеристика, которая есть в частотных слова- рях — это ранг леммы или словоформы. Если расположить единицы час- тотного словаря в порядке по убыванию их частоты, то порядковый номер каждой единицы и будет являться ее рангом (см. табл. 4). Ранг позволяет увидеть самые употребительные слова в тексте или корпусе. Дело в том, что если взять первую тысячу слов данного текста из ранжированного списка (в котором слова расположены по их рангу), то на эти слова при- дется 80–90 % всех слов в этом тексте. Эта удивительная закономерность

позволяет составлять списки слов, которые, например, необходимо в пер- вую выучить, чтобы быстрее изучить иностранный язык. Но главное не забывать, что частота и ранги слов могут отличаться от текста к тексту, могут быть абсолютно разными в произведениях художественной литера- туры, в публицистике, в разговорной речи.

Ранг и частоту связывает знаменитый закон Ципфа: частота слова в частотном словаре обратно пропорциональна его рангу. Подробнее об этом законе можно прочитать в работе [Алексеев 2001], где также много полезной информации о частотных словарях и принципах их создания.
Для более точного определения употребительности слов надо прове- рять насколько равномерно то или иное слово встречается в разных тек- стах, в том числе и в текстах разных функциональных стилей. Поэтому используются некоторые другие меры, например, показатель R (range), который отражает количество сегментов корпуса, в которых встретилось слово или коэффициент Жуйана (D), который отражает равномерность распределения частот в разных сегментах корпуса. Подробнее обо всем этом можно прочитать во Введении к частотному словарю современного русского языка [Ляшевская, Шаров 2009].
Теперь мы прекрасно понимаем, что для того, чтобы частотный сло- варь отражал частоту слов определенного языка, в нем должны быть учте- ны тексты разных жанров, или функциональных стилей. Кроме того, надо учесть тексты разных исторических эпох: частотные словари художест- венных текстов разных периодов XIX века будут абсолютно разными [Шайкевич, Андрющенко, Ребецкая, 2013]. Разными будут и тексты от- дельных периодов ХХ века — дореволюционного, довоенного, послево- енного, перестроечного, послеперестроечного. Как же составить общий частотный словарь современного русского языка, когда текстов огромное количество и все они такие разные? Возникает проблема репрезентатив- ности, которая уже обсуждалась в главе о корпусной лингвистике (см. гла- ва 6). Для решения этой проблемы надо понять структуру генеральной совокупности текстов и на ее основе создать выборочную совокупность. Иными словами, надо выбрать определенное число текстов разных сти- лей, жанров и периодов в определенной пропорции так, чтобы они соот- ветствовали нашим представлениям о языке или подъязыке, который мы покрываем частотным словарем. Это непростая теоретическая и практи- ческая задача, которая не имеет однозначного и идеального решения. Как она была решена для «Нового частотного словаря русской лексики», вы можете узнать самостоятельно во Введении к работе [Ляшевская, Шаров 2009].
Закончим этот раздел тем, как представить материалы частотного словаря. Обычный толковый или орфографический словарь устроен по

алфавитному принципу. Так же может быть составлен и частотный сло- варь (см. табл. 6).

Таблица 6. Пример алфавитного частотного списка [Ляшевская, Шаров]

№

Лемма

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 182 183 184 185 186 187 188 189 ... 197