Часть речи
|
Частота (ipm)
|
1
|
и
|
conj
|
35801,8
|
2
|
в
|
pr
|
31374,2
|
3
|
не
|
part
|
18028
|
4
|
на
|
pr
|
15867,3
|
5
|
я
|
spro
|
12684,4
|
6
|
быть
|
v
|
12160,7
|
7
|
он
|
spro
|
11791,1
|
8
|
с
|
pr
|
11311,9
|
9
|
что
|
conj
|
8354
|
10
|
а
|
conj
|
8198
|
В современных словарях вместо многозначного термина слово ис- пользуется термин лемма — лексическая единица, совокупность всех словоформ с одинаковым лексическим значением. Это значит, что лемма быть в табл. 3 в корпусе представлена словоформами, включая отдельно словоформы с заглавной и строчной буквы: быть, Быть, был, Был, была, Была, было, Было, были, Были и т. д. Все эти словоформы посчитаны, и их количество указано рядом с леммой быть. Следовательно, можно еще
построить частотный словарь словоформ, где для каждой формы слова будет указана ее частота (см. Табл. 5).
Таблица 5. Некоторые словоформы леммы быть [Ляшевская, Шаров 2009]
Словоформа
|
Частота (ipm)
|
был
|
2049,1
|
Был
|
62,8
|
была
|
1215,6
|
Была
|
33,5
|
были
|
1148,2
|
Были
|
38,6
|
было
|
2797,3
|
Было
|
80,6
|
Частота леммы или словоформы может быть абсолютной — точное количество единиц в данном тексте, а может быть относительной — ко- личество лексических единиц в тексте, деленной на общий объем текста, измеренный в тех же единицах. И то и другое, не очень удобно, так как не позволяет сравнивать частоты из разных частотных словарей. В современ- ных частотных словарях используется так называемая общая частота — число употреблений на миллион слов корпуса, или ipm (instances per million words). В словаре [Ляшевская, Шаров 2009] она поясняется так:
«это общепринятая в мировой практике единица измерения частотности, которая упрощает сравнение частоты слова в разных частотных словарях и в разных корпусах. Дело в том, что выборки текстов, на которых измеря- ется частотность, могут довольно сильно отличаться по своим размерам. Например, если слово власть встречается 55 раз в корпусе размером 400 тыс. слов, 364 раза в миллионном корпусе и 40 598 раз в 100- миллионном корпусе современного русского языка и 55 673 раза в боль- шом 135-миллионном корпусе НКРЯ, то его частота в ipm составит 137.5, 364.0, 372.06 и 412.39, соответственно».
Следующая важная характеристика, которая есть в частотных слова- рях — это ранг леммы или словоформы. Если расположить единицы час- тотного словаря в порядке по убыванию их частоты, то порядковый номер каждой единицы и будет являться ее рангом (см. табл. 4). Ранг позволяет увидеть самые употребительные слова в тексте или корпусе. Дело в том, что если взять первую тысячу слов данного текста из ранжированного списка (в котором слова расположены по их рангу), то на эти слова при- дется 80–90 % всех слов в этом тексте. Эта удивительная закономерность
позволяет составлять списки слов, которые, например, необходимо в пер- вую выучить, чтобы быстрее изучить иностранный язык. Но главное не забывать, что частота и ранги слов могут отличаться от текста к тексту, могут быть абсолютно разными в произведениях художественной литера- туры, в публицистике, в разговорной речи.
Ранг и частоту связывает знаменитый закон Ципфа: частота слова в частотном словаре обратно пропорциональна его рангу. Подробнее об этом законе можно прочитать в работе [Алексеев 2001], где также много полезной информации о частотных словарях и принципах их создания.
Для более точного определения употребительности слов надо прове- рять насколько равномерно то или иное слово встречается в разных тек- стах, в том числе и в текстах разных функциональных стилей. Поэтому используются некоторые другие меры, например, показатель R (range), который отражает количество сегментов корпуса, в которых встретилось слово или коэффициент Жуйана (D), который отражает равномерность распределения частот в разных сегментах корпуса. Подробнее обо всем этом можно прочитать во Введении к частотному словарю современного русского языка [Ляшевская, Шаров 2009].
Теперь мы прекрасно понимаем, что для того, чтобы частотный сло- варь отражал частоту слов определенного языка, в нем должны быть учте- ны тексты разных жанров, или функциональных стилей. Кроме того, надо учесть тексты разных исторических эпох: частотные словари художест- венных текстов разных периодов XIX века будут абсолютно разными [Шайкевич, Андрющенко, Ребецкая, 2013]. Разными будут и тексты от- дельных периодов ХХ века — дореволюционного, довоенного, послево- енного, перестроечного, послеперестроечного. Как же составить общий частотный словарь современного русского языка, когда текстов огромное количество и все они такие разные? Возникает проблема репрезентатив- ности, которая уже обсуждалась в главе о корпусной лингвистике (см. гла- ва 6). Для решения этой проблемы надо понять структуру генеральной совокупности текстов и на ее основе создать выборочную совокупность. Иными словами, надо выбрать определенное число текстов разных сти- лей, жанров и периодов в определенной пропорции так, чтобы они соот- ветствовали нашим представлениям о языке или подъязыке, который мы покрываем частотным словарем. Это непростая теоретическая и практи- ческая задача, которая не имеет однозначного и идеального решения. Как она была решена для «Нового частотного словаря русской лексики», вы можете узнать самостоятельно во Введении к работе [Ляшевская, Шаров 2009].
Закончим этот раздел тем, как представить материалы частотного словаря. Обычный толковый или орфографический словарь устроен по
алфавитному принципу. Так же может быть составлен и частотный сло- варь (см. табл. 6).
Таблица 6. Пример алфавитного частотного списка [Ляшевская, Шаров]
Достарыңызбен бөлісу: |