11 Часть I. Компоненты 14 Глава Компьютерная



бет186/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   182   183   184   185   186   187   188   189   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Часть речи

Частота (ipm)

1

и

conj

35801,8

2

в

pr

31374,2

3

не

part

18028

4

на

pr

15867,3

5

я

spro

12684,4

6

быть

v

12160,7

7

он

spro

11791,1

8

с

pr

11311,9

9

что

conj

8354

10

а

conj

8198

В современных словарях вместо многозначного термина слово ис- пользуется термин лемма — лексическая единица, совокупность всех словоформ с одинаковым лексическим значением. Это значит, что лемма быть в табл. 3 в корпусе представлена словоформами, включая отдельно словоформы с заглавной и строчной буквы: быть, Быть, был, Был, была, Была, было, Было, были, Были и т. д. Все эти словоформы посчитаны, и их количество указано рядом с леммой быть. Следовательно, можно еще


построить частотный словарь словоформ, где для каждой формы слова будет указана ее частота (см. Табл. 5).




Таблица 5. Некоторые словоформы леммы быть [Ляшевская, Шаров 2009]


Словоформа

Частота (ipm)

был

2049,1

Был

62,8

была

1215,6

Была

33,5

были

1148,2

Были

38,6

было

2797,3

Было

80,6

Частота леммы или словоформы может быть абсолютной — точное количество единиц в данном тексте, а может быть относительной — ко- личество лексических единиц в тексте, деленной на общий объем текста, измеренный в тех же единицах. И то и другое, не очень удобно, так как не позволяет сравнивать частоты из разных частотных словарей. В современ- ных частотных словарях используется так называемая общая частота — число употреблений на миллион слов корпуса, или ipm (instances per million words). В словаре [Ляшевская, Шаров 2009] она поясняется так:


«это общепринятая в мировой практике единица измерения частотности, которая упрощает сравнение частоты слова в разных частотных словарях и в разных корпусах. Дело в том, что выборки текстов, на которых измеря- ется частотность, могут довольно сильно отличаться по своим размерам. Например, если слово власть встречается 55 раз в корпусе размером 400 тыс. слов, 364 раза в миллионном корпусе и 40 598 раз в 100- миллионном корпусе современного русского языка и 55 673 раза в боль- шом 135-миллионном корпусе НКРЯ, то его частота в ipm составит 137.5, 364.0, 372.06 и 412.39, соответственно».
Следующая важная характеристика, которая есть в частотных слова- рях — это ранг леммы или словоформы. Если расположить единицы час- тотного словаря в порядке по убыванию их частоты, то порядковый номер каждой единицы и будет являться ее рангом (см. табл. 4). Ранг позволяет увидеть самые употребительные слова в тексте или корпусе. Дело в том, что если взять первую тысячу слов данного текста из ранжированного списка (в котором слова расположены по их рангу), то на эти слова при- дется 80–90 % всех слов в этом тексте. Эта удивительная закономерность

позволяет составлять списки слов, которые, например, необходимо в пер- вую выучить, чтобы быстрее изучить иностранный язык. Но главное не забывать, что частота и ранги слов могут отличаться от текста к тексту, могут быть абсолютно разными в произведениях художественной литера- туры, в публицистике, в разговорной речи.


Ранг и частоту связывает знаменитый закон Ципфа: частота слова в частотном словаре обратно пропорциональна его рангу. Подробнее об этом законе можно прочитать в работе [Алексеев 2001], где также много полезной информации о частотных словарях и принципах их создания.
Для более точного определения употребительности слов надо прове- рять насколько равномерно то или иное слово встречается в разных тек- стах, в том числе и в текстах разных функциональных стилей. Поэтому используются некоторые другие меры, например, показатель R (range), который отражает количество сегментов корпуса, в которых встретилось слово или коэффициент Жуйана (D), который отражает равномерность распределения частот в разных сегментах корпуса. Подробнее обо всем этом можно прочитать во Введении к частотному словарю современного русского языка [Ляшевская, Шаров 2009].
Теперь мы прекрасно понимаем, что для того, чтобы частотный сло- варь отражал частоту слов определенного языка, в нем должны быть учте- ны тексты разных жанров, или функциональных стилей. Кроме того, надо учесть тексты разных исторических эпох: частотные словари художест- венных текстов разных периодов XIX века будут абсолютно разными [Шайкевич, Андрющенко, Ребецкая, 2013]. Разными будут и тексты от- дельных периодов ХХ века — дореволюционного, довоенного, послево- енного, перестроечного, послеперестроечного. Как же составить общий частотный словарь современного русского языка, когда текстов огромное количество и все они такие разные? Возникает проблема репрезентатив- ности, которая уже обсуждалась в главе о корпусной лингвистике (см. гла- ва 6). Для решения этой проблемы надо понять структуру генеральной совокупности текстов и на ее основе создать выборочную совокупность. Иными словами, надо выбрать определенное число текстов разных сти- лей, жанров и периодов в определенной пропорции так, чтобы они соот- ветствовали нашим представлениям о языке или подъязыке, который мы покрываем частотным словарем. Это непростая теоретическая и практи- ческая задача, которая не имеет однозначного и идеального решения. Как она была решена для «Нового частотного словаря русской лексики», вы можете узнать самостоятельно во Введении к работе [Ляшевская, Шаров 2009].
Закончим этот раздел тем, как представить материалы частотного словаря. Обычный толковый или орфографический словарь устроен по

алфавитному принципу. Так же может быть составлен и частотный сло- варь (см. табл. 6).




Таблица 6. Пример алфавитного частотного списка [Ляшевская, Шаров]




Лемма



Достарыңызбен бөлісу:
1   ...   182   183   184   185   186   187   188   189   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет