Часть ре- чи
|
Частота (ipm)
|
R
|
D
|
Текстов
|
17987
|
лимфоцит
|
s
|
4,3
|
18
|
61
|
86
|
17988
|
лингвист
|
s
|
3,6
|
80
|
79
|
184
|
17989
|
лингвистика
|
s
|
3,8
|
64
|
64
|
141
|
17990
|
лингвистический
|
a
|
6,3
|
81
|
77
|
247
|
17991
|
линейка
|
s
|
8,6
|
95
|
93
|
459
|
17992
|
линейно
|
adv
|
0,6
|
20
|
71
|
43
|
17993
|
линейность
|
s
|
0,5
|
25
|
76
|
32
|
17994
|
линейный
|
a
|
15,5
|
85
|
81
|
619
|
17995
|
линза
|
s
|
6
|
96
|
88
|
253
|
17996
|
линия
|
s
|
143,7
|
100
|
94
|
4534
|
17997
|
линкор
|
s
|
1,1
|
43
|
82
|
58
|
Второй способ упорядочивания лемм или словоформ — частотный (см. табл. 4). Третий способ — это тематический. Частотные словари тако- го типа встречается редко, но все, кто изучал иностранные языки знают, что есть тематические словари, в которых представлена самая частотная (и самая важная лексика) по разнообразным темам.
И в заключение посмотрим на список самых важных слов русского языка (табл. 7). Они получены при помощи коэффициента логарифми- ческого правдоподобия (LL-score), который получают, учитывая частоты слов в разных подкорпусах по методике, описанной во Введении к слова- рю [Ляшевская, Шаров 2009].
Таблица 7. 25 самых важных слов разговорной русской речи [Ляшевская, Шаров 2009]
№
|
Лемма
|
Часть речи
|
Частота
в корпусе (ipm)
|
Частота
в подкорпусе (ipm)
|
LL-score
|
1
|
ну
|
part
|
1114,6
|
17208
|
39648
|
2
|
да
|
part
|
787,5
|
11847
|
26881
|
3
|
вот
|
part
|
1785,1
|
15698,6
|
24493
|
4
|
там
|
advpro
|
1128,1
|
10531,7
|
17241
|
5
|
ты
|
spro
|
3171,2
|
13503,8
|
9491
|
6
|
угу
|
intj
|
24,6
|
2068,8
|
9324
|
7
|
я
|
spro
|
12684,4
|
33686,4
|
9186
|
8
|
нет
|
part
|
589,2
|
4618,9
|
6532
|
9
|
а
|
conj
|
8198
|
20593,3
|
4783
|
10
|
вообще
|
adv
|
417,6
|
2989,8
|
3890
|
11
|
у
|
pr
|
4306,1
|
11807,9
|
3508
|
12
|
знать
|
v
|
1713,8
|
6269,4
|
3446
|
13
|
говорить
|
v
|
1755
|
6275,7
|
3312
|
14
|
ой
|
intj
|
64,5
|
1234,7
|
3204
|
15
|
э
|
intj
|
19,4
|
815,2
|
2974
|
16
|
э-э
|
intj
|
11,5
|
711,9
|
2947
|
17
|
ага
|
intj
|
40,2
|
975,2
|
2842
|
18
|
да
|
conj
|
801
|
3445,9
|
2459
|
19
|
давай
|
part
|
100,3
|
1179,3
|
2287
|
20
|
ладно
|
part
|
110,3
|
1202
|
2210
|
21
|
сейчас
|
advpro
|
897,3
|
3473,7
|
2097
|
22
|
так
|
advpro
|
3440,4
|
8528,4
|
1902
|
23
|
что
|
spro
|
3810,2
|
9167,2
|
1858
|
24
|
еще
|
part
|
85,5
|
963,8
|
1815
|
25
|
такой
|
apro
|
2696,8
|
6968,6
|
1759
|
Не правда ли, эти слова напоминают реплики занятого человека, ко- торый разговаривает по мобильному телефону и одновременно читает письмо в электронной почте? Есть, о чем задуматься, и есть, что еще ис- следовать!
Порядок, строй, парадигма: насколько стройна грамматика? — Квантитативная морфология
Чтобы выучить названия и порядок падежей русского языка исполь- зуют старое мнемоническое правило: Иван родил девчонку, велел тащить пеленку.
Но в реальности частотное распределение падежей русского языка другое. В Табл. 8 приведены данные из четырех разных корпусных иссле- дований русского языка.
Таблица 8. Частотное распределение русских падежей [Копотев 2008]
Корпус
|
Им.
|
Род.
|
Дат.
|
Вин.
|
Тв.
|
Предл.
|
НКРЯ
|
27,06
|
29,23
|
5,98
|
18,66
|
8,44
|
10,63
|
ХАНКО
|
24,30
|
32,62
|
5,50
|
17,73
|
8,08
|
11,78
|
Josselson
|
38,80
|
16,80
|
4,70
|
26,30
|
6,50
|
6,90
|
Steinfeldt
|
33,60
|
24,60
|
5,10
|
19,50
|
7,80
|
9,40
|
Мы видим, что частотный порядок падежей в текстах отличается от того, который мы учим в школе и видим в грамматиках:
Род.>Им.>Вин.>Предл.>Тв.>Дат. (в двух современных корпусах); Им.> Вин.>Род.> Предл.>Тв.>Дат. (в исследовании 1953 г.); Им.>Род.> Вин.>Предл.>Тв.>Дат. (в исследование 1963 г.).
Впервые на это обратил внимание В. А. Никонов в статье [Никонов 1959], опубликованной в выпуске 3 сборника «Машинный перевод и при- кладная лингвистика». Исследуя тексты разных жанров, он пришел к вы- воду, что распределение падежей различается в художественной прозе, в разговорной речи и в деловой, научной и политической литературе. Кроме того, частота отдельных падежей внутри одного жанра меняется в зависи- мости от эпохи написания произведения.
Ситуация очень похожа на ту, что мы рассматривали в разделе о час- тотных словарях, но уже касается не лексики, а грамматики. Из этой кар- тины следует несколько очень важных выводов.
Во-первых, наши устоявшиеся представления о том, как устроен язык
его грамматика и лексика — могут отличаться от того, как на самом деле язык используется в реальности и проявляется в речи и в текстах.
Во-вторых, исследуя тексты и речевые произведения на каком-либо языке, мы можем так и не узнать, как на самом деле устроен этот язык, если не будем использовать математические методы исследования, а будем полагаться на нашу интуицию.
И, в-третьих, частотные и структурные характеристики текстов отли- чаются в разных функциональных стилях, в разные исторические перио- ды, в произведениях разных авторов. Значит, и язык — это очень вариа- тивная и неоднородная структура, в которой, тем не менее, есть некоторое ядро, которое относительно стабильно, поэтому мы можем выучить род- ной или иностранный язык и на нем разговаривать и писать.
Как вы думаете, какие падежи в первую очередь осваивают дети, на- чинающие говорить на русском языке? Если полагаться на данные табл. 8, то, вероятно, первыми падежами будут именительный, родительный и винительный. Исследования специалистов по детской речи частично под- тверждают это предположение. Например, М. Д. Воейкова, ссылаясь на мнение коллег, считает, что «первично противопоставлен именительный и винительный, остальные появляются очень быстро и почти одновремен- но» [Воейкова 2011].
В теоретической лингвистике в последние десятилетия сформирова- лась концепция грамматики, основанной на употреблении (usage-based grammar), в которой предполагается, что частота использования тех или иных языковых единиц в речи влияет на их структурные свойства. Часто употребляемые слова могут иметь неправильные или более архаичные формы. Вспомните, что самые необходимые глаголы английского или не- мецкого языка являются исключениями из правил при спряжении. Неко- торые русские фразеологизмы не поддаются анализу на основе современ- ной грамматики: ничтоже сумняшеся, притча во языцех и т. п.
В когнитивной лингвистике обсуждается гипотеза о том, что более употребительные грамматические формы и конструкции мы храним в па- мяти уже в готовом виде как отдельные единицы (pre-fabricated units), чтобы не тратить время на их порождение, когда мы говорим.
И, наоборот, более редкие грамматические формы вообще могут от- сутствовать в активном словарном запасе человека и заново образовать их весьма затруднительно. Вспомним так называемые дефектные парадигмы, где отсутствуют некоторые формы слов, например, знаменитое: победю или побежду, 5 кочерег или 5 кочерг.
Для исследования всех этих явлений необходимо исследовать частоту грамматических форм и грамматических категорий, а это возможно только на основе больших корпусов текстов различных жанров и при помощи правильно подобранных и тщательно разработанных статистических ме- тодов. В последние годы в прикладной лингвистике складывается новой направление — квантитативная морфология, о которой подробнее мож- но прочитать в работе [Николаев 2012].
Последний раздел этой главы остается недописанным, потому что эта научная область активно развивается, и мы ожидаем здесь новых работ и новых результатов. Из последних проектов нужно упомянуть создание
частотного лексико-грамматического словаря русского языка, который строится на материалах Национального корпуса русского языка. Он даст возможность увидеть частотное распределение словоформ по парадигмам для существительных, прилагательных и глаголов, посмотреть на иерар- хию форм у определенной единицы или класса единиц [Ляшевская 2013].
Как вы увидели, квантитативная лингвистика включает очень разные аспекты исследования языка. Мы рассмотрели только некоторые из них. О многих других можно узнать в учебном пособии [Прикладное языкозна- ние 1996], классическом учебнике [Пиотровский, Бектаев, Пиотровская 1977], в монографии [Арапов 1988] и в коллективной монографии [Quantitative Linguistik 2005], а также в материалах Международной кон- ференции по компьютерной лингвистике Диалог (http://www.dialog-21.ru).
Достарыңызбен бөлісу: |