11 Часть I. Компоненты 14 Глава Компьютерная



бет187/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   183   184   185   186   187   188   189   190   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж
Часть ре- чи

Частота (ipm)

R

D

Текстов

17987

лимфоцит

s

4,3

18

61

86

17988

лингвист

s

3,6

80

79

184

17989

лингвистика

s

3,8

64

64

141

17990

лингвистический

a

6,3

81

77

247

17991

линейка

s

8,6

95

93

459

17992

линейно

adv

0,6

20

71

43

17993

линейность

s

0,5

25

76

32

17994

линейный

a

15,5

85

81

619

17995

линза

s

6

96

88

253

17996

линия

s

143,7

100

94

4534

17997

линкор

s

1,1

43

82

58

Второй способ упорядочивания лемм или словоформ — частотный (см. табл. 4). Третий способ — это тематический. Частотные словари тако- го типа встречается редко, но все, кто изучал иностранные языки знают, что есть тематические словари, в которых представлена самая частотная (и самая важная лексика) по разнообразным темам.


И в заключение посмотрим на список самых важных слов русского языка (табл. 7). Они получены при помощи коэффициента логарифми- ческого правдоподобия (LL-score), который получают, учитывая частоты слов в разных подкорпусах по методике, описанной во Введении к слова- рю [Ляшевская, Шаров 2009].


Таблица 7. 25 самых важных слов разговорной русской речи [Ляшевская, Шаров 2009]







Лемма

Часть речи

Частота
в корпусе (ipm)

Частота
в подкорпусе (ipm)



LL-score

1

ну

part

1114,6

17208

39648

2

да

part

787,5

11847

26881




3

вот

part

1785,1

15698,6

24493

4

там

advpro

1128,1

10531,7

17241

5

ты

spro

3171,2

13503,8

9491

6

угу

intj

24,6

2068,8

9324

7

я

spro

12684,4

33686,4

9186

8

нет

part

589,2

4618,9

6532

9

а

conj

8198

20593,3

4783

10

вообще

adv

417,6

2989,8

3890

11

у

pr

4306,1

11807,9

3508

12

знать

v

1713,8

6269,4

3446

13

говорить

v

1755

6275,7

3312

14

ой

intj

64,5

1234,7

3204

15

э

intj

19,4

815,2

2974

16

э-э

intj

11,5

711,9

2947

17

ага

intj

40,2

975,2

2842

18

да

conj

801

3445,9

2459

19

давай

part

100,3

1179,3

2287

20

ладно

part

110,3

1202

2210

21

сейчас

advpro

897,3

3473,7

2097

22

так

advpro

3440,4

8528,4

1902

23

что

spro

3810,2

9167,2

1858

24

еще

part

85,5

963,8

1815

25

такой

apro

2696,8

6968,6

1759

Не правда ли, эти слова напоминают реплики занятого человека, ко- торый разговаривает по мобильному телефону и одновременно читает письмо в электронной почте? Есть, о чем задуматься, и есть, что еще ис- следовать!




  1. Порядок, строй, парадигма: насколько стройна грамматика? — Квантитативная морфология


Чтобы выучить названия и порядок падежей русского языка исполь- зуют старое мнемоническое правило: Иван родил девчонку, велел тащить пеленку.
Но в реальности частотное распределение падежей русского языка другое. В Табл. 8 приведены данные из четырех разных корпусных иссле- дований русского языка.


Таблица 8. Частотное распределение русских падежей [Копотев 2008]



Корпус

Им.

Род.

Дат.

Вин.

Тв.

Предл.

НКРЯ

27,06

29,23

5,98

18,66

8,44

10,63

ХАНКО

24,30

32,62

5,50

17,73

8,08

11,78

Josselson

38,80

16,80

4,70

26,30

6,50

6,90

Steinfeldt

33,60

24,60

5,10

19,50

7,80

9,40

Мы видим, что частотный порядок падежей в текстах отличается от того, который мы учим в школе и видим в грамматиках:


Род.>Им.>Вин.>Предл.>Тв.>Дат. (в двух современных корпусах); Им.> Вин.>Род.> Предл.>Тв.>Дат. (в исследовании 1953 г.); Им.>Род.> Вин.>Предл.>Тв.>Дат. (в исследование 1963 г.).
Впервые на это обратил внимание В. А. Никонов в статье [Никонов 1959], опубликованной в выпуске 3 сборника «Машинный перевод и при- кладная лингвистика». Исследуя тексты разных жанров, он пришел к вы- воду, что распределение падежей различается в художественной прозе, в разговорной речи и в деловой, научной и политической литературе. Кроме того, частота отдельных падежей внутри одного жанра меняется в зависи- мости от эпохи написания произведения.
Ситуация очень похожа на ту, что мы рассматривали в разделе о час- тотных словарях, но уже касается не лексики, а грамматики. Из этой кар- тины следует несколько очень важных выводов.
Во-первых, наши устоявшиеся представления о том, как устроен язык

  • его грамматика и лексика — могут отличаться от того, как на самом деле язык используется в реальности и проявляется в речи и в текстах.

Во-вторых, исследуя тексты и речевые произведения на каком-либо языке, мы можем так и не узнать, как на самом деле устроен этот язык, если не будем использовать математические методы исследования, а будем полагаться на нашу интуицию.

И, в-третьих, частотные и структурные характеристики текстов отли- чаются в разных функциональных стилях, в разные исторические перио- ды, в произведениях разных авторов. Значит, и язык — это очень вариа- тивная и неоднородная структура, в которой, тем не менее, есть некоторое ядро, которое относительно стабильно, поэтому мы можем выучить род- ной или иностранный язык и на нем разговаривать и писать.


Как вы думаете, какие падежи в первую очередь осваивают дети, на- чинающие говорить на русском языке? Если полагаться на данные табл. 8, то, вероятно, первыми падежами будут именительный, родительный и винительный. Исследования специалистов по детской речи частично под- тверждают это предположение. Например, М. Д. Воейкова, ссылаясь на мнение коллег, считает, что «первично противопоставлен именительный и винительный, остальные появляются очень быстро и почти одновремен- но» [Воейкова 2011].
В теоретической лингвистике в последние десятилетия сформирова- лась концепция грамматики, основанной на употреблении (usage-based grammar), в которой предполагается, что частота использования тех или иных языковых единиц в речи влияет на их структурные свойства. Часто употребляемые слова могут иметь неправильные или более архаичные формы. Вспомните, что самые необходимые глаголы английского или не- мецкого языка являются исключениями из правил при спряжении. Неко- торые русские фразеологизмы не поддаются анализу на основе современ- ной грамматики: ничтоже сумняшеся, притча во языцех и т. п.
В когнитивной лингвистике обсуждается гипотеза о том, что более употребительные грамматические формы и конструкции мы храним в па- мяти уже в готовом виде как отдельные единицы (pre-fabricated units), чтобы не тратить время на их порождение, когда мы говорим.
И, наоборот, более редкие грамматические формы вообще могут от- сутствовать в активном словарном запасе человека и заново образовать их весьма затруднительно. Вспомним так называемые дефектные парадигмы, где отсутствуют некоторые формы слов, например, знаменитое: победю или побежду, 5 кочерег или 5 кочерг.
Для исследования всех этих явлений необходимо исследовать частоту грамматических форм и грамматических категорий, а это возможно только на основе больших корпусов текстов различных жанров и при помощи правильно подобранных и тщательно разработанных статистических ме- тодов. В последние годы в прикладной лингвистике складывается новой направление — квантитативная морфология, о которой подробнее мож- но прочитать в работе [Николаев 2012].
Последний раздел этой главы остается недописанным, потому что эта научная область активно развивается, и мы ожидаем здесь новых работ и новых результатов. Из последних проектов нужно упомянуть создание

частотного лексико-грамматического словаря русского языка, который строится на материалах Национального корпуса русского языка. Он даст возможность увидеть частотное распределение словоформ по парадигмам для существительных, прилагательных и глаголов, посмотреть на иерар- хию форм у определенной единицы или класса единиц [Ляшевская 2013].


Как вы увидели, квантитативная лингвистика включает очень разные аспекты исследования языка. Мы рассмотрели только некоторые из них. О многих других можно узнать в учебном пособии [Прикладное языкозна- ние 1996], классическом учебнике [Пиотровский, Бектаев, Пиотровская 1977], в монографии [Арапов 1988] и в коллективной монографии [Quantitative Linguistik 2005], а также в материалах Международной кон- ференции по компьютерной лингвистике Диалог (http://www.dialog-21.ru).




Достарыңызбен бөлісу:
1   ...   183   184   185   186   187   188   189   190   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет