глоттохронологией (glottochronology).
Таблица 2. Основной список Сводеша для русского языка
№
|
|
|
|
|
|
|
|
1
|
я
|
26
|
корень
|
51
|
грудь
|
76
|
дождь
|
2
|
ты, вы
|
27
|
кора, кожура
|
52
|
сердце
|
77
|
камень
|
3
|
мы
|
28
|
кожа
|
53
|
печень
|
78
|
песок
|
4
|
это
|
29
|
мясо
|
54
|
пить
|
79
|
земля
|
5
|
то
|
30
|
кровь
|
55
|
есть (кушать)
|
80
|
облако
|
6
|
кто
|
31
|
кость
|
56
|
кусать
|
81
|
дым
|
7
|
что
|
32
|
жир
|
57
|
видеть
|
82
|
огонь
|
8
|
не
|
33
|
яйцо
|
58
|
слышать
|
83
|
пепел
|
9
|
всё, все
|
34
|
рог
|
59
|
знать
|
84
|
гореть
|
10
|
много
|
35
|
хвост
|
60
|
спать
|
85
|
путь
|
11
|
один
|
36
|
перо
|
61
|
умирать
|
86
|
гора
|
12
|
два
|
37
|
волос(ы)
|
62
|
убивать
|
87
|
красный
|
13
|
большой
|
38
|
голова
|
63
|
плавать
|
88
|
зеленый
|
14
|
длинный
|
39
|
ухо
|
64
|
летать
|
89
|
желтый
|
15
|
маленький
|
40
|
глаз
|
65
|
гулять
|
90
|
белый
|
16
|
женщина
|
41
|
нос
|
66
|
приходить
|
91
|
черный
|
17
|
мужчина
|
42
|
рот
|
67
|
лежать
|
92
|
ночь
|
18
|
человек
|
43
|
зуб
|
68
|
сидеть
|
93
|
горячий
|
19
|
рыба
|
44
|
язык (орган)
|
69
|
стоять
|
94
|
холодный
|
20
|
птица
|
45
|
ноготь
|
70
|
дать
|
95
|
полный
|
21
|
собака
|
46
|
нога (стопа)
|
71
|
говорить
|
96
|
новый
|
22
|
вошь
|
47
|
колено
|
72
|
солнце
|
97
|
хороший
|
23
|
дерево
|
48
|
рука (кисть)
|
73
|
луна
|
98
|
круглый
|
24
|
семя
|
49
|
живот
|
74
|
звезда
|
99
|
сухой
|
25
|
лист
|
50
|
горло
|
75
|
вода
|
100
|
имя
|
Предполагается, что два языка развиваются из праязыка независимо друг от друга. Мы можем вычислить долю совпадающих слов в основных списках (ОС) этих языков и вычислить время, прошедшее с момента их разделения.
Доля совпадения между языками вычисляется по формуле:
n 0
N t N ent , (1)
где t — прошедшее время,
N t — доля слов из ОС, сохранившихся к моменту t,
N0 — исходный ОС, принимаемый за 1, если в списке 100 слов,
n — количество языков,
— постоянная скорость выпадения слов из ОС, которую Сводеш приравнял к 0,14, приняв, что за одну тысячу лет из ста слов выпадает 14.
Принимая, что время распада составляет две тысячи лет (t = 2) для одного (n = 1) языка получаем:
2
N 2 1 e10,142 0, 76 , это означает, что остается 76 слов.
Теперь мы можем вычислить время, разделяющие языки, если мы знаем долю сохранившихся слов ОС:
t ln Nn t . (2)
nN0
Так, если доля совпадения слов между двумя (n = 2) языками 80 %
(т. е. 0,8), то время, которое их отделяет равно:
t ln 0,8
2 0,14 1
0, 796
Это значит около 800 лет.
В дальнейшем данный метод был усовершенствован российским уче- ным Сергеем Старостиным [Старостин 2007]. Не вдаваясь в детали, кото- рые можно прояснить в указанной статье, перечислим основные доработ- ки.
Скорость изменения ОС непостоянна, она зависит от времени. Чем больше времени проходит, тем больше становится вероятность выпадения слова из ОС. Формула (1) принимает вид:
n 0
N t N ent2 , (3)
и формула времени тоже меняется:
t . (4)
Слова в ОС имеют разную устойчивость: одни более устойчивы, дру- гие менее устойчивы. Поэтому скорость распада списка будет переменной величиной, которая зависит в каждый момент времени от доли сохранив- шихся слов. Поэтому формула еще усложняется:
t . (5)
Но в дальнейшем ее можно упростить, если мы принимаем, что ОС всегда равен 100 словам и языков всегда два, а N(t) обозначается как c:
t , где с — это N(t). (6)
Эмпирическим путем уточнена постоянная , которая варьирует меж- ду 0,04 и 0,06. Можно считать ее равной 0,05.
Далее предлагается учитывать не слова, а корневые морфемы, ско- рость изменения которых еще меньше, и постоянная может быть прирав- нена к 0,035. Этот метод С. Старостин называет корневой глоттохроно- логией или этимологической статистикой.
В результате можно сравнить данные дивергенции, т. е. разделения, русского языка с польским, литовским, немецким и французским языками, измеренные по двум методикам (см. табл. 3).
Таблица 3. Дивергенция русского с некоторыми языками [Старостин 2007]
Время в тысячах лет
|
Поль- ский
|
Литов- ский
|
Немец- кий
|
Француз- ский
|
t, по классической глоттохро- нологии
|
1,3
|
3,1
|
4,7
|
4,7
|
t, по корневой глоттохроно- логии
|
1,2
|
3,2
|
4,9
|
5,1
|
В настоящее время этот метод совершенствует сын Сергея Старости- на — Георгий Старостин. Он занимается лексикостатистической клас- сификацией — построением классификации малоизученных языков Аф- рики на основе глоттохронологии [Старостин 2013].
Слова, слова, слова: сколько слов мы знаем и сколько нам нужно знать? — Частотные словари
Сколько всего слов в языке? Этот вопрос подобен вопросу: сколько звезд на небе? Есть звезды, которые видны всем, — их не очень много.
Есть звезды, которые видят только люди с хорошим зрением. Есть звезды, которые видны только в телескопы.
Так же обстоит дело со словами в языке. Есть слова, которые исполь- зуют все. Есть слова, которые используют люди с хорошим образованием и утонченным художественным вкусом. Есть слова, которые используют только профессионалы: инженеры, врачи или ученые. Но ведь есть еще слова старые, которые можно встретить только в древних литературных текстах. Есть слова диалектные, которые используют только жители опре- деленных областей страны. Есть сленг, который используют только опре- деленные социальные группы людей. И есть новые заимствования, кото- рые постоянно приходят из других языков. Все это касается только от- дельного естественного языка, имеющего современных носителей, пись- менность и некоторую письменную историю. Считается, что это макси- мум 400–500–600 тысяч слов. Это в таких языках, как русский или анг- лийский.
Но ведь есть языки с небольшой группой носителей, языки беспись- менные, языки, письменность и литература на которых появилась только недавно, наконец, есть «мертвые языки», от которых остались только письменные памятники. Как там посчитать?
С другой стороны, никому не нужно знать всех слов в языке. Когда мы учим английский язык, мы не учим все 600 тысяч слов Оксфордского словаря. Мы учим только те слова, которые нам необходимы в быту или для общения на профессиональные темы. А как узнать, какие слова нам необходимы?
Прикладные лингвисты решают все эти вопросы при помощи слова- рей. Можно составить словарь, в котором будут все слова, которые уда- лось обнаружить в разнообразных современных текстах на данном языке. Можно составить словарь только на основе текстов по химии. Можно со- ставить словарь на основе всех произведений А. С. Пушкина. Так мы уз- наем, сколько всего слов в современном языке, сколько терминов исполь- зуется в химии, сколько слов использовал Пушкин.
А можно составить словарь, в котором будет указана частота встре- чаемости каждого слова в произведениях Пушкина или в научных статьях по химии на английском языке. Это будет частотный словарь. С его помо- щью можно выяснить, какие слова надо в первую очередь знать, чтобы понимать произведения Пушкина или английские работы по химии.
Частотный словарь можно использовать также для дешифровки тек- стов, для определения стиля писателя, для решения сложных вопросов при распознавании речи или в машинном переводе.
Посмотрим, как на каких принципах создается частотный словарь, как он устроен и как его сделать самому. Эти вопросы могут показаться тривиальными: пишем программу, которая составит нам список слов из
какой-нибудь электронной библиотеки, расположенных в порядке убыва- ния частоты от наиболее частых до наиболее редких — и словарь готов. Такая методика никуда не годится: то, что в результате получится не будет словарем и, тем более, не будет частотным словарем.
Прежде всего, надо понимать, что частотный словарь строится на ос- нове определенного текста и будет отражать статистические характери- стики именно этого текста. Современные частотные словари строятся, как правило, на основе языковых корпусов, о которых подробно рассказано в главе 6. От особенностей этого корпуса будет зависеть качество частотно- го словаря.
В основе частотного словаря, как и любого другого, лежит словник — совокупность всех заголовочных слов или словоформ данного словаря, отобранных по определенным принципам. При каждом таком слове или словоформе указана частота ее употребления в данном тексте или корпусе
т. е. число, которое указывает, сколько раз конкретная лексическая еди- ница встретилась в тексте или корпусе (см. Табл. 4).
Таблица 4. Первые 10 слов из словаря [Ляшевская, Шаров 2009]
Достарыңызбен бөлісу: |