11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	185/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 181 182 183 184 185 186 187 188 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Таблица 3.
Время в тысячах лет Поль- ский Литов- ский
Таблица 4.

глоттохронологией (glottochronology).

Таблица 2. Основной список Сводеша для русского языка

№
1	я	26	корень	51	грудь	76	дождь
2	ты, вы	27	кора, кожура	52	сердце	77	камень

3	мы	28	кожа	53	печень	78	песок
4	это	29	мясо	54	пить	79	земля
5	то	30	кровь	55	есть (кушать)	80	облако
6	кто	31	кость	56	кусать	81	дым
7	что	32	жир	57	видеть	82	огонь
8	не	33	яйцо	58	слышать	83	пепел
9	всё, все	34	рог	59	знать	84	гореть
10	много	35	хвост	60	спать	85	путь
11	один	36	перо	61	умирать	86	гора
12	два	37	волос(ы)	62	убивать	87	красный
13	большой	38	голова	63	плавать	88	зеленый
14	длинный	39	ухо	64	летать	89	желтый
15	маленький	40	глаз	65	гулять	90	белый
16	женщина	41	нос	66	приходить	91	черный
17	мужчина	42	рот	67	лежать	92	ночь
18	человек	43	зуб	68	сидеть	93	горячий
19	рыба	44	язык (орган)	69	стоять	94	холодный
20	птица	45	ноготь	70	дать	95	полный
21	собака	46	нога (стопа)	71	говорить	96	новый
22	вошь	47	колено	72	солнце	97	хороший
23	дерево	48	рука (кисть)	73	луна	98	круглый
24	семя	49	живот	74	звезда	99	сухой
25	лист	50	горло	75	вода	100	имя

Предполагается, что два языка развиваются из праязыка независимо друг от друга. Мы можем вычислить долю совпадающих слов в основных списках (ОС) этих языков и вычислить время, прошедшее с момента их разделения.

Доля совпадения между языками вычисляется по формуле:

n 0
^N^t ^^N^e^ⁿ^^t^,⁽¹⁾
где t — прошедшее время,
^N^t ^—^доля^слов^из^ОС,^{сохранившихся}^к^{моменту}^t^,
N₀ — исходный ОС, принимаемый за 1, если в списке 100 слов,
n — количество языков,

 — постоянная скорость выпадения слов из ОС, которую Сводеш приравнял к 0,14, приняв, что за одну тысячу лет из ста слов выпадает 14.

Принимая, что время распада составляет две тысячи лет (t = 2) для одного (n = 1) языка получаем:

2
^N² ^¹^^e^¹^^0,14^²^^0,⁷⁶^,это означает, что остается 76 слов.
Теперь мы можем вычислить время, разделяющие языки, если мы знаем долю сохранившихся слов ОС:
t  ^ln^Nⁿ^^t^. (2)
nN₀
Так, если доля совпадения слов между двумя (n = 2) языками 80 %
(т. е. 0,8), то время, которое их отделяет равно:


_tln 0,8
2  0,14 1

 0, 796

Это значит около 800 лет.
В дальнейшем данный метод был усовершенствован российским уче- ным Сергеем Старостиным [Старостин 2007]. Не вдаваясь в детали, кото- рые можно прояснить в указанной статье, перечислим основные доработ- ки.
Скорость изменения ОС непостоянна, она зависит от времени. Чем больше времени проходит, тем больше становится вероятность выпадения слова из ОС. Формула (1) принимает вид:

n 0
^N^t ^^N^e^ⁿ^^t2 ^,⁽³⁾
и формула времени тоже меняется:

t  . (4)

Слова в ОС имеют разную устойчивость: одни более устойчивы, дру- гие менее устойчивы. Поэтому скорость распада списка будет переменной величиной, которая зависит в каждый момент времени от доли сохранив- шихся слов. Поэтому формула еще усложняется:

t  . (5)

Но в дальнейшем ее можно упростить, если мы принимаем, что ОС всегда равен 100 словам и языков всегда два, а N(t) обозначается как c:

t  , где с — это N(t). (6)

Эмпирическим путем уточнена постоянная , которая варьирует меж- ду 0,04 и 0,06. Можно считать ее равной 0,05.

Далее предлагается учитывать не слова, а корневые морфемы, ско- рость изменения которых еще меньше, и постоянная может быть прирав- нена к 0,035. Этот метод С. Старостин называет корневой глоттохроно- логией или этимологической статистикой.
В результате можно сравнить данные дивергенции, т. е. разделения, русского языка с польским, литовским, немецким и французским языками, измеренные по двум методикам (см. табл. 3).

Таблица 3. Дивергенция русского с некоторыми языками [Старостин 2007]

Время в тысячах лет	Поль- ский	Литов- ский	Немец- кий	Француз- ский
t, по классической глоттохро- нологии	1,3	3,1	4,7	4,7
t, по корневой глоттохроно- логии	1,2	3,2	4,9	5,1

В настоящее время этот метод совершенствует сын Сергея Старости- на — Георгий Старостин. Он занимается лексикостатистической клас- сификацией — построением классификации малоизученных языков Аф- рики на основе глоттохронологии [Старостин 2013].

Слова, слова, слова: сколько слов мы знаем и сколько нам нужно знать? — Частотные словари

Сколько всего слов в языке? Этот вопрос подобен вопросу: сколько звезд на небе? Есть звезды, которые видны всем, — их не очень много.

Есть звезды, которые видят только люди с хорошим зрением. Есть звезды, которые видны только в телескопы.

Так же обстоит дело со словами в языке. Есть слова, которые исполь- зуют все. Есть слова, которые используют люди с хорошим образованием и утонченным художественным вкусом. Есть слова, которые используют только профессионалы: инженеры, врачи или ученые. Но ведь есть еще слова старые, которые можно встретить только в древних литературных текстах. Есть слова диалектные, которые используют только жители опре- деленных областей страны. Есть сленг, который используют только опре- деленные социальные группы людей. И есть новые заимствования, кото- рые постоянно приходят из других языков. Все это касается только от- дельного естественного языка, имеющего современных носителей, пись- менность и некоторую письменную историю. Считается, что это макси- мум 400–500–600 тысяч слов. Это в таких языках, как русский или анг- лийский.
Но ведь есть языки с небольшой группой носителей, языки беспись- менные, языки, письменность и литература на которых появилась только недавно, наконец, есть «мертвые языки», от которых остались только письменные памятники. Как там посчитать?
С другой стороны, никому не нужно знать всех слов в языке. Когда мы учим английский язык, мы не учим все 600 тысяч слов Оксфордского словаря. Мы учим только те слова, которые нам необходимы в быту или для общения на профессиональные темы. А как узнать, какие слова нам необходимы?
Прикладные лингвисты решают все эти вопросы при помощи слова- рей. Можно составить словарь, в котором будут все слова, которые уда- лось обнаружить в разнообразных современных текстах на данном языке. Можно составить словарь только на основе текстов по химии. Можно со- ставить словарь на основе всех произведений А. С. Пушкина. Так мы уз- наем, сколько всего слов в современном языке, сколько терминов исполь- зуется в химии, сколько слов использовал Пушкин.
А можно составить словарь, в котором будет указана частота встре- чаемости каждого слова в произведениях Пушкина или в научных статьях по химии на английском языке. Это будет частотный словарь. С его помо- щью можно выяснить, какие слова надо в первую очередь знать, чтобы понимать произведения Пушкина или английские работы по химии.
Частотный словарь можно использовать также для дешифровки тек- стов, для определения стиля писателя, для решения сложных вопросов при распознавании речи или в машинном переводе.
Посмотрим, как на каких принципах создается частотный словарь, как он устроен и как его сделать самому. Эти вопросы могут показаться тривиальными: пишем программу, которая составит нам список слов из

какой-нибудь электронной библиотеки, расположенных в порядке убыва- ния частоты от наиболее частых до наиболее редких — и словарь готов. Такая методика никуда не годится: то, что в результате получится не будет словарем и, тем более, не будет частотным словарем.

Прежде всего, надо понимать, что частотный словарь строится на ос- нове определенного текста и будет отражать статистические характери- стики именно этого текста. Современные частотные словари строятся, как правило, на основе языковых корпусов, о которых подробно рассказано в главе 6. От особенностей этого корпуса будет зависеть качество частотно- го словаря.
В основе частотного словаря, как и любого другого, лежит словник — совокупность всех заголовочных слов или словоформ данного словаря, отобранных по определенным принципам. При каждом таком слове или словоформе указана частота ее употребления в данном тексте или корпусе

т. е. число, которое указывает, сколько раз конкретная лексическая еди- ница встретилась в тексте или корпусе (см. Табл. 4).

Таблица 4. Первые 10 слов из словаря [Ляшевская, Шаров 2009]

Ранг

Лемма

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 181 182 183 184 185 186 187 188 ... 197

11 Часть I. Компоненты 14 Глава Компьютерная

Слова, слова, слова: сколько слов мы знаем и сколько нам нужно знать? — Частотные словари