11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	183/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 179 180 181 182 183 184 185 186 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Русский Англий- ский Якут- ский Вьет- намский

Таблица 1. Некоторые типологические индексы по Гринбергу

	Русский	Англий- ский	Якут- ский	Вьет- намский	Эски- мосский
Синтез	2,33	1,68	2,17	1,06	3,72
Деривация	0,37	0,15	0,35	0,00	1,25
Префиксация	0,17	0,04	0,00	0,00	0,00
Суффиксация	1,15	0,64	1,15	0,00	2,72

Все эти пять языков совершенно разного типа, или, как говорят лин- гвисты, разного строя. Разницу между языками можно точно описать при помощи специальных индексов.

Хотя не все современные лингвисты, занимающиеся типологией язы- ка, согласны с подобной классификацией, она все еще используется для общей характеристики языков.

Части речи: можно ли определить, о чем текст? — Стилеметрия

Мы прекрасно понимаем, как отличаются друг от друга по содержа- нию научные и художественные произведения, и можем без труда отли- чить научную книгу от художественной. А различаются ли такие произве- дения по языку? Если мы посчитаем отдельно количество существитель- ных, глаголов и местоимений в научных и художественных текстах на русском языке, то мы увидим, что в научных текстах примерно в два раза меньше глаголов, чем в художественных, и примерно в полтора раза меньше местоимений, но примерно на 20 % больше существительных. Примерно так же будут отличаться тексты газет и тексты театральных пьес. Произведения разных жанров используют различные пропорции частей речи: там, где больше событий, там больше глаголов; там, где больше описаний, там больше существительных; там, где больше диало- гов между людьми, там больше местоимений. Все очень просто.
На таких принципах основана стилеметрия (stylometry) — количест- венное исследование стилей текстов, написанных разными писателями в разных жанрах. Разумеется, в стилеметрии подсчитывают не только (и не столько) части речи. Исследователи пытаются найти особенности речи, которые могут быть статистически значимыми, в отличие от общих осо- бенностей языка, которые одинаковы у всех [Тулдава 1987].
Существует множество разных методов: от лингвистических, осно- ванных на статистике и комбинаторике языковых средств до математиче- ских, основанных на анализе большого объема текстов, например, мето- дами машинного обучения.
Стилеметрия может использоваться для классификации текстов [Мартыненко 1988], для определения жанров [Kessler, Numberg, Schutze 1997], для определения авторства анонимных и псевдонимных произведе- ний [Марусенко 1990, Stamatatos 2009].
Исследователи из Университета Стоуни Брук (США) использовали методы стилеметрии и алгоритмы машинного обучения (подробнее ма- шинное обучение описано в главе 5 нашей книги) для предсказания попу- лярности новых книг и даже сценариев фильмов [Ashok, Feng, Choi, 2015]. Посмотрим, как они это сделали. Для начала ученые посмотрели стати- стику скачивания книг разных жанров на сайте англоязычной электронной библиотеки Проект Гутенберг (www.gutenberg.org), где хранится около 40 000 книг. Затем они выбрали по 50 самых популярных текстов и 50 самых непопулярных текстов в следующих жанрах книг и киносценариев: при- ключения, детектив, художественная литература, исторические романы, любовные романы, поэзия, научная фантастика и короткий рассказ. Они составили обучающую выборку для алгоритма обучения с учителем.

В качестве лингвистических параметров для квантитативного иссле- дования были выбраны:

а) лексика: униграммы и биграммы, т. е. отдельные слова и двухсловные сочетания;
б) части речи: распределение слов в текстах по частям речи;
в) простые грамматические характеристики: распределение в произве- дениях некоторых простейших синтаксических структур;
г) сложные грамматические характеристики: распределение в произве- дениях некоторых сложных синтаксических структур;
д) тональность и коннотации: слова, обозначающие чувства, и слова, имеющие дополнительные эмоциональные или оценочные оттенки.
Далее было произведено обучение на основе 1000 первых предложе- ний из текстов обучающей выборки с помощью пакета машинного обуче- ния LibLinear и оценка на основе тестовой выборки из этой же электрон- ной библиотеки. Результат оказался достаточно высоким: точность оценки популярности произведений была не меньше 74 % и достигла 84 % в жан- ре Приключения.
Исследователи проанализировали лингвистические параметры, кото- рые влияли на популярность произведений.
Например, в категории униграмм в более популярных текстах встре- чались такие английские слова (слова очень простые, и для экономии мес- та мы оставляем их без перевода): not, said, words, says, I, me, my, and, which, though, that, as, after, but, where, what, whom, since, whenever, up, into, out, after, in, within, recognized, remembered.
В непопулярных произведениях преобладали следующие слова: never, risk, worse, slaves, hard, murdered, bruised, heavy, prison, face, arm, body, skins, room, beach, bay, hills, avenue, boat, door, want, went, took, promise, cry, shout, jump, glare, urge, very, breathless, sacred slightest, absolutely, perfectly, desires, affairs.
Далее, ученые использовали обученный алгоритм для проверки попу- лярности книг, которых нет в электронной библиотеке проекта Гутенберг. Были выбраны 10 книг писателей, успех которых среди читателей не вы- зывает сомнения, включая некоторых авторов, получивших престижные литературные премии, среди них М. Сервантес, Ч. Диккенс, Э. Хемингуэй, Дж. Апдайк, Р. Стивенсон, Ф. Рот.
Алгоритм, работающий на униграммах, показал, что все эти книги должны быть популярными. Алгоритм, работающий на сложных синтак- сических структурах, сделал вывод, что 7 из 10 книг будут иметь успех. В разряд непопулярных попал, например, рассказ Э. Хемингуэя «Старик и море», потому что в этом произведении автор использует в основном про- стые предложения.

Несмотря на то что, исследователи не добились таких же высоких ре- зультатов для жанра киносценариев, они уверены, что теперь их алгоритм может быть усовершенствован не только для прогнозирования успеха ки- нофильмов, но и для предсказания успешности научных статей. Ученые отмечают, что с помощью разработанной методики можно также оцени- вать «читабельность» любого текста, т. е. насколько он просто и понятно написан с точки зрения среднестатистического читателя. Эта возможность имеет практическое значение — представьте себе текстовый редактор, который сможет вам подсказать, как сделать ваше сочинение или курсо- вую работу более приятной для преподавателя и повысить его оценку.

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 179 180 181 182 183 184 185 186 ... 197

11 Часть I. Компоненты 14 Глава Компьютерная

Части речи: можно ли определить, о чем текст? — Стилеметрия