11 Часть I. Компоненты 14 Глава Компьютерная



бет183/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   179   180   181   182   183   184   185   186   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж
Таблица 1. Некоторые типологические индексы по Гринбергу






Русский

Англий- ский

Якут- ский

Вьет- намский

Эски- мосский

Синтез

2,33

1,68

2,17

1,06

3,72

Деривация

0,37

0,15

0,35

0,00

1,25

Префиксация

0,17

0,04

0,00

0,00

0,00

Суффиксация

1,15

0,64

1,15

0,00

2,72

Все эти пять языков совершенно разного типа, или, как говорят лин- гвисты, разного строя. Разницу между языками можно точно описать при помощи специальных индексов.


Хотя не все современные лингвисты, занимающиеся типологией язы- ка, согласны с подобной классификацией, она все еще используется для общей характеристики языков.


  1. Части речи: можно ли определить, о чем текст? — Стилеметрия


Мы прекрасно понимаем, как отличаются друг от друга по содержа- нию научные и художественные произведения, и можем без труда отли- чить научную книгу от художественной. А различаются ли такие произве- дения по языку? Если мы посчитаем отдельно количество существитель- ных, глаголов и местоимений в научных и художественных текстах на русском языке, то мы увидим, что в научных текстах примерно в два раза меньше глаголов, чем в художественных, и примерно в полтора раза меньше местоимений, но примерно на 20 % больше существительных. Примерно так же будут отличаться тексты газет и тексты театральных пьес. Произведения разных жанров используют различные пропорции частей речи: там, где больше событий, там больше глаголов; там, где больше описаний, там больше существительных; там, где больше диало- гов между людьми, там больше местоимений. Все очень просто.
На таких принципах основана стилеметрия (stylometry) — количест- венное исследование стилей текстов, написанных разными писателями в разных жанрах. Разумеется, в стилеметрии подсчитывают не только (и не столько) части речи. Исследователи пытаются найти особенности речи, которые могут быть статистически значимыми, в отличие от общих осо- бенностей языка, которые одинаковы у всех [Тулдава 1987].
Существует множество разных методов: от лингвистических, осно- ванных на статистике и комбинаторике языковых средств до математиче- ских, основанных на анализе большого объема текстов, например, мето- дами машинного обучения.
Стилеметрия может использоваться для классификации текстов [Мартыненко 1988], для определения жанров [Kessler, Numberg, Schutze 1997], для определения авторства анонимных и псевдонимных произведе- ний [Марусенко 1990, Stamatatos 2009].
Исследователи из Университета Стоуни Брук (США) использовали методы стилеметрии и алгоритмы машинного обучения (подробнее ма- шинное обучение описано в главе 5 нашей книги) для предсказания попу- лярности новых книг и даже сценариев фильмов [Ashok, Feng, Choi, 2015]. Посмотрим, как они это сделали. Для начала ученые посмотрели стати- стику скачивания книг разных жанров на сайте англоязычной электронной библиотеки Проект Гутенберг (www.gutenberg.org), где хранится около 40 000 книг. Затем они выбрали по 50 самых популярных текстов и 50 самых непопулярных текстов в следующих жанрах книг и киносценариев: при- ключения, детектив, художественная литература, исторические романы, любовные романы, поэзия, научная фантастика и короткий рассказ. Они составили обучающую выборку для алгоритма обучения с учителем.

В качестве лингвистических параметров для квантитативного иссле- дования были выбраны:


а) лексика: униграммы и биграммы, т. е. отдельные слова и двухсловные сочетания;
б) части речи: распределение слов в текстах по частям речи;
в) простые грамматические характеристики: распределение в произве- дениях некоторых простейших синтаксических структур;
г) сложные грамматические характеристики: распределение в произве- дениях некоторых сложных синтаксических структур;
д) тональность и коннотации: слова, обозначающие чувства, и слова, имеющие дополнительные эмоциональные или оценочные оттенки.
Далее было произведено обучение на основе 1000 первых предложе- ний из текстов обучающей выборки с помощью пакета машинного обуче- ния LibLinear и оценка на основе тестовой выборки из этой же электрон- ной библиотеки. Результат оказался достаточно высоким: точность оценки популярности произведений была не меньше 74 % и достигла 84 % в жан- ре Приключения.
Исследователи проанализировали лингвистические параметры, кото- рые влияли на популярность произведений.
Например, в категории униграмм в более популярных текстах встре- чались такие английские слова (слова очень простые, и для экономии мес- та мы оставляем их без перевода): not, said, words, says, I, me, my, and, which, though, that, as, after, but, where, what, whom, since, whenever, up, into, out, after, in, within, recognized, remembered.
В непопулярных произведениях преобладали следующие слова: never, risk, worse, slaves, hard, murdered, bruised, heavy, prison, face, arm, body, skins, room, beach, bay, hills, avenue, boat, door, want, went, took, promise, cry, shout, jump, glare, urge, very, breathless, sacred slightest, absolutely, perfectly, desires, affairs.
Далее, ученые использовали обученный алгоритм для проверки попу- лярности книг, которых нет в электронной библиотеке проекта Гутенберг. Были выбраны 10 книг писателей, успех которых среди читателей не вы- зывает сомнения, включая некоторых авторов, получивших престижные литературные премии, среди них М. Сервантес, Ч. Диккенс, Э. Хемингуэй, Дж. Апдайк, Р. Стивенсон, Ф. Рот.
Алгоритм, работающий на униграммах, показал, что все эти книги должны быть популярными. Алгоритм, работающий на сложных синтак- сических структурах, сделал вывод, что 7 из 10 книг будут иметь успех. В разряд непопулярных попал, например, рассказ Э. Хемингуэя «Старик и море», потому что в этом произведении автор использует в основном про- стые предложения.

Несмотря на то что, исследователи не добились таких же высоких ре- зультатов для жанра киносценариев, они уверены, что теперь их алгоритм может быть усовершенствован не только для прогнозирования успеха ки- нофильмов, но и для предсказания успешности научных статей. Ученые отмечают, что с помощью разработанной методики можно также оцени- вать «читабельность» любого текста, т. е. насколько он просто и понятно написан с точки зрения среднестатистического читателя. Эта возможность имеет практическое значение — представьте себе текстовый редактор, который сможет вам подсказать, как сделать ваше сочинение или курсо- вую работу более приятной для преподавателя и повысить его оценку.






  1. Достарыңызбен бөлісу:
1   ...   179   180   181   182   183   184   185   186   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет