Специальной литературы, посвященной алгоритмам машинного обу- чения в прикладной лингвистике на русском языке практически нет. Нет её, на самом деле, и на английском; некоторые отсылки можно найти в известном учебнике [Jurafsky, Martin 1999]. Поискать, какие алгоритмы используются в конкретной задаче, проще всего по статьям крупнейших конференций по компьютерной лингвистике — ACL, EACL, NAACL, LREC и других. Все материалы можно найти в антологии Ассоциации по
компьютерной лингвистике — ACL Anthology. Крупнейшая в России кон- ференция по компьютерной лингвистике Диалог также публикует мате- риалы в открытом доступе: http://www.dialog-21.ru/digest/. Именно в них можно прочитать на русском о современных подходах к анализу русскоя- зычных текстов.
Относительно простые (не требующие специальных лингвистических знаний и данных) задачи обработки текста вроде детектирования спама и оценки тональности обычно упоминаются в различных пособиях по ана- лизу данных (data mining). Из монографий на английском обычно реко- мендуют [Hastie и др. 2009] и более практически ориентированный её аналог [James и др. 2013], а также [Han 2012]. На русском языке существу- ет несколько специальных пособий [Дьяконов 2010], [Мерков 2011].
На практике куда более удобными оказываются онлайн-ресурсы: кур- сы и энциклопедии. Кроме того, много статей с примерами и ссылок на дополнительную литературу можно найти в вики-ресурсе MachineLearning.ru.
Дьяконов, A. Г. Анализ данных, обучение по прецедентам, логические игры, сис- темы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математиче- ских методов прогнозирования). МАКСПресс, 2010. 278 с.
Мерков А. Б. Распознавание образов. Введение в методы статистического обуче- ния. УРСС, 2011. 256 с.
Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques, 3nd ed. Elsevier, 2012. 703 с.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning, 2nd ed.
Springer, 2009. 533 с.
James G., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning with Applications in R. Springer, 2013. 426 с.
Достарыңызбен бөлісу: |