Корпус текстов становится мощным инструментом в руках лингвиста лишь с помощью специализированных программных средств, корпусных менеджеров.
Современный корпусный менеджер должен:
строить конкорданс;
искать контексты не только по отдельным словам, но и словосочета- ниям;
сортировать списки по нескольким критериям, выбираемым пользо- вателем;
давать возможность отображать найденные словоформы в расширен- ном контексте;
давать статистическую информацию по отдельным элементам корпу- са;
отображать леммы, морфологические характеристики словоформ и метаданные (библиографические, типологические), что зависит от степени размеченности корпуса;
сохранять и распечатывать результаты;
работать как с отдельными файлами, так и с корпусами, неограничен- ными по размеру;
быстро обрабатывать запросы и выдавать результаты;
быть легким (интуитивно понятным) в использовании, как для опыт- ного, так и для начинающего пользователя.
Современные корпусные системы позволяют решать и более сложные задачи, такие как построение частотных списков, выявление коллокаций (устойчивых сочетаний), ключевых слов и словосочетаний, построение лексико-семантических групп и др.
Рассмотрим несколько корпусных менеджеров, чтобы понять общие принципы их работы.
Тони Макэнери (Tony McEnery) и Эндрю Харди (Andrew Hardie) [McEnery, Hardie 2012] описывают четыре поколения корпусных про- граммных средств. Большинство современных инструментов корпусной лингвистики классифицируются ими как инструменты третьего поколе- ния. Они предлагают множество функций, включая статистические мето- ды, многоязычную поддержку и включают в себя дружественный интер- фейс. Примеры таких инструментов — WordSmith Tools, MonoConc Pro, ParaConc, AntConc.
Для работы с корпусами небольших размеров часто используется AntConc. Это свободно распространяемое программное обеспечение, с удобным интерфейсом, имеющее множество функций по обработке тек- стов в разной кодировке и в разных форматах. С помощью AntConc можно производить такие операции как:
просмотр файла с текстом;
построение конкорданса для заданного слова в пределах контекстного окна;
построение графиков к конкордансу;
выделение n-грамм с заданным словом в пределах контекстного окна;
выделение коллокатов заданного слова на основе мер ассоциации;
построение частотного списка словоформ и/или лемм с указанием ранга и абсолютной частоты;
выделение ключевых слов.
Ограничением его является то, что он, как и другие подобные менед- жеры, плохо работают с большими корпусами.
И если раньше, в корпусах 2-го и отчасти 3-го поколения можно было говорить о решении корпусных задач даже такими «подручными» средст- вами, как команды обработки текста grep, sort, unix или скрипты на Пито- не, то для современных колоссальных корпусов требуется совсем другая системная архитектура.
Ответом на это стало создание инструментов четвертого поколения, таких как Sketch Engine, CQPweb, Wmatrix, Корпусная система Марка Дэ- виса (Mark Davies) (http://corpus.byu.edu) и др. Эти инструменты позволя- ют работать с большими объемами данных, так как хранят корпуса в базе данных веб-сервера и предварительно индексируют данные для ускорения поиска.
Интересные лингвистические возможности реализованы в системе Sketch Engine, разработанной в Университете им. Т. Г. Масарика (Чехия) под руководством Адама Килгарриффа (Adam Kilgarriff) для одноименной корпусной службы, работающей по подписке (https://www.sketchengine.co.uk/). В настоящее время эта служба предос- тавляет пользователям более 350 корпусов разных языков мира. Система Sketch Engine позволяет выявлять коллокации (словосочетания с указани- ем силы связи между компонентами), делать то же с учетом синтаксиче- ских формул (например, глагол + прямое дополнение), строить лексико- семантические поля для заданного слова, сравнивать сочетаемость сино- нимов, выявлять ключевые слова в корпусе. Ядро этой системы, получив- шее название NoSketch Engine (ранее Bonito/Manatee) [Rychlý 2007], рас- пространяется бесплатно (http://nlp.fi.muni.cz/trac/noske/wiki/Downloads). Этот менеджер (NoSketch Engine) используется во многих национальных корпусах (чешский, словацкий, болгарский, хорватский и др.). Программа позволяет загружать предварительно размеченные тексты и строить на их основе корпусы. Работа с корпусными данными возможна в режиме кон- корданса для заданного слова или словосочетания или в режиме составле- ния частотных списков, в том числе и для морфологических тегов. Можно проводить сложный поиск, предполагающий использование языка регу- лярных выражений.
Достарыңызбен бөлісу: |