11 Часть I. Компоненты 14 Глава Компьютерная


Сервис корпусного менеджера



бет101/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   97   98   99   100   101   102   103   104   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Сервис корпусного менеджера


Корпус текстов становится мощным инструментом в руках лингвиста лишь с помощью специализированных программных средств, корпусных менеджеров.
Современный корпусный менеджер должен:

    • строить конкорданс;

    • искать контексты не только по отдельным словам, но и словосочета- ниям;

    • сортировать списки по нескольким критериям, выбираемым пользо- вателем;

    • давать возможность отображать найденные словоформы в расширен- ном контексте;




    • давать статистическую информацию по отдельным элементам корпу- са;

    • отображать леммы, морфологические характеристики словоформ и метаданные (библиографические, типологические), что зависит от степени размеченности корпуса;

    • сохранять и распечатывать результаты;

    • работать как с отдельными файлами, так и с корпусами, неограничен- ными по размеру;

    • быстро обрабатывать запросы и выдавать результаты;

    • быть легким (интуитивно понятным) в использовании, как для опыт- ного, так и для начинающего пользователя.

Современные корпусные системы позволяют решать и более сложные задачи, такие как построение частотных списков, выявление коллокаций (устойчивых сочетаний), ключевых слов и словосочетаний, построение лексико-семантических групп и др.
Рассмотрим несколько корпусных менеджеров, чтобы понять общие принципы их работы.
Тони Макэнери (Tony McEnery) и Эндрю Харди (Andrew Hardie) [McEnery, Hardie 2012] описывают четыре поколения корпусных про- граммных средств. Большинство современных инструментов корпусной лингвистики классифицируются ими как инструменты третьего поколе- ния. Они предлагают множество функций, включая статистические мето- ды, многоязычную поддержку и включают в себя дружественный интер- фейс. Примеры таких инструментов — WordSmith Tools, MonoConc Pro, ParaConc, AntConc.
Для работы с корпусами небольших размеров часто используется AntConc. Это свободно распространяемое программное обеспечение, с удобным интерфейсом, имеющее множество функций по обработке тек- стов в разной кодировке и в разных форматах. С помощью AntConc можно производить такие операции как:

    • просмотр файла с текстом;

    • построение конкорданса для заданного слова в пределах контекстного окна;

    • построение графиков к конкордансу;

    • выделение n-грамм с заданным словом в пределах контекстного окна;

    • выделение коллокатов заданного слова на основе мер ассоциации;

    • построение частотного списка словоформ и/или лемм с указанием ранга и абсолютной частоты;

    • выделение ключевых слов.

Ограничением его является то, что он, как и другие подобные менед- жеры, плохо работают с большими корпусами.

И если раньше, в корпусах 2-го и отчасти 3-го поколения можно было говорить о решении корпусных задач даже такими «подручными» средст- вами, как команды обработки текста grep, sort, unix или скрипты на Пито- не, то для современных колоссальных корпусов требуется совсем другая системная архитектура.


Ответом на это стало создание инструментов четвертого поколения, таких как Sketch Engine, CQPweb, Wmatrix, Корпусная система Марка Дэ- виса (Mark Davies) (http://corpus.byu.edu) и др. Эти инструменты позволя- ют работать с большими объемами данных, так как хранят корпуса в базе данных веб-сервера и предварительно индексируют данные для ускорения поиска.
Интересные лингвистические возможности реализованы в системе Sketch Engine, разработанной в Университете им. Т. Г. Масарика (Чехия) под руководством Адама Килгарриффа (Adam Kilgarriff) для одноименной корпусной службы, работающей по подписке (https://www.sketchengine.co.uk/). В настоящее время эта служба предос- тавляет пользователям более 350 корпусов разных языков мира. Система Sketch Engine позволяет выявлять коллокации (словосочетания с указани- ем силы связи между компонентами), делать то же с учетом синтаксиче- ских формул (например, глагол + прямое дополнение), строить лексико- семантические поля для заданного слова, сравнивать сочетаемость сино- нимов, выявлять ключевые слова в корпусе. Ядро этой системы, получив- шее название NoSketch Engine (ранее Bonito/Manatee) [Rychlý 2007], рас- пространяется бесплатно (http://nlp.fi.muni.cz/trac/noske/wiki/Downloads). Этот менеджер (NoSketch Engine) используется во многих национальных корпусах (чешский, словацкий, болгарский, хорватский и др.). Программа позволяет загружать предварительно размеченные тексты и строить на их основе корпусы. Работа с корпусными данными возможна в режиме кон- корданса для заданного слова или словосочетания или в режиме составле- ния частотных списков, в том числе и для морфологических тегов. Можно проводить сложный поиск, предполагающий использование языка регу- лярных выражений.




    1. Достарыңызбен бөлісу:
1   ...   97   98   99   100   101   102   103   104   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет