Разметка корпуса, или аннотация — это главное, что отличает лин- гвистический корпус от коллекции текстов или электронной библиотеки. Разметка заключается в приписывании текстам корпуса и их компонентам дополнительной информации, метаданных. О разметке мы подробнее по- говорим ниже.
Практика разработки и применения корпусов текстов показала, что невозможно создать универсальный корпус, позволяющий решать любые задачи любому исследователю. Корпусы всегда создаются под определен- ную задачу или круг задач. Эта задача определяет как наполнение корпуса текстами (например, тексты на албанском языке, письма Н. В. Гоголя, тек- сты языка охотников и охотоведов), так и разметку корпуса (морфологиче- ская, синтаксическая и т. д., с учетом разнообразия жанров, с учетом со- циологических характеристик говорящих или без). Очевидно, что стан- дартные корпусные менеджеры должны поддерживать достаточно широ- кий набор функций, но не все. Поэтому национальные корпусы ориенти- рованы на решение определенного, достаточно широкого, но все же огра- ниченного круга задач. Для решения других задач должны создаваться специализированные корпусы и специальное программное обеспечение.
Достарыңызбен бөлісу: |