Корпусная лингвистика (corpus linguistics) — это раздел лингвисти- ки, существующий более полувека и занимающийся созданием и исполь- зованием корпусов для решения разнообразных лингвистических (и не только) задач.
Первый корпус был создан в 1960-е годы в США в Брауновском уни- верситете Генри Кучерой и Нельсоном Фрэнсисом — он так и называется
Брауновский (Brown University Standard Corpus of Present-Day American English). Сегодня корпусная лингвистика это нечто большее. Сегодня кор- пусы (или корпусá) стали неотъемлемой частью лингвистики, одним из ее краеугольных камней, как словари и грамматики. После появления корпу- сов вся лингвистическая наука стала другой, можно сказать, вся лингвис- тика стала корпусной.
Правда, можно сказать, что лингвисты все время занимались корпус- ной лингвистикой, не подозревая об этом. Не случайно статья Н. Фрэнсиса называется Corpora B. C. (корпусы до нашей эры) [Francis 1992]. Здесь, конечно, игра слов: автор имел в виду корпусы до компьютеров (CorporaBefore Computers). Но в статье речь идет о том, что идеи корпусной лин- гвистики действительно зародились в докомпьютерную эпоху. Лингвисты и лексикографы всегда в своей работе использовали эмпирический мате- риал, цитаты из текстов, которые выписывались на карточки и образовы- вали «корпусы» под названием картотеки.
Зачем нужен корпус в современной лингвистике?
На основе корпусов создаются словари и грамматики.
Корпусы помогают и в теоретической лингвистике: при исследовании какого-то явления можно быстро собрать нужные данные в их естест- венном контексте и проанализировать.
На основе корпусов проводится машинное обучение для самых раз- ных областей прикладной лингвистики.
Они могут пригодиться и для любых других задач, связанных с язы- ком — однажды созданный и подготовленный корпус может исполь- зоваться многократно, различными исследователями и в разных це- лях.