Викисловарь
Развитие вики-ресурсов способствовало появлению компьютерного словаря нового типа, Викисловаря (Wiktionary). Викисловарь представляет собой открытый для пополнения многоязычный тезаурус, развиваемый с 2002 г. Всего существует около 170 национальных Викисловарей, в том числе и для русского языка.
Русский Викисловарь является крупнейшим среди всех Викислова- рей, его объем по данным на 2011 г. составляет около 280 тыс. статей. Ха- рактерной чертой русского блока Викисловаря является наличие четкой структуры словарных статей, что обеспечивается широким использовани- ем шаблонов в их построении [Крижановский 2011].
В структуру Викисловаря входит фонетическая, этимологическая, морфологическая, синтаксическая, семантическая, сочетаемостная ин- формация о слове, а также его переводные эквиваленты. Викисловарь имеет иерархическую организацию и отражает широкий спектр отноше- ний: синонимия, антонимия, гипонимия, меронимия, паронимия.
Например, для слова вершина в словарной статье приводятся сле- дующие сведения: словоизменительная парадигма с отсылкой к типу склонения по классификации А. А. Зализняка (сущ., неодуш., ж. р., скло- нение 1а), морфемное членение (корень -верш-, суффикс: -ин-, окончание - а), транскрипция по системе МФА и аудиопример. Филиация лексических значений дается с указанием на сферу употребления и с типовыми контек- стами: (1) Самая верхняя часть объекта, обычно — вытянутого по верти- кали ♦ Вершина горы. ♦ Вершина небоскреба… (2) геометр. точка пересе- чения сторон угла, смежных сторон многоугольника, смежных рёбер мно- гогранника или образующих линий конуса ♦ Вершина угла. ♦ Вершина
треугольника. (3) матем. то же, что узел; элемент (точка) графа, обозна- чающий объект любой природы, входящий в множество объектов, описы- ваемое графом ♦ Вершина графа, не связанная ребром ни с одной верши- ной, называется изолированной. (4) перен. наивысшее достижение ♦ Эта книга стала вершиной его творчества. Где возможно, для каждого из зна- чений приводятся синонимы: (1) верхушка, (3) узел, точка, (4) кульмина- ция, апогей, антонимы: (1) низ, основание, (3) ребро, (4) провал, фиаско, гиперонимы: (1) верх, (2) точка, пересечение, (3) объект, гипонимы: (1) макушка, (3) изолированная вершина, висячая вершина, лист, холонимы:
граф, меронимы. Присутсвует краткое описание однокоренных слов: уменьшительно ласкательная форма вершинка, имена собственные Вер- ховный Совет и т. д., фамилии Верховцев, производные существительные вершок, верховенство, завершение и т. д., прилагательные верхний, верхов- ный, совершенный и т. д., глаголы вершить, совершить, верховодить и т. д., наречия вверх, сверху, поверхностно и т. д. В поле этимологии опи- сано происхождение слова с опорой на словарь М. Фасмера. Отдельным списком приводятся переводы (например, верхняя часть: англ. top, peak, summit, армян. gagat’, белорус. вяршыня ж., болг. връх м., исп. cima ж., cumbre ж.; cúspide ж., итал. cima ж., vetta ж., sommità ж. и т. д.).
Викисловарь и Википедия являются родственными ресурсами. Их сходство заключается в опоре на систему категорий, в наличии внутрен- них ссылок между статьями и в использовании интервики. В отличие от Википедии Викисловарь пополняется не за счет привлечения авторитет- ных источников информации, а в результате лексикографической работы редакторов. В Викисловарь не входят энциклопедические данные, однако в нем присутствуют обширные сведения об употреблении слов в различ- ных контекстах, паремии, спорные варианты написания или произноше- ния и т. д.
Викисловари востребованы не только как базовые лексикографиче- ские описания, но и как прикладные ресурсы, задействованные в решении задач автоматической обработки письменных и устных текстов.
Надстройки к компьютерным тезаурусам
Для многих компьютерных тезаурусов разработаны дополняющие их модули. Так, для WordNet-словарей создана целая система надстроек с различными функциями. Надстройка WordNet::Similarity позволяет опре- делять расстояния между синсетами с учетом длины пути между узлами иерархии, силы родо-видовых отношений, взаимного расположения син- сетов в кустах дерева, глубины иерархии, связей между словами в дефи- нициях синсетов и т. п. [Patwardhan, Pedersen 2006]. В этой надстройке реализовано свыше 10 мер семантической близости, среди них противо-
поставляются меры сходства значений и меры их соотнесенности. Меры сходства, определяемые на основе длины пути между синсетами в иерар- хии, — это, например, path, lch (Leacock & Chodorow), wup (Wu & Palmer). Меры сходства, определяемые на основе информационной насыщенности и основанные на корпусных данных о специфичности значений — это, например, res (Resnik), lin (Lin), jcn (Jiang & Conrath). Также есть несколь- ко мер соотнесенности: это основанная на длине пути мера hso (Hirst & St- Onge); а также меры, основанные на анализе корпуса дефиниций lesk (Banerjee & Pedersen), vector (Patwardhan). Помимо перечисленных выше мер существуют и их модификации, внедренные в WordNet::Similarity. Заметим, что подобное приложение есть и у компьютерной версии Тезау- руса Роже [Jarmasz, Szpakowicz 2004].
Модуль WordNet::SenseRelate позволяет автоматически разрешать лекси- ческую неоднозначность для всех слов в тексте (режим AllWords) либо же только для целевых слов (режим TargetWords) [Patwardhan, Banerjee, Pedersen 2007]. Для этого в обрабатываемый текст вводится семантическая разметка с точки зрения значений, зарегистрированных в WordNet. Выбор значения для многозначных слов производится с учетом слов, входящих в его контекстное окружение. Близость значений соседствующих в контек- сте слов вычисляется с помощью мер WordNet::Similarity. Качество рабо- ты модуля WordNet::SenseRelate было признано приемлемым на соревно- ваниях семантических парсеров SENSEVAL.
Модуль SenseClusters предназначен для автоматического извлечения значений слов и их семантических связей на основе корпуса текстов [Pedersen 2007]. Основная процедура, выполняемая в SenseClusters, за- ключается в формировании контекстных векторов для целевых слов и их последующей кластеризации. В модуле реализованы несколько статисти- ческих алгоритмов (построение матриц совместной встречаемости, сингу- лярная декомпозиция матриц, векторизация, кластеризация методом К- средних, латентно-семантический анализ и некоторые другие.) Сформиро- ванные таким образом кластеры позволяют автоматически определять отдельные значения слов, устанавливать отношения синонимии, антони- мии между словами, назначать метки кластеров для близких по значению слов.
Известен также проект eXtended WordNet, целью которого является формализация дефиниций при синсетах для облегчения использования тезауруса в прикладных задачах. Это достигается в результате синтакси- ческого анализа и составления логических форм для дефиниций, которые тем самым становятся доступны для многих систем автоматической обра- ботки текстовой информации.
Прикладное использование компьютерных тезаурусов
Роль тезаурусов в прикладной лингвистике очень велика. Они приме- няются для оптимизации информационного поиска, в вопросно-ответных системах, при автоматическом индексировании и рубрицировании и т. д. [Соловьев, Добров, Иванов, Лукашевич 2006].
Тезаурусная поддержка информационного поиска заключается в про- цедурах уточнения и расширения запросов. В частности, при уточнении запросов с помощью РуТез выбирается более точный термин из ряда, на- пример, строительство — дорожное строительство (автодорожное строительство, дорожно-строительные работы, строительство дорог и т. д.), что позволяет повысить точность выдачи. Тот же эффект может быть достигнут при расширении запроса синонимами или терминами ие- рархических отношений, например, миграция — беженцы, вынужденные переселенцы и т. д. В случае WordNet-словарей с теми же целями приме- нялся поиск не по словам, а по значениям синсетов, а также расширение запросов элементами синсетов. WordNet-словари могут найти применение в многоязычном поиске, как например это было сделано в проекте CINDOR.
Сведения из тезаурусов могут быть использованы в вопросно- ответных системах, тогда данные по связям между словами в синсетах и внутри иерархии привлекаются для семантико-синтаксических преобразо- ваний запросов к базе знаний, например, для поиска замен в том случае, если исходный текст вопроса содержит неопознаваемый базой лексиче- ский элемент.
Индексация документов с помощью тезаурусов может выполняться несколькими путями. В частности, при индексировании полнотекстовой базы данных с привлечением тезауруса EUROVOC сначала производится ручное индексирование, затем слова в документах связываются с дескрип- торами тезауруса на основании значений статистических критериев и по- лучают веса. После этого производится автоматическое индексирование, в ходе которого для всех слов анализируемых текстов проводится поиск подходящих дескрипторов. При обнаружении совпадений слово увеличи- вает вес дескриптора применительно к данному тексту на логарифм веса, назначенного при ручной обработке.
Тезаурусы являются ключевым звеном в системах автоматического рубрицирования. Например, тезаурус РуТез используется для рубрикации текстов различной тематики. РуТез рассматривается как хранилище зна- ний по предметной области, с которым стыкуются подобранные для кон- кретной задачи рубрикаторы. Связь между рубрикаторами и тезаурусом осуществляется за счет ограниченного множества опорных терминов,
рубрики для других терминов определяются по связям в тезаурусе. Важ- ной особенностью технологии рубрикации с помощью РуТез является использование тематического представления текстов, в котором документу ставится система тематических узлов, объединяющих близкие по содер- жанию термины, встречающиеся в документе. Тематическое представле- ние также является основной для других операций, например, для автома- тического аннотирования с помощью РуТез.
Достарыңызбен бөлісу: |