Language) и HTML (HyperText Markup Language). Для операций с мета- данными (например, для автоматической классификации веб-документов, поиска и извлечения данных) необходимы формальные онтологии. Имен- но поэтому онтологические ресурсы являются основой для семантической разметки и ключевым звеном Semantic Web (Семантической Паутины, глобальной семантической сети для работы с текстовыми данными в Ин- тернет). Чтобы информация Semantic Web была доступна для автоматиче- ской обработки, а также для повышения согласованности сетевых инстру- ментов были разработаны особые языки представления: RDF, RDFS, OWL, SML, SHOE, DAML, OIL и т. д.
Модель RDF (Resource Description Framework) имеет простой синтак- сис, опирающийся на XML. Высказывания RDF имеют вид троек типа , где S — субъект, P — предикат и O — объект. Его расширение — это язык RDFS (RDF Schema), который определяет классы, свойства и др. Среди других языков представления известен SHOE (Simple HTML Ontology Extension), располагающий особыми тэгами для введения семан- тических данных в HTML-коды. Язык OIL (Ontology Interchange Level), основанный на XML и RDF включает в свой состав средства формальной семантики. Язык DAML (DARPA Agent Markup Language) допускает слож- ные определения классов по сравнению с RDF и RDFS. Существует также интеграция DAML+OIL, это язык с более совершенными возможностями. Позже в рамках W3C (World Wide Web Consortium) был создан стандарт для обмена онтологическими данными — OWL (Web Ontology Language). В числе особенностей OWL следует указать возможность введения ло- кальных ограничений свойств по отношению к разным классам, наличие функций объединения, пересечения, дополнения, непересекаемости над классами, понятия мощности свойств в отношении экземпляров и т. д.
Некоторые языки представления позволяет анализировать нечеткие знания. Языки Fuzzy RDF и Fuzzy OWL, являющиеся расширениями RDF и OWL, совмещают стандартные модели с нечеткой логикой. Существует также расширение OWL с вероятностными моделями Bayes OWL.
Для разработки архитектуры формальных онтологий, для их содержа- тельного насыщения, анализа и корректирования используются специаль- ные автоматизированные среды — онторедакторы (ontology editors). Возможности того или иного онторедактора определяются заложенными в нем моделями, среди которых логика предикатов, дескриптивная логика, концептуальные графы, фреймы и т. д. Эти модели определяют структу- рирование данных внутри онтологии. В то же время характер онтологиче- ских описаний зависит от формата, или языка представления (RDF, OWL, KIF, SCL и т. д.). Некоторые онторедакторы предусматривают особые опе- рации над онтологиями, например выравнивание онтологий, их объедине- ние, отображение одной онтологии в другую.
Самый известный, легко модифицируемый и простой в использова- нии онторедактор — это Protégé [Noy, McGuinness 2001]. Protégé первона- чально использовался в области обработки медицинской информации, но позже стал использоваться при создании онтологий для Semantic Web. В основе Protégé лежит фреймовая модель, хотя онторедактор поддерживает и другие модели. Protégé допускает различные форматы представления: RDF/RDFS, DAML+OIL, SHOE, OWL и т. д. Предусмотрены также плаги- ны для расширения функциональных свойств онторедактора. В основе Protégé лежит модель представления знаний OKBC (Open Knowledge Base Connectivity). Основными элементами структуры, которую создает Protégé
это классы, экземпляры, слоты (свойства классов и экземпляров) и фа- сеты (дополнительная информация о слотах).
Помимо Protégé, на сегодняшний день существует множество других редакторов онтологий: Fluent editor, InTez, WebODE, OntoSaurus, WebOnto, OilEd, OntoEdit, Ontolingua и т. п.
Современные онтологические ресурсы ориентированы на информа- ционно насыщенные предметные области и опираются на корпусы текстов значительных объемов. Поэтому построение, пополнение и коррекцию формальных онтологий удобнее вести в (полу)автоматическом режиме. Метод автоматической разработки формальных онтологий определяется типом онтологического ресурса. Если для общих онтологий предпочти- тельны общенаучные подходы, то для онтологий задач и предметных он- тологий пригодны такие методы автоматического формирования классов, отношений, аксиом, поиска экземпляров, которые опираются на анализ лексико-грамматических шаблонов и/или на тот или иной алгоритм кла- стеризации с привлечением машинного обучения [Pantel, Pennacchiotti 2008]. В любом случае в качестве источников данных высту- пают представительные корпусы, интернет, а также словарные базы дан- ных (особый интерес в них представляют словарные определения, строя- щиеся на основе иерархических отношений).
Особенность пополнения онтологий с привлечением лексико- грамматических шаблонов заключается в том, что на начальном этапе ба- зовые шаблоны для разных отношений между классами, отражаемых в онтологии, составляются вручную, а затем этот список расширяется авто- матически благодаря использованию тех или и иных алгоритмов машин- ного обучения. Так, описание шаблонов типа X есть род Y или X есть часть Y облегчает построение иерархий с гипонимическими и мероними- ческими отношениями. Если к представительному корпусу текстов при-
менить какой-либо алгоритм кластеризации, можно выделить кластеры слов с близкими значениями, назначить метки классов с опорой на син- таксические связи и затем установить между классами и их элементами таксономические отношения.
В целом к системам автоматического пополнения онтологий предъяв- ляются требования минимального вмешательства человека в процесс об- работки данных, универсальности основных процедур и их независимо- сти от источников данных, от их размера и структуры, а также точности, т. е. низкой доли ошибок в результирующей онтологии.
Современные онтологические ресурсы.
На сегодняшний день существует большое количество онтологиче- ских ресурсов — отдельных онтологий (некоторые из примеров были упомянуты выше) и онтологических библиотек, объединяющих ресурсы разных типов и предметных областей. Вот немногие из библиотек онтоло- гий: OntoSelect, Ontolingua, Protégé Ontology Library, OMEGA, OntoBank и т. д.
Самая крупная и популярная на сегодня онтология — это SUMO (Suggested Upper Merged Ontology), разработанная в IEEE SUO (IEEE Standard Upper Ontology Working Group). В исходном виде SUMO является онтологией верхнего уровня и может считаться стандартом для разработ- чиков онтологий данного типа. Позже SUMO стала ядром сложной онто- логической системы, объединяющей онтологию среднего уровня (MILO) и онтологии предметных областей (в сфере коммуникаций, распределенных вычислений и пользовательских интерфейсов, экономики и финансов, спорта, каталогов товаров и услуг, транспорта, географии, государственно- го управления, музыки, лингвистики и др.). SUMO включает в свой состав около 25 тыс. элементов и 80 тыс. аксиом.
Иерархию SUMO возглавляет категория Сущность с двумя подклас- сами Абстрактный и Физический. Класс Абстрактный, в свою очередь, делится на подклассы Количество, Множество, Атрибут, Пропозиция, Отношение, Граф, Элемент графа. Класс Физический имеет в качестве подклассов категории Процесс и Объект. У класса Объект имеются под- классы Самостоятельный объект, Область, Коллекция, Агент. Класс Процесс подразделяется на подклассы Процесс с участием двух объектов, Целенаправленный процесс, Движение, Внутреннее изменение, Изменение формы и т. д. Аксиомы в SUMO имеют разную степень сложности, на- пример: «Если C является экземпляром процесса горения, то существуют выделение тепла H и излучение света L такие, что оба они H и L являются подпроцессами C». Аксиомы записываются на формальном логическом языке SUO-KIF.
Для ресурса SUMO характерны прозрачная таксономия и в то же время богатый набор внутренних ограничений, аккуратная интеграция с онтологиями нижних уровней, хорошие возможности для пополнения и преобразования в практически любой формат представления онтологий, связи с Википедией, WordNet-словарями и онтологиями по биомедицине. В SUMO предусмотрена поддержка нескольких языков: английского, хин- ди, китайского, итальянского, немецкого, чешского.
В качестве простейшего примера онтологии предметной области приведем формальную онтологию по корпусной лингвистике [Виноградо- ва, Митрофанова 2008]. Данная модель построена на основе представи- тельного корпуса русскоязычных текстов. Формальная онтология реали- зована в онторедакторе Protégé. Сначала была составлена модель пред- метной области на основе данных от экспертов, эта модель была включе- на в ядро формальной онтологии. Затем структура формальной онтологии была расширена, онтология была наполнена понятиями и терминами предметной области. Выделение терминологического ядра и формирова- ние иерархии классов осуществлялись в ходе статистической обработки корпуса текстов. Среди классов формальной онтологии были описаны следующие: корпус текстов, тип корпуса, работа с корпусом, разработ- ка корпуса, отбор данных, оцифровка данных, разметка корпуса, корпус- менеджер, использование корпуса, поиск по корпусу, запрос к корпусу, терминальная цепочка символов, регулярное выражение, лемма, тег, ре- зультат работы с корпусом, конкорданс, контекст, словоуказатель и ряд других. Были заданы основные экземпляры классов (335 терминов- дескрипторов), проведена их кластеризация. В качестве атрибутов классов и экземпляров приведены определения терминов-дескрипторов и синони- мические отношения между терминами-дескрипторами (например, раз- метка, аннотация, аннотирование и пр.). Фасеты онтологии заполнялись отсылками на тексты корпуса, характеризуемые теми или иными терми- нами-дескрипторами. Это необходимо для того, чтобы формальная онто- логия могла быть использована для рубрикации документов в корпусе.
Применение формальных онтологий
Формальные онтологии позволяют структурировать знания по пред- метным областям, делая их доступными для многократного обращения и для совместного использования в нескольких системах. Формальные он- тологии — это, прежде всего, прикладные ресурсы, входящие в состав лингвистических процессоров и обеспечивающие автоматическое пони- мание текста. Они используются в информационном поиске, в вопросно- ответных системах, в машинном переводе, при автоматической рубрика- ции и индексировании, при извлечении информации и т. д.
Почти все из перечисленных выше областей применения формальных онтологий охватывает семантический процессор OntoSem, ядром которого является онтологический модуль [Nirenburg, Raskin 2004]. Для обрабаты- ваемого текста строятся представления значений, основанные на данных морфологического, синтаксического и семантического анализа. Семанти- ческий анализ проводится с помощью онтологии, системы семантических словарей и базы знаний.
В области информационного поиска известен проект CrossMarc, в ко- тором формальные онтологии используются для разделения общего и от- раслевого знания, что позволяет сузить поисковые запросы и повысить качество выдачи. Формальные онтологии успешно используются для ав- томатической рубрикации и индексирования документов в поисковых ма- шинах. Одной из важных сфер применения онтологий является поиск то- варов и услуг. Классическим примером системы, использующей формаль- ную онтологию для поиска по каталогам, является ресурс OntoSeek. Та- кую задачу решают крупные интернет-сервисы Froogle, Яндекс.Маркет и т. д.
В вопросно-ответных системах онтологии помогают повысить каче- ство обработки запросов и формирования ответов. К системам такого типа относится AquaLog, оперирующая онтологическими моделями при анали- зе текста запросов и генерации ответов. AquaLog подключена к лингвис- тическому процессору GATE и использует компьютерный словарь WordNet. Система AquaLog была создана для обработки текстовой инфор- мации в Semantic Web. Подобные задачи решаются в проектах Querix, QASYO и др.
В системах машинного перевода формальные онтологии используются для подбора переводных эквивалентов и для снятия неоднозначности. На- пример, система OntoLearn, предназначенная для автоматической генера- ции таксономий из корпусов текстов, применяется при переводе одно- словных и многословных терминов (терминосочетаний) с английского языка на итальянский. В проекте USAS формальная онтология привлека- ется для семантической аннотации текстов на английском и русском язы- ках с последующим разрешением лексической многозначности. Известен проект IAMTC (Interlingual Annotation of Multilingual Text Corpora), где использование формальной онтологии направлено на аннотацию парал- лельных многоязычных корпусов текстов для извлечения межъязыковых соответствий.
Формальные онтологии являются обязательным компонентом многих систем автоматического извлечения информации. Одним из самых извест- ных среди них является многоязычный инструмент InfoMap, где иерархи- ческие модели используются в исследовании корпусов текстов наряду со статистическими методами исследования семантики слов на основе их
дистрибутивных свойств. Составной частью InfoMap является проект MuchMore, направленный на структурирование знаний в области медици- ны.
Онтологический блок является важной частью некоторых инструмен- тов извлечения информации. Например, ресурс OntosMiner позволяет ана- лизировать текст с использованием формальной онтологии, словарей и системы правил. Близкие задачи решаются в проекте RCO, направленном на составление содержательного портрета текста, извлечение фактов и оценку тональности текста.
Достойным примером использования онтологических моделей явля- ется проект ONTOLOGIC, целью которого является разработка систем нормативно-справочной информации, поддержка словарей и классифика- торов. В этом случае онтология обеспечивает переработку и хранение ин- формации на основе классификационной схемы.
Необычный аспект применения формальных онтологий отражен в разработках компании «Интелтек Плюс», в частности, в системе «Семан- тический контроль текстов редактируемых документов». Целью данной системы является обнаружение несоответствий между документами и эталонными знаниями предметной области, хранящимися в онтологии. Она проверяет информационную корректность текста (например, оцени- вает правильность расшифровки стенограмм или соответствие документов нормативам).
Стандартизация и оценка качества формальных онтологий
Формальные онтологии должны быть совместимы между собой и с ресурсами других уровней. Поэтому существуют различные стандарты для онтологий. Самыми распространенными стандартами являются реко- мендации по разработке формальных онтологий инициативы EAGLES. Существуют также стандарты для языков представления онтологий.
При определении того, насколько созданная формальная онтология соответствует тем или иным исследовательским целям, используется не- сколько параметров. Оцениваются структурные, функциональные и поль- зовательские параметры, например, качество наполнения словаря пред- метной области, корректность таксономии и включаемых в онтологию отношений, когнитивные свойства формальной онтологии с позиций пользователей (воспринимаемость), возможности использования фор- мальной онтологии в различных компьютерных лингвистических прило- жениях, выбор лучшей формальной онтологии из множества [Hartmann 2005]. Методы оценки могут быть автоматическими, полуавтоматически- ми и ручными.
Основные количественные метрики оценки формальных онтологий основываются на свойствах графа формальной онтологии. Среди них наи- более популярны оценки глубины и ширины графа формальной онтоло- гии, а также метрики Ингве-Миллера, метрики циклов, разнообразия свя- зей, запутанности, ветвистости и некоторые другие. Оценки глубины и ширины графа формальной онтологии опираются на значения длины пу- тей в графе и числа узлов на уровнях графа. Метрики Ингве-Миллера на- кладывают ограничение на множество связей у одного понятия, число которых не должно превышать 7 +/– 2. В основе этих метрик лежит опре- деление степеней вершин графа формальной онтологии, т. е. числа дуг, для которых та или иная вершина является концевой. В метриках циклов используются данные о числе циклов в графе формальной онтологии и о количестве вершин в циклах. Метрики разнообразия связей оценивают количество различных типов связей в формальной онтологии. Метрики запутанности опираются на число вершин с множественным наследовани- ем. Меры ветвистости связаны с количеством листьев в графе. Чем ниже эти оценки, тем лучше структурная организация и тем выше когнитивные свойства формальной онтологии.
Для проведения процедур количественной оценки качества формаль- ных онтологий используются системы метрик, такие как OntoMetric; EvaLexon; Natural Language Application metrics; OntoClean и др.; сущест- вуют также специализированные инструменты, поддерживающие данные метрики, в частности, ODEval, OntoManager и пр. Результаты оценки фор- мальных онтологий могут быть использованы не только при подборе ре- сурса для решения конкретной задачи или при определении наилучшей модели среди множества подобных, но и для улучшения качества готовой формальной онтологии, для принятия решений о коррекции ее структуры, оптимизации множества классов, свойств, отношений и т. п.
Достарыңызбен бөлісу: |