Семинар по оценке методов информационного поиска (ромип) ок международная конференция «Компьютерная лингвистика и интеллектуальные технологии»



Дата09.12.2016
өлшемі44,64 Kb.
#3520
түріСеминар

Тезаурус РуТез: структура и приложения

  • Лукашевич Н.В.
  • ведущий научный сотрудник НИВЦ МГУ
  • louk_nat @mail.ru

Знания о мире в обработке текстов на естественном языке

  • В настоящее время: широкие предметные области для приложений автоматической обработки текстов
  • В различных приложениях полезно использовать знания о мире
  • Знания о мире сложным образом связаны с лексическими и терминологическими знаниями
  • Как построить понятийную модель широкой предметной области для приложений автоматической обработки текстов?

Лингвистические ресурсы для автоматической обработки текстов

  • Наш опыт: развитие ресурсов для задач информационного поиска с 1994 года
  • Большой объем: тысячи слов и словосочетаний
  • Модель описания знаний о языке и мире должна быть:
    • «легкая»,
    • полезная в широком круге приложений
    • тестирование ресурса в приложениях
  • Созданные ресурсы:
    • Тезаурус РуТез,
    • Общественно-политический тезаурус
    • Онтология по естественным наукам и технологиями (ОЕНТ) и др.

Коллектив

  • 1994 – н/в АНО Центр информационных исследований (АНО ЦИИ)
  • 1994 – 1997 Институт США и Канады РАН
  • 1997 – н/в Научно-исследовательский вычислительный центр МГУ им.М.В.Ломоносова
  • Университетская информационная система РОССИЯ (УИС РОССИЯ): три миллиона документов (нормативные акты, пресса, экономическая статистика)

Участие в организации научных конференций

  • «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL) -- ПК
  • Российский семинар по оценке методов информационного поиска (РОМИП) -- ОК
  • Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» (ДИАЛОГ) -- ОК
  • Cross Language Evаluation Forum (CLEF)(2003-2009) -- НК
  • European Conference on Research and Advanced Technology for Digital Libraries (ECDL) – ПК
  • Text-Speech-Dialog conference (TSD) - ПК
  • SIGIR (2008) – ПК и др.

Проекты

  • Рамблер (2007– н/в)
  • Аппарат Государственной Думы ФС РФ (1999 -- н/в)
  • НИИ Восход для ЦИК РФ (1997 -- н/в)
  • НПП Гарант-Сервис (2002 – н/в)
  • ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008)
  • в/ч 43753 (2000 – 2007)
  • Банк России (2006 – н/в)
  • Счетная палата (2003)
  • Министерство образования; ГУМЦ «Базис» (2003, 04)
  • «Аплана» (2006, 2008)
  • ИППИ РАН для Управления спецпрограмм (1996)
  • «Гранит-Центр» (2006), НИЦ «Квант» (2003), НТЦ «Атлас» (2001)

Приложения автоматической обработки текстов

  • Информационный поиск
    • Корпоративные или предметно-ориентированные системы
    • Автоматическое расширение запроса
    • Визуализация выдачи
  • Автоматическая рубрикация текстов
    • Несколько десятков рубрикаторов
  • Автоматическая кластеризация текстов
  • Автоматическое реферирование текстов
    • Одного документа, многих документов, составление аналитических отчетов
  • Системы мониторинга

План презентации

  • Тезаурус РуТез
    • Общая структура
  • Единицы Тезауруса
    • Понятия тезауруса
    • Текстовые входы (синонимы, многозначность, словосочетания)
  • Отношения Тезауруса
    • Принципы установления
    • Используемые типы отношений
  • Приложения автоматической обработки текстов

Тезаурус РуТез – иерархическая сеть понятий

  • Понятие:
    • Имя понятия
    • Набор текстовых выражений
    • Отношения между понятиями
  • 53 тыс. понятий, 156 тыс. текстовых выражений, 210 тыс. отношений (более 2 млн. с иерархией)
  • Переведен на английский язык: 130 тысяч слов и выражений

Общая структура тезауруса РуТез

  • Две составные части
    • Общий лексикон
      • Абстрактные действия, процессы
      • Оценки, эмоции и т.д.
    • Общественно-политический тезаурус
      • Общественно-политическая область – жизнь современного общества
      • Состав: экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др

Тезаурус по общественно-политической жизни

  • Структурированная энциклопедия жизни современного общества
    • 36 тысяч понятий
    • 100 тысяч терминов
    • 140 тысяч прямых отношений (1,1 млн. наследуемых)
  • предметная область – проблемы современного общества
  • типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения
  • Состав: термины и тематическая лексика

Тезаурус РуТез и специальная лексика

  • Общая лексика
  • Специальная лексика
  • Специальная лексика
  • Промежуточная зона
  • компьютерная безопасность
  • Авиа*Онтология
  • Культурное наследие
  • Онтология по естественным наукам и технологиям
  • Специальные области vs. общественно-политическая область

Тезаурус РуТез: учет трех традиций

    • Информационно-поисковые тезаурусы
      • Название понятия
      • Включение многословных единиц
      • Небольшой набор отношений
    • Ресурсы типа WordNet
      • Подробное включение отдельных лексических единиц
      • Аккуратное описание многозначности
    • Формальные онтологии
      • Отличимость понятий
      • Формальные свойства отношений

Единицы тезауруса РуТез

Понятия тезауруса РуТез

  • Понятие происходит от значения отдельных слов или словосочетаний
  • Проблемы ввода понятий
    • Квазисинонимы
    • Близкие значения многозначных слов
  • Понятие должно быть отличимо от близких понятий
    • Однозначно понимаемое имя
    • Набор текстовых входов
    • Набор отношений
    • Название понятия
  • Единое представление для:
    • нетематической лексики,
    • тематической лексики, терминологии

Имя понятия

  • Однозначное слово:
    • КАБЕЛЬ
  • Однозначное словосочетание, являющееся одним из текстовых входов понятия:
    • ГОНОЧНЫЙ БОЛИД, КОСМИЧЕСКИЙ БОЛИД
  • Неоднозначное словосочетание с пометой:
    • КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД)
  • Пара синонимов – текстовых входов понятия через запятую:
    • ИРРАЦИОНАЛЬНЫЙ, ЛОГИЧЕСКИ НЕОБЪЯСНИМЫЙ
  • Имя должно быть однозначно, понятно, отражать особенности понятия.
  • Многословные языковые выражения
  • Словосочетаний может встретиться очень много
  • Мы вносим словосочетание, если это необходимо для отражения новой информации
  • синонимы: приватизировать – передать в частные руки;
  • многозначное становится однозначным: положение дел, состояние дел
  • дополнительная структуризация сети
  • сельский дом: вилла, дача;
  • автомобиль
  • автомобильные гонки
  • автогонщик (пилот)

Синонимы в тезаурусе РуТез

  • Синонимы – языковые выражения, являющиеся текстовыми входами к одному и тому же понятию тезауруса
  • Разные части речи – дериваты могут быть текстовыми входами одного и того же понятия
  • Назовем совокупность текстовых входов к одному и тому же понятию – онтологическими синонимами
  • Специальные усилия на поиск многословных вариантов – снижение многозначности
  • Формирование обширных синонимических рядов – стабильность распознавания понятия в текста

Пример синонимического ряда

  • ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ
  • ЗАЩИТА ПРИРОДНОЙ СРЕДЫ
  • ЗАЩИТА ПРИРОДЫ
  • ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ
  • ОХРАНА ПРИРОДНОЙ СРЕДЫ
  • ОХРАНА ПРИРОДЫ
  • ОХРАНЯТЬ ПРИРОДУ
  • ПРИРОДОЗАЩИТА
  • ПРИРОДОЗАЩИТНЫЙ
  • ПРИРОДООХРАНА
  • ПРИРОДООХРАНИТЕЛЬНЫЙ
  • ПРИРОДООХРАННЫЙ

Близкие значения разных слов: монумент и памятник

  • Словарь синонимов (НОСС) – 5 различий:
  • 1) в память о конкретном человеке обычно ставится памятник, о группе людей – и памятник, и монумент, о событии – монумент; идеи воплощаются в монументах;
  • 2) у монументов есть способность увековечивать подвиг живых людей
  • 3) по форме сооружения памятник часто представляет собой изображение увековечиваемого объекта,
  • 4) монумент обычно больше по размерам и т.п..
  • Достаточны ли эти различия, чтобы ставить в соответствие этим словам отдельные понятия?

Монумент и памятник - 2

  • Проблема разделения:
    • каковы отношения между собой
    • каковы отношения с другими близкими понятиями онтологии
  • Проверка примеров показывает, что нет разделяющего свойства для сущностей монумент и памятник:
  • Маргарет Тэтчер, которой в Британии при жизни поставили памятник, узнала…
  • Авторы словаря: различия нейтрализуются при повторной, сокращенной номинации того же сооружения
  • Монумент, памятник –> одно понятие онтологии

Близкие значения разных слов: водитель и шофер

  • Синонимы во многих словарях синонимов
  • НОСС: шофер управляет только автомобилем или автобусом, водитель и другими транспортными средствами
  • Следовательно, вагоновожатый – водитель, но не шофер (в любом контексте)
  • Должно быть два понятия в онтологии:
  • ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА (водитель)
  • ВОДИТЕЛЬ АВТОМОБИЛЯ (водитель, шофер)
  • Дополнение: шофер – обычно профессиональный работник!
  • Водитель транспортного средства (водитель)
  • Транспортный работник
  • Судоводитель
  • Вагоновожатый (водитель трамвая)
  • Водитель автомобиля (водитель)
  • Профессиональный водитель (шофер)
  • Таксист
  • Личный водитель (личный шофер)

Многозначность в тезаурусе

  • М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК
    • Нужно выбрать значение
  • А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка):
    • Львов – ЛЬВОВ (ГОРОД)
    • Нужно подтвердить/отвергнуть употребление значения
    • Число многозначных единиц в Тезаурусе РуТез
    • - 16 тысяч многозначных слов и выражений

Пополнение тезауруса РуТез

  • Новые реалии и пропущенная конкретика (пополнение Общ.-политического тезауруса):
    • Автодом, дача на колесах, инсоляция, национал-сепаратизм, тайский бокс, автолестница, единый госэкзамен, пожарный спринклер
  • Пропущенные отдельные слова общей лексики
    • Скривить, петься, минование, миролюбивость, неравнодушие, небезразличие, зыбкий
  • Словосочетания, уточняющие значения слов
    • Пойти под откос, остаться в стороне, замыть пятно, не обидеть способностями, тяжело даваться

Отношения в тезаурусе РуТез

Подходы к представлению отношений

  • Информационно-поисковые тезаурусы, ворднеты: небольшие наборы отношений
  • vs.
  • Наборы семантических отношений, произвольные набор предикатов
    • Но:
      • Большие затраты труда для широкой ПО
      • Непонятно, какой набор оптимален
      • Контекстная зависимость

Надежные отношения

  • Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте
    • Возможности систем автоматической обработки текста для анализа релевантности контекста ограничены
  • Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда:
    • для всех или большинства примеров понятия
    • в течение всего (или почти всего) времени существования примера
    • Нужно описывать надежные отношения
  • Отношения в тезаурусе РуТез
  • отношение ВЫШЕ-НИЖЕ – таксономическое отношение Должно быть действительно для всех примеров понятий и все время их существования => Транзитивность, наследование
  • отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, участники ситуации, свойства НО!! Должно быть действительно для всех примеров понятий-частей и все время их существования => Транзитивность
  • внешняя онтологическая зависимость - несимметричная ассоциация – асц2
  • Симметричная ассоциация – для очень похожих понятий

Отношение ЦЕЛОЕ-ЧАСТЬ

  • Отношение ЦЕЛОЕ-ЧАСТЬ обозначает включенность по месту, времени, ситуации, сфере деятельности
  • Х – это часть Y
    • Изменение Х (или совокупности Х) влечет изменение Y
    • Отношение действует на протяжении большей части нормального существования примера X или это основная альтернатива
    • Для нас: колесо – не есть ЧАСТЬ автомобиля: автомобильное колесо – ЧАСТЬ автомобиля
    • инвестор – это ЧАСТЬ для инвестирование

Примеры отношения часть-целое

  • Автопилот - летательный аппарат
  • Горбушка - хлеб
  • Член партии - политическая партия
  • Балкон зала - зрительный зал
  • Грузоподъемность – транспортное средство
  • Калорийность - пища
  • Водоизмещение- судно
  • Инвестор - инвестирование
  • Очиститель - очистка
  • Дубильщик - дубление

Транзитивность отношения ЧАСТЬ-ЦЕЛОЕ

  • Обвиняемый – обвинение в суде – судебный процесс – судопроизводство – судебная система
  • Аптекарь – аптека – лекарственное обеспечение – медицинская помощь – медицина – здравоохранение

Отношение внешней зависимости (dependence relation)

  • Концептуальная зависимость: - понятие Х не возникло бы без существования понятия Y
  • Внешняя зависимость:
  • - понятие X зависит от понятия Y,
  • - экземпляры Y не являются всегда частями или свойствами экземпляров X
  • Примеры:
    • понятие гараж зависит от понятия автомобиль
    • Понятие автостроение зависит от понятия автомобиль
  • Обозначаем направленной ассоциацией: АСЦ1, АСЦ2

Пример отношения Дерево - Лес

  • Многие ресурсы указывают: Дерево – часть Леса
  • Но: дерево не всегда в лесу, а лес всегда состоит из деревьев
  • Понятие ЛЕС – зависит от понятия ДЕРЕВО
  • Отношения концептуальной зависимости и семантические имена отношений
  • ГАРАЖ зависит_от  АВТОМОБИЛЬ (назначение?)
  • РЕКА зависит_от ПРЕСНАЯ ВОДА (часть?)
  • ГИДРО- ЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник?)
  • ЛЕС зависит_от ДЕРЕВО (часть?)
  • ЛЕСНИЧЕСТВО зависит_от ЛЕС (место?)
  • КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс?)
  • Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны

=ЛЕС= : части

  • БУРЕЛОМ (ВЕТРОВАЛ; БУРЕЛОМНЫЙ)
  • ГРУППА ЛЕСА
  • ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ КУЛЬТУРА)
  • ЛЕСНАЯ ПОЧВА (ЛЕСНАЯ ПОДСТИЛКА)
  • ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ; ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА; ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ; ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ; ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ)
  • ОПУШКА (ОПУШЕЧНЫЙ)
  • ПОДЛЕСОК (ПОДЛЕСОЧНЫЙ)
  • ПОДРОСТ (МОЛОДНЯК)
  • ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА)
  • СУХОСТОЙ (СУХОСТОЙНЫЙ)

=ЛЕС= : зависимые понятия

  • ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)
  • ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ)
  • ЛЕСОВЛАДЕНИЕ
  • ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)

Автоматическая обработка текстов на основе тезауруса

Обработка текстов с использованием тезауруса

  • Морфологический анализ
    • Индекс лемм
  • Терминологический анализ
    • Сопоставление с тезаурусом
    • Разрешение многозначности (Общественно-политический тезаурус точность > 75% - грант Яндекса 2005)
  • Тематический анализ
    • Выделение основной темы текста
    • Учет близких по смыслу понятий для вычисления веса понятия
    • Концептуальный индекс с весами
  • Лексическая связность: пример
  • О порядке оказания безвозмездной финансовой помощи
  • на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений
  • военнослужащим и гражданам, уволенным с военной службы
  • Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской
  • Федерации п о с т а н о в л я е т :
  • 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений
  • военнослужащим и гражданам, уволенным с военной службы.
  • 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба:
  • в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений;
  • ЖИЛОЕ ПОМЕЩЕНИЕ (25)
  • ЖИЛОЕ ЗДАНИЕ (1)
  • КВАРТИРА (2)
  • А
  • А
  • СОБСТВЕННОСТЬ (1)
  • ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО (4)
  • КОМНАТА (ПОМЕЩЕНИЕ) (1)
  • В
  • В
  • НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ (13)
  • МНОГОКВАРТИРНЫЙ ДОМ (1)
  • ЗДАНИЕ (1)
  • СООРУЖЕНИЕ (1)
  • ЖИЛАЯ ПЛОЩАДЬ (1)
  • СТРОИТЕЛЬСТВО (12)
  • ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2)
  • ЖИЛИЩНАЯ НОРМА (2)
  • НАНЯТЬ (13)
  • ПОКУПКА (6)
  • ПЛАТИТЬ (1)
  • ДЕНЬГИ (22)
  • А
  • Тезаурусные отношения для документа

Вес понятия в тексте: тематическое представления

  • Главные темы
  • Локальные темы

Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604)

  • ----+----------------------------------------------------------------------+
  • | ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ |
  • ****| |
  • | |
  • | +------------------------------------------------------------------+
  • | | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; |
  • ****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; |
  • | | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ |
  • | | +--------------------------------------------------------------+
  • | | | ФИНАНСОВАЯ ПОМОЩЬ; |
  • ****| z | z | |
  • | | | +----------------------------------------------------------+
  • | | | | ГРАЖДАНИН |
  • ****| X | z | . | |
  • | | | | +------------------------------------------------------+
  • | | | | | УВОЛЬНЕНИЕ; |
  • ****| X | z | . | X | |
  • | | | | | +--------------------------------------------------+
  • | | | | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; |
  • ****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; |
  • | | | | | | +----------------------------------------------+
  • | | | | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; |
  • ****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; |
  • | | | | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; |
  • | | | | | | | +------------------------------------------+
  • | | | | | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; |
  • ****| z | X | z | . | . | z | z | |

Тезаурус РуТез: основные приложения

  • Информационный поиск:
    • Поисковый инструмент УИС Россия (www.cir.ru)
    • расширение запросов
    • вопросно-ответные системы
  • Автоматическая рубрикация текстов
    • Более 20 рубрикаторов
  • Автоматическое аннотирование
    • Аннотирование одного документа,
    • Обзорный реферат
  • Обработка потоков новостей, информационный мониторинг
    • Кластеризация документов

Представление смысла рубрики опорными понятиями

Расширенное представление рубрики понятиями тезауруса

Кластеризация новостей

Классификация документов и кластеров

Обзорный (сводный) реферат (Multi-document summarization)

Преимущества от онтологий и тезаурусов в разных приложениях

  • Information Retrieval Tasks
  • Benefits
  • Web Search
  • 0+ %
  • Corporate Search / Legal Search
  • 10 %
  • Long Queries / Verbose Queries
  • 15 %
  • Text Categorization
  • 15-50 %
  • News Clustering
  • 6-15 %
  • Summarization, Visualization, Multi Document Summarization
  • ++ (SUMMAC)

Заключение

  • В течение более чем 15 лет мы разрабатываем тезаурусы и исследуем технологии их применения для решения различных задач автоматической обработки текстов и информационного поиска
  • Наши выводы:
    • Структура тезауруса, онтологии должна быть специально адаптирована к задачам автоматической обработки текстов
    • Тезаурусные технологии не должны противопоставляться современным технологиям пословной обработки текстов, а органично учитывать последние достижения в этой сфере
    • При учете таких условий применение тезаурусов дает значимое улучшение качества решения задачи по сравнению с лучшими пословными методами


Достарыңызбен бөлісу:




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет