Тезаурусы (thesauri) — особый класс лексикографических ресурсов, для которых характерны следующие черты: полнота охвата значений сло- варного состава языка или какого-либо его сегмента; тематический, или идеографический способ упорядочения значений слов. Отличительной особенностью тезаурусов по сравнению с формальными онтологиями яв- ляется выход в сферу лексических значений, установление связей не толь- ко между понятиями, но и между значениями и выражающими их слова-
ми, а также между самими значениями (регистрация различных семанти- ческих отношений внутри словаря).
Первые попытки составить словари идеографического типа предпри- нимались еще во 2–3 веках н. э. («Ономастикон» Юлия Поллукса, «Амара- коша» Амара Синхи). Классический пример более позднего тезауруса —
«Тезаурус английских слов и выражений» Питера Марка Роже, который основывается на идее о том, что систематизация смыслов, выражаемых в языке, возможна преимущественно на основе классификации понятий и явлений окружающего мира. С момента публикации в середине XIX века и до настоящего времени Тезаурус Роже выдержал множесто переизданий, были внесены изменения и дополнения как в состав и иерархию классов, так и в словник. На первом уровне в синоптической схеме тезауруса вер- сии 1911 г. выделяются шесть простейших классов: Абстрактные отно- шения, Пространство, Материя, Интеллект, Воля, Эмоции. Эти классы подразделяются на тысячу подклассов на более низких уровнях иерархии, таким образом формируя иерархию, в узлах которых находятся группы слов со значениями разной степени близости (от синонимов до слов из одной лексико-семантической или тематической группы). Удивительно то, что ныне этот словарь используется одновременно как традиционный лек- сикографический ресурс и лексическая база данных (в версиях 1911 и 1987 гг.). Полноправными преемниками традиционных общеязыковых тезаурусов являются компьютерные словари типа WordNet.
В XX веке появились информационно-поисковые тезаурусы (information retrieval thesauri), направленные на описание системы терми- нов предметных областей, содержащие как описание самих терминов и терминосочетаний, так и связей между ними внутри терминосистемы. Термины, обеспечивающие отсылку к тому или иному понятию, позволя- ют использовать тезаурус как инструмент для индексирования документов в корпусах и базах данных по различным предметным областям и для оп- тимизации информационного поиска.
При проектировании информационно-поискового тезауруса исследо- ватели обрабатывают документы, рубрикаторы, словари и справочники, содержащие основную информацию по предметной области, выделяют терминологические единицы, которые добавляются в словник. Затем фор- мируются словарные статьи и строятся лексико-семантические, система- тические и прочие указатели. Все эти компоненты тезауруса регламенти- руются стандартами, например, в России действует ГОСТ 7.25 — 2001 [Тезаурус… 2001].
Основные понятия предметной области могут иметь не единственный вариант лексического выражения, и эти варианты могут объединяться в синонимические ряды и классы условной эквивалентности (в случае, если различия в значении терминов несущественны для структуры тезауруса).
В таких случаях из ряда близких по значению терминов выбирается деск- риптор (descriptor), использующийся в качестве отсылки на понятие в тезаурусе. Все остальные термины из группы или класса считаются аск- рипторами и служат для обозначения вспомогательных входов в словарь. Ниже приведены примеры дескрипторной и аскрипторной статей [Тезау- рус… 2001].
Дескрипторная статья
АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ (формализм теории алгоритмов см. ТЕОРИЯ АЛГОРИТМОВ)
с языки алгоритмические машиноориентированные языки проблемноориентированные языки
…
Аскрипторные статьи
Достарыңызбен бөлісу: |