Что ищем?
Для начала введем несколько терминов.
Если задаться вопросом, с чего начинается компьютерный поиск, то становится ясно, что не с нажатия кнопки «Найти» и даже не с ввода пер- вого символа запроса. К моменту ввода первого символа в голове пользо- вателя уже имеется некоторое более или менее четкое представление о том, что он хочет найти. Это представление называется информационной по- требностью (information need).
К сожалению, современная наука пока не умеет заглянуть в голову к пользователю, чтобы прочесть там информационную потребность, поэто- му он вынужден формулировать свою потребность словами и набирать что-то на клавиатуре (или произносить вслух). Такая формулировка назы- вается собственно поисковым запросом (query). Она может находиться с исходной потребностью в разнообразных отношениях — мы вернемся к этому ниже.
Информация, которую ищет наш пользователь, должна где-то суще- ствовать, чтобы иметь шанс быть найденной. Массив информации, среди которой производится поиск, будь то библиотечный каталог или целый интернет, принято называть коллекцией (collection). Обычно подразуме- вается, что внутри коллекции информация разбита на отдельные едини- цы — документы (documents). Это удобно, потому что в качестве ответа на запрос поисковая система может просто выдать документ или набор документов, а не пытаться самостоятельно сформулировать ответ на языке пользователя, как это делают вопросно-ответные системы.
Можно подумать, что коллекция обязательно состоит из текстовых документов, но, вообще говоря, это не всегда так: документ (а равно и за- прос) может быть изображением, звуковым файлом, видеороликом или чем-то еще. Поиск по нетекстовым документам называется мультимедий- ным, но наша книга посвящена лингвистике, поэтому в этой главе мы бу- дем рассматривать текстовый поиск. Впрочем, поиск чаще всего именно таким и бывает.
Запрос, который вводит пользователь, состоит, как правило, из слов. Как правило, потому что в нем могут попадаться последовательности символов вроде «212–85–06» или «AC/DC», которые было бы довольно странно называть словами. Поэтому части запроса и документа иногда называют называть терминами (terms).
Достарыңызбен бөлісу: |