11 Часть I. Компоненты 14 Глава Компьютерная



бет132/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   128   129   130   131   132   133   134   135   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Информационный поиск


Автор: Дмитрий Владимирович Грановский, выпускник 2009 года, разработчик компании «Яндекс»


  1. Где ищем?


Информационный поиск сегодня — это прежде всего поиск в интер- нете. Конечно, далеко не вся информация, накопленная человечеством, оцифрована. Но большинство новых текстов сейчас появляется в элек- тронном виде, а тексты, изданные ранее на бумаге, все быстрее переводят- ся в электронный формат. Так или иначе, количество запросов к интернет- поисковикам в мире с 2000 по 2015 год выросло как минимум в 100 раз и достигло нескольких миллиардов в день.
Автоматизированный информационный поиск возник гораздо раньше, чем появились персональные компьютеры и интернет. Ученые еще в Древнем мире осознали необходимость что-то регулярно искать в боль- ших массивах информации. Но в ХХ веке количество научных публикаций стало быстро расти, поиск работ на нужную тему в библиотечном катало- ге начал отнимать значительное время. Проблема была настолько насущной, что уже к началу 1970-х годов были не только изобретены инвертированные индексы (основная структура для хранения поисковых данных), но и предложена знаменитая мера tf-idf. Эти понятия — и уж во всяком случае, стоящие за ними идеи — по-прежнему занимают очень важное место в теории информационного поиска; мы еще поговорим о них.
Появление в нашей жизни интернета, безусловно, дало мощнейший импульс развитию теории и практики поиска. Появились проблемы, о ко- торых раньше и помыслить было невозможно: например, поисковый спам. Оказалось, что веб-страницы устроены не так, как обычные текстовые документы. Например, у каждой страницы на сайте есть одинаковое меню и «шапка» с контактными данными владельца, и все это не должно яв- ляться областью поиска. Оказалось также, что документы в коллекции могут меняться, иногда даже по многу раз в день, а еще — что перед тем, как вообще начать обрабатывать документ, нужно его сначала скачать. Эти и другие особенности интернет-текстов превратили проблему поиска в

интересную задачу не только для пользователей, но и для инженеров и лингвистов.






  1. Достарыңызбен бөлісу:
1   ...   128   129   130   131   132   133   134   135   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет