АНАЛИЗ ИНСТРУМЕНТОВ С ОТКРЫТЫМ ИСХОДНЫМ КОДОМ ДЛЯ СБОРА И ВИЗУАЛИЗАЦИИ КОНТЕНТА СОЦИАЛЬНЫХ СЕТЕЙ
УДК 004.77
Жұматай Б.Ә., Жукабаева Т.К., Танирбергенов А.Ж.
(Казахский агротехнический университет имени С.Сейфуллина, Евразийский Национальный Университет имени Л.Н. Гумилёва, город Нур-Султан)
Данные и информация из социальных сетей становятся реальной заботой для многих сторон, таких как страны и организации, для целей анализа, стратегии и принятия решений. Выбор лучшего инструмента с открытым исходным кодом для сбора и визуализации данных из социальных сетей представляет собой большую проблему. В этой статье мы предлагаем интегрированный подход к выбору наиболее подходящих инструментов для сбора и визуализации информации, доступной в социальных сетях. Предлагаемый подход состоит из двух этапов, а именно оценки и выбора. Текущая практика оценки включает в себя мнения пользователей-экспертов об инструменте, чтобы оценить его важность на основе удовлетворенности пользователей, которая измеряется эффективностью инструмента для поиска необходимых результатов. Фаза оценки предлагаемой методики сочетает в себе текущую практику с весом важности, где последний был рассчитан с помощью статистических методов. Фаза выбора разработана на основе известной техники PROMETHEE (хорошо продуманная система поддержки принятия решения).
Онлайновые социальные сети (ОСС) становятся одним из крупнейших источников огромного количества данных. Этот источник содержит мысли, обсуждения и дебаты, выраженные в публичных социальных беседах, которые могут быть использованы не только в качестве важного компонента процесса принятия решений, но и в промышленных, академических и политических решениях. Facebook, YouTube и Twitter (ВКонтакте- в странах СНГ) являются самыми популярными онлайновыми социальными сетями. Они широко распространены среди широких слоев населения. Facebook объявил о 1,39 млрд ежемесячных активных пользователей в декабре 2020 года. Twitter насчитывает более 500 миллионов пользователей, а YouTube - более одного миллиарда пользователей. В этих сетях постоянно создается и распространяется большое количество пользовательского контента. Существует острая необходимость в получении этой информации из социальных сетей, ее хранении, анализе и визуализации, чтобы можно было извлечь из нее пользу в нескольких аспектах.
Сбор, хранение, обработка, анализ и визуализация данных социальных сетей являются сложными задачами. Из-за огромного количества данных в социальных сетях очень трудно решить эти задачи без сопутствующего инструмента.
Существующие исследования используют некоторые из этих инструментов и библиотек для проведения своих экспериментов. В большинстве из них упоминается использование инструмента для поиска твитов, профилей пользователей или атрибутов видео на YouTube.
В этой статье мы предложили интегрированный подход, который сначала поможет оценить существующие инструменты и библиотеки-кандидаты, а затем выбрать лучший из них, который отвечает требованиям и потребностям пользователей для сбора, хранения, анализа и визуализации содержимого OSNs (Open Systems Network Support). Мы рассматривали только инструменты и библиотеки для сбора и визуализации [1, с.74]. Для оценки инструментов мы провели небольшой опрос. В опросе приняли участие двенадцать человек, которые работают IT-специалистами в нашем городе Нур-Султан и специализирующихся как на социальных сетях, так и на CASE-инструментах. Они помогли определить относительную важность (вес) каждого из предложенных критериев. Наш основной вклад в данную работу заключается в следующем:
- Мы разработали подход к подсчету баллов на основе определенного веса важности и текущей практики использования каждого инструмента.
- Мы рассмотрели более 25 инструментов с открытым исходным кодом и отобрали 12, в соответствии с их популярностью, количеством загрузок и историей обновлений.
- Насколько нам известно, в нашей работы впервые предложен интегрированный подход к выбору подходящей структуры и инструмента для сбора и визуализации данных.
Сбор данных - это концепция сбора данных в хранилище с целью анализа, который приводит к получению полезной информации или знаний. Существует множество инструментов, которые можно использовать для сбора данных из приложений социальных сетей, называемых "краулеры". Краулер - это программа, которая перемещается по информационному пространству WWW, следуя гипертекстовым ссылкам и извлекая веб-документы по стандартному протоколу HTTP.
Визуализация данных - это техника представления проанализированных данных в коммуникативном, понятном и эффективном виде. Визуализация данных имеет набор форматов или способов отображения необходимых результатов [2, с.96]. Эти способы включают приборные панели, диаграммы, радары и датчики, которые дают пользователю возможность выбрать любой формат или схему, подходящую и предпочтительную для него.
Методы MCDM (многокритериальный анализ) помогают лицам, принимающим решения, анализировать различные критерии выбора инструментов, оценивать альтернативные варианты CASE-средств и делать желаемый выбор инструментов. Для выбора было предложено множество методов MCDM, таких как процесс аналитической иерархии (AHP) и метод организации ранжирования предпочтений для оценки обогащения (PROMETHEE).
П осле сбора результатов мы рассчитали разницу между важностью и текущей практикой выбранного элемента. Уравнение (1) рассчитывает средний вес сбора данных i для оценок:
Достарыңызбен бөлісу: |