К примеру, Нью-Йоркская Фондовая Биржа ежедневно генерирует 1 терабайт данных о торгах за каждую сессию



Дата08.02.2022
өлшемі17,02 Kb.
#117612
Байланысты:
Big Data
botulizm

Big Data
По определению оксфордского словаря, Big Data (дословно – «большие данные»), данные – это величины, знаки или символы, которыми оперирует компьютер и которые могут храниться и передаваться в форме электрических сигналов, записываться на магнитные, оптические или механические носители. Термин «Big Data» используется для описания большого и растущего экспоненциально со временем набора данных. Для обработки такого количества данных не обойтись без машинного обучения. До недавнего времени данные были ограничены электронными таблицами или базами данных – и все было очень упорядоченно и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для обработки и игнорировалось. Однако прогресс в области хранения аналитической информации означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная с баз данных и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков. Этот постоянно увеличивающийся поток информации означает, что мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать покупку и когда. Big Data помогает компаниям выполнять свою деятельность намного эффективнее. Термин используется в сферах, где актуальна работа с количественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: в экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, web-аналитике, медицине и др.
К примеру, Нью-Йоркская Фондовая Биржа ежедневно генерирует 1 терабайт данных о торгах за каждую сессию. Социальные медиа: статистика показывает, что в базы данных Facebook ежедневно загружается 500 терабайт новых данных, которые генерируются в основном благодаря загрузкам фото и видео на серверы данной социальной сети, обмену сообщениями, комментариям под постами и так далее. Во время полета реактивный двигатель генерирует 10 терабайт данных каждые 30 минут. Так как ежедневно совершаются тысячи перелетов, то объем данных достигает петабайтов. Вместе со стремительным накоплением информации быстрыми темпами развиваются и технологии анализа данных. Если еще несколько лет назад было возможно, скажем, лишь сегментировать клиентов на группы со схожими предпочтениями, то теперь возможно строить модели для каждого
клиента в режиме реального времени, анализируя, например, его перемещения по сети Интернет для поиска конкретного товара. Интересы потребителя могут быть проанализированы, и в соответствии с построенной моделью выведена подходящая реклама или конкретные предложения. Модель также может настраиваться и перестраиваться в режиме реального времени, что было немыслимо еще несколько лет назад. Большие данные различаются по объему, скорости
генерации, разнообразию и изменчивости. Рассмотрим эти характеристики подробнее. 1. Объем. Сам по себе термин Big Data связан с большим
размером. Размер данных – важнейший показатель при определении возможной извлекаемой ценности. 6 миллионов людей ежедневно используют цифровые медиа, что, по предварительным оценкам, генерирует 2.5 квинтиллиона байт данных. Поэтому объем – первая характеристика для рассмотрения. 2. Разнообразие. Этот аспект характеризуют гетерогенные источники и природу данных, которые могут быть как структурированными, так и неструктурированными. Раньше электронные таблицы и базы данных были единственными источниками информации, рассматриваемыми в большинстве приложений. Сегодня же данные в форме электронных писем, фото, видео, PDF-файлов и аудио также рассматриваются в аналитических приложениях. Такое разнообразиенеструктурированных данных приводит к проблемам при сборе, хранении и анализе: 27% компаний не уверены, что работают с подходящими данными. 3. Скорость генерации. То, насколько быстро данные накапливаются и обрабатываются для удовлетворения требований, определяет их потенциал. Скорость определяет быстроту притока информации из источников – бизнес-процессов, логов приложений, сайтов социальных сетей и медиа, сенсоров, мобильных устройств. Поток данных огромен и непрерывен во времени. 4. Изменчивость описывает непостоянство данных в некоторые моменты времени, которые усложняют обработку и управление. Так, например, большая часть данных неструктурирована по своей природе. Преимущества, которые предоставляет Big Data: 1. Сбор данных из разных источников. 2. Улучшение бизнес-процессов через аналитику в реальном времени. 3. Хранение огромного объема данных. 4. Инсайты, то есть Big Data более проницательна к скрытой информации при анализе структурированных и полуструктурированных данных. Большие данные помогают уменьшать риски и принимать умные решения благодаря подходящей риск-аналитике. Проблемы Big Data: 1. Конфиденциальность данных. Big Data, которую мы сегодня генерируем, содержит много информации о нашей личной жизни, на конфиденциальность которой мы имеем полное право. 2. Защита данных. Даже если мы решаем, что нас устраивает то, что у кого-то есть наши данные для определенной цели, можем ли мы доверить им сохранность и безопасность наших данных?

Достарыңызбен бөлісу:




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет