15
Генерирование данных
Под
визуализацией данных
понимается исследование данных через их визуальное
представление. Визуализация тесно связана с
анализом данных
(data mining), ис-
пользующим программный код для изучения закономерностей и связей в наборе
данных. Набором данных может быть как маленький список чисел, помещающийся
в одной
строке кода, так и массив из многих гигабайтов.
Качественное представление данных не сводится к красивой картинке. Если для
набора данных подобрано простое, визуально привлекательное представление,
его смысл становится очевидным для зрителя. Люди замечают в наборе данных
закономерности, о которых они и не подозревали.
К счастью, для визуализации сложных данных не нужен суперкомпьютер. Благо-
даря эффективности Python вы сможете быстро исследовать наборы данных из
миллионов отдельных
элементов данных
(точек данных) на обычном ноутбуке.
Элементы данных даже не обязаны быть числовыми. Приемы, о которых вы узнали
в части I книги, позволят вам проанализировать даже нечисловые данные.
Python используется для обработки данных в генетике, исследовании климата, по-
литическом и экономическом анализе и множестве других областей. Специалисты
по обработке данных написали на Python впечатляющий инструментарий визуа-
лизации и анализа, и многие из этих разработок также доступны и для вас. Один
из самых популярных инструментов такого рода —
matplotlib
, математическая
библиотека построения диаграмм. С помощью
matplotlib
можно строить простые
диаграммы, графики, диаграммы разброса данных и т. д. После этого будет создан
более интересный набор данных, основанный на концепции
случайного блужда-
ния —
визуализации, генерируемой на основе серии случайных решений.
Также в этом проекте будет использоваться пакет Plotly, ориентированный на
создание визуализаций, хорошо работающих с цифровыми устройствами. Plotly
генерирует визуализации, автоматически масштабируемые по размерам экранов
различных цифровых устройств. Визуализации также могут включать различные
интерактивные возможности, например выделение различных аспектов данных
набора данных при наведении указателя мыши на разные части визуализации.
Мы используем Plotly для исследования закономерностей различных бросков
кубиков.