15
Генерирование данных
Под
визуализацией данных
понимается исследование данных через их визуальное
представление. Визуализация тесно связана с
анализом данных
(data mining), ис-
пользующим программный код для изучения закономерностей и связей в наборе
данных. Набором данных может быть как маленький список чисел, помещающийся
в одной
строке кода, так и массивом из многих гигабайт.
Качественное представление данных не сводится к красивой картинке. Если для
набора данных подобрано простое, визуально привлекательное представление,
его смысл становится очевидным для зрителя. Люди замечают в наборе данных
закономерности, о которых они и не подозревали.
К счастью, для визуализации сложных данных не нужен суперкомпьютер. Бла-
годаря эффективности Python вы сможете быстро исследовать наборы данных
из миллионов отдельных
элементов данных
(точек данных) на обычном ноутбуке.
Элементы данных даже не обязаны быть числовыми. Приемы, о которых вы узнали
в первой части книги, позволят вам проанализировать даже нечисловые данные.
Python используется для обработки данных в генетике, исследовании климата, по-
литическом и экономическом анализе и множестве других областей. Специалисты
по обработке данных написали на Python впечатляющий инструментарий визуа-
лизации и анализа, и многие из этих разработок также доступны и для вас. Один
из самых популярных инструментов такого рода —
matplotlib
, математическая
библиотека построения диаграмм. С помощью
matplotlib
можно строить простые
диаграммы, графики, диаграммы разброса данных и т. д. После этого будет создан
более интересный набор данных, основанный на концепции
случайного блужда-
ния
—
визуализации, генерируемой на базе серии случайных решений.
Также в этом проекте будет
использоваться пакет Pygal,
ориентированный
на
создание визуализаций, хорошо работающих с цифровыми устройствами.
С помощью Pygal можно выделять и изменять размеры элементов в ходе взаимо-
действия пользователя с визуализацией; кроме того, размер визуализации легко
изменяется под крошечные «умные часы» или гигантский монитор. Мы используем
Pygal для исследования закономерностей различных бросков кубиков.
Установка matplotlib
Сначала необходимо установить библиотеку
matplotlib
, которая будет исполь-
зоваться в исходном наборе визуализаций. Если вы еще не использовали про-