Для подготовки данных могут использоваться и другие инструменты, позволяющие
наглядное представление и редактирование структурированных данных. Например, MS Excel
способен импортировать данные различных форматов и сохранение их в виде файлов формата csv
(comma-separated values), которые затем могут быть легко загружены в Colab. Например,
следующий программный код позволяет осуществить
загрузку данных
из файла
train.csv
,
хранящегося на компьютере пользователя:
import pandas as pd
from google.colab import files
file = files.upload()
training_set = pd.read_csv("train.csv", header=None) # предполагается, что
файл не содержит заголовков столбцов
Часто на этапе подготовки данных производится также их
первичное изучение.
Например,
средства классической описательной статистики позволяют вычислить математическое ожидание,
дисперсию и прочие характеристики:
desc_stats = dataset.describe() # подробнее см. документацию функции
5
desc_stats = desc_stats.transpose() # форматирование выводимых чисел для
более удобного чтения
desc_stats
Удобным способом первичного изучения данных является также их
Достарыңызбен бөлісу: