3.
Наборы данных (датасеты)
В настоящее время в открытом доступе находится значительное количество данных,
которые могут быть использованы для машинного обучения (наборы данных = «датасеты»)
4
. Это
связано, в частности, с тем, что ведущие научные журналы при публикации статей требуют и
обнародования соответствующих датасетов. Ещё одна важная цель – дать возможность апробации
новых алгоритмов в сфере машинного обучения на одинаковых данных, для сравнениядостигаемой
точности моделей. Крупные компании, впрочем, редко делают общедоступными данные, на
которых они строят свои коммерческие продукты, использующие технологии искусственного
интеллекта.
В любом случае, формат данных в общедоступных датасетах редко в точности соответствует
тому, который требуется в конкретном проекте. Таким образом, первым этапом (после, конечно,
нахождения подходящего датасета) является
подготовка данных
. Это можетвключать в себя:
очистку данных: например, удаление некорректных значений, таких как отрицательный или
нереально большой возраст клиента,
обработку пропущенных значений: например, их удаление из датасета в Colab может быть
сделано следующим образом:
my_dataset = my_dataset.dropna() # удалить из dataset строки с пустыми
значениями
преобразование данных, представленных в шкале категорий (в большинстве случаев
нейросетевые модели работают с числовыми данными): например, следующий
программный код в Colab создаёт 3 разные колонки со значениями 0/1 вместо одной
MadeIn
, содержащей страну-производитель:
madein = dataset.pop('MadeIn') # удаляем колонку с категориальными данными
dataset['Russia'] = (madein == 1)*1.0
dataset['China'] = (madein == 2)*1.0
dataset['USA'] = (madein == 3)*1.0
dataset.tail()# показать 5 последних строк датасета
Достарыңызбен бөлісу: |