Практическая работа №1 по дисциплине «Проектирование вычислительных комплексов»



Pdf көрінісі
бет9/14
Дата25.09.2023
өлшемі1,24 Mb.
#182414
түріПрактическая работа
1   ...   6   7   8   9   10   11   12   13   14
Байланысты:
Практическая работа 1 Проектирование ВК

3.
 
Наборы данных (датасеты)
 
В настоящее время в открытом доступе находится значительное количество данных, 
которые могут быть использованы для машинного обучения (наборы данных = «датасеты»)
4
. Это 
связано, в частности, с тем, что ведущие научные журналы при публикации статей требуют и 
обнародования соответствующих датасетов. Ещё одна важная цель – дать возможность апробации 
новых алгоритмов в сфере машинного обучения на одинаковых данных, для сравнениядостигаемой 
точности моделей. Крупные компании, впрочем, редко делают общедоступными данные, на 
которых они строят свои коммерческие продукты, использующие технологии искусственного 
интеллекта. 
В любом случае, формат данных в общедоступных датасетах редко в точности соответствует 
тому, который требуется в конкретном проекте. Таким образом, первым этапом (после, конечно, 
нахождения подходящего датасета) является 
подготовка данных
. Это можетвключать в себя: 

очистку данных: например, удаление некорректных значений, таких как отрицательный или 
нереально большой возраст клиента, 

обработку пропущенных значений: например, их удаление из датасета в Colab может быть 
сделано следующим образом: 
my_dataset = my_dataset.dropna() # удалить из dataset строки с пустыми 
значениями 

преобразование данных, представленных в шкале категорий (в большинстве случаев 
нейросетевые модели работают с числовыми данными): например, следующий 
программный код в Colab создаёт 3 разные колонки со значениями 0/1 вместо одной 
MadeIn
, содержащей страну-производитель: 
madein = dataset.pop('MadeIn') # удаляем колонку с категориальными данными 
dataset['Russia'] = (madein == 1)*1.0 
dataset['China'] = (madein == 2)*1.0 
dataset['USA'] = (madein == 3)*1.0 
dataset.tail()# показать 5 последних строк датасета 


Достарыңызбен бөлісу:
1   ...   6   7   8   9   10   11   12   13   14




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет