Введение в Data Science Lifecycle

Жизненный цикл Data Science вращается вокруг использования машинного обучения и других аналитических методов для получения информации и прогнозов на основе данных для достижения бизнес-цели. Весь процесс включает в себя несколько этапов, таких как очистка данных, подготовка, моделирование, оценка модели и т. Д. Это длительный процесс, который может занять несколько месяцев. Таким образом, очень важно иметь общую структуру, которой нужно следовать для каждой проблемы. Общепризнанная структура для решения любой аналитической задачи называется межотраслевым стандартным процессом для интеллектуального анализа данных или структурой CRISP-DM.

Жизненный цикл науки о данных

Ниже представлен проект Life Science of Data Science.

1. Понимание бизнеса

Весь цикл вращается вокруг бизнес-цели. Что вы решите, если у вас нет точной проблемы? Чрезвычайно важно четко понимать бизнес-цель, потому что это будет вашей конечной целью анализа. Только после правильного понимания мы можем установить конкретную цель анализа, которая соответствует бизнес-цели. Вы должны знать, хочет ли клиент уменьшить потери по кредитам, или он хочет предсказать цену товара и т. Д.

2. Понимание данных

Следующим шагом после понимания бизнеса является понимание данных. Это включает в себя сбор всех доступных данных. Здесь вам необходимо тесно сотрудничать с бизнес-командой, поскольку они на самом деле знают, какие данные присутствуют, какие данные могут быть использованы для решения этой бизнес-задачи и другой информации. Этот шаг включает описание данных, их структуру, их актуальность, тип данных. Исследуйте данные, используя графические графики. По сути, извлечение любой информации, которую вы можете получить о данных, просто исследуя данные.

3. Подготовка данных

Далее идет этап подготовки данных. Это включает в себя такие шаги, как выбор соответствующих данных, интеграция данных путем слияния наборов данных, очистка их, обработка пропущенных значений путем их удаления или вменения, обработка ошибочных данных путем их удаления, а также проверка на выбросы с использованием диаграмм-блоков и обработка их, Создание новых данных, получение новых функций из существующих. Отформатируйте данные в нужную структуру, удалите ненужные столбцы и функции. Подготовка данных является самым трудоемким, но, возможно, самым важным шагом во всем жизненном цикле. Ваша модель будет так же хороша, как ваши данные.

4. Исследовательский анализ данных

Этот шаг включает в себя получение некоторого представления о решении и факторах, влияющих на него, до построения фактической модели. Распределение данных в различных переменных объекта исследуется графически с помощью гистограмм. Отношения между различными объектами фиксируются с помощью графических представлений, таких как диаграммы рассеяния и тепловые карты. Многие другие методы визуализации данных широко используются для индивидуального изучения каждой функции и объединения их с другими функциями.

5. Моделирование данных

Моделирование данных - это сердце анализа данных. Модель принимает подготовленные данные в качестве входных данных и обеспечивает желаемый результат. Этот шаг включает в себя выбор подходящего типа модели, является ли проблема проблемой классификации, или проблемой регрессии, или проблемой кластеризации. После выбора семейства моделей среди различных алгоритмов этого семейства нам нужно тщательно выбрать алгоритмы для их реализации и реализации. Нам нужно настроить гиперпараметры каждой модели для достижения желаемой производительности. Нам также необходимо убедиться в правильности баланса между производительностью и обобщаемостью. Мы не хотим, чтобы модель изучала данные и плохо работала с новыми данными.

6. Оценка модели

Здесь модель оценивается для проверки, готова ли она к развертыванию. Модель тестируется на невидимых данных, оценивается на тщательно продуманном наборе показателей оценки. Нам также необходимо убедиться, что модель соответствует реальности. Если мы не получим удовлетворительный результат в оценке, мы должны повторить весь процесс моделирования, пока не будет достигнут желаемый уровень метрик. Любое решение для обработки данных, модель машинного обучения, как и человек, должно развиваться, должно быть способно совершенствоваться с новыми данными, адаптироваться к новой метрике оценки. Мы можем построить несколько моделей для определенного явления, но многие из них могут быть несовершенными. Оценка модели помогает нам выбрать и построить идеальную модель.

7. Развертывание модели

Модель после тщательной оценки, наконец, развернута в желаемом формате и канале. Это последний шаг в жизненном цикле науки о данных. Каждый шаг в жизненном цикле науки, описанный выше, должен быть тщательно проработан. Если какой-либо шаг выполняется ненадлежащим образом, это повлияет на следующий шаг, и все усилия будут потрачены впустую. Например, если данные не собраны должным образом, вы потеряете информацию и не будете строить идеальную модель. Если данные не очищены должным образом, модель не будет работать. Если модель не оценена должным образом, она не удастся в реальном мире. Начиная с понимания бизнеса и заканчивая развертыванием модели, каждому этапу следует уделять должное внимание, время и усилия.

Рекомендуемые статьи

Это руководство по Data Science Lifecycle. Здесь мы обсудим обзор жизненного цикла Data Science и этапы, составляющие жизненный цикл Data Science. Вы также можете просмотреть наши соответствующие статьи, чтобы узнать больше -

  1. Введение в алгоритмы Data Science
  2. Data Science vs Software Engineering | Топ 8 полезных сравнений
  3. Различных типов методов науки о данных
  4. Навыки Data Science с типами