Исследовательский анализ данных для машинного обучения (сводка заметок)

Рабочий процесс машинного обучения

Рабочий процесс машинного обучения состоит из:

Постановка задачи
Сбор данных
Исследование и предварительная обработка данных
Моделирование
Проверка
Принятие решений и развертывание

Это краткое изложение общей таксономии данных в пакетах с открытым исходным кодом для машинного обучения:

цель: категория или значение, которое вы пытаетесь предсказать
функции: независимые переменные, используемые для предсказания
пример: наблюдение или отдельная точка данных в данных
метка: значение цели для одной точки данных

Извлечение данных

Вы можете получать данные из нескольких источников:

базы данных SQL
Базы данных NoSQL
API
Облачные источники данных

Двумя наиболее распространенными форматами плоских файлов данных с разделителями являются разделенные запятыми (csv) и разделенные табуляцией (tsv). В качестве разделителей также можно использовать специальные символы.

SQL представляет собой набор реляционных баз данных с фиксированными схемами.

Чтение в файлах базы данных

Шаги для чтения файла базы данных с помощью библиотеки sqlite:

создайте переменную пути, которая ссылается на путь к вашей базе данных
создайте переменную соединения, которая ссылается на соединение с вашей базой данных
создайте переменную запроса, содержащую запрос SQL, который считывает таблицу данных из вашей базы данных
создайте переменную наблюдения для назначения функций read_sql из пакета pandas
создайте переменную таблицы для чтения данных из таблицы sqlite_master

Файлы JSON — это стандартный способ хранения данных на разных платформах. Их структура аналогична словарям Python.

Базы данных NoSQL не являются реляционными и больше различаются по структуре. Большинство баз данных NoSQL хранят данные в формате JSON.

Очистка данных

Очистка данных важна, потому что беспорядочные данные приведут к ненадежным результатам.

Распространенные проблемы, приводящие к беспорядку в данных:

повторяющиеся или ненужные данные
противоречивые данные и опечатки
отсутствующие данные, выбросы
проблемы с источником данных

Вы можете определить повторяющиеся или ненужные данные.

Общие правила для работы с отсутствующими данными:

удалить строку с отсутствующими столбцами
вписать недостающие данные
замаскировать данные, создав категорию для отсутствующих значений

Распространенные методы поиска выбросов:

через участки
статистика
остатки.

Общие правила для работы с выбросами:

удалить выбросы
вменять их
использовать переменную трансформацию
использовать модель, устойчивую к выбросам

Исследовательский анализ данных

EDA — это подход к анализу наборов данных, который обобщает их основные характеристики, часто с использованием визуальных методов. Это поможет вам определить, можно ли использовать данные как есть, или они нуждаются в дополнительной очистке данных.

EDA также важен в процессе выявления закономерностей, наблюдения за тенденциями и формулирования гипотез.

Общие сводные статистические данные для EDA включают поиск сводных статистических данных и создание визуализаций.

Разработка функций и преобразование переменных

Преобразование переменных помогает удовлетворить предположения статистических моделей. Конкретным примером является линейная регрессия, в которой вы можете преобразовать предикторную переменную так, чтобы она имела линейную связь с целевой переменной.

Общие преобразования переменных: вычисление логарифмических преобразований и полиномиальных признаков, кодирование категориальной переменной и масштабирование переменной.

Оценка и вывод

Логическая статистика состоит в изучении характеристик генеральной совокупности по выборке. Характеристики генеральной совокупности являются параметрами, а характеристики выборки — статистическими. Параметрическая модель использует определенное количество параметров, таких как среднее значение и стандартное отклонение.

Наиболее распространенный способ оценки параметров в параметрической модели — оценка методом максимального правдоподобия.

С помощью проверки гипотезы вы проверяете конкретное значение параметра.

Оценка представляет собой процесс определения параметра совокупности на основе модели, подогнанной к данным.

Наиболее распространенными функциями распределения являются: равномерное, нормальное, логарифмически нормальное, экспоненциальное и пуассоновское.

Частотный подход фокусируется на наблюдении за повторением эксперимента человеком. Байесовский подход описывает параметры через распределения вероятностей.

Проверка гипотез

Гипотеза — это утверждение о параметре совокупности. У вас обычно есть две гипотезы: нулевая гипотеза и альтернативная гипотеза.

Проверка гипотезы дает вам правило, позволяющее решить, для каких значений тестовой статистики вы принимаете нулевую гипотезу, а для каких значений вы отвергаете нулевую гипотезу и принимаете альтернативную гипотезу.

Ошибка 1-го типа возникает, когда эффект обусловлен случайностью, но мы считаем, что в модели он значителен.

Ошибка 2-го типа возникает, когда мы приписываем эффект случайности, но этот эффект не является случайным.

Уровень значимости и p-значения

Уровень значимости — это порог вероятности, ниже которого нулевая гипотеза может быть отвергнута. Вы должны выбрать уровень значимости перед вычислением тестовой статистики. Обычно это 0,01 или 0,05.

Р-значение — это наименьший уровень значимости, при котором нулевая гипотеза будет отвергнута. Доверительный интервал содержит значения статистики, для которых мы принимаем нулевую гипотезу.

Корреляции полезны, поскольку эффекты могут помочь предсказать результат, но корреляция не подразумевает причинно-следственную связь.

При выработке рекомендаций следует учитывать смешанные переменные и тот факт, что корреляция между двумя переменными не означает, что увеличение или уменьшение одной из них приведет к увеличению или уменьшению другой.

Ложные корреляции случаются в данных. Это просто совпадения для конкретной выборки данных.