Задача 1: IPython notebook

Описание

Научиться анализу данных и машинному обучению можно только на практике. Самый простой вариант для начала работы - IPython ноутбуки. С их помощью вы прямо в браузере можете писать код на python и интерактивно работать с результатом.

В этом стартовом упражнении мы возьмем наши погодные данные и воспроизведем код, показанный вам в лекции. Сама заготовка с рабочим кодом для решения задачи, а также все необходимые для его работы ссылки и материалы, доступны ниже.

Вашей задачей является не столько запустить код и немного его адаптировать, сколько суметь настроить свое окружение проверить что все работает как нужно.

Полезные ссылки

Условие задачи

Обучите новое дерево решений, глубина max_depth которого равна 5. Сделайте с помощью этого дерева предсказание для нового дня, y которого влажность humidity будет равна 70, а давление pressure - 1027. Введите полученный результат предсказания для этого нового дня в форму ниже.

Задача 2: Pandas и работа с данными

Описание

Теперь, когда мы научились запускать готовый код и править в нем несколько цифр, перейдем к самому важному - работе с данными.

В этом упражнении мы научимся не только считывать данные, но и по-разному их комбинировать. А поможет нам в этом замечательная библиотека pandas.

Вашей задачей будет считать все наши погодные данные и построить на их основе несколько новых характеристик.

Полезные ссылки

Условие задачи

Чему равна средняя температура temperature у дождливых дней, когда направление ветра wind_direction было от 0 до 200 градусов? Введите полученный результат, округлив его до 1 знака за запятой, в форму ниже.

Задача 3: Matplotlib и визуализация

Описание

Самый простой способ извлечь из данных много информации в компактном виде - визуализация.

В этом упражнении мы познакомимся с данными из игры Dota 2, построим несколько графиков и попробуем обнаружить зависимости.

Вашей задачей будет использовать диаграмму рассеяния для обнаружения выбросов.

Материалы

descriptionJupyter Notebook insert_drive_fileДанные Dota

Внимание! Данные и условие задачи обновлены 12 марта в 18:45 МСК.

Условие задачи

Если нарисовать диаграмму рассеяния dire_xp против dire_gold, без фильтрации строк, где radiant_gold < 100000, то можно увидеть кластер выбросов в правом верхнем углу. Введите в форму ниже fight_id соответствующий любому из этих выбросов.

Задача 4: SciKit-Learn и построение моделей

Описание

После знакомства с данными начинается стадия моделирования.

В этом упражнении мы познакомимся с библиотекой sklearn, научимся работать с пропусками в данных, категориальными переменными и подбирать параметры на кросс-валидации.

Ваша задача заключается в том, чтобы найти наилучшую конфигурацию параметров модели машинного обучения.

Материалы

descriptionJupyter Notebook insert_drive_fileДанные Dota

Внимание! Данные и условие задачи обновлены 12 марта в 18:45 МСК.

Условие задачи

Используя кросс-валидацию, выберите наилучшую конфигурацию параметров {'n_estimators': [10, 50, 100], 'max_depth': [5, 10, 15]}. В качестве ответа введите в форму оптимальные значения этих параметров, например 10, 15.