Задача 1: IPython notebook
Описание
Научиться анализу данных и машинному обучению можно только на практике. Самый простой вариант для начала работы - IPython ноутбуки. С их помощью вы прямо в браузере можете писать код на python и интерактивно работать с результатом.
В этом стартовом упражнении мы возьмем наши погодные данные и воспроизведем код, показанный вам в лекции. Сама заготовка с рабочим кодом для решения задачи, а также все необходимые для его работы ссылки и материалы, доступны ниже.
Вашей задачей является не столько запустить код и немного его адаптировать, сколько суметь настроить свое окружение проверить что все работает как нужно.
Полезные ссылки
- Anaconda - бесплатная последняя сборка Python для анализа данных, IPython в комплекте;
- Установка IPython - инструкция по установке со страницы ФКН ВШЭ;
- Программирование на Python - открытые материалы курса от Computer Science Center;
- Программирование на Python - бесплатный онлайн курс на платформе Stepik;
Условие задачи
Обучите новое дерево решений, глубина max_depth
которого равна 5. Сделайте с помощью этого дерева предсказание для нового дня, y которого влажность humidity
будет равна 70, а давление pressure
- 1027. Введите полученный результат предсказания для этого нового дня в форму ниже.
Задача 2: Pandas и работа с данными
Описание
Теперь, когда мы научились запускать готовый код и править в нем несколько цифр, перейдем к самому важному - работе с данными.
В этом упражнении мы научимся не только считывать данные, но и по-разному их комбинировать. А поможет нам в этом замечательная библиотека pandas.
Вашей задачей будет считать все наши погодные данные и построить на их основе несколько новых характеристик.
Полезные ссылки
- Документация pandas - с официальной страницы проекта;
- Шпаргалка по pandas - инфографика с основными функциями;
- Первичный анализ данных с Pandas - из открытого русского курса по машинному обучению;
- Изучаем pandas - открытая книга на русском языке;
Условие задачи
Чему равна средняя температура temperature
у дождливых дней, когда направление ветра wind_direction
было от 0 до 200 градусов? Введите полученный результат, округлив его до 1 знака за запятой, в форму ниже.
Задача 3: Matplotlib и визуализация
Описание
Самый простой способ извлечь из данных много информации в компактном виде - визуализация.
В этом упражнении мы познакомимся с данными из игры Dota 2, построим несколько графиков и попробуем обнаружить зависимости.
Вашей задачей будет использовать диаграмму рассеяния для обнаружения выбросов.
Материалы
descriptionJupyter Notebook insert_drive_fileДанные Dota
Внимание! Данные и условие задачи обновлены 12 марта в 18:45 МСК.
Условие задачи
Если нарисовать диаграмму рассеяния dire_xp
против dire_gold
, без фильтрации строк, где radiant_gold < 100000
, то можно увидеть кластер выбросов в правом верхнем углу. Введите в форму ниже fight_id
соответствующий любому из этих выбросов.
Задача 4: SciKit-Learn и построение моделей
Описание
После знакомства с данными начинается стадия моделирования.
В этом упражнении мы познакомимся с библиотекой sklearn, научимся работать с пропусками в данных, категориальными переменными и подбирать параметры на кросс-валидации.
Ваша задача заключается в том, чтобы найти наилучшую конфигурацию параметров модели машинного обучения.
Материалы
descriptionJupyter Notebook insert_drive_fileДанные Dota
Внимание! Данные и условие задачи обновлены 12 марта в 18:45 МСК.
Условие задачи
Используя кросс-валидацию, выберите наилучшую конфигурацию параметров {'n_estimators': [10, 50, 100], 'max_depth': [5, 10, 15]}
. В качестве ответа введите в форму оптимальные значения этих параметров, например 10, 15
.