100% пройдено
СТАРТ
20 апреля 12:05
ОКОНЧАНИЕ
20 апреля 18:30

Соревнование окончено

Тема 1. Pandas & Sklearn

В этом уроке мы познакомимся с библиотекой pandas о которой рассказывали в видео.
Pandas — это библиотека Python, предоставляющая широкие возможности для анализа данных.
Данные, с которыми работают датасаентисты, часто хранятся в форме табличек — например, в форматах .csv, .tsv или .xlsx.
С помощью библиотеки Pandas такие табличные данные очень удобно загружать, обрабатывать и анализировать.

Материалы

Jupyter notebook
Данные Dota

Полезные ссылки

Вопросы

  1. Сколько признаков содержится в table?
  2. Сколько различных значений принимает целевая переменная?
  3. Какую метку предсказал бы классификатор, обученный в этом примере, для игрока с параметрами net_worth = 5124 и gold_per_min = 60?

Ответы на вопросы урока введите в эти формы. Обратите внимание, что это должно быть целое число (без десятичного разделителя), без скобок или кавычек.

Тема 2. Визуализация данных

Этот урок посвящен визуализации данных в Python. Мы рассмотрим основные методы библиотеки matplotlib, построим графики на основе данных соревнования и добавим еще больше красоты от seaborn.

Материалы

Jupyter notebook
Данные Dota

Полезные ссылки

Вопросы

  1. На сколько строк таблица table_truncated меньше, чем table?
  2. Какое в среднем значение признака gold у опытных игроков? (ответ округлите до целого)
  3. Какое медианное значение признака gold у опытных игроков?

Ответы на вопросы урока введите в эти формы. Обратите внимание, что это должно быть целое число (без десятичного разделителя), без скобок или кавычек.

Тема 3. Построение моделей

В третьем уроке мы наконец перейдем к машинному обучению: подготовим признаки и обучим первую модель на данных.

Материалы

Jupyter notebook
Данные Dota

Полезные ссылки

  • Деревья решений - лекция для старшеклассников
  • Data science IPython notebooks - множество качественных тетрадок по основным библиотекам Python для анализа данных — NumPy, SciPy, Pandas, Matplotlib, Scikit-learn

Вопросы

  1. Какой размер тестовой выборки test_size был указан при разбиении данных? (в процентах)
  2. Какое количество деревьев является наилучшим при подборе параметров GridSearchCV?
  3. Какой процент правильных ответов "угадал" классификатор? (в процентах)

Ответы на вопросы урока введите в эти формы. Обратите внимание, что это должно быть целое число (без десятичного разделителя), без знака процента, без скобок или кавычек.