Город: Санкт-Петербург Новосибирск Казань Язык: Русский English

Воспроизводимая наука о данных. Инструменты воспроизводимых исследований
Санкт-Петербург / весна 2016, посмотреть все семестры

Запишитесь на курс, чтобы получать уведомления и иметь возможность сдавать домашние задания. Для записи требуется регистрация на сайте.
Перейти к регистрации Войти

В рамках курса будет дан обзор инструментов, позволяющих повысить прозрачность и воспроизводимость академических и прикладных исследований. Будет рассмотрена модель ведения анализа с момента, когда данные эксперимента собраны и сохранены, до момента публикации результатов в виде статьи или в виде сервиса - предсказательной модели.

Такие технологии как jupyterhub, docker, snakemake, travis, gitlab-ci, заимствованные из области разработки программного обеспечения позволяют лучше сфокусироваться на содержании исследования и экономить время на технических обсуждениях особенностей реализации. Основные инструменты и практики, описываемые в рамках курса, применяются в рамках проведения совместных исследований в индустрии (на примере Яндекса) или физике высоких энергий (на примере CERN). Тем не менее, описанные практики имеют гораздо более широкую применимость. Благодаря предлагаемым подходам работа в команде может стать гораздо более эффективной В рамках курса будут даны практические задания, которые помогут закрепить навыки совместной работы над исследовательскими задачами.

Требования к участникам:

  • Умение работать с Python для исследовательских задач - библиотеки numpy, pandas, sklearn. Если Вы в себе сомневаетесь, попробуйте простые задачи с Kaggle, например, https://www.kaggle.com/c/titanic.
  • Принести ноутбук с зарядным устройством и Wi-Fi. Установить на него https://www.docker.com/.

Дата и время Занятие Место Материалы
16 апреля
18:30–19:20
Введение. Из чего состоит исследование., Лекция Таймс, ауд. 404 слайды,  видео
16 апреля
19:20–20:40
Организация хранения и доступа к данным., Лекция Таймс, ауд. 404 слайды,  файлы
16 апреля
19:50–21:10
Переносимые окружения - virtualenv, conda, Docker, Лекция Таймс, ауд. 404 слайды
17 апреля
11:15–12:35
Решения для запуска Jupyter в облаке, Лекция Таймс, ауд. 404 слайды,  видео
17 апреля
12:45–14:05
Запуск тетрадок jupyter из контейнера docker, Лекция Таймс, ауд. 404 видео
23 апреля
18:30–18:50
Повторение пройденого, Лекция Таймс, ауд. 404 слайды,  видео
23 апреля
18:50–20:10
Средства автоматизации workflow, Лекция Таймс, ауд. 404 слайды
23 апреля
19:50–21:10
Continuous integration, Лекция Таймс, ауд. 404 слайды,  другое
24 апреля
11:15–12:35
Публикация результатов анализа как сервиса (Jupyter as service), Лекция Таймс, ауд. 404 слайды,  видео
24 апреля
12:45–13:00
Ресурсы для сравнения решений (OpenML, Kaggle scripts), Лекция Таймс, ауд. 404 слайды
24 апреля
13:10–14:15
Примеры из индустрии и науки, Лекция Таймс, ауд. 404 другое