Сайт в процессе наполнения. Архив всех прошедших курсов доступен на старой версии сайта по адресу old.compsciclub.ru
Город: Санкт-Петербург Казань Язык: Русский English

Воспроизводимая наука о данных. Инструменты воспроизводимых исследований
Весна 2016, посмотреть все семестры

Запишитесь на курс, чтобы получать уведомления и иметь возможность сдавать домашние задания. Для записи требуется регистрация на сайте.
Перейти к регистрации Войти

В рамках курса будет дан обзор инструментов, позволяющих повысить прозрачность и воспроизводимость академических и прикладных исследований. Будет рассмотрена модель ведения анализа с момента, когда данные эксперимента собраны и сохранены, до момента публикации результатов в виде статьи или в виде сервиса - предсказательной модели.

Такие технологии как jupyterhub, docker, snakemake, travis, gitlab-ci, заимствованные из области разработки программного обеспечения позволяют лучше сфокусироваться на содержании исследования и экономить время на технических обсуждениях особенностей реализации. Основные инструменты и практики, описываемые в рамках курса, применяются в рамках проведения совместных исследований в индустрии (на примере Яндекса) или физике высоких энергий (на примере CERN). Тем не менее, описанные практики имеют гораздо более широкую применимость. Благодаря предлагаемым подходам работа в команде может стать гораздо более эффективной В рамках курса будут даны практические задания, которые помогут закрепить навыки совместной работы над исследовательскими задачами.

Требования к участникам:

  • Умение работать с Python для исследовательских задач - библиотеки numpy, pandas, sklearn. Если Вы в себе сомневаетесь, попробуйте простые задачи с Kaggle, например, https://www.kaggle.com/c/titanic.
  • Принести ноутбук с зарядным устройством и Wi-Fi. Установить на него https://www.docker.com/.

Дата и время Название Место Материалы
16 апреля
18:30–19:20
Введение. Из чего состоит исследование., лекция Таймс, ауд. с белыми досками слайдывидео
16 апреля
19:20–20:40
Организация хранения и доступа к данным., лекция Таймс, ауд. с белыми досками слайдыфайлы
16 апреля
19:50–21:10
Переносимые окружения - virtualenv, conda, Docker, лекция Таймс, ауд. с белыми досками слайды
17 апреля
11:15–12:35
Решения для запуска Jupyter в облаке, лекция Таймс, ауд. с белыми досками слайдывидео
17 апреля
12:45–14:05
Запуск тетрадок jupyter из контейнера docker, лекция Таймс, ауд. с белыми досками видео
23 апреля
18:30–18:50
Повторение пройденого, лекция Таймс, ауд. с белыми досками слайдывидео
23 апреля
18:50–20:10
Средства автоматизации workflow, лекция Таймс, ауд. с белыми досками слайды
23 апреля
19:50–21:10
Continuous integration, лекция Таймс, ауд. с белыми досками слайдыдругие
24 апреля
11:15–12:35
Публикация результатов анализа как сервиса (Jupyter as service), лекция Таймс, ауд. с белыми досками слайдывидео
24 апреля
12:45–13:00
Ресурсы для сравнения решений (OpenML, Kaggle scripts), лекция Таймс, ауд. с белыми досками слайды
24 апреля
13:10–14:15
Примеры из индустрии и науки, лекция Таймс, ауд. с белыми досками другие
16 августа 2016

Видео

Выложены видеозаписи лекций. Обратите внимание, видеофайлы не разбиты по темам, каждому лекционному дню соответствует один ролик, в котором представлены 2-3 лекции.

23 апреля 2016

Conda environmet for OpenML

name: comet-exmaple
dependencies:
- numpy=1.10.4=py35_1
- openblas=0.2.14=4
- openssl=1.0.2g=0
- pandas=0.17.0
- numexpr=2.4
- matplotlib=1.4.3
- scikit-learn=0.17.0
- pip=8.1.1
- pip:
  - snakemake==3.6.1
  - runipy==0.1.5
  - ipyparallel==5.0.1
  - ipython-genutils==0.1.0
  - itsdangerous==0.24
  - jupyterhub==0.5.0
  - jupyter==1.0.0
  - "--editable=git+https://github.com/renatopp/liac-arff.git@03394074deca70db2ff748bbccbbfe284254c54f#egg=liac-arff-2.1.1dev"
  - "--editable=git+https://github.com/openml/openml-python.git@26686b0dda5b08776ef59e8637c5e3cd81dfca00#egg=openml-0.2.1"
19 апреля 2016

Docker-образ, запускающий пример OpenML [Решение]

Например, можно было сделать так (на основе решения Романа Чернятчика):

FROM jupyter/scipy-notebook:2d878db5cbff

RUN git clone https://github.com/openml/openml-python
RUN cd openml-python && git checkout 26686b0dda5b08776ef59e8637c5e3cd81dfca00 && python setup.py install
CMD tini -- start-notebook.sh openml-python/examples/OpenMLDemo.ipynb
16 апреля 2016

Задание до 17.04.16 Подготовить Docker-образ, запускающий пример OpenML

Приготовить Docker-образ, запускающий https://github.com/openml/openml-python/blob/develop/examples/OpenMLDemo.ipynb . Прислать ссылку на репозиторий с Dockerfile и на образ в Dockerhub. Чтобы его сдать, надо записаться на курс через сайт.

16 апреля 2016

Недельное задание

В плане курса есть задание - сложно овладеть инструментами без практики. Лучше всего его делать в команде - совместная работа тесно связана с воспроизводимостью. И полезный навык сама по себе. Тем не менее, мы не настаиваем - отметьте, если Вы твёрдо намеренны работать в одиночестве. Пожалуйста, заполните форму, чтобы мы могли Вам его выслать: https://docs.google.com/forms/d/1BJO9sP0dxYX7gKbtQMz-yz1pnitGz3TDaSzUD3lT2PA/viewform