City: Test Saint Petersburg Novosibirsk Kazan Language: Русский English

Reproducible Data Science


В рамках курса будет дан обзор инструментам, позволяющим повысить прозрачность и понятность академических и индустриальных исследований. Будет рассмотрена модель ведения анализа с момента, когда данные естественного эксперимента собраны и сохранены, до момента публикации результатов в виде статьи или в виде сервиса предсказательной модели. Одним из ключевых аспектов воспроизводимости исследования является сохранение предположений относительно выполняемого анализа в выполняемой форме. Такие технологии как jupyterhub, docker, snakemake, travis, gitlab-ci, заимствованные из области разработки программного обеспечения позволяют лучше сфокусироваться на содержании исследования и экономить время на обсуждении базовых предположений или проверки чужих результатов. Основные инструменты и практики, описываемые в рамках курса, применяются в рамках проведения совместных исследований в индустрии (на примере Яндекса) или физике высоких энергий (на примере CERN). Тем не менее, описанные практики имеют гораздо более широкую применимость. Благодаря предлагаемым подходам работа в команде может стать гораздо более эффективной и приятной В рамках курса будет проведен интерактивный конкурс, участие в котором поможет закрепить навыки совместной работы.

Course Offerings

Semester Branch
spring 2016 Saint Petersburg