Методы и системы обработки больших данных, весна 2017

Методы и системы обработки больших данных
Санкт-Петербург / весна 2017, посмотреть все семестры

Запишитесь на курс, чтобы получать уведомления и иметь возможность сдавать домашние задания. Для записи требуется регистрация на сайте.
Перейти к регистрации Войти

Курс посвящен методам построения систем обработки больших данных и существующим инструментам в этой области. Цель курса — дать понимание внутреннего устройства, механики работы, области применимости существующих решений, осветить сильные и слабые стороны, научить практическим навыкам анализа больших массивов информации.

В лекционной части курса рассматриваются такие технологии как HDFS, Hadoop MapReduce, HBase, Cassandra, Spark, Kafka, Spark Streaming, Storm. Последовательность рассказа повторяет историю появления и развития данных технологий обработки данных. В начале мы познакомимся с HDFS и MapReduce, разберем основные архитектурные решения и ограничения в применимости данных систем (в том числе с учетом десятилетнего опыта эксплуатации). Следом разберем задачу хранения данных по ключу, познакомимся с различными трейд-оффами в построении систем типа ключ-значение на примере HBase & Cassandra. Постепенно перейдем к изучению устройства Spark, современной системе кластерной обработки данных. Узнаем принципиальные отличия в пакетной и потоковой обработке данных, изучим Kafka — шину для доставки данных с минимальными задержками — и Storm вместе с Spark Streaming — системами потоковых вычислений. В дополнение разберем сопроводительные технологии (типа ZooKeeper, Hive), которые порой упрощают жизнь при разработке приложений.

Практическая часть курса состоит из нескольких заданий, подчиненных одной сквозной модельной бизнес-задаче. Вашей главной целью будет построение контура непрерывной обработки данных для расчета аудиторных статистик модельной соцсети, сбора и хранения пользовательских профилей, решения ad-hoc задач аналитики. Оценка за практическую часть формируется из корректности и стабильности вашего решения.

Дата и время	Занятие	Место	Материалы
11 марта 17:20–18:50	Лекция 1: HDFS, Лекция	ПОМИ РАН	видео
11 марта 19:10–20:40	Лекция 2: MapReduce, Лекция	ПОМИ РАН	видео
12 марта 11:15–12:45	Лекция 3: HBase, Лекция	ПОМИ РАН	видео
12 марта 13:00–14:30	Лекция 4: Cassandra, Лекция	ПОМИ РАН	видео
12 марта 15:30–17:00	Лекция 5: Spark, Лекция	ПОМИ РАН	видео
18 марта 17:20–18:00	Лекция 6: Zookeeper, Лекция	ПОМИ РАН	видео
18 марта 18:10–18:50	Лекция 7: Zookeeper (продолжение), Лекция	ПОМИ РАН	видео
18 марта 19:10–20:40	Лекция 8: Kafka, Лекция	ПОМИ РАН	видео
19 марта 11:15–12:45	Лекция 9: Spark Streaming, Лекция	ПОМИ РАН	видео
19 марта 13:00–14:30	Лекция 10: Storm, Лекция	ПОМИ РАН	видео
19 марта 15:30–17:00	Лекция 11: Hive, Лекция	ПОМИ РАН	видео

Иван Витальевич Пузыревский

Методы и системы обработки больших данных Санкт-Петербург / весна 2017, посмотреть все семестры

Методы и системы обработки больших данных
Санкт-Петербург / весна 2017, посмотреть все семестры