City: Saint Petersburg Novosibirsk Kazan Language: Русский English

Methods and Systems for Big Data Processing
Saint Petersburg / spring 2017, посмотреть все семестры

Enroll in the course to get notifications and to be able to submit home assignments.
Register to enroll now Login

Курс посвящен методам построения систем обработки больших данных и существующим инструментам в этой области. Цель курса — дать понимание внутреннего устройства, механики работы, области применимости существующих решений, осветить сильные и слабые стороны, научить практическим навыкам анализа больших массивов информации.

В лекционной части курса рассматриваются такие технологии как HDFS, Hadoop MapReduce, HBase, Cassandra, Spark, Kafka, Spark Streaming, Storm. Последовательность рассказа повторяет историю появления и развития данных технологий обработки данных. В начале мы познакомимся с HDFS и MapReduce, разберем основные архитектурные решения и ограничения в применимости данных систем (в том числе с учетом десятилетнего опыта эксплуатации). Следом разберем задачу хранения данных по ключу, познакомимся с различными трейд-оффами в построении систем типа ключ-значение на примере HBase & Cassandra. Постепенно перейдем к изучению устройства Spark, современной системе кластерной обработки данных. Узнаем принципиальные отличия в пакетной и потоковой обработке данных, изучим Kafka — шину для доставки данных с минимальными задержками — и Storm вместе с Spark Streaming — системами потоковых вычислений. В дополнение разберем сопроводительные технологии (типа ZooKeeper, Hive), которые порой упрощают жизнь при разработке приложений.

Практическая часть курса состоит из нескольких заданий, подчиненных одной сквозной модельной бизнес-задаче. Вашей главной целью будет построение контура непрерывной обработки данных для расчета аудиторных статистик модельной соцсети, сбора и хранения пользовательских профилей, решения ad-hoc задач аналитики. Оценка за практическую часть формируется из корректности и стабильности вашего решения.

Date and time Class|Name Venue|short Materials
11 March
17:20–18:50
Лекция 1: HDFS, Lecture ПОМИ РАН video
11 March
19:10–20:40
Лекция 2: MapReduce, Lecture ПОМИ РАН video
12 March
11:15–12:45
Лекция 3: HBase, Lecture ПОМИ РАН video
12 March
13:00–14:30
Лекция 4: Cassandra, Lecture ПОМИ РАН video
12 March
15:30–17:00
Лекция 5: Spark, Lecture ПОМИ РАН video
18 March
17:20–18:00
Лекция 6: Zookeeper, Lecture ПОМИ РАН video
18 March
18:10–18:50
Лекция 7: Zookeeper (продолжение), Lecture ПОМИ РАН video
18 March
19:10–20:40
Лекция 8: Kafka, Lecture ПОМИ РАН video
19 March
11:15–12:45
Лекция 9: Spark Streaming, Lecture ПОМИ РАН video
19 March
13:00–14:30
Лекция 10: Storm, Lecture ПОМИ РАН video
19 March
15:30–17:00
Лекция 11: Hive, Lecture ПОМИ РАН video