Data Engineering on Google Cloud Platform (DEGCP)
Программа курса
Модуль 1: Обзор Google Cloud Dataproc
- Создание и управление кластерами.
- Типы пользовательских машин, выбор нод.
- Масштабируемость и удаление кластеров.
- Лабораторная работа 1: Создание Hadoop Clusters с Google Cloud Dataproc.
Модуль 2: Запуск Dataproc Jobs
- Running Pig и Hive jobs.
- Сегментация хранилищ.
- Лабораторная работа 2: Запуск Hadoop и Spark Jobs с Dataproc.
- Лабораторная работа 3: Механизмы submit и monitor jobs.
Модуль3: Интеграция Dataproc с Google Cloud Platform
- Кастомизация кластера.
- BigQuery Support.
- Лабораторная работа 4: Выбор сервисов Google Cloud Platform.
Модуль 4: Использование Google’s Machine Learning API
- Google’s Machine Learning APIs.
- Сценарии использования ML.
- Вызов ML API.
- Лабораторная работа 5: Добавление механизмов Machine Learning и Big Data Analysis.
Модуль 5: Анализ данных с помощью BigQuery
- Что такое BigQuery.
- Queries и Functions.
- Лабораторная работа 6: Написание запросов в BigQuery.
- Загрузка данных в BigQuery.
- Выгрузка данных из BigQuery.
- Лабораторная работа 7: Добавление и импортирование данных.
- Запрос множественных таблиц.
- Лабораторная работа 8: Комплексные запросы.
- Производительность и цены.
Модуль 6: Data pipelines c Dataflow
- Модель The Beam.
- Data pipelines в Beam Python.
- Data pipelines в Beam Java.
- Лабораторная работа 9: Writing a Dataflow pipeline.
- Масштабирование процесса обработки Big Data с использованием Beam.
- Лабораторная работа 10: MapReduce в Dataflow.
- Лабораторная работа 11: Side inputs.
- Обработка потоковых данных.
- Основные архитектуры GCP.
Модуль 7: Начало работы с Machine Learning
- Что такое машинное обучение (ML).
- Эффективность ML: концепции, типы.
- ML datasets.
- Лабораторная работа 12: Создание ML datasets.
Модуль 8: Построение моделей ML с Tensorflow
- Начало работы с TensorFlow.
- Лабораторная работа :13 Использование tf.learn.
- TensorFlow графики.
- Лабораторная работа 14: Использование low-level TensorFlow + early stopping.
- Мониторинг обучения ML.
- Лабораторная работа 15: Графики и статистика обучения TensorFlow.
Модуль 9: Масштабирование моделей ML с CloudML
- Почему Cloud ML?
- Механизмы модели TensorFlow.
- End-to-end обучение.
- Лабораторная работа 16: Запуск локальной модели ML м в облаке.
Модуль 10: Feature Engineering
- Преобразование входных данных
- Synthetic features
- Preprocessing с Cloud ML.
- Лабораторная работа 17: Feature engineering.
Модуль 11: Перенос переменных
- В чем разница между Cloud Pub/Sub?
- Как это работает: Topics и Subscriptions.
- Лабораторная работа 18: Симулятор.
Модуль 12: Внедрение потоковых pipelines
- Как сложности могут возникнуть при обработке потоковых данных.
- Лабораторная работа 19: Рipeline для трафика реального времени.
Модуль 13: Потоковая аналитика и графики
- Потоковая аналитика.
- Запросы потоковых данных с BigQuery.
- Что такое Google Data Studio?
- Лабораторная работа 20: Построение dashboard в режиме реального времени для визуализации процессов обработки данных.
Модуль 14: Высокая пропускная способность и низкие задержки с Bigtable
- Что такое Cloud Spanner?
- Схема Bigtable.
- Переносв Bigtable.
- Лабораторная работа 21: Bigtable.