[OTUS] Промышленный Machine Learning на больших данных. Часть 2 из 4 (2020)

Скачать [OTUS] Промышленный Machine Learning на больших данных. Часть 2 из 4 (2020)
Сейчас ищут:

Itnull

Команда форума
Администратор
Регистрация
22.05.13
Сообщения
25.083
Реакции
8.947
Веб-сайт
itnull.me
  • Автор темы
  • Администратор
  • Модер.
  • Команда форума
  • #1
Автор: OTUS
Название: Промышленный Machine Learning на больших данных. Часть 2 из 4 (2020)
1608805800457.png
Описание:

Что даст вам этот курс


Курс рассчитан на Data Engineer-ов или специалистов в машинном обучении.

Вы научитесь:

  • использовать стандартные инструменты ML-конвейеров в распределенной среде;
  • разрабатывать собственные блоки для ML-конвейеров;
  • адаптировать ML-алгоритмы к распределенной среде и инструментам big data;
  • использовать Spark, SparkML, Spar Streaming;
  • организовывать промышленные конвейеры сбора данных;
  • разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;
  • обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.

Необходимые знания
Базовые навыки программирования:


  • управляющие конструкции, циклы, рекурсия;
  • основные структуры данных: массивы, списки, словари, деревья;
  • базовые принципы ООП;
  • знакомство с одним из языков: Python, Java, Scala, C++.
  • Математика:
  • линейная алгебра: вектора, матрицы и их произведения;
  • матан: производная простых и композитных функций;
  • вычметоды: градиентный спуск, Ньютоновские итерации;
  • теория вероятности: случайные события и величины, математическое ожидание, дисперсия.
Технологии:

  • понимание основ работы вычислительной техники в рамках архитектуры фон Неймана (процессор, память, кэш, подключаемое хранилище);
  • понимание общих принципов реляционных СУБД, знание SQL.
Будет плюсом: знакомство с классическими алгоритмами машинного обучения.

Программа:

Базовые вводные для старта курса

  • Тема 1. Градиентный спуск и линейные модели
  • Тема 2. Обзор основных методов и метрик машинного обучения
  • Тема 3. Основы программирования на Scala

Технологические основы распределенной обработки данных

  • Тема 4. Эволюция параллельных алгоритмов
  • Тема 5. Менеджеры ресурсов в распределенных системах
  • Тема 6. Распределенные хранилища
  • Тема 7. Основы Apache Spark
Основы распределенного МL

  • Тема 8. Перенос МЛ-алгоритмов в распределенную среду
  • Тема 9. ML в Apache Spark
  • Тема 10. Разработка собственных блоков для SparkML
  • Тема 11. Сторонние библиотеки для использования со Spark
  • Тема 12. Оптимизация гиперпараметров и AutoML
Потоковая обработка данных

  • Тема 13. Потоковая обработка данных
  • Тема 14. Spark Streaming
  • Тема 15. Структурный и непрерывный стриминг в Spark
  • Тема 16. Альтернативные потоковые фреймворки

Целеполагание и анализ результатов

  • Тема 17. Определение цели МЛ-проекта и предварительный анализ
  • Тема 18. Долгосрочные ML-цели на примере задачи уменьшения оттока
  • Тема 19. А/Б тестирование
  • Тема 20. Дополнительные темы
Вывод результатов ML в продакшн

  • Тема 21. Подходы к выводу ML-решений в продакшн
  • Тема 22. Версионирование, воспроизводимость и мониторинг
  • Тема 23. Онлайн-сервинг моделей
  • Тема 24. Паттерны асинхронного потокового ML и ETL
  • Тема 25. Если надо Python
  • Тема 26. Альтернативные фреймворки с поддержкой Python и область применимости Dusk, KubeFlow, Seldon Core, H2O. Особенности эксплуатации гетерогенных систем в проме

ML на python в продакшне

  • Тема 27. Production Code на Python. Организация и Packaging кода
  • Тема 28. REST-архитектура: Flask API
  • Тема 29. Docker: Структура, применение, деплой
  • Тема 30. Amazon Sagemaker
  • Тема 31. AWS ML Service

Продвинутые топики

  • Тема 32. Нейросети
  • Тема 33. Распределенное обучение и инференс нейросетей
  • Тема 34. Градиентный бустинг на деревьях
  • Тема 35. Обучение с подкреплением

Скачать
 
Назад
Сверху Снизу