- Автор темы
- Администратор
- Модер.
- Команда форума
- #1
Автор: OTUS
Название: Промышленный Machine Learning на больших данных. Часть 3 из 4 (2020)
Описание:
Что даст вам этот курс
Курс рассчитан на Data Engineer-ов или специалистов в машинном обучении.
Вы научитесь:
Необходимые знания
Базовые навыки программирования:
Программа:
Базовые вводные для старта курса
Технологические основы распределенной обработки данных
Основы распределенного МL
Потоковая обработка данных
Целеполагание и анализ результатов
Вывод результатов ML в продакшн
ML на python в продакшне
Продвинутые топики
Скачать
Название: Промышленный Machine Learning на больших данных. Часть 3 из 4 (2020)
Описание:
Что даст вам этот курс
Курс рассчитан на Data Engineer-ов или специалистов в машинном обучении.
Вы научитесь:
- использовать стандартные инструменты ML-конвейеров в распределенной среде;
- разрабатывать собственные блоки для ML-конвейеров;
- адаптировать ML-алгоритмы к распределенной среде и инструментам big data;
- использовать Spark, SparkML, Spar Streaming;
- организовывать промышленные конвейеры сбора данных;
- разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;
- обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.
Необходимые знания
Базовые навыки программирования:
- управляющие конструкции, циклы, рекурсия;
- основные структуры данных: массивы, списки, словари, деревья;
- базовые принципы ООП;
- знакомство с одним из языков: Python, Java, Scala, C++.
- Математика:
- линейная алгебра: вектора, матрицы и их произведения;
- матан: производная простых и композитных функций;
- вычметоды: градиентный спуск, Ньютоновские итерации;
- теория вероятности: случайные события и величины, математическое ожидание, дисперсия.
- понимание основ работы вычислительной техники в рамках архитектуры фон Неймана (процессор, память, кэш, подключаемое хранилище);
- понимание общих принципов реляционных СУБД, знание SQL.
Программа:
Базовые вводные для старта курса
- Тема 1. Градиентный спуск и линейные модели
- Тема 2. Обзор основных методов и метрик машинного обучения
- Тема 3. Основы программирования на Scala
Технологические основы распределенной обработки данных
- Тема 4. Эволюция параллельных алгоритмов
- Тема 5. Менеджеры ресурсов в распределенных системах
- Тема 6. Распределенные хранилища
- Тема 7. Основы Apache Spark
Основы распределенного МL
- Тема 8. Перенос МЛ-алгоритмов в распределенную среду
- Тема 9. ML в Apache Spark
- Тема 10. Разработка собственных блоков для SparkML
- Тема 11. Сторонние библиотеки для использования со Spark
- Тема 12. Оптимизация гиперпараметров и AutoML
Потоковая обработка данных
- Тема 13. Потоковая обработка данных
- Тема 14. Spark Streaming
- Тема 15. Структурный и непрерывный стриминг в Spark
- Тема 16. Альтернативные потоковые фреймворки
Целеполагание и анализ результатов
- Тема 17. Определение цели МЛ-проекта и предварительный анализ
- Тема 18. Долгосрочные ML-цели на примере задачи уменьшения оттока
- Тема 19. А/Б тестирование
- Тема 20. Дополнительные темы
Вывод результатов ML в продакшн
- Тема 21. Подходы к выводу ML-решений в продакшн
- Тема 22. Версионирование, воспроизводимость и мониторинг
- Тема 23. Онлайн-сервинг моделей
- Тема 24. Паттерны асинхронного потокового ML и ETL
- Тема 25. Если надо Python
- Тема 26. Альтернативные фреймворки с поддержкой Python и область применимости Dusk, KubeFlow, Seldon Core, H2O. Особенности эксплуатации гетерогенных систем в проме
ML на python в продакшне
- Тема 27. Production Code на Python. Организация и Packaging кода
- Тема 28. REST-архитектура: Flask API
- Тема 29. Docker: Структура, применение, деплой
- Тема 30. Amazon Sagemaker
- Тема 31. AWS ML Service
Продвинутые топики
- Тема 32. Нейросети
- Тема 33. Распределенное обучение и инференс нейросетей
- Тема 34. Градиентный бустинг на деревьях
- Тема 35. Обучение с подкреплением
Скачать
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.