Разработчик BigData. Часть 1 из 5 - OTUS (2018)

Скачать Разработчик BigData. Часть 1 из 5 - OTUS (2018)
Недавно искали:

Itnull

Команда форума
Администратор
Регистрация
22.05.13
Сообщения
25.548
Реакции
9.491
Веб-сайт
itnull.me
  • Автор темы
  • Администратор
  • Модер.
  • Команда форума
  • #1
Разработчик BigData. Часть 1 из 5
OTUS

О курсе
В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений. Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков. Цель курса - освоить основные темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение. В нашем курсе мы научим основам анализа данных: расскажем о предобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одной машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний. В результате прохождения курса слушатель сможет самостоятельно реализовывать весь процесс от поиска знаний в данных до построения процесса по обработке данных в боевом окружении, будет обладать знаниями, необходимыми для изучения более сложных методов машинного обучения.

Занятие 1: Базовые инструменты анализа данных в Python.
Подготовка к курсу. Git, окружение Python. Обзор курса.
Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.
Что такое DS, ML, классы решаемых задач.
ДЗ
Реализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.

Занятие 2: Вводная в математические операции.
Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.

Занятие 3: Визуализация
Визуализация на matplotlib, seaborn, plotly
ДЗ
Построение визуализаций по данным

Занятие 4: Линейная регрессия
Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.
Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.

Занятие 5: Логистическая регрессия
Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.
Теория вероятностей: условные вероятности, теорема Байеса.
Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.
ДЗ
Реализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.

Занятие 6: KNN, наивный байес
Метрики и расстояния между объектами: евклидова и другие.
Обучение модели kNN. Ограничения.
Метрики качества: accuracy, precision, recall, др.
Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori

Занятие 7: kMeans, EM
Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.
Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.
ДЗ
Реализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.

Занятие 8: Иерархическая кластеризация, DB-Scan
Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.

Занятие 9: Feature engineering

Занятие 10: Поиск выбросов в данных


Скачать
 
Назад
Сверху Снизу