💻 Программирование [OTUS] Pазработчик BigData. 3 Часть из 5

  • ОФОРМИТЬ ПОДПИСКУ

Calvin Candie

Вечный

Calvin Candie

Вечный
2 Сен 2018
25,331
195
    Голосов: 0
  • #1
Автор: OTUS
Название: Pазработчик BigData. 3 Часть из 5

1743586558286.png

Чаще всего в окружении, в котором приходится работать, данные не готовы для анализа, у них произвольный формат и много ошибок. Например, это данные из баз знаний, открытых API, данные из различных информационных систем партнеров.В третьем модуле рассматриваются вопросы сбора и очистки данных, разбираются типичные задачи бизнеса. Например, это предсказание ctr, ltv. Дополнительно рассмотрим специальные алгоритмы анализа данных - это работа с временными рядами, рекомендательными системами, текстами, графами.

Занятие 17: Анализ текстовых данных
Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.
ДЗ
Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных

Занятие 18: Анализ текстовых данных
Выделение объектов в тексте (named entity recognition, named entity linking)
Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)
Word2vec для извлечения похожих слов, sentiment analysis

Занятие 19: Рекомендательные системы
Типы рекомендательных систем. Векторное пространство (тот же TF-IDF) и content-based модели, повторение стандартных метрик корреляций: Пирсон, косинусная мера, Джаккарт. Offline метрики и метрики ранжирования. Построение простой content-based модели. Item(user)-based CF. Использование CF для implicit feedback. Построение CF модели (item-based или MF)
ДЗ
Применение алгоритма рекомендаций для датасета фильмов.

Занятие 20: Временные ряды
Что такое временные ряды и простые модели построения прогнозов. Разложение временного ряда на компоненты: тренд, сезонность, цикл, ошибка. Стационарность ряда. Модели класса AR, MA, ARMA, ARIMA. Построение прогноза на примере данных. Модели ARIFMA. Нелинейные модели, библиотека Prophet от Facebook. Векторные модели

Занятие 21: Latent Dirichlet Allocation
ДЗ

Применение LDA для категоризации текстов.

Занятие 22: Алгоритмы на графах
Социальные сети

Занятие 23: Нейронные сети, обучение нейронных сетей
Основы: перцептрон и синапсы, функция активации, примеры задач. Обучение: функция потерь, обратное распространение ошибки, стохастический градиент.
ДЗ
Реализация алгоритма обратного распространения ошибки и применение простой сети на mnist.

Занятие 24: Сверточный слои, каскады, визуализация признаков
Сверточный слои, каскады, визуализация признаков. Нормализация и регуляризация: batchnorm, dropout. Архитектуры нейросетей: обзор архитектур AlexNet, ResNet, GoogLenet.

Скачать:
 

Похожие темы

💻 Программирование [OTUS] Разработчик BigData. Часть 1 из 5
Ответы
0
Просмотры
23
💻 Программирование [OTUS] Администратор Linux (2018)
Ответы
0
Просмотры
22
Ответы
0
Просмотры
22
Ответы
0
Просмотры
23
💻 Программирование [Отус - otus] Solidity Developer (2025)
Ответы
0
Просмотры
21