Calvin Candie
Вечный
Calvin Candie
Вечный
- 2 Сен 2018
- 36,544
- 1,718
- #1
Голосов: 0
Автор: learndataengineering
Название: Стриминг с Kafka и Spark (2025)
[learndataengineering] Streaming with Kafka & Spark (2025)
Этот курс - полноценный проект с полным циклом обработки данных в реальном времени. Вы будете работать с данными интернет-магазина, включающими счета-фактуры для клиентов и товары из этих счетов. Цель курса - настроить потоковую обработку данных (инвойсов) по мере их поступления и визуализировать их в удобном интерфейсе.
Вы будете использовать технологии FastAPI, Apache Kafka, Apache Spark, MongoDB и Streamlit - инструменты, с которыми вы уже знакомы из других курсов. Перед началом настоятельно рекомендуем пройти базовые курсы по этим технологиям, а также курс по основам Docker, так как проект сильно опирается на Docker-окружение.
Что вас ждет в курсе:
Этот проект - отличная возможность объединить знания по API, потоковой обработке данных, работе с Docker и базами данных в единое целое и получить практический опыт создания потоковых приложений в реальных условиях.
Материал на английском языке
Подробнее:
Скачать:
Название: Стриминг с Kafka и Spark (2025)
[learndataengineering] Streaming with Kafka & Spark (2025)
Этот курс - полноценный проект с полным циклом обработки данных в реальном времени. Вы будете работать с данными интернет-магазина, включающими счета-фактуры для клиентов и товары из этих счетов. Цель курса - настроить потоковую обработку данных (инвойсов) по мере их поступления и визуализировать их в удобном интерфейсе.
Вы будете использовать технологии FastAPI, Apache Kafka, Apache Spark, MongoDB и Streamlit - инструменты, с которыми вы уже знакомы из других курсов. Перед началом настоятельно рекомендуем пройти базовые курсы по этим технологиям, а также курс по основам Docker, так как проект сильно опирается на Docker-окружение.
Что вас ждет в курсе:
- Введение в проект
- Вы разберетесь в архитектуре end-to-end пайплайна и увидите, как строится визуализация данных. Пошагово разберете, как построить проект и на каком этапе использовать те или иные технологии.
- Подготовка данных
- Вы загрузите и преобразуете датасет с Kaggle: сначала сохраните его в формате CSV, а затем превратите данные в JSON для дальнейшей работы.
- API на FastAPI
- Познакомитесь с общей схемой API, создадите API с FastAPI, настроите его для приема данных и протестируете работу через Postman.
- Apache Kafka и API как Docker-сервисы
- Установите Apache Kafka через Docker, настроите топики, напишете API, который будет писать данные в Kafka, и развернете его в Docker-контейнере.
- Стриминг данных через Spark в Kafka
- Подготовите контейнер с Apache Spark, подключите его к Kafka и API, настроите обработку данных через Spark Structured Streaming, протестируете пайплайн.
- Хранение данных в MongoDB
- Настроите MongoDB и Mongo-Express через Docker, подготовите базу данных и коллекцию для хранения данных, чтобы связать Spark с MongoDB.
- Стриминг данных из Kafka в MongoDB
- Освоите работу со Spark Structured Streaming для записи потоковых данных из Kafka в MongoDB в формате вложенных JSON-документов.
- API-клиент на Python
- Напишете скрипт-клиент на Python для отправки данных в API в формате JSON и убедитесь, что данные успешно записываются в MongoDB.
- Интерфейс визуализации на Streamlit
- Построите интерактивный дашборд для просмотра счетов и товаров клиентов с помощью Streamlit.
Этот проект - отличная возможность объединить знания по API, потоковой обработке данных, работе с Docker и базами данных в единое целое и получить практический опыт создания потоковых приложений в реальных условиях.
Материал на английском языке
Подробнее:
Скрытое содержимое доступно для зарегистрированных пользователей!
Скачать:
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.