💻 Программирование [learndataengineering] Стриминг с Kafka и Spark (2025)

  • ОФОРМИТЬ ПОДПИСКУ

Calvin Candie

Вечный

Calvin Candie

Вечный
2 Сен 2018
36,544
1,718
Автор: learndataengineering
Название: Стриминг с Kafka и Spark (2025)

[learndataengineering] Streaming with Kafka & Spark (2025)

Этот курс - полноценный проект с полным циклом обработки данных в реальном времени. Вы будете работать с данными интернет-магазина, включающими счета-фактуры для клиентов и товары из этих счетов. Цель курса - настроить потоковую обработку данных (инвойсов) по мере их поступления и визуализировать их в удобном интерфейсе.
Вы будете использовать технологии FastAPI, Apache Kafka, Apache Spark, MongoDB и Streamlit - инструменты, с которыми вы уже знакомы из других курсов. Перед началом настоятельно рекомендуем пройти базовые курсы по этим технологиям, а также курс по основам Docker, так как проект сильно опирается на Docker-окружение.
Что вас ждет в курсе:
  • Введение в проект
    • Вы разберетесь в архитектуре end-to-end пайплайна и увидите, как строится визуализация данных. Пошагово разберете, как построить проект и на каком этапе использовать те или иные технологии.
  • Подготовка данных
    • Вы загрузите и преобразуете датасет с Kaggle: сначала сохраните его в формате CSV, а затем превратите данные в JSON для дальнейшей работы.
  • API на FastAPI
    • Познакомитесь с общей схемой API, создадите API с FastAPI, настроите его для приема данных и протестируете работу через Postman.
  • Apache Kafka и API как Docker-сервисы
    • Установите Apache Kafka через Docker, настроите топики, напишете API, который будет писать данные в Kafka, и развернете его в Docker-контейнере.
  • Стриминг данных через Spark в Kafka
    • Подготовите контейнер с Apache Spark, подключите его к Kafka и API, настроите обработку данных через Spark Structured Streaming, протестируете пайплайн.
  • Хранение данных в MongoDB
    • Настроите MongoDB и Mongo-Express через Docker, подготовите базу данных и коллекцию для хранения данных, чтобы связать Spark с MongoDB.
  • Стриминг данных из Kafka в MongoDB
    • Освоите работу со Spark Structured Streaming для записи потоковых данных из Kafka в MongoDB в формате вложенных JSON-документов.
  • API-клиент на Python
    • Напишете скрипт-клиент на Python для отправки данных в API в формате JSON и убедитесь, что данные успешно записываются в MongoDB.
  • Интерфейс визуализации на Streamlit
    • Построите интерактивный дашборд для просмотра счетов и товаров клиентов с помощью Streamlit.

Этот проект - отличная возможность объединить знания по API, потоковой обработке данных, работе с Docker и базами данных в единое целое и получить практический опыт создания потоковых приложений в реальных условиях.

Материал на английском языке

Подробнее:
Скрытое содержимое доступно для зарегистрированных пользователей!

Скачать:
 

Похожие темы