
Projet Data Engineering : Centralisation et Valorisation des Données d'une Marketplace
22 déc. 2024
Centraliser et rationaliser les données d'Olist, la plus grande marketplace brésilienne, en un entrepôt de données. Les données, issues de multiples sources (API, S3, FTP, Postgres), serviront à développer des indicateurs clés, comme les commandes livrées par mois et le top 10 des clients par dépense, ainsi qu'à créer des visualisations avec Streamlit pour une meilleure compréhension des performances commerciales.
Fournir à Olist, leader des marketplaces au Brésil, une solution de centralisation et de valorisation des données via un entrepôt de données. Actuellement dispersées entre des systèmes hétérogènes (API, S3, FTP, Postgres), ces données seront collectées, nettoyées, et intégrées pour permettre le calcul d'indicateurs clés.
Étapes principales :
Collecte des données :
Extraction des données depuis plusieurs sources comme des APIs, un bucket S3, un serveur FTP et une base PostgreSQL.
Gestion des méthodes d’authentification et des formats variés pour chaque source.
Centralisation :
Mise en place d’un entrepôt de données pour stocker toutes les entités (clients, commandes, paiements, produits, etc.).
Analyse et indicateurs :
Calcul d’indicateurs demandés par l’équipe marketing, incluant :
Le nombre de commandes livrées par mois en 2018.
Le top 10 des clients par dépense totale.
Les catégories de produits ayant une moyenne de 4 étoiles ou plus dans les avis.
Visualisation et MVP :
Développement de vues analytiques et, en bonus, une application Streamlit pour une visualisation intuitive des résultats.
Le projet intègre les meilleures pratiques de Data Engineering et propose une solution scalable pour répondre aux besoins analytiques d'Olist, tout en permettant son autonomie future dans le développement d’indicateurs supplémentaires.