top of page

Datawarousing & Data-Mining

28 mai 2024

Réalisation d'une application interactive R/Shiny où les étudiants choisissent un jeu de données complexe, définissent une problématique et l'explorent. L'objectif inclut la validation des données, la reproductibilité de l'ingestion, et la création d'un dépôt GitHub pour l'application, sans obligation de déploiement.

Nous avons choisi d’explorer les super-héros à travers la base de données accessible via l’API SuperHero, trouvée sur superheroapi.com. Cette API offre des données détaillées sur plus de 700 super-héros, comprenant leurs caractéristiques physiques, leurs statistiques de pouvoir, leurs biographies et leurs affiliations. Voici les étapes clés réalisées dans le projet :


Étapes réalisées :
  1. Collecte et préparation des données :

    • Nous avons utilisé une clé API pour accéder aux données de 731 super-héros.

    • Après la collecte, les données ont été nettoyées afin de supprimer les entrées invalides et de garantir leur qualité. Les données finales ont été stockées dans un fichier CSV.

  2. Développement de l’application R/Shiny :

    • Page 1 : Visualisation des distributions des caractéristiques principales (genres, espèces, pouvoirs) à l’aide de graphiques interactifs.

    • Page 2 : Sélection d’un super-héros et affichage de son profil détaillé, incluant des statistiques comme l’intelligence, la force et la vitesse.

    • Page 3 : Mise en œuvre du clustering K-means pour regrouper les super-héros en fonction de leurs caractéristiques.

    • Page 4 : Prédiction des espèces ou genres des super-héros en fonction de leurs attributs.

  3. Analyses avancées :

    • Clustering K-means : Regroupement des super-héros en trois clusters distincts selon leurs statistiques de pouvoir.

    • Analyse en Composantes Principales (PCA) : Identification des dimensions principales expliquant les variations dans les données, avec deux axes principaux : la force physique et les compétences cognitives/combat.

    • Modèles supervisés : Utilisation de KNN et Random Forest pour tenter de prédire les espèces et les genres, bien que les performances aient été limitées.

  4. Exploration thématique :

    • Une analyse de similarité cosinus a été effectuée pour étudier les relations entre les occupations des super-héros, révélant des schémas intéressants dans leurs rôles.




Project Gallery

bottom of page