
Test & Maintenance - Git project
25 juin 2024
Ce projet implémente une analyse de fréquence de mots et de n-grams dans un fichier texte, en supprimant les mots vides et en triant les résultats par fréquence. Il comprend des outils pour traiter efficacement de grands fichiers grâce à une structure optimisée, atteignant des vitesses de traitement allant jusqu'à 737K mots par seconde pour les fichiers volumineux.
Le projet - réalisé sur GIT - vise à analyser la fréquence des mots et des n-grams dans des fichiers texte tout en excluant les mots vides (stopwords). Il repose sur une architecture robuste, avec des fonctions dédiées pour lire des fichiers, supprimer la ponctuation, compter les mots et les n-grams, éliminer les mots vides, et trier les résultats par fréquence décroissante.
Fonctionnalités principales :
Analyse de mots et de n-grams : Compte des occurrences de mots simples et de groupes de mots (n-grams) dans un texte.
Suppression des mots vides : Exclusion de termes non significatifs grâce à une liste personnalisée de stopwords.
Optimisation des performances : Temps d’exécution amélioré avec une complexité linéaire ou logarithmique. Par exemple, 737K mots par seconde sont traités sur un fichier de 966 503 mots.
Structure modulaire : Chaque étape du traitement (lecture, nettoyage, comptage, tri) est encapsulée dans des fonctions spécifiques.
Performances :
Temps d’exécution des fichiers texte :
5 377 mots : 0.08s (67K mots/s).
78 101 mots : 0.35s (223K mots/s).
966 503 mots : 1.31s (737K mots/s).
Temps d’exécution des n-grams :
Optimisation constatée pour des fichiers volumineux avec un traitement rapide et stable.
Grâce à une implémentation bien optimisée et modulaire, ce projet est adapté pour des tâches d'analyse textuelle à grande échelle et peut être facilement adapté pour divers contextes d’analyse linguistique.