wohayosw

ASR frugal sur FLEURS — sous-ensemble africain

Reconnaissance automatique de la parole (ASR) en langues africaines

Comparaison de modèles ASR ouverts sur le sous-ensemble africain de FLEURS (Wolof, Haoussa, Yoruba, Swahili), avec contrainte mémoire < 2 Go RAM et latence < 3 s sur Snapdragon 439.

Leaderboard

# Modèle Métrique Valeur
🥇 Whisper Small (INT8) Meilleur WER 11.2 %
🥈 MMS-300M (INT8) WER 13.4 %
🥉 wav2vec2-XLSR-53 (FP32) WER 16.8 %
4 Whisper Tiny (INT8) WER 19.1 %

Reproduire ce benchmark

git clone https://github.com/charbossly/asr-frugal-fleurs && cd asr-frugal-fleurs && pip install -r requirements.txt && make reproduce LANGS=wo,ha,yo,sw

Objectif

Identifier le meilleur modèle ASR open-source utilisable hors-ligne sur un smartphone Android d’entrée de gamme (≤ 2 Go RAM, Snapdragon 439 ou équivalent) pour quatre langues africaines représentatives.

Corpus

FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) — sous-ensemble test pour :

  • wo : Wolof (Sénégal / Gambie), 145 énoncés
  • ha : Haoussa (Nigeria / Niger / Tchad), 198 énoncés
  • yo : Yoruba (Nigeria / Bénin), 167 énoncés
  • sw : Swahili (Kenya / Tanzanie), 213 énoncés

Modèles évalués

ModèleParamètresFormatRAM pic
Whisper Tiny39 MONNX INT8340 Mo
Whisper Small244 MONNX INT8820 Mo
wav2vec2-XLSR-53300 MONNX FP321 180 Mo
MMS-300M300 MONNX INT8980 Mo

Résultats (WER moyen, 4 langues)

Meilleur résultat : Whisper Small INT8 — WER 11,2 %

MMS-300M offre le meilleur rapport WER/mémoire : 13,4 % de WER pour 980 Mo de RAM, contre 11,2 % pour Whisper Small qui nécessite 820 Mo. Sur les appareils avec 1 Go de RAM disponible, MMS-300M est le seul choix viable parmi les modèles testés.

Reproduire

git clone https://github.com/charbossly/asr-frugal-fleurs
cd asr-frugal-fleurs
pip install -r requirements.txt
make reproduce LANGS=wo,ha,yo,sw

Les résultats sont écrits dans results/benchmark_results.csv. La commande make report génère un tableau Markdown et un graphe matplotlib.

Limites

  • Le WER est mesuré sur des lectures propres de FLEURS, pas sur de la parole spontanée.
  • Les modèles n’ont pas été fine-tunés sur les langues cibles : ce sont des performances zero-shot.
  • La latence est mesurée sur un seul appareil. Les variations entre SoC sont importantes.

Citer ce benchmark

@misc{claboria_asr_frugal_fleurs_africa_2025,
  title   = {ASR frugal sur FLEURS — sous-ensemble africain},
  author  = {ClaborIA},
  year    = {2025},
  url     = {https://claboria.pages.dev/benchmarks/asr-frugal-fleurs-africa/}
}