ASR frugal sur FLEURS — sous-ensemble africain
Reconnaissance automatique de la parole (ASR) en langues africaines
Comparaison de modèles ASR ouverts sur le sous-ensemble africain de FLEURS (Wolof, Haoussa, Yoruba, Swahili), avec contrainte mémoire < 2 Go RAM et latence < 3 s sur Snapdragon 439.
Leaderboard
| # | Modèle | Métrique | Valeur |
|---|---|---|---|
| 🥇 | Whisper Small (INT8) Meilleur | WER | 11.2 % |
| 🥈 | MMS-300M (INT8) | WER | 13.4 % |
| 🥉 | wav2vec2-XLSR-53 (FP32) | WER | 16.8 % |
| 4 | Whisper Tiny (INT8) | WER | 19.1 % |
Reproduire ce benchmark
git clone https://github.com/charbossly/asr-frugal-fleurs && cd asr-frugal-fleurs && pip install -r requirements.txt && make reproduce LANGS=wo,ha,yo,sw Objectif
Identifier le meilleur modèle ASR open-source utilisable hors-ligne sur un smartphone Android d’entrée de gamme (≤ 2 Go RAM, Snapdragon 439 ou équivalent) pour quatre langues africaines représentatives.
Corpus
FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) — sous-ensemble test pour :
- wo : Wolof (Sénégal / Gambie), 145 énoncés
- ha : Haoussa (Nigeria / Niger / Tchad), 198 énoncés
- yo : Yoruba (Nigeria / Bénin), 167 énoncés
- sw : Swahili (Kenya / Tanzanie), 213 énoncés
Modèles évalués
| Modèle | Paramètres | Format | RAM pic |
|---|---|---|---|
| Whisper Tiny | 39 M | ONNX INT8 | 340 Mo |
| Whisper Small | 244 M | ONNX INT8 | 820 Mo |
| wav2vec2-XLSR-53 | 300 M | ONNX FP32 | 1 180 Mo |
| MMS-300M | 300 M | ONNX INT8 | 980 Mo |
Résultats (WER moyen, 4 langues)
Meilleur résultat : Whisper Small INT8 — WER 11,2 %
MMS-300M offre le meilleur rapport WER/mémoire : 13,4 % de WER pour 980 Mo de RAM, contre 11,2 % pour Whisper Small qui nécessite 820 Mo. Sur les appareils avec 1 Go de RAM disponible, MMS-300M est le seul choix viable parmi les modèles testés.
Reproduire
git clone https://github.com/charbossly/asr-frugal-fleurs
cd asr-frugal-fleurs
pip install -r requirements.txt
make reproduce LANGS=wo,ha,yo,sw
Les résultats sont écrits dans results/benchmark_results.csv. La commande make report génère un tableau Markdown et un graphe matplotlib.
Limites
- Le WER est mesuré sur des lectures propres de FLEURS, pas sur de la parole spontanée.
- Les modèles n’ont pas été fine-tunés sur les langues cibles : ce sont des performances zero-shot.
- La latence est mesurée sur un seul appareil. Les variations entre SoC sont importantes.
Citer ce benchmark
@misc{claboria_asr_frugal_fleurs_africa_2025,
title = {ASR frugal sur FLEURS — sous-ensemble africain},
author = {ClaborIA},
year = {2025},
url = {https://claboria.pages.dev/benchmarks/asr-frugal-fleurs-africa/}
}