Décryptage

Le corpus Wolof de Wawaw : comment l IA va changer le cinéma africain

La base de données vocale Wolof de Wawaw — 312 heures, studio professionnel, multi-locuteurs — est bien plus qu un simple outil de production. C est un actif stratégique qui intéresse les géants de l IA.

M

Modou Lolly Sarr

Auteur

24 avril 2026
6 min de lecture

Lorsque Wawaw a commencé le doublage de Fast & Furious 9 en Wolof, l objectif premier était simple : rendre le film accessible aux 25 millions de locuteurs Wolof. Mais le processus a produit quelque chose d inattendu : le corpus vocal professionnel le plus complet jamais constitué dans une langue africaine.

312 heures d enregistrement. 17 voix différentes. Texte aligné avec l audio. Qualité studio. Tout ce qu un modèle d IA a besoin pour apprendre une langue.

Pour comparaison, les ressources Wolof disponibles pour l entraînement de modèles de langage dans le monde entier représentent moins de 20 heures de données utilisables. Wawaw détient à elle seule plus de 15 fois ce volume, dans une qualité bien supérieure.

Cette asymétrie crée une position unique. Des entreprises comme Meta AI, ElevenLabs, Google, ou le projet africain Masakhane ont besoin de ce type de données pour étendre leurs modèles aux langues africaines. La valeur de licensing d un tel corpus se situe entre 50 000 et 200 000 euros selon les conditions d exclusivité.

La stratégie de Wawaw est délibérément non-exclusive : le corpus sera disponible à plusieurs acheteurs, maximisant le revenu tout en accélérant le développement technologique pour les langues africaines.

Découvre tout le catalogue Wawaw doublé en Wolof, Pular, Bambara, Mandinka.

Voir le catalogue →