Lorsque Wawaw a commencé le doublage de Fast & Furious 9 en Wolof, l objectif premier était simple : rendre le film accessible aux 25 millions de locuteurs Wolof. Mais le processus a produit quelque chose d inattendu : le corpus vocal professionnel le plus complet jamais constitué dans une langue africaine.

312 heures d enregistrement. 17 voix différentes. Texte aligné avec l audio. Qualité studio. Tout ce qu un modèle d IA a besoin pour apprendre une langue.

Pour comparaison, les ressources Wolof disponibles pour l entraînement de modèles de langage dans le monde entier représentent moins de 20 heures de données utilisables. Wawaw détient à elle seule plus de 15 fois ce volume, dans une qualité bien supérieure.

Cette asymétrie crée une position unique. Des entreprises comme Meta AI, ElevenLabs, Google, ou le projet africain Masakhane ont besoin de ce type de données pour étendre leurs modèles aux langues africaines. La valeur de licensing d un tel corpus se situe entre 50 000 et 200 000 euros selon les conditions d exclusivité.

La stratégie de Wawaw est délibérément non-exclusive : le corpus sera disponible à plusieurs acheteurs, maximisant le revenu tout en accélérant le développement technologique pour les langues africaines.

Le corpus Wolof de Wawaw : comment l IA va changer le cinéma africain

Read next

Fast & Furious 9 en Wolof : comment Wawaw a réécrit l histoire du doublage africain