INFRASTRUCTURE DE DONNÉES · AFRIQUE DE L'OUEST

Des données linguistiques
africaines
pour l'IA

AfriLanguaData collecte, structure et livre des corpus de traductions pour entraîner les modèles de langage sur les langues d'Afrique subsaharienne.

35+Langues couvertes
14Pays couverts
7Domaines thématiques
100%Open source
MOORÉ DIOULA WOLOF FULFULDÉ BAMBARA YORUBA HAOUSSA FON TWI (AKAN) EWÉ BAOULÉ KABIYÈ ZARMA-SONGHAÏ SONINKÉ TAMASHEQ GULMANCEMA MOORÉ DIOULA WOLOF FULFULDÉ BAMBARA YORUBA HAOUSSA FON TWI (AKAN) EWÉ BAOULÉ KABIYÈ ZARMA-SONGHAÏ SONINKÉ TAMASHEQ GULMANCEMA

Les IA ne parlent pas encore les langues africaines

Les grands modèles de langage sont entraînés sur des corpus massivement dominés par l'anglais et quelques langues européennes. Les 2 000+ langues africaines — parlées par plus d'un milliard de personnes — en sont quasi totalement absentes, creusant un fossé technologique sans précédent.

~2%
Représentation dans les LLMs
Dans les corpus d'entraînement des grands modèles, les langues subsahariennes représentent moins de 2% des données totales.
2 000+
Langues sans corpus structurés
Le continent africain compte plus de 2 000 langues vivantes. Presque aucune ne dispose de corpus d'entraînement standardisés.
1,4 Md
Locuteurs non représentés
1,4 milliard d'Africains utilisent des IA entraînées sans leur langue — un fossé technologique majeur et grandissant.
↑ ×3
Croissance de la demande data
La demande de données linguistiques africaines pour l'IA a triplé en 2 ans. L'offre qualifiée reste très limitée.

Collecte communautaire, livraison professionnelle

Nous mobilisons des locuteurs natifs dans 14 pays pour produire des traductions annotées, vérifiées, et livrées au format standard international.

🌍
Réseau de locuteurs natifs
Contributeurs recrutés dans les communautés locales — authenticité dialectale et couverture géographique précise.
Annotations de qualité ISO
Code langue ISO 639-3, région, genre du locuteur, difficulté de traduction, statut de revue, horodatage ISO 8601.
Format Mozilla CommonVoice
JSON structuré compatible avec les pipelines HuggingFace, CommonVoice et TensorFlow Datasets.
AfriLanguaData_v1.0.json
// Entrée standard
──────────────────────────── "contributor_id": "ALD-LQ4X9-M2R",
"target_language": "mos", // Mooré
"target_country": "Burkina Faso",
"speaker_region": "Ouagadougou",
──────────────────────────── "prompt_text": "La saison des pluies
  commence bientôt."
,
"prompt_category": "Agriculture",
"translated_text": "[traduction]",
──────────────────────────── "format_standard": "Mozilla-CommonVoice",
"quality_status": "pending_review",
"dataset_name": "AfriLanguaData_v1.0"

35+ langues, 14 pays

Chaque langue est collectée avec ses variantes dialectales et ses métadonnées géographiques précises.

Mooré
Dioula
Wolof
Fulfuldé
Bambara
Yoruba
Haoussa
Fon
Twi (Akan)
Ewé
Baoulé
Mandinka
Zarma-Songhaï
Tamasheq
Kabiyè
Gulmancema
Soninké
Igbo
Dagbani
Sérère
Susu
Kpelle
Bassa
Krio
+ 11 autres
Burkina Faso
Mooré · Dioula · Fulfuldé
Gulmancema · Bwamu · Lyélé
Mali
Bambara · Fulfuldé · Soninké
Tamasheq · Dioula · Bomu
Sénégal
Wolof · Fulfuldé · Sérère
Mandinka · Diola · Soninké
Côte d'Ivoire
Dioula · Baoulé · Wè
Dida · Bété · Abidji
Nigeria
Yoruba · Igbo · Haoussa
Fulfuldé · Tiv · Ijaw
Bénin
Fon · Yoruba · Bariba
Dendi · Ditammari
Togo
Ewé · Kabiyè · Fon
Mina · Tem · Dagbani
Ghana
Twi (Akan) · Ewé · Dagbani
Haoussa · Nzema
Niger
Haoussa · Fulfuldé · Zarma
Tamasheq · Kanouri
Guinée
Fulfuldé (Pular) · Susu
Mandinka · Kpelle · Loma

Données prêtes à l'emploi

Chaque dataset livré avec documentation complète, métadonnées ISO et fiche de qualité.

FORMAT
Mozilla CommonVoice Compatible
JSON structuré, champs normalisés ISO 639-3 pour les codes langue, compatible HuggingFace et TensorFlow Datasets.
DOMAINES
7 catégories thématiques
Agriculture, Santé, Commerce, Culture, Météo, Quotidien, Éducation — chaque phrase annotée par thème et difficulté.
MÉTADONNÉES
Profil sociolinguistique complet
Genre, tranche d'âge, région, difficulté perçue, statut de validation, horodatage ISO 8601.
QUALITÉ
Pipeline de validation
Chaque entrée passe par un pipeline de revue : up/down votes, statut pending / validated / rejected.
LICENCE
CC BY 4.0 ou commerciale
Creative Commons pour la recherche, ou licence commerciale pour les déploiements en production.
LIVRAISON
API REST ou export direct
Accès via API ou téléchargement bulk JSON/CSV, avec versioning sémantique et changelog détaillé.

Rejoindre le projet

Que vous soyez locuteur natif souhaitant contribuer, chercheur en NLP, ou organisation intéressée par nos datasets — écrivez-nous.

📧
Email
contact.afrilanguadata@gmail.com
📍
Localisation
Bobo-Dioulasso, Burkina Faso
🌍
Zone d'opération
Afrique de l'Ouest · 14 pays
🌐
Site web
afrilanguadata.com
Envoyer un message
Toutes les demandes reçoivent une réponse sous 48h.
Entrez votre nom.
Email invalide.
Écrivez un message.
1
PROFIL
2
PHRASE
3
ENVOI

Tes informations

Ces données sont attachées à chaque traduction pour garantir la qualité du dataset.

Entre une adresse email valide.
Entre ton prénom et nom.
Choisis ton pays.
Choisis ta langue.

Traduis cette phrase

Lis la phrase en français et écris sa traduction dans ta langue maternelle.

PHRASE SOURCE — FRANÇAIS
Si ce mot n'a pas d'équivalent, écris ABSENT.
Écris la traduction avant de continuer.

Vérification et envoi

Vérifie tes informations avant d'envoyer ta contribution.

Contributeur
Langue
Pays
Phrase
Traduction
Difficulté
ID session
Horodatage
FormatMozilla-CommonVoice-Compatible

Contribution envoyée !

Merci. Tes données ont été enregistrées au format standard international et sont prêtes pour l'entraînement des modèles IA.

ID :