INFRASTRUCTURE DE DONNÉES · AFRIQUE DE L'OUEST

Des données linguistiques
africaines
pour l'IA

AfriLanguaData collecte, structure et livre des corpus de traductions pour entraîner les modèles de langage sur les langues d'Afrique subsaharienne.

35+Langues couvertes

14Pays couverts

7Domaines thématiques

100%Open source

MOORÉ DIOULA WOLOF FULFULDÉ BAMBARA YORUBA HAOUSSA FON TWI (AKAN) EWÉ BAOULÉ KABIYÈ ZARMA-SONGHAÏ SONINKÉ TAMASHEQ GULMANCEMA MOORÉ DIOULA WOLOF FULFULDÉ BAMBARA YORUBA HAOUSSA FON TWI (AKAN) EWÉ BAOULÉ KABIYÈ ZARMA-SONGHAÏ SONINKÉ TAMASHEQ GULMANCEMA

LE PROBLÈME

Les IA ne parlent pas encore les langues africaines

Les grands modèles de langage sont entraînés sur des corpus massivement dominés par l'anglais et quelques langues européennes. Les 2 000+ langues africaines — parlées par plus d'un milliard de personnes — en sont quasi totalement absentes, creusant un fossé technologique sans précédent.

~2%

Représentation dans les LLMs

Dans les corpus d'entraînement des grands modèles, les langues subsahariennes représentent moins de 2% des données totales.

2 000+

Langues sans corpus structurés

Le continent africain compte plus de 2 000 langues vivantes. Presque aucune ne dispose de corpus d'entraînement standardisés.

1,4 Md

Locuteurs non représentés

1,4 milliard d'Africains utilisent des IA entraînées sans leur langue — un fossé technologique majeur et grandissant.

↑ ×3

Croissance de la demande data

La demande de données linguistiques africaines pour l'IA a triplé en 2 ans. L'offre qualifiée reste très limitée.

NOTRE APPROCHE

Collecte communautaire, livraison professionnelle

Nous mobilisons des locuteurs natifs dans 14 pays pour produire des traductions annotées, vérifiées, et livrées au format standard international.

🌍

Réseau de locuteurs natifs

Contributeurs recrutés dans les communautés locales — authenticité dialectale et couverture géographique précise.

✓

Annotations de qualité ISO

Code langue ISO 639-3, région, genre du locuteur, difficulté de traduction, statut de revue, horodatage ISO 8601.

⬡

Format Mozilla CommonVoice

JSON structuré compatible avec les pipelines HuggingFace, CommonVoice et TensorFlow Datasets.

AfriLanguaData_v1.0.json

// Entrée standard
──────────────────────────── "contributor_id": "ALD-LQ4X9-M2R",
"target_language": "mos", // Mooré
"target_country": "Burkina Faso",
"speaker_region": "Ouagadougou",
──────────────────────────── "prompt_text": "La saison des pluies
commence bientôt.",
"prompt_category": "Agriculture",
"translated_text": "[traduction]",
──────────────────────────── "format_standard": "Mozilla-CommonVoice",
"quality_status": "pending_review",
"dataset_name": "AfriLanguaData_v1.0"

COUVERTURE LINGUISTIQUE

35+ langues, 14 pays

Chaque langue est collectée avec ses variantes dialectales et ses métadonnées géographiques précises.

Mooré

Dioula

Wolof

Fulfuldé

Bambara

Yoruba

Haoussa

Fon

Twi (Akan)

Ewé

Baoulé

Mandinka

Zarma-Songhaï

Tamasheq

Kabiyè

Gulmancema

Soninké

Igbo

Dagbani

Sérère

Susu

Kpelle

Bassa

Krio

+ 11 autres

Burkina Faso

Mooré · Dioula · Fulfuldé
Gulmancema · Bwamu · Lyélé

Mali

Bambara · Fulfuldé · Soninké
Tamasheq · Dioula · Bomu

Sénégal

Wolof · Fulfuldé · Sérère
Mandinka · Diola · Soninké

Côte d'Ivoire

Dioula · Baoulé · Wè
Dida · Bété · Abidji

Nigeria

Yoruba · Igbo · Haoussa
Fulfuldé · Tiv · Ijaw

Bénin

Fon · Yoruba · Bariba
Dendi · Ditammari

Togo

Ewé · Kabiyè · Fon
Mina · Tem · Dagbani

Ghana

Twi (Akan) · Ewé · Dagbani
Haoussa · Nzema

Niger

Haoussa · Fulfuldé · Zarma
Tamasheq · Kanouri

Guinée

Fulfuldé (Pular) · Susu
Mandinka · Kpelle · Loma

SPÉCIFICATIONS TECHNIQUES

Données prêtes à l'emploi

Chaque dataset livré avec documentation complète, métadonnées ISO et fiche de qualité.

FORMAT

Mozilla CommonVoice Compatible

JSON structuré, champs normalisés ISO 639-3 pour les codes langue, compatible HuggingFace et TensorFlow Datasets.

DOMAINES

7 catégories thématiques

Agriculture, Santé, Commerce, Culture, Météo, Quotidien, Éducation — chaque phrase annotée par thème et difficulté.

MÉTADONNÉES

Profil sociolinguistique complet

Genre, tranche d'âge, région, difficulté perçue, statut de validation, horodatage ISO 8601.

QUALITÉ

Pipeline de validation

Chaque entrée passe par un pipeline de revue : up/down votes, statut pending / validated / rejected.

LICENCE

CC BY 4.0 ou commerciale

Creative Commons pour la recherche, ou licence commerciale pour les déploiements en production.

LIVRAISON

API REST ou export direct

Accès via API ou téléchargement bulk JSON/CSV, avec versioning sémantique et changelog détaillé.

CONTACT

Rejoindre le projet

Que vous soyez locuteur natif souhaitant contribuer, chercheur en NLP, ou organisation intéressée par nos datasets — écrivez-nous.

📧

Email

contact.afrilanguadata@gmail.com

📍

Localisation

Bobo-Dioulasso, Burkina Faso

🌍

Zone d'opération

Afrique de l'Ouest · 14 pays

🌐

Site web

afrilanguadata.com

Envoyer un message

Toutes les demandes reçoivent une réponse sous 48h.

Nom complet *

Entrez votre nom.

Email *

Email invalide.

Langue parlée

Pays

Message *

Écrivez un message.

DIRECTION & PARTENARIATS

Contact direct investisseurs

Pour toute demande de partenariat stratégique, d'investissement ou de collaboration institutionnelle, contactez directement notre direction.

👤

Directeur

Najib Nana

📧

Email

contact.afrilanguadata@gmail.com

📞

Appel direct

+226 76 99 80 33

1

PROFIL

2

PHRASE

3

ENVOI

Tes informations

Ces données sont attachées à chaque traduction pour garantir la qualité du dataset.

Adresse email *

Entre une adresse email valide.

Prénom et nom *

Entre ton prénom et nom.

Genre

Tranche d'âge

Pays *

Choisis ton pays.

Langue maternelle *

Choisis ta langue.

Ville / Région

Traduis cette phrase

Lis la phrase en français et écris sa traduction dans ta langue maternelle.

PHRASE SOURCE — FRANÇAIS

—

Ta traduction *

Si ce mot n'a pas d'équivalent, écris ABSENT.

Écris la traduction avant de continuer.

Difficulté de traduction

FacileMoyenDifficileAbsent

Vérification et envoi

Vérifie tes informations avant d'envoyer ta contribution.

Contributeur—

Langue—

Pays—

Phrase—

Traduction—

Difficulté—

ID session—

Horodatage—

FormatMozilla-CommonVoice-Compatible

✓

Contribution envoyée !

Merci. Tes données ont été enregistrées au format standard international et sont prêtes pour l'entraînement des modèles IA.

ID : —

Des données linguistiquesafricainespour l'IA