Notre méthodologie

Vous avez le droit de savoir exactement d'où viennent les chiffres et définitions que vous voyez sur VocabLibre. Cette page expose, en français clair, nos sources, notre traitement, et les limites de nos données. Rien n'est caché derrière la formule « données propriétaires ».

Source primaire de fréquence

Notre base de vocabulaire française est construite à partir de listes de fréquence dérivées de corpus francophones publics et de références lexicographiques établies. Pour chaque mot, nous extrayons la forme canonique, la catégorie grammaticale (substantif, verbe, adjectif, adverbe, etc.), la transcription phonétique quand elle est disponible, et la fréquence d'usage dans le corpus de référence.

Références lexicographiques utilisées

Pour les définitions, étymologies et exemples, nous nous appuyons sur les grandes références du français, qui sont également les sources que nous vous invitons à consulter pour toute vérification :

Wiktionnaire — dictionnaire collaboratif multilingue avec des étymologies détaillées, sous licence CC BY-SA.
CNRTL (Centre National de Ressources Textuelles et Lexicales) — portail du CNRS qui donne accès au Trésor de la langue française informatisé (TLFi), la référence académique française la plus complète.
Larousse — dictionnaire de référence pour l'usage contemporain, avec des définitions claires et des exemples modernes.
Le Robert — référence pour l'étymologie, les registres et les nuances d'usage.
Corpus Frantext (ATILF-CNRS) — corpus textuel historique du français depuis le XVI^esiècle, utilisé pour les études de fréquence et d'usage.

Classification par niveau (A1 à C2)

Chaque mot reçoit un niveau d'apprentissage basé sur une combinaison de sa fréquence dans les corpus et de son appartenance à des listes de vocabulaire largement utilisées, notamment :

le Cadre européen commun de référence pour les langues (CECR)A1 à C2, qui structure l'enseignement du français langue étrangère,
les listes officielles du DELF / DALF(Diplôme d'études en langue française / Diplôme approfondi de langue française) publiées par France Éducation international,
les référentiels du TCF (Test de connaissance du français) et du TEF(Test d'évaluation de français, utilisé pour l'immigration canadienne).

Les mots courants dans la conversation quotidienne reçoivent le niveau « basique » (A1-A2) ; ceux qui apparaissent principalement dans la presse et les échanges professionnels, le niveau « intermédiaire » (B1-B2) ; ceux de la presse de référence et de la littérature contemporaine, le niveau « avancé » (C1) ; et ceux propres au registre académique ou juridique, le niveau « académique » (C2). Le mappage est déterministe et entièrement reproductible à partir des données.

Processus de construction et de mise à jour

Ingestion— les listes de fréquence sources sont importées dans une base SQLite locale.
Nettoyage— les contenus non français, les artefacts d'encodage et les champs vides sont supprimés.
Dérivation— les niveaux, les centiles de fréquence, les relations synonymes/antonymes et les index par lettre et par longueur sont calculés de manière déterministe à partir des enregistrements nettoyés.
Liaison croisée— les traductions d'un sous-ensemble de mots sont jointes avec nos dictionnaires frères (VocabWize pour l'anglais, DicionarioWize pour le portugais, WortWize pour l'allemand, KalimaWize pour l'arabe, KotobaPeek pour le japonais) afin de construire des liens directs entre les langues.
Publication— la base est empaquetée avec le site au moment de la génération, de sorte que chaque page est produite à partir du même instantané vérifié.

Fréquence de mise à jour

Les données lexicographiques françaises évoluent lentement ; le lexique ne change pas d'heure en heure. Nous rafraîchissons notre jeu de données sur une cadence mensuelle, ou immédiatement lorsqu'une source publie une correction significative. Chaque fiche de mot affiche une étiquette « dernière mise à jour » lisible par l'humain afin que vous sachiez toujours la provenance de ce que vous consultez.

Vérification croisée

Nous ne vous demandons pas de nous croire sur parole. Pour toute fiche qui vous pose question, nous vous encourageons à comparer avec ces références publiques autorisées :

CNRTL / TLFi — la référence académique pour le français.
Larousse en ligne — utile pour l'usage contemporain et les niveaux de langue.
Le Robert — autorité sur l'étymologie et les registres.
Wiktionnaire — dictionnaire collaboratif avec des étymologies détaillées.

Limites que vous devez connaître

Variations régionales.Nos définitions penchent vers le français général contemporain et ne distinguent pas toujours entre l'usage hexagonal, belge, québécois, suisse ou africain. Pour une nuance régionale, consultez un dictionnaire spécialisé.
Néologismes.Les mots très récents (créés au cours des 12 derniers mois) peuvent être absents ou avoir des données clairsemées. Ce sont les entrées les plus susceptibles d'être rafraîchies lors du prochain cycle de mise à jour.
Noms propres et jargon. Le vocabulaire technique, médical ou juridique spécialisé est représenté mais ne constitue pas notre priorité. Pour un travail spécialisé, utilisez une référence de domaine.
La fréquence est globale.Un mot peut être rare dans un registre (disons, le français juridique) et courant dans un autre (la conversation quotidienne). Nos centiles décrivent l'usage global, pas l'usage par registre.

Corrections et retours

Si vous trouvez une définition incorrecte, un sens manquant, ou un niveau qui ne correspond pas à votre expérience, nous voulons le savoir. Contactez-nous avec le mot et ce que vous changeriez. Nous suivons chaque demande de correction.

Cette page a été révisée en dernier en mars 2026. Les changements substantiels dans la manière dont nous construisons le jeu de données seront reflétés ici avant d'atteindre les pages de production.