Skip to content
VocabLibre

Notre méthodologie

Vous avez le droit de savoir exactement d'où viennent les chiffres et définitions que vous voyez sur VocabLibre. Cette page expose, en français clair, nos sources, notre traitement, et les limites de nos données. Rien n'est caché derrière la formule « données propriétaires ».

Source primaire de fréquence

Notre base de vocabulaire française est construite à partir de listes de fréquence dérivées de corpus francophones publics et de références lexicographiques établies. Pour chaque mot, nous extrayons la forme canonique, la catégorie grammaticale (substantif, verbe, adjectif, adverbe, etc.), la transcription phonétique quand elle est disponible, et la fréquence d'usage dans le corpus de référence.

Références lexicographiques utilisées

Pour les définitions, étymologies et exemples, nous nous appuyons sur les grandes références du français, qui sont également les sources que nous vous invitons à consulter pour toute vérification :

Classification par niveau (A1 à C2)

Chaque mot reçoit un niveau d'apprentissage basé sur une combinaison de sa fréquence dans les corpus et de son appartenance à des listes de vocabulaire largement utilisées, notamment :

Les mots courants dans la conversation quotidienne reçoivent le niveau « basique » (A1-A2) ; ceux qui apparaissent principalement dans la presse et les échanges professionnels, le niveau « intermédiaire » (B1-B2) ; ceux de la presse de référence et de la littérature contemporaine, le niveau « avancé » (C1) ; et ceux propres au registre académique ou juridique, le niveau « académique » (C2). Le mappage est déterministe et entièrement reproductible à partir des données.

Processus de construction et de mise à jour

  1. Ingestion— les listes de fréquence sources sont importées dans une base SQLite locale.
  2. Nettoyage— les contenus non français, les artefacts d'encodage et les champs vides sont supprimés.
  3. Dérivation— les niveaux, les centiles de fréquence, les relations synonymes/antonymes et les index par lettre et par longueur sont calculés de manière déterministe à partir des enregistrements nettoyés.
  4. Liaison croisée— les traductions d'un sous-ensemble de mots sont jointes avec nos dictionnaires frères (VocabWize pour l'anglais, DicionarioWize pour le portugais, WortWize pour l'allemand, KalimaWize pour l'arabe, KotobaPeek pour le japonais) afin de construire des liens directs entre les langues.
  5. Publication— la base est empaquetée avec le site au moment de la génération, de sorte que chaque page est produite à partir du même instantané vérifié.

Fréquence de mise à jour

Les données lexicographiques françaises évoluent lentement ; le lexique ne change pas d'heure en heure. Nous rafraîchissons notre jeu de données sur une cadence mensuelle, ou immédiatement lorsqu'une source publie une correction significative. Chaque fiche de mot affiche une étiquette « dernière mise à jour » lisible par l'humain afin que vous sachiez toujours la provenance de ce que vous consultez.

Vérification croisée

Nous ne vous demandons pas de nous croire sur parole. Pour toute fiche qui vous pose question, nous vous encourageons à comparer avec ces références publiques autorisées :

Limites que vous devez connaître

Corrections et retours

Si vous trouvez une définition incorrecte, un sens manquant, ou un niveau qui ne correspond pas à votre expérience, nous voulons le savoir. Contactez-nous avec le mot et ce que vous changeriez. Nous suivons chaque demande de correction.

Cette page a été révisée en dernier en mars 2026. Les changements substantiels dans la manière dont nous construisons le jeu de données seront reflétés ici avant d'atteindre les pages de production.