Movatterモバイル変換


[0]ホーム

URL:


Aller au contenu
Wikipédial'encyclopédie libre
Rechercher

Lemmatisation

Un article de Wikipédia, l'encyclopédie libre.

Cet article est uneébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations desprojets correspondants.
Lemmatisation
Type
Nommé en référence à
Lemma(en),lemmeVoir et modifier les données sur Wikidata
Aspect de

modifier -modifier le code -modifier WikidataDocumentation du modèle

Lalemmatisation désigne un traitement lexical apporté à un texte en vue de son classement dans un index[1] ou de son analyse. Ce traitement consiste à appliquer aux occurrences deslexèmes sujets à flexion (en français, verbes, substantifs, adjectifs) un codage renvoyant à leur entrée lexicale commune (« forme canonique » enregistrée dans les dictionnaires de la langue, le plus couramment), que l'on désigne sous le terme delemme.

Généralités

[modifier |modifier le code]

Les lexèmes d'unelangue connaissent éventuellement plusieurs formes (lemmes) en fonction de leurgenre (masculin ou féminin), leurnombre (un ou plusieurs), leurpersonne (moi, toi, eux...), leurmode (indicatif, impératif...). On désigne ces formes comme des flexions, ou formes fléchies.

La lemmatisation d'une forme occurrente est l'application à cette forme d'un choix arbitraire[1] ou, en traitement informatisé du langage, d'un codage permettant d'identifier le lemme retenu pour un lexème.En général on emploie comme lemme la forme canonique permettant de repérer le lexème dans les dictionnaires courants de la langue en question. En français par exemple, pour un verbe son infinitif, pour un substantif son singulier, pour un adjectif son masculin-singulier. Mais en latin, on aura le plus souvent recours, par convention, à la forme de la1re personne du singulier du présent de l'indicatif.

Toutes les entrées d'undictionnaire sont donc répertoriées (dans un ordre alphabétique notamment ou comme cibles dans une perspective hypertextuelleWikipédia par exemple) en tant que lemmes. Les exemples, citations, qui alimentent l'article contiennent des formes fléchies.

Exemples :

  1. Le lemmepetit renvoie à 4 formes fléchies :petit,petite,petits,petites
  2. Le lemmeaimer renvoie à un grand nombre de formes fléchies, d'autant plus grand que l'on prend en compte les formes composéesa aimé,a été aimé,a été aimée, etc.

Une même forme graphique (occurrence) peut, elle, renvoyer à deux ou plusieurs lemmes différents.

Exemples :

  1. Porte renvoie selon les contextes au verbeporter, au substantif fémininporte, voire à l'adjectifporte dans le composéveine porte
  2. L'occurrencevoile peut renvoyer au verbevoiler, au substantif fémininvoile, ou au substantif masculin homographevoile
  3. L'occurrencevolant peut envoyer aux deux verbes homographesvoler, au substantifvolant et à l'adjectif homographevolant...

Conception et technologie

[modifier |modifier le code]

Longtemps[Quand ?] la lemmatisation a consisté à fabriquer un artefact du texte où les lemmes remplaçaient carrément les formes occurrentes fléchies.Les étoiles claires luisent dans la nuit noire devenaitla étoile clair luire dans la nuit noir. Les scripts logiciels analysaient séparément les deux versions. Avec la généralisation d'HTML et surtout deXML, il est possible d'aligner les versions lemmatisées etbrutes, sous forme de colonnes parallèles

Exemple :
Les / la
étoiles /étoile
claires / clair
luisent / luire
dans / dans
la / la
nuit / nuit
noire / noir

puis d'intégrer dans un même conteneur XML diverses informations sur l'occurrence, dont sa forme graphique occurrente et son lemme.<w form="claire" lemma="clair"> par exemple.

Usage en informatique textuelle ou analyse de texte assistée, ou textométrie

[modifier |modifier le code]

Eninformatique textuelle ou entextométrie, il est impossible à unprogramme informatique de regrouper sans recourir à des ressources externes ou à un marquage-codage interne au fichier-texte les flexions d'un même lemme, et plus encore de distinguer les valeurs lexicales de formes identiques (« volant, voile, porte… »). La lemmatisation est donc une opération préliminaire pour une reconnaissance linguistiquement fondée des constituants d'une phrase. La lemmatisation « conservatrice » permise par l'encodage XML autorise la recherche à se porter aussi bien sur les lemmes que sur leurs formes fléchies (par exemple si l'on souhaite distinguerla liberté deles libertés).

Voir aussi

[modifier |modifier le code]

Les limites de la lemmatisation[2].

Articles connexes

[modifier |modifier le code]

Notes et références

[modifier |modifier le code]
  1. a etb« LEMMATISATION : Définition de LEMMATISATION », surwww.cnrtl.fr(consulté le)
  2. Lemaire,Benoît,Limites de la lemmatisation pour l'extraction de significations(OCLC 801339698,lire en ligne)
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Lemmatisation&oldid=207085084 ».
Catégories :
Catégories cachées :

[8]ページ先頭

©2009-2026 Movatter.jp