Lalinguistique quantitative est une sous-discipline de lalinguistique générale et, plus spécifiquement, de la linguistique mathématique. La linguistique quantitative traite de l'apprentissage des langues, de leur évolution et de leur application, ainsi que de la structure des langues naturelles. Elle étudie les langues à l'aide de méthodesstatistiques, mais aussi d’autres champs mathématiques[1]. Son objectif le plus exigeant est la formulation de lois linguistiques et, finalement, d’une théorie générale du langage, c'est-à-dire d’un ensemble de lois langagières interdépendantes[2]. La linguistique synergétique (la synergie étant une approche transdisciplinaire) a été dès son origine spécialement conçue à cet effet[3]. La linguistique quantitative est fondée sur les résultats des statistiques du langage ou d'objets linguistiques. Ce domaine n'est pas nécessairement lié à des ambitions théoriques substantielles.La linguistique de corpus etla linguistique informatique sont en rapport avec la linguistique quantitative. Elle recouvre toutes les méthodesmathématiques appliquées en linguistique. Comme pour toutes les études transdisciplinaires, le rapport entre mathématiques et linguistiques (quelle que soit l'étude) est une difficulté. Faits initialement par desingénieurs, mathématiciens etc, ces liens intéressent aussi les linguistes aujourd'hui.
Les premières approches de la linguistique quantitative remontent au monde grec et indien antiques. L' une des sources historiques se compose d'applications de combinatoires à des questions linguistiques[4]. Une autre est fondée sur des études statistiques élémentaires. Lasténographie et la cryptographie sont les premiers domaines linguistiques à avoir une approche quantitative. Les cryptographes ont ainsi établi des tables de fréquence de lettres, et le sténographeJean-Baptiste Estoup fut le premier à calculer les fréquences relatives de mots dans un texte[1].
En linguistique quantitative, le concept de loi désigne un système de lois déduites d'hypothèses théoriques, formulées mathématiquement, et validées par unedémarche scientifique : elles doivent subir de nombreuses expériences et "résister" à toutes les réfutations possibles. Köhler écrit à propos de ces lois : "En outre, il peut être démontré que ces propriétés des éléments linguistiques et des relations entre elles sont conformes à des lois universelles qui peuvent être formulées strictement de manière mathématique, de la même manière qu’elles sont communes dans lessciences naturelles. Rappelez-vous que ces lois sont de nature stochastique [aléatoires, pouvant être bouleversées] et qu'elles ne sont pas observées dans tous les cas (cela ne serait ni nécessaire ni possible), mais plutôt qu'elles déterminent les probabilités des événements ou les proportions étudiées. Il est facile de trouver des contre-exemples. Toutefois, ces cas ne violent pas les lois correspondantes, car les variations autour de la moyenne statistique sont non seulement admissibles mais même essentielles, elles sont elles-mêmes déterminées quantitativement avec exactitude par les lois correspondantes. La situation est identique à celle des sciences naturelles, qui ont depuis longtemps abandonné les anciennes conceptions déterministe et causale du monde pour les remplacer par des modèles probabilistes. "[5]
Il existe un grand nombre de lois linguistiques proposées, parmi lesquelles[6] :
diversification : si des catégories linguistiques telles que des parties du discours ou des terminaisons flexionnelles (une flexion étant une variation d'un radical, ex. conjugaison, déclinaison) apparaissent sous différentes formes, on peut montrer que les fréquences de leur occurrence dans les textes sont contrôlées par des lois ;
distributions de longueur (ou plus généralement de complexité) : l’enquête de fréquences de textes ou de dictionnaires d’unités de tout genre en ce qui concerne leur longueur produit régulièrement un certain nombre de distributions, en fonction du type donné de l’unité à l’étude. À ce jour, les distributions suivantes ont été étudiées:
Cette loi s'applique à d'autres unités : les lettres ou caractères de complexité différentes, par exemple. Il en va de même pour les distributions de sons (phonèmes, unité de son) de différentes durées.
Loi de Martin. Elle concerne les chaînes lexicales obtenues en cherchant la définition d'un mot dans un dictionnaire, puis en cherchant la définition de la définition que l'on vient d'obtenir, etc. Enfin, toutes ces définitions forment une hiérarchie de significations de plus en plus générales, de sorte que le nombre de définitions diminue avec la généralité croissante. Parmi les niveaux de ce type de hiérarchie, il existe des lois liées à cette relation.
Loi de Menzerath (ou loi Menzerath-Altmann). Elle stipule que la taille des composants (mots, syllabes…) d'une construction (phrase, mot…) est inversement proportionnelle à la taille de la construction étudiée. Ainsi, plus une phrase est longue (par exemple, en termes de nombre de clauses), plus les clauses sont courtes (en termes de nombre de mots), ou bien plus un mot est long (en syllabes ou morphes) moins les syllabes comptent de sons.
Lois de la fréquence de rang. Pratiquement n'importe quel type d'unité linguistique respecte ces relations. Les mots d'un texte sont classés selon leur fréquence et se voient attribuer un numéro de classement et la fréquence correspondante. Depuis George Kingsley Zipf (auteur de la «loi de Zipf»), un grand nombre de modèles mathématiques de la relation entre rang et fréquence ont été proposés comme : des sons, phonèmes et lettres, des associations avec lesquelles les sujets réagissent sur un stimulus (mot)[7].Benoît Mandelbrot a introduit, en le justifiant par des considérations statique et dynamique, un correctif expliquant le coude caractéristique qu'on observe dans la pratique (voir l'articleLoi de Zipf) et qui n'apparaît pas avec la loi de Zipf.
Loi du changement de langue. Elle concerne les processus de croissance dans la langue, tels que la croissance du vocabulaire, la dispersion de mots étrangers ou d'emprunts, les modifications duparadigme, etc. La loi de Piotrowski est un cas du modèle dit logistique (cf. équation logistique). Elle concerne également les processus d’acquisition du langage (cf. loi sur l’acquisition du langage).
Loi sur les blocs de texte. Les unités linguistiques (mots, lettres, fonctions syntaxiques et constructions, par exemple) montrent une distribution de fréquence spécifique dans des blocs de texte de taille égale.
Une application de la loi de Zipf : fréquence des mots en fonction du rang dans la version originale d'Ulysse deJames Joyce.
Lathéorie de l'information découle de la statistique en linguistique. Théorisée parClaude Shannon, elle quantifie les informations d'un ensemble de message grâce au codage informatique suivant des lois de probabilités. Née après laSeconde Guerre mondiale, elle est appliquée auxtéléphones pour réduire le coût de transport d'informations. Elle propose un modèle général de la communication utilisé en linguistique, où le bruit désigne ce qui perturbe l'émission du message (par exemple longue distance, inattention, bruit dans le sens courant).
Chaine de transmission
Pour illustrer ce modèle, l'émetteur peut être un locuteur, un appareil de radio, le canal l'air, la ligne téléphonique. Ainsi, le linguisteRoman Jakobson utilise ce modèle pour définir six fonctions du langage, qui varient selon les paramètres de ce modèle (c'est-à-dire du canal, de l'émetteur, du message). Chaque unité linguistique (par exemple, lettre, phonème) est codée ; un lien est fait entre unité du message et unité du code. Réduire le coût d'émission revient donc à réduire le nombre de liens. Ce dernier dépend du nombre d'unités, mais aussi de la fréquence d'apparition de celles-ci : ainsi, une unité se caractérise par sa fréquence d'apparition. Cela suppose un calcul de la fréquence d'éléments linguistiques ; en cela c'est une application directe de la statistique. L'information apportée par une unité est inversement proportionnelle à sa fréquence (intuitivement, on peut se dire qu'une unité rare apporte de l'information). Laredondance désigne un signe n'apportant aucune information donc dont la probabilité vaut 1. Un système non redondant ne contient pas de telles unités :
L'étude de la redondance s'étend à tous les éléments linguistiques ; elle a une valeur pratique (économie de l'information, élimination d'informations superflues) ouartistique (notamment en poésie)[1].
L’étude des styles aussi bien poétiques que non poétiques peut se fonder sur des méthodes statistiques ; de plus, il est possible de mener des recherches correspondantes sur la base de formes spécifiques (paramètres) que les lois linguistiques prennent dans des textes de styles différents. Dans de tels cas, la linguistique quantitative soutient la recherche enstylistique : l’un des objectifs généraux est de proposer des preuves aussi objectives que possible, y compris dans au moins une partie du domaine des phénomènes stylistiques, en faisant référence aux lois de la langue. L'une des hypothèses centrales de la linguistique quantitative est que certaines lois (par exemple, la distribution des longueurs de mots) nécessitent des modèles différents, au moins des valeurs de paramètre différentes des lois (distributions ou fonctions) selon le type d'un texte. Dans l'étude de poèmes, lesméthodes quantitatives en linguistique forment une sous-discipline de l’étude quantitative de la littérature (stylométrie)[8].
Avec lalogique s'intéressant à l'articulation de lapensée, et lelangage l'exprimant, il existe un lien entrelinguistique etlogique (comme le reflète l'analyse logique). L'utilisation de la logique justifiant la prescription ne relève cependant pas de la linguistique). Les notions d'inférence ou detransitivité s'appliquent en linguistique et en logique. Un énoncé logique est parfois limité par des imprécisions linguistiques : ainsi, la nature exacte de la coordination par laconjonction "et" est un problèmesémantique, ainsi que la transitivité entre un élément et sa classe. Cette dernière incertitude est fondée sur des ambiguïtés logiques : soit, par exemple, les propositions "un chat est un animal" et "un éléphant est un animal". Peut-on inférer qu"un petit chat est un petit animal"? Et qu'"un petit éléphant est un petit animal"[1] ?
↑Reinhard Köhler:Gegenstand und Arbeitsweise der Quantitativen Linguistik. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.):Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, pp. 1–16.
↑Reinhard Köhler:Synergetic linguistics. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.):Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, pp. 760–774.(ISBN3-11-015578-8).
↑N.L. Biggs:The Roots of Combinatorics. In:Historia Mathematica 6, 1979, pp. 109–136.
↑H. Guiter, M. V. Arapov (eds.):Studies on Zipf's Law. Bochum: Brockmeyer 1982.(ISBN3-88339-244-8).
↑Alexander Mehler:Eigenschaften der textuellen Einheiten und Systeme. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.):Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, p. 325-348, esp.Quantitative Stilistik, pp. 339–340.(ISBN3-11-015578-8); Vivien Altmann, Gabriel Altmann:Anleitung zu quantitativen Textanalysen. Methoden und Anwendungen. Lüdenscheid: RAM-Verlag 2008,(ISBN978-3-9802659-5-9).
↑Grzybek, Peter, & Köhler, Reinhard (eds.) (2007):Exact Methods in the Study of Language and Text. Dedicated to Gabriel Altmann on the Occasion of his 75th Birthday. Berlin/ New York: Mouton de Gruyter
↑Dieter Aichele:Das Werk von W. Fucks. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.):Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, pp. 152–158.(ISBN3-11-015578-8)
↑Festschrift on the occasion of the 70. anniversary:Problems of General, Germanic and Slavic Linguistics. Papers for 70th Anniversary of Professor V. Levickij. Herausgegeben von Gabriel Altmann, Iryna Zadoroshna, Yuliya Matskulyak. Books, Chernivtsi 2008. (No ISBN.) Levickij dedicated:Glottometrics, Heft 16, 2008; Emmerich Kelih:Der Czernowitzer Beitrag zur Quantitativen Linguistik: Zum 70. Geburtstag von Prof. Dr. Habil. Viktor V. Levickij. In:Naukovyj Visnyk Černivec’koho Universytetu: Hermans’ka filolohija. Vypusk 407, 2008, pp. 3–10.
↑Karl-Heinz Best:Paul Menzerath (1883-1954). In:Glottometrics 14, 2007, pp. 86–98 (PDFram-verlag.eu)
↑Shizuo Mizutani; Portrait on the occasion of his 80. anniversary in:Glottometrics 12, 2006 PDFram-verlag.eu); about Mizutani: Naoko Maruyama:Sizuo Mizutani (1926). The Founder of Japanese Quantitative Linguistics. In:Glottometrics 10, 2005, pp. 99–107(PDFram-verlag.eu).
↑Charles Muller:Initiation à la statistique linguistique. Paris: Larousse 1968; German:Einführung in die Sprachstatistik. Hueber, München 1972.
Karl-Heinz Best:Linguistik quantitative.Eine Annäherung . 3., stark überarbeitete und ergänzte Auflage. Peust & Gutschmidt, Göttingen 2006,(ISBN3-933043-17-4) . En allemand.
Karl-Heinz Best, Otto Rottmann:La linguistique quantitative, une invitation. RAM-Verlag, Lüdenscheid 2017.(ISBN978-3-942303-51-4). En anglais.
Pierre Guiraud:Bibliographie critique de la statistique linguistique. Éditions Spectrum, Utrecht/Anvers 1954.
Reinhard Köhler avec l'aide de Christiane Hoffmann:Bibliographie de linguistique quantitative. Benjamins, Amsterdam / Philadelphie 1995,(ISBN90-272-3751-4) .
Reinhard Köhler, Gabriel Altmann, Gabriel, Rajmund G. Piotrowski (eds. ):Linguistik quantitative - Linguistique quantitative.Ein internationales Handbuch - Un manuel international . de Gruyter, Berlin / New York 2005,(ISBN3-11-015578-8).
Jacqueline Léon, Sylvain Loiseau (eds.):History of Quantitative Linguistics in France. RAM-Verlag, Lüdenscheid 2016.(ISBN978-3-942303-48-4).