« Foundations of Computational Linguistics », de Roland Hausser, Springer 1999
Anne Nicolle (17 mai 2000)
Roland Hausser, professeur de linguistique computationnelle à
l'Université d'Erlangen en Allemagne, a publié un livre de 534 pages
grand format sur les fondations de la linguistique
computationnelle. Le sous-titre : « Man-Machine Communication in
Natural Language » fixe le cadre dans lequel il examine les questions
de la morphologie, de la syntaxe, de la sémantique et de la
pragmatique des langues.
La première partie de ce livre traite de la théorie du langage,
l'auteur y expose ses analyses sur la communication par le langage qui
fondent l'utilisation du langage dans la communication
homme-machine. Il dit que les modèles proposés doivent être
compatibles avec l'usage des langues pour la communication, avec le
fonctionnement de l'auditeur en premier et aussi avec le
fonctionnement du locuteur. Ils doivent tenir compte de l'état de la
technologie et des enjeux de la révolution apportée dans la
communication par les nouveaux moyens techniques de production et de
diffusion des textes.
La deuxième partie traite de la théorie de la grammaire. Il donne de
façon très claire les bases de la théorie des langages, décrit les
deux formalismes génératifs les plus courants pour l'étude des langues
naturelles : les C-grammaires ou grammaires catégorielles à la
Montague et les PS-grammaires ou grammaires à la Chomsky. Il décrit
ensuite un autre formalisme, les LA-grammaires, associatives à gauche,
qu'il a crée et dont il a démontré qu'elles permettaient une analyse
en temps linéaire dans un article en 1988 dans TCS (Theorical Computer
Science). Il compare les hiérarchies de grammaires obtenues par les LA
grammaires avec celles obtenues par les PS grammaires.
La troisième partie traite de la morphologie et de la syntaxe. Il pose
clairement la frontière entre les deux domaines. Il développe des
modèles de la LA-morphologie et la LA-syntaxe, puis il donne les
principes et des exemples pour l'anglais et l'allemand. Il couvre
ainsi une grande variété de phénomènes. Il s'appuie sur l'étude de
corpus et décrit les méthodes pour construire des corpus et en faire
une analyse statistique.
La quatrième partie traite de la sémantique et de la pragmatique à
partir de la distinction entre sens1 purement lié à la chaîne
linguistique et sens2 construit par l'auditeur dans le contexte. Il
expose d'abord trois systèmes pour la sémantique et rappelle les
résultats de Tarsky sur l'impossibilité d'une sémantique purement
logique. Puis il classe les différents systèmes sémantiques à partir
de deux critères : 1) l'hypothèse ou non d'un niveau de sens
proprement linguistique, 2) le constructivisme ou le non
constructivisme des formalismes. Il analyse les relations entre la
vérité, le sens et l'ontologie selon les quatre approches obtenues en
croisant ces deux critères. Il montre comment la position dans la
classe +sens, +constructivisme permet d'éviter de nombreux problèmes
décrits dans la littérature du domaine. Il termine en proposant une
structure de base de données sémantique, et en décrivant la SLIM
machine, qui a deux modes, un mode auditeur et un mode locuteur.
L'ensemble est ancré à la fois sur une bonne connaissance de la
linguistique et de la philosophie, et sur l'histoire de la
lingusitique computationelle, essentiellement américaine. Les
démonstrations et les exemples sont clairs et convaincants. Le livre
peut servir de base à un cours dans le domaine car chaque chapitre se
termine par une liste d'exercices. Il propose de nouveaux modèles
computationnels de la langue, tant au niveau conceptuel : les
LA-grammaires, qu'au niveau de l'implantation : la machine SLIM, d'une
grande clarté et qui semblent beaucoup plus adéquats que les modèles
des générations précédentes.
Bien sûr tout le domaine de la linguistique computationnelle n'est pas
couvert et certains choix sont criticables.
1) L'analyse repose sur un lexique détaillé qu'il faut construire à la
main alors que Jacques Vergne, qui fait aussi des analyses en temps
linéaire, utilise seulement les mots grammaticaux, les finales et les
ponctuations. Il évite ainsi la construction à la main un lexique qui
devrait comporter au moins 20000 éléments pour couvrir le langage
ordinaire. Mais l'analyse de Jacques est au niveau syntaxique
seulement.
2) Toute la base de données sémantique utilise les mots de la langue
pour représenter le sens. Or chaque langue découpe le monde pour le
mettre en mots de manière originale. La sémantique devrait aussi en
tenir compte, à un niveau plus profond, si des applications à la
traduction sont attendues, où pour mettre en place un apprentissage
automatique de mots nouveaux par le dialogue.
3) Tous les exemples de description du sens sont des exemples de
phrases descriptives, seul le « contenu propositionnel » est pris en
compte selon 3 modalités : foncteur, argument, modifieur. Or la
théorie des actes de langage à montré qu'il y avait d'autres
dimensions à étudier dans la sémantique, en particulier la force
illocutoire qui permet de distinguer les questions, les ordres, les
déclarations.
4) La pragmatique est réduite à la mise en relation des énoncés et du
monde tel qu'il existe. Or la dimension sociale du monde est
construite par la langue, cette dimension instituante de la langue,
qui permet de raconter des histoires, de créer des mythes, des
institutions et qui fixe les rôles de chacun dans ces institutions, ne
peut pas être réduite aux opérations de référentiation.
Pour conclure, je trouve que ce travail est vraiment fondateur, qu'il
propose enfin des modèles de la langue raisonnables, qui ne créent pas
plus de problèmes qu'ils n'en résolvent. Il faudra voir à l'usage
comment les questions que j'ai posées peuvent trouver des solutions
compatibles avec ce modèle, mais je crois que Roland Hausser fait
franchir une étape de maturité scientifique à la linguistique
computationnelle et qu'on ne reviendra pas en arrière.