By Prof. Anne Nicolle,
GREYC - UPRESA 6072
UNIVERSITE DE CAEN et CNRS
CAMPUS 2, BAT SCIENCES 3
Universite de Caen
14032 Caen Cedex
FRANCE

« Foundations of Computational Linguistics », de Roland Hausser, Springer 1999 Anne Nicolle (17 mai 2000)

Roland Hausser, professeur de linguistique computationnelle à l'Université d'Erlangen en Allemagne, a publié un livre de 534 pages grand format sur les fondations de la linguistique computationnelle. Le sous-titre : « Man-Machine Communication in Natural Language » fixe le cadre dans lequel il examine les questions de la morphologie, de la syntaxe, de la sémantique et de la pragmatique des langues.

La première partie de ce livre traite de la théorie du langage, l'auteur y expose ses analyses sur la communication par le langage qui fondent l'utilisation du langage dans la communication homme-machine. Il dit que les modèles proposés doivent être compatibles avec l'usage des langues pour la communication, avec le fonctionnement de l'auditeur en premier et aussi avec le fonctionnement du locuteur. Ils doivent tenir compte de l'état de la technologie et des enjeux de la révolution apportée dans la communication par les nouveaux moyens techniques de production et de diffusion des textes.

La deuxième partie traite de la théorie de la grammaire. Il donne de façon très claire les bases de la théorie des langages, décrit les deux formalismes génératifs les plus courants pour l'étude des langues naturelles : les C-grammaires ou grammaires catégorielles à la Montague et les PS-grammaires ou grammaires à la Chomsky. Il décrit ensuite un autre formalisme, les LA-grammaires, associatives à gauche, qu'il a crée et dont il a démontré qu'elles permettaient une analyse en temps linéaire dans un article en 1988 dans TCS (Theorical Computer Science). Il compare les hiérarchies de grammaires obtenues par les LA grammaires avec celles obtenues par les PS grammaires.

La troisième partie traite de la morphologie et de la syntaxe. Il pose clairement la frontière entre les deux domaines. Il développe des modèles de la LA-morphologie et la LA-syntaxe, puis il donne les principes et des exemples pour l'anglais et l'allemand. Il couvre ainsi une grande variété de phénomènes. Il s'appuie sur l'étude de corpus et décrit les méthodes pour construire des corpus et en faire une analyse statistique.

La quatrième partie traite de la sémantique et de la pragmatique à partir de la distinction entre sens1 purement lié à la chaîne linguistique et sens2 construit par l'auditeur dans le contexte. Il expose d'abord trois systèmes pour la sémantique et rappelle les résultats de Tarsky sur l'impossibilité d'une sémantique purement logique. Puis il classe les différents systèmes sémantiques à partir de deux critères : 1) l'hypothèse ou non d'un niveau de sens proprement linguistique, 2) le constructivisme ou le non constructivisme des formalismes. Il analyse les relations entre la vérité, le sens et l'ontologie selon les quatre approches obtenues en croisant ces deux critères. Il montre comment la position dans la classe +sens, +constructivisme permet d'éviter de nombreux problèmes décrits dans la littérature du domaine. Il termine en proposant une structure de base de données sémantique, et en décrivant la SLIM machine, qui a deux modes, un mode auditeur et un mode locuteur.

L'ensemble est ancré à la fois sur une bonne connaissance de la linguistique et de la philosophie, et sur l'histoire de la lingusitique computationelle, essentiellement américaine. Les démonstrations et les exemples sont clairs et convaincants. Le livre peut servir de base à un cours dans le domaine car chaque chapitre se termine par une liste d'exercices. Il propose de nouveaux modèles computationnels de la langue, tant au niveau conceptuel : les LA-grammaires, qu'au niveau de l'implantation : la machine SLIM, d'une grande clarté et qui semblent beaucoup plus adéquats que les modèles des générations précédentes.

Bien sûr tout le domaine de la linguistique computationnelle n'est pas couvert et certains choix sont criticables.

1) L'analyse repose sur un lexique détaillé qu'il faut construire à la main alors que Jacques Vergne, qui fait aussi des analyses en temps linéaire, utilise seulement les mots grammaticaux, les finales et les ponctuations. Il évite ainsi la construction à la main un lexique qui devrait comporter au moins 20000 éléments pour couvrir le langage ordinaire. Mais l'analyse de Jacques est au niveau syntaxique seulement.

2) Toute la base de données sémantique utilise les mots de la langue pour représenter le sens. Or chaque langue découpe le monde pour le mettre en mots de manière originale. La sémantique devrait aussi en tenir compte, à un niveau plus profond, si des applications à la traduction sont attendues, où pour mettre en place un apprentissage automatique de mots nouveaux par le dialogue.

3) Tous les exemples de description du sens sont des exemples de phrases descriptives, seul le « contenu propositionnel » est pris en compte selon 3 modalités : foncteur, argument, modifieur. Or la théorie des actes de langage à montré qu'il y avait d'autres dimensions à étudier dans la sémantique, en particulier la force illocutoire qui permet de distinguer les questions, les ordres, les déclarations.

4) La pragmatique est réduite à la mise en relation des énoncés et du monde tel qu'il existe. Or la dimension sociale du monde est construite par la langue, cette dimension instituante de la langue, qui permet de raconter des histoires, de créer des mythes, des institutions et qui fixe les rôles de chacun dans ces institutions, ne peut pas être réduite aux opérations de référentiation.

Pour conclure, je trouve que ce travail est vraiment fondateur, qu'il propose enfin des modèles de la langue raisonnables, qui ne créent pas plus de problèmes qu'ils n'en résolvent. Il faudra voir à l'usage comment les questions que j'ai posées peuvent trouver des solutions compatibles avec ce modèle, mais je crois que Roland Hausser fait franchir une étape de maturité scientifique à la linguistique computationnelle et qu'on ne reviendra pas en arrière.