La linguistique informatique
-la traduction automatique-

accueil science
3 pages par Claire Alberio calberio@yahoo.fr 26-2-2000
Réflexion personnelle à la suite de la conférence "Linguistique et informatique (La traduction automatique)" donnée le 16/02/2000 par Laurence DANLOS au CNAM, dans le cadre du cycle de conférences "L'université de tous les savoirs" .

La linguistique informatique fait appel à des domaines scientifiques aussi variés que les systèmes experts, les langages formels et l'intelligence artificielle.
La machine peut analyser les signes mais peut-elle en comprendre tous les sens ?
Si les nouvelles technologies donnent naissance à des robots, faut-il leur prêter des " états d’âme " ?
 
 
Le langage comprend des règles de syntaxe et de sémantique explicites et précises. Les langages de programmation en sont des exemples, de même que les logiques telles que le calcul des prédicats. Les langages formels contrastent avec les langages naturels comme le français. Ces règles, qui évoluent avec l’usage, sont loin de représenter une définition complète ou précise de leur syntaxe, encore moins de leur sémantique. Pour les applications informatiques, les langages naturels sont modélisés par des langages formels.
Un système informatique est constitué par un langage formel et un appareillage déductif. Un système informatique sélectionne les énoncés vrais ou faux grâce à des propositions. La sémantique de ces propositions est prise en compte à travers l’interprétation de ces notions. Pour faire des déductions, on utilise des tables de vérité et des techniques de déduction naturelle. Cet appareillage déductif est composé d’axiomes et de règles d’inférence complexes.
Un langage formel est un ensemble fini de chaînes considéré indépendamment de la signification des symboles. Par exemple, si S est un ensemble quelconque, un S-langage est un sous-ensemble de S mots. S est appelé l’alphabet de ce langage.
Les méthodes formelles utilisées permettent un support automatique d’un développement, c’est à dire une adaptation rigoureuse aidée par un contrôle de type automatique, une analyse sémantique, la transformation de la spécification en conception, l’animation, l’assistance à la preuve, la vérification et même la preuve de théorème.

Avec le développement d’Internet, les besoins en traduction automatique sont énormes. On trouve des logiciels de traduction automatique disponibles sur le net (Systran, Reverso) mais les traductions générées ne sont pas parfaites. Pourquoi ? La technique de la traduction automatique consiste à passer un texte de langage source par un système de traduction. Le premier système de traduction automatique date de 1946 (année du premier ordinateur qui était un calculateur électronique). C’était un traducteur mot à mot. La traduction pouvait alors perdre tout son sens.
Exemple : "Ciel mon mari ! " se traduit par " Sky my husband ! ".
Depuis les systèmes de traduction ont progressé mais ils génèrent toujours des erreurs, notamment à cause des ambiguïtés propres à chaque langue.
Un mot est une suite de caractères encadrée de " séparateurs ".Il existe des mots composés que l’on ne peut pas traduire mot à mot. Par exemple " pomme de terre " se traduit en Anglais par " potato ". Il faut donc dresser la liste des expressions composées pour chaque langue.
La difficulté vient aussi du fait qu’il faut reconnaître les expressions composées dans les phrases. Or les éléments ne sont pas forcément contigus. Sans compter les homographes, qui sont des mots qui ont la même graphie mais un sens différent en fonction des catégories de discours différentes.
Le français est une langue à forte morphologie avec des ambiguïtés réelles rares et des ambiguïtés virtuelles fortes.
L’exemple suivant nous montre les ambiguïtés de la langue française. " Zoé a aimé cet avocat. Pourtant, il était véreux. ". La traduction de cette phrase dépend du contexte. En anglais, les traductions pourraient être les suivantes : " Zoé loved/liked this lawyer/avocado. However, he/it was worm-eaten/shady ".
Avocat peut être un fruit ou un homme. Il n’y a pas d’ambiguïté réelle mais virtuelle introduites par l’analyseur.
Le graphe de décision devient vite complexe car les graphes se croisent avec une explosion combinatoire. Si la phrase a n mots, si un mot mi a ki sens (ki traductions) alors, l’ordinateur doit décider en k hypothèses avec k=k1*k2*…kn.
De plus, il y a d’autres types d’ambiguïtés comme les ambiguïtés pragmatiques ou syntaxiques.
Pour y remédier, il faut une connaissance du monde que nous ne savons pas modéliser aujourd’hui.

 
 
On parle aujourd’hui d’objets qui pensent, c’est à dire d’entités logicielles indépendantes qui contiennent une intelligence (logique et de représentation des connaissances) définissant leur comportement.
Les robots sont munis de ces entités logicielles ce qui les dotent des fonctionnalités suivantes.
(La vision que nous avons ici se dégage des concepts purement liés à l’Intelligence Artificielle.)
Autonomie du robot : fonctionnement sans intervention de l’homme, il a le contrôle de ses actions et de son état interne.
Sociabilité, il interagit avec d’autres (humains ou non), par le biais d’une communication.
Réactivité, il perçoit son environnement (qui peut être le monde physique, un utilisateur via une interface graphique, une collection d’autres robots, etc.). Il réagit aux changements qui s’y produisent.
Pro-activité, il n’agit pas qu’en réponse à son environnement. Il est capable d’exhiber un comportement dirigé par des buts en prenant des initiatives.
Les prototypes comprennent à peu près mais les logiciels sont lents, ils fonctionnent sur de gros ordinateurs, dans des domaines restreint avec un vocabulaire réduit.
Les différences entre l’homme et le robot ou l’humanoïde sont que l’homme comprend le langage alors que l’humanoïde ne comprend rien.
Le robot décharge l’homme de tâches complexes ou répétitives mais ne peut pas être comparé à un être humain. Il ne confie pas ses états d’âme mais confie ses états de fonctionnement (exemple : batteries à plat). Il n’a pas d’âge mental, il n’a ni 3 ans, ni 5 ans. On ne peut pas le comparer à un enfant car un enfant fait un apprentissage de la langue.
A une forme langagière, correspond une situation (compréhension), à une situation correspond une forme de langage (production). Il n’existe pas d’enfant qui ne pourrait ne parler que d’un unique domaine. Un enfant maîtrise tous les domaines qui font partie de son quotidien.

Le robot, objet de toutes les recherches, sera bientôt beaucoup plus sophistiqué. Il devrait être doté des fonctionnalités suivantes.
La délégation : le robot exécute une tâche pour le compte d’un utilisateur. La tâche est exécutée de manière indépendante, mais sous la responsabilité de l’utilisateur et est accomplie selon la stratégie de celui-ci.
La personnalisation : le robot apprend ou connaît les préférences de l’utilisateur, autrement dit son profil. Il intègre une stratégie de choix selon les préférences de l’utilisateur, stratégie qu’il sait adapter aux changements.
Le suivi de contrat, lorsque la nature du service entraîne une consommation effective différée, l’usage du service résulte en un contrat entre le serveur et le client qui s’achèvera une fois l’objet du contrat consommé. Par exemple, un client qui achète un voyage fait une réservation qui constitue un contrat entre le voyagiste (ici le robot) et lui-même jusqu’à ce que le voyage soit effectué. Dans un tel cas, le robot assure le suivi du contrat jusqu’à ce que le service soit consommé. Il est capable de réagir aux changements susceptibles d’affecter le contrat et le cas échéant de rechercher des solutions nouvelles.
La combinaison de services : le robot est capable d’élaborer une réponse à la requête d’un utilisateur en utilisant lui-même plusieurs services et en combinant leurs réponses.
Le robot peut comprendre les langages dans tous les domaines sans formation préalable.

 
 
Les applications de la linguistique informatique permettent à l’homme de rendre son interlocuteur intelligible, qu’il soit homme ou machine. Bien que cette science touche de plus en plus notre quotidien, " l’humanoïde qui comprend et éprouve des sentiments ne devrait pas voir le jour, du fait de la complexité des problèmes à résoudre, avant 3001 " (L.DANLOS). 

http://www.admiroutes.asso.fr/action/theme/science/linguist.htm
Droits de diffusion