Inférence grammaticale probabiliste
pour l'apprentissage de la syntaxe
en traitement de la langue naturelle


F. Thollard

Juillet 2000

 

F_Thollard_These.ps.gz         Bibtex

Résumé   :

L'objectif de la thèse consiste à utiliser les langages formels pour modéliser la langue naturelle. Les techniques utilisées en reconnaissance de la langue nature lle estiment la probabilité d'un mot étant donnée son contexte. En raison de l'information structurelle qu'elle contiennent, les grammaires formelles probabilistes semblent bien adaptées à cette tâche. Nous étudions les automates déterministes probabilistes (PDFA). Une théorie form elle de ces objets est proposée. Nous montrons par ailleurs que les automates probabilistes peuvent être appris dans un cadre d'apprentissage dérivé de l'identification à la limite proposé par Gold. Nous proposons ensuite un nouvel algorithme (MDI) basé sur un calcul efficace de la divergence de Kullback-Leibler entre automates. L'algorithme MDI cherche à inférer un PDFA compromis entre la divergence par rapport aux données d'apprentissage et une petite taille. Une étude expérimentale montre que l'algorithme MDI améliore significativement le pouvoir de prédiction de l'algorithme de référence du domaine~: ALERGIA. Ces expérimentations montrent par ailleurs l'importance du lissage lors de la modélisation de la langue naturelle.
 

Abstract  :

We aim at using probabilistic formal languages to model natural language. Natura l speech recognition technics estimate the probability of a word given its context. The underlying hypothesis is that probabilistic formal grammars are more powerful to model natural language due to the structural information they contain. We study probabilistic deterministic automata. A formal theory concerning these SDFA is proposed. We show that probabilistic automata can be learned in a framework adapted from Gold's identification in the limit criterion. A new algorithm (MDI) based on an efficient computation of Kullback-Leibler divergence between automata, is proposed. The MDI algorithm aims at inducing a PDFA while trading of minimal divergence from the training sample distribution and minimal size. An empirical study shows that the MDI algorithm outperforms the domain's reference algorithm~: ALERGIA. Moreover, experimentations show the importance of smoothing in natural language modeling.
 

Jury :

Président L. Miclet, Lannion
Rapporteurs F. Denis, Lille
M. El-Beze, Avignon
Examinateurs P. Dupont, St Etienne
L. Karray, Lannion
Directeur C. De la Higuera, St Etienne
 

 


Last modified: Fri Jan 5 14:28:41 MET 2001