Juillet 2000
| F_Thollard_These.ps.gz         Bibtex | ||||||||||||||||||||||
Résumé   :
L'objectif de la thèse consiste à utiliser les langages formels pour modéliser la
langue naturelle. Les techniques utilisées en reconnaissance de la langue nature
lle estiment la probabilité d'un mot étant donnée son contexte. En
raison de l'information structurelle qu'elle contiennent, les
grammaires formelles probabilistes semblent bien adaptées à cette
tâche.
Nous étudions les automates déterministes probabilistes (PDFA). Une théorie form
elle de ces objets est proposée. Nous montrons par ailleurs que les
automates probabilistes peuvent être appris dans un cadre
d'apprentissage dérivé de l'identification à la limite proposé par
Gold.
Nous proposons ensuite un nouvel algorithme (MDI) basé sur un calcul efficace de
la divergence de Kullback-Leibler entre automates. L'algorithme MDI
cherche à inférer un PDFA compromis entre la divergence par rapport
aux données d'apprentissage et une petite taille. Une étude
expérimentale montre que l'algorithme MDI améliore significativement
le pouvoir de prédiction de l'algorithme de référence du domaine~:
ALERGIA. Ces expérimentations montrent par ailleurs l'importance du
lissage lors de la modélisation de la langue naturelle. | ||||||||||||||||||||||
|
Abstract  :We aim at using probabilistic formal languages to model natural language. Natura l speech recognition technics estimate the probability of a word given its context. The underlying hypothesis is that probabilistic formal grammars are more powerful to model natural language due to the structural information they contain. We study probabilistic deterministic automata. A formal theory concerning these SDFA is proposed. We show that probabilistic automata can be learned in a framework adapted from Gold's identification in the limit criterion. A new algorithm (MDI) based on an efficient computation of Kullback-Leibler divergence between automata, is proposed. The MDI algorithm aims at inducing a PDFA while trading of minimal divergence from the training sample distribution and minimal size. An empirical study shows that the MDI algorithm outperforms the domain's reference algorithm~: ALERGIA. Moreover, experimentations show the importance of smoothing in natural language modeling.  |
||||||||||||||||||||||
|