Séminaire « Mathématiques pour la linguistique de corpus »

Ce séminaire est co-organisé par Bernard Laks et Christophe Parisse (Modyco), Antoine Chambaz et Nathanaël Enriquez (Modal'X). Pour tout contact (Modyco) joindre Christophe Parisse : cparisse à u-paris10.fr

 

Les séances se tiendront le jeudi à 10h en salle Modal'X Bâtiment G E27 (Nanterre)

Accès à la salle Modal'X

Calendrier du séminaire « Mathématiques pour la linguistique de corpus »

17 octobre 2013 :

Linguistique: André Salem – Approximations statistiques et données textuelles

Dans le traitement des données textuelles, on utilise de plus en plus couramment des approches formelles, des modèles statistiques. La plupart de ces méthodes d'analyse sont largement utilisées dans un grand nombre de domaines de recherches, certaines ont été spécifiquement élaborées pour l'étude des corpus de textes. On s'interrogera sur les apports que l'ont peut espérer de l'utilisation de chaque type de méthode dans le domaine des études textuelles.

Mathématiques: Antoine Chambaz (Modal'X, Université Paris Ouest Nanterre) – Introduction à la classification

...

5 décembre 2013 :

Linguistique: Guillaume Desagulier – Université Paris 8 St Denis / ModycoDe l’apprentissage associatif aux collocations asymétriques dans les grammaires de constructions

Mathématiques: Ana-Karina Fermin – Université Paris Ouest Nanterre / Modal'XSéparateur à Vastes Marges (SVM) et Méthodes à Noyau pour la Classification de Textes

23 janvier 2014 :

Linguistique: Dylan Glynn – Université Paris 8 St DenisLogistic Regression – questions for empirical linguistics

Inherited from sociolinguistics, logistic regression has represented a mainstay quantitative technique in corpus-driven Cognitive and Functional Linguistics since the turn of the century. In recent years, the simple (and sometimes overly simple) use of fixed-effects multiple binary logistic regression has come to an end and the linguistics community is beginning to question certain assumptions and seeking to improve upon the status quo.
Instead of presenting results, this seminar is intended as a discussion forum, based on a series of questions. We will consider three relatively theoretical questions that have been discussed informally within the community for a few years. The questions concern: random effects; rare events; and the assumption of the categorical outcome. If time permits, we will move to three practical questions that currently face the community. These concern: diagnostics for ordinal logistic regression; the concordance statistic for predictive accuracy; and immediately possible advances in the field (exact regression, Bayesian probability, stochastic boosting, random forests, and non-parametric regression).
The discussion will be in English or in French as appropriate.

Mathématiques: Mesrob Ohanessian (ERCIM postdoctoral fellow, Département de Mathématiques de l'Université Paris-Sud) – N-Grammes, Hapax et Probabilités Rares

Dans cet exposé, je vous donnerai un aperçu d'une des plus simples modélisations en linguistique informatique: les n-grammes. Ceux-ci sont une famille de dépendances Markoviennes, utilisée pour prédire la probabilité qu'un mot suive d'autres, ou bien pour donner un score à chaque phrase automatiquement reconnue de la parole ou traduite d'une autre langue. Je vous parlerai en particulier d'un problème courant dans cette modélisation: l'estimation des probabilités rares. L'abondance du phénomène des hapax legomenon, des mots dont on observe que quelques occurrences, peut poser des problèmes dans ce genre de traitement. Afin de compenser ces lacunes, les informaticiens et statisticiens ont crées des techniques dites d'"extrapolation" ou de "lissage", qui arrivent à estimer ce qu'on a rarement, voire ce qu'on n'a jamais, vu. On pourrait même utiliser ces méthodes pour donner une réponse à la question: en se basant sur ses œuvres, pourrions-nous dires combien de mots différents Molière connaissait? Je vous montrerai comment ces techniques sont particulièrement adaptées aux langues naturelles, en se basant sur le faite de la prépondérance des lois de puissance dans ce domaine.

13 mars 2014 :

Linguistique: Sharon Goldwater – University of EdinburghModeling 'Bootstrapping' in Language Acquisition: A Probabilistic Approach

The term "bootstrapping" appears frequently in the literature on child language acquisition, but is often defined vaguely (if at all) and can mean different things to different people. In this talk, I define bootstrapping as the use of structured correspondences between different levels of linguistic structure as a way to aid learning, and discuss how probabilistic models can be used to investigate the nature of these correspondences and how they might help the child learner. I will discuss two specific examples, showing 1) that using correspondences between acoustic and syntactic information can help with syntactic learning ("prosodic bootstrapping") and 2) that using correspondences between syntactic and semantic information in a joint learning model can help with learning both syntax and semantics while also simulating important findings from the child language acquisition literature.

Mathématiques: Mélanie Zetlaoui – Université Paris Ouest Nanterre - Méthodes de classification et de régression avec les arbres de décision

 Imprimer  E-mail