Séminaire « Mathématiques pour la linguistique de corpus »
Ce séminaire est co-organisé par Bernard Laks et Christophe Parisse (Modyco), Antoine Chambaz et Nathanaël Enriquez (Modal'X). Pour tout contact (Modyco) joindre Christophe Parisse : cparisse à u-paris10.fr
Les séances se tiendront le jeudi à 10h en Salle A407 (Nanterre)
Calendrier du séminaire « Mathématiques pour la linguistique de corpus »
25 octobre 2012 :
Linguistique: Parisse, Laks, Desagulier – Données langagières et corpus : Quelques utilisations et applications d’analyses statistiques de données de grand volume.
...
Mathématiques: Chambaz – Séparation de deux quasi-synonymes par apprentissage ciblé (travail joint avec Guillaume Desagulier).
...
22 novembre 2012 :
Linguistique: John Goldsmith - Spectral analysis of distributional patterns of words in large corpora
John Goldsmith, University of Chicago
Over the last fifteen years, interesting and useful methods have been developed for visualizing data that is represented by (directed or undirected) graphs. Some of the most interesting involve a spectral analysis of the laplacian of the graph, allowing us to see global characteristics of the graph. In this talk, I will briefly outline how these methods work, and then illustrate their usefulness in studying distributional patterns of words in large corpora. In particular, we create a weighted undirected graph G = (V,E1) in which words are represented by the nodes V, and weights on an edge e = (word1, word2) count the number of immediate word neighborhoods shared by word1 and word2 in the corpus. We compute the top 10 eigenvectors of the normalized laplacian of the incidence matrix of this graph, and assign a location to each word in R^10 based on these eigenvectors. We then create a new (unweighted) graph H = (V,E2) with a neighborhood index k, in which there is an edge between two nodes, word1 and word2, iff word1 is one of the k-closest words to word2 in R^10, or word2 is one of the k-closest words to word1 in R^10.
The resulting graphs are remarkably interesting in pulling out syntactic and discourse groupings, and we will illustrate this with examples from English and French.
This work was done in cooperation with Wang Xiuli.
Mathématiques: Mélanie Zetlaoui – A propos des modèles à variables latentes
...
20 décembre 2012 :
Linguistique: Sylvain Loiseau -Théories de la fréquence linguistique et interprétations des faits quantitatifs
Université Paris 13-Nord-UMR 7187
Dans cette communication je proposerai d’abord un bilan de travaux antérieurs sur la notion de fréquence textuelle. Celle-ci apparaît comme une notion centrale bien que peu élaborée en sciences du langage. Différents types de fréquence peuvent être distingués. De nombreuses questions posées par l’usage de méthodes quantitatives ont déjà été rencontrées et peuvent être resituées dans des discussions classiques en linguistique.
Ces éléments seront ensuite illustrés avec un cas descriptif concret portant sur un phénomène de régionalité linguistique. Il s’agit de décrire un aspect de la différenciation des variétés de français dans la francophonie. Les méthodes quantitatives servent ici à synthétiser les contextes d’emplois des unités lexicales dans un corpus représentant différentes variétés de français. Ces synthèses quantitatives mettent au jour des divergences dans les emplois de certaines unités lexicales. Elles permettent donc d'apporter de nouveaux matériaux pour décrire la différenciation du français dans l'espace francophone.
31 janvier 2013 :
Linguistique: Basilio Calderone - Modéliser le mot par activations phonotactiques
Université de Toulouse-Le Mirail
Le problème de la représentation du mot 'ortho-phonologique' dans le lexique mental du locuteur constitue un point crucial dans les recherches cognitivo-linquistiques des dernières années (Laudanna et al. 1992 ; Caramazza et Janssen 2009). Loin d'être confiné dans le domaine linguistique et comportemental, le débat touche des aspects de la réflexion contemporaine sur la nature des processus computationnels d'élaboration des données linguistiques en général (voir par exemple Plaut et al. 1996 et Albright 2010 pour une vue d'ensemble). Nous proposons une modélisation computationnelle qui tente d'intégrer les différentes niveaux d'organisation du mot: a) un niveau d'organisation de type local et phonotactique (les séquences licites de phonèmes dans une langue) et b) un niveau d'organisation global et lexical (basé sur une conception holistique du mot et des effets de voisinage lexical, 'lexical neighborhood').
Mathématiques: Ana Karina Fermin - Techniques d'apprentissage, planification d’expériences et sélection de modèles pour le problème de régression
Modal'X - Université Paris Ouest Nanterre
Dans un modèle de régression, on souhaite estimer une fonction inconnue à partir d'un échantillon d'apprentissage (t1,y1), ...(tn,yn) . Dans de nombreux cas, en particulier dans le milieu industriel, la mesure de yi au point ti est coûteuse. On étudie ici, comment choisir des points ti les plus informatifs possibles (selon un certain critère de décision sans connaitre les valeurs observées yi) . Dans un premier temps, nous proposons une nouvelle technique pour la sélection d'un sous-échantillon optimal (à modèle fixé). Nous proposons ensuite des stratégie pour sélectionner simultanément un échantillon optimal et un modèle optimal en combinant apprentissage actif et sélection de modèles.
28 février :
Linguistique: James Kirby - Modeling dialect variation and change
University of Edinburgh
Dialects often respond differently to phonetic bias. For instance, in many languages of mainland Southeast Asia, a historical contrast between voicing of initial obstruents may come to be signaled primarily by aspiration in one dialect, voice quality in another, and pitch in a third. Is a predictive model of such divergences possible? In this talk, I address the nature of phonetic change from a computational perspective. I suggest an error-driven bias to drive the differential shift in cue distributions with reference to an ongoing sound change in two dialects of Khmer (Cambodian), and present a statistical learning framework that can be used to predict such qualitative shifts. I will also discuss how this framework might be applied to the study of large-scale dialect corpora such as the PFC and PAC.
Mathématiques: Laurent Duvernet - Processus aléatoires multifractals et applications
Modal'X - Université Paris Ouest Nanterre
Je ferai une brève introduction à la notion de multifractalité, qui est un cadre mathématique qui vise à rendre compte d'invariances d'échelle complexes qu'on peut trouver dans des données dont la dynamique évolue à différentes fréquences. J'évoquerai des applications que je connais relativement bien, comme la physique ou la finance, et j'essaierai d'ouvrir quelques portes en direction de la linguistique.
14 mars 2013 :
Linguistique: Aris Xanthos - L'évaluation des mesures de diversité flexionnelle
Aris Xanthos, Université de Lausanne
A ce jour, au contraire de la diversité lexicale, la diversité flexionnelle n'a fait l'objet que d'un nombre restreint d'études systématiques (voir p.ex. Malvern et al., 2004; Xanthos & Gillis, 2010). Cette contribution se propose de passer en revue les principaux indices de diversité flexionnelle proposés dans la littérature. On se penchera en particulier sur le problème délicat de l'évaluation de ces indices, en particulier en termes de robustesse et de sensibilité.
Malvern, D., Richards, B., Chipere, N., & Durán, P. (2004). Lexical diversity and language development: Quantification and assessment. Basingstoke: Palgrave MacMillan. Xanthos, A. et Gillis, S. (2010), Quantifying the development of inflectional diversity, First Language, 30(2): 175-198.
16 mai 2013 :
Linguistique: Isabelle Tellier -
...
Mathématiques: Thomas Mainguy - Grammaires toriques: un nouveau modèle stochastique
Département de Mathématiques et Applications, ENS Ulm
Les grammaires formelles utilisées dans la modélisation des langues naturelles présentent des structures récursives qui rendent une analyse "classique" par des modèles markoviens peu satisfaisante. Nous allons présenter ici un nouveau modèle visant à l'estimation statistique de ces structures syntaxiques, à partir d'un corpus de phrases. Ce modèle, visant à la base à une analyse automatique des langages naturels, repose sur la construction de classes d'équivalence entre éléments syntaxiques. Les grammaires toriques définissent un nouveau modèle stochastique général, utilisant des conditions d'indépendance conditionnelle plus flexibles que les propriétés de Markov.
20 juin 2013 :
Linguistique: Thierry Charnois et Delphine Battistelli -
...
Evènements à venir
|
Conseil de laboratoire
On 29.05.2013 11.00 |
Réunions institutionnelles | Bat A salle 407 |
|
|
|
Le statut de la fréquence : réflexions critiques
From 18.06.2013 Until 18.06.2013 14.00 |
Séminaire de MoDyCo | Université Paris Descartes Salle F 673 |
|
|


