ÉTRANGE CONJONCTURE!

Colloque ITI/IIT — CRTL/LTRC Colloquium — NRC-IIT Colloqium / Colloque de l’ITI-CNRC

Nous venons de recevoir le courriel ci-dessous.

Conférencier : Massih-Reza Amini, Professeur adjoint, Laboratoire d’Informatique Université de Paris 6
Please note: Presentation will be in English.

Au Centre de recherches en technologies langagières (CRTL/ "LTRC" !) de l’Université du Québec en Outaouais, une présentation en anglais par un professeur adjoint du Laboratoire d’Informatique de l’Université de Paris dans le cadre d’un colloque parrainé par le Centre national de recherches du Canada!

La présentation « en anglais » a eu lieu le jeudi 10 janvier 2008 à 13 h 30 au Centre de recherche en technologies langagières, 283, boul. Alexandre–Taché, local
F- 0129, Gatineau, QC

***********************

Messager d’un correspondant outré :

Madame Louise Bellerive,
Institut de technologie de l’information, Conseil national de recherches du Canada
Louise.Bellerive@cnrc-nrc.gc.ca

Madame,

J’ai bien reçu l’invitation ci-dessous à cette conférence et je vous en remercie.

Je dois cependant vous dire que je suis scandalisé qu’un chercheur dont l’essentiel des études et des travaux de recherche se sont déroulés en France soit invité à venir faire au Québec une conférence en anglais. C’est faire bien peu de cas de la contribution importante des francophones à ce domaine de recherche ainsi qu’au financement de l’Institut de technologie de l’information.

Veuillez agréer, Madame, l’expression de ma profonde déception.

Benoît Thouin

***********************************

Please note: Presentation will be in English !!!

Conférencier : Massih-Reza Amini, Professeur adjoint, Laboratoire d Informatique Université de Paris 6

Speaker:
Massih-Reza Amini, assistant professor in Pierre et Marie Curie University (Paris 6)

À noter : La présentation sera en anglais.

Please note: Presentation will be in English.

Deux Modèles d Apprentissage Automatique pour le Résumé de Textes

Automatic Text Summarization based on Ranking Algorithms and Word Clustering

Date : le 10 janvier 2008
Heure : 13h30 – 14h30
Endroit : Université du Québec en Outaouais, Gatineau QC
CRTL Salle F-0129

Le résumé est l art de comprimer l information. Les premiers travaux sur le résumé automatique ont proposé de générer des résumés synthétiques à partir des documents en entrée. Ces travaux ont abouti à la conclusion que, pour synthétiser l information dans un document il est nécessaire de modéliser le discours latent du document ce qui en général est une tâche non-triviale. Une approche plus simple à ce problème consiste à générer des résumés extractifs où il s agit d extraire des phrases pertinentes par rapport aux idées générales des documents en entrée. Il s agit dans ce cas de représenter les phrases par des caractéristiques numériques indiquant entre autres la position des phrases dans le document, leur taille, leur similarité par rapport au titre, et s ils contiennent certains marqueurs linguistiques. Ces caractéristiques sont alors combinées pour donner un score final aux phrases et les p% phrases les mieux scorées sont retournées comme les résumés extractifs des documents. Les premiers modèles d apprentissage ont considéré la tâche de résumé comme une tâche de classification et ont proposé d apprendre les poids de cette combinaison de façon à mieux séparer les phrases devant faire parties du résumé des autres phrases. Dans notre étude, nous avons proposé une méthode locale d extension de requêtes à base d’apprentissage non-supervisé pour améliorer la représentation des phrases. Cette technique est basée sur l hypothèse que les termes co-occurrents dans les mêmes documents avec les mêmes fréquences sont sémantiquement similaires. Cette approche nous a permis de placer notre système de résumé 3ème, 2ème et 1er lors de la compétition Document Understanding Conferences (DUC) 2007. Dans un deuxième temps nous avons proposé de considérer la tâche de résumé comme une tâche d ordonnancement et nous avons ainsi proposé d apprendre les poids de la combinaison des caractéristiques de façon à ce que les phrases pertinentes (faisant parti du résumé) d un document soit ordonnées au-dessus des phrases non-pertinentes.

Biographie du conférencier

Massih Amini est actuellement Maître de conférences à l’université Pierre et Marie Curie (Paris 6). Il a obtenu un diplôme d’ingénieur en Informatique à l’Ecole Supérieure d’Informatique à Paris en 1995. Il a ensuite obtenu son diplôme de Master en sciences spécialité intelligence artificielle à Paris 6 en 1997, son diplôme de Docteur en 2001 et son habilitation à diriger des recherches en 2007 (tous les deux en Informatique à Paris 6). Les thèmes de sa recherche concernent l’apprentissage automatique appliqué aux applications à large échelle en Recherche d’Information. Il est plus particulièrement intéressé au résumé automatique de textes et à l’apprenabilité des modèles statistiques où les données sont partiellement étiquetées et où le but est de prendre en compte les données non-étiquetées dans le processus d’apprentissage.

Speaker:
Massih-Reza Amini
Professeur adjoint,
Laboratoire d Informatique Université de Paris 6

Conférencier :
Massih-Reza Amini

Date: January 10, 2008
Time: 1:30 2 :30
Place: CRTL, local F-0129, Gatineau, QC

Summarization is the art of compressing the information. The first studies on this topic have proposed to generate synthetic summaries of input documents. These approaches, though similar to human summarization of texts, are limited in the sense that synthesizing the information requires to model the latent discourse of documents which in some cases is prohibitive. A simple approach to this problem is to extract relevant sentences with respect to the main idea of documents. In this case, sentences are represented with some numerical features indicating the position of sentences within each document, their length (in terms of words they contain), their similarity with respect to the document title and some binary features indicating if sentences contain some cue-terms or acronyms found to be relevant for the summarization task.

These characteristics are then combined and the first p% of sentences having highest scores is returned as the document summary. The first learning summarizers have been developed under the classification framework where the goal is to learn the combination weights in order to separate summary sentences from the other ones. In our study, we proposed a local query extension technique for better representing sentences. This technique is an unsupervised learning approach based on the hypothesis that terms co-occurring in the same documents with the same frequencies are semantically related. This approach placed our summarization system respectively as 3rd, 2nd, and 1st in the Document Understanding Conferences 2007 competition. Our second contribution was to consider text summarization as a ranking task. We hence proposed to learn the combination weights allowing to rank relevant sentences of a document above irrelevant ones.

Speaker’s Biography

Massih Amini is currently assistant professor in ‘Pierre et Marie Curie’ University (Paris 6). He received an engineering degree in computer science from ‘Ecole Supérieure d’Informatique’ in Paris in 1995. He then accomplished his master thesis in science in artificial intelligence in1997 (Paris 6), PhD in 2001 and professorial thesis in 2007 (both in computer science in Paris 6). His research interest focuses on Machine Learning applied to large document collections for information access. He is particularly interested on text summarization and on the learnability of statistical models where only a small portion of data is labeled and where the aim is to take advantage of the huge unlabeled data together with labeled ones to make prediction.

*************************************

Adresses utiles :

Madame Louise Bellerive, Louise.Bellerive@cnrc-nrc.gc.ca
Institut de technologie de l’information

Université du Québec en Outaouais, dcr@uqo.ca

Daniel Vincent, Directeur général du Centre de recherche en technologies langagières, (819) 595-3966 et daniel.vincent@crtl.ca