Appel à participation

Le défi fouille de textes (DEFT) est un atelier d’évaluation francophone en fouille de textes organisé depuis 2005 et propose chaque année des thématiques de recherche régulièrement renouvelées.

Pour cette douzième édition de DEFT, nous proposons aux participants de travailler sur la problématique de l’indexation de documents scientifiques. La tâche à réaliser consiste à indexer à l’aide de mots-clés des notices bibliographiques, en français, dans quatre domaines de spécialité (linguistique, sciences de l’information, archéologie et chimie) et dont l’indexation de référence a été réalisée par des indexeurs professionnels.

Les équipes participant à DEFT2016 devront s’inscrire à l’aide du formulaire en ligne. Les données qui seront fournies sont sous licence CC-By-4.0 et, de ce fait, aucun contrat de confidentialité ne devra être signé par les participants.

Modalités d’évaluation

Les jeux d’apprentissage et de développement seront fournis à partir du 15 février 2016 aux participants inscrits. Ces jeux sont composés d’environ 70 % de la totalité des notices bibliographiques de chaque corpus. Les 30 % restants seront utilisés pour l’évaluation. L’évaluation aura lieu dans la semaine du 11 au 17 avril 2016. À partir d’une date choisie dans cet intervalle, les participants auront trois jours pour appliquer sur les jeux d’évaluation de chaque corpus les méthodes élaborées sur les jeux d’apprentissage et de développement, et envoyer leurs résultats au format de sortie à l’adresse deft2016@univ-nantes.fr.

Les résultats seront évalués en utilisant des méthodes classiques d’évaluation (précision, rappel, f1-mesure, etc.) en mettant en relation les mots-clés de référence de chaque notice avec ceux fournis par chaque équipe participante.

Dates importantes (calendrier prévisionnel)

  • Inscription : à partir du 17 février 2016
  • Diffusion des jeux d’apprentissage : 2 mars 2016
  • Phase de Test : 3 jours à choisir pendant la semaine du 11 au 17 avril 2016
  • 3 juin 2016, 23h59 (aucun délai possible), styles LaTeX et docx sous EasyChair JEP-TALN 2016,
  • Atelier de clôture : 4 juillet 2016

Présentation

À l’instar de l’édition 2012 de DEFT, nous proposons de travailler sur l’indexation de documents scientifiques par l’intermédiaire de mots-clés. Alors que l’édition 2012 visait l’identification des mots-clés d’auteurs, nous proposons cette année de travailler sur l’identification des mots-clés proposés par des indexeurs professionnels (ingénieurs documentalistes).

Contrairement aux mots-clés d’auteurs, ceux proposés par des indexeurs professionnels sont issue d’une démarche documentaire étudiée pour l’indexation de documents dans le contexte de la recherche d’information. S’appuyant sur le contenu du document et sur un thésaurus du domaine, les indexeurs professionnels fournissent des mots-clés cohérents et exhaustifs. La cohérence implique qu’un concept est toujours représenté par le même mot-clé pour les documents d’un même domaine. Le thésaurus du domaine est donc privilégié pour l’identification des mots-clés, nous parlons d’indexation contrôlée. Toutefois, l’exhaustivité implique aussi que l’indexeur fournisse des mots-clés relatifs à des concepts importants n’appartenant pas nécessairement au thésaurus, nous parlons d’indexation libre.

Les méthodes qui seront proposées devront identifier les concepts importants (mots-clés) permettant d’indexer les documents. Comme l’indexation proposée par les indexeurs professionnels, les méthodes pourront proposer une indexation contrôlée, libre ou mixte (recommandé).

Piste

Une seule piste est proposée cette année. Celle-ci fournit quatre collections de documents dans quatre domaines de spécialité (linguistique, sciences de l’information, archéologie et chimie), le thésaurus des quatre domaines, ainsi que les documents déjà pré-traités (segmentation en phrases, segmentation en mots et étiquetage grammatical). Les participants pourront choisir d’utiliser ou non le thésaurus et les pré-traitements. Ceux-ci sont invités indiquer leur choix lors de la présentation de leur méthode.

Les participants peuvent utiliser n’importe quelles ressources externes.

Données

Les données sont composées de quatre corpus traitant chacun d’un domaine de spécialité parmi la linguistique, les sciences de l’information, l’archéologie et la chimie. Pour chacun de ces quatre corpus, sont fournis :

  • Un ensemble de notices bibliographiques aux formats TEI (cf. exemple) et TXT, chaque notice étant composée de :
    • un titre,
    • un résumé,
    • une liste de mots-clés attribuée par l’ingénieur documentaliste,
    • le texte pré-traité de la notice,
  • un thésaurus au format SKOS (cf. exemple).

Chacun de ces corpus est divisé en trois jeux :

  1. Jeu d’apprentissage : Ce jeu se compose de notices bibliographiques (titres et résumés), au format TEI, dans quatre domaines de spécialités explicités (linguistique, sciences de l’information, archéologie et chimie) et indexées par les indexeurs professionnel de l’Inist.
  2. Jeu de développement :Ce jeu reprend les mêmes caractéristiques que celles du jeu d’apprentissage.
  3. Jeu de test (d’évaluation) : Ce jeu reprend les mêmes caractéristiques que celles du jeu d’apprentissage ; la liste des mots clés n’est, bien évidemment, pas fournie…

Note: Les jeux d’apprentissage et de développement sont communiqués aux participants le 15 février 2016. Le jeu d’évaluation sera communiqué dans la semaine du 11 avril 2016, selon les modalités d’évaluation.

Les données en chiffres

Linguistique Sciences Info. Archéologie Chimie
Nombre de notices 715 706 718 782
Nombre moyen de mots par notice 160 120 220 105
Nombre moyen de mots-clés par notice 9 9 17 13
Part des mots-clés n’apparaissant pas dans la notice 61 % 68 % 37 % 76 %
Nombre de descripteurs des thésaurus 13 968 92 472 4 905 122 359
associations/thesaurus 3 508 20 249 373 40 266

Exemple de notice (TEI)

Voici un exemple de notice au format TEI. Les balises d’intérêts sont :

  • le titre de l’article (balise //teiHeader/sourceDesc/biblStruct/title[xml:lang="fr"]),
  • le résumé de l’article (balise //teiHeader/profileDesc/abstract[xml:lang="fr"]/p),
  • La liste des mot-clés assignés à l’article par l’ingénieur de l’INIST (les balises //teiHeader/profileDesc/textClass/keywords[xml:lang="fr"]/term).

Les mots-clés listés sous la balise //keywords[scheme="cc"] peuvent être ignorés.

Chaque mot-clé possède un attribut type indiquant s’il est issue du thésaurus du domaine scientifique (type=”controlled”) ou s’il a été assigné par l’ingénieur documentaliste de l’INIST. Lorsque le mot-clé est issu du thesaurus, les attributs xml:id et corresp indique l’identifiant du concept dans le thésaurus.

Note importante : pour l’évaluation dans DEFT2016, le fait que les mots-clés proposés par les participants soient issus du texte, du thesaurus ou d’ailleurs n’a pas d’importance, seul le texte plein (en minuscules) du mot-clé est comparé avec le texte plein (en minuscules) du mot-clé mis par l’INIST.

Exemple de pré-traitement

Les notices déjà pré-traitées seront également fournies avec les corpus. Les prétraitements effectués sont les suivants :

  • segmentation en phrases par l’outil PunktSentenceTokenizer disponible avec la librairie Python NLTK [5],
  • segmentation en mots par l’outil Bonsai du Bonsai PCFG-LA parser 3,
  • étiquetage syntaxique réalisé par MElt. [6].

Ces notices pré-traitées sont au format suivant :

L’étiquette syntaxique associé à chaque mot lui est concaténée par le caractère /. Les étiquettes syntaxiques sont celles du tagger Melt : [4]

Extrait du thésaurus d’archéologie (SKOS)

Les thésaurus, appelés également vocabulaires contrôlés, associés à chaque domaine de spécialité sont fournis au format SKOS (Simple Knowledge Organization System). Le code ci-dessous montre un extrait de thésaurus dans ce format. Les entrées du thésaurus sont les balises Concept.

Chaque concept possède un identifiant de concept (l’attribut rdf:about), une sous-balise prefLabel donnant l’étiquette principale du concept, et éventuellement une ou plusieurs sous-balises altLabel donnant les étiquettes alternatives du concept. Comme stipulé dans la spécification SKOS, les concepts peuvent également posséder des sous-balises indiquant des relations sémantiques entre eux. Par exemple, la balise broader indique que le concept est plus général que le concept associé. La balise related indique simplement un lien sémantique entre deux concepts, sans préciser sa nature. La documentation des balises sémantiques du format SKOS est donnée par la section 8 des spécifications SKOS.

Format de sortie

Chaque participant peut proposer jusqu’à trois méthodes différentes.

Ainsi, après application de leurs méthodes sur chacun des quatre jeux d’évaluation, les participants doivent envoyer au comité d’organisation un fichier de résultats par méthode et par corpus avec le nom suivant : [nom-corpus]-m[i].txt[i] est le numéro de méthode. Sont donc attendus au maximum 12 fichiers de résultats par participant :

  • sciences-info-m1.txt,
  • sciences-info-m2.txt,
  • sciences-info-m3.txt,
  • archeologie-m1.txt,
  • archeologie-m2.txt,
  • archeologie-m3.txt,
  • chimie-m1.txt,
  • chimie-m2.txt,
  • chimie-m3.txt,
  • linguistique-m1.txt,
  • linguistique-m2.txt,
  • linguistique-m3.txt.

Chaque fichier de résultat contient une ligne par notice, et sur chaque ligne :

  • le nom du fichier de la notice,
  • un caractère de tabulation [TAB],
  • la liste des mots-clés (en minuscules) séparés par un point-virgule “;“.

Exemple :

Évaluation

Les mesures qui ont été retenues pour l’évaluation 2016 sont les mesures de précision, rappel, et f1-mesure [1], calculés avec une macro-moyenne [2]. Ce sont ces mesures qui ont été utilisées pour la piste 5 de la campagne SemEval-2010 [3].

Soit N le nombre de documents de test, les mots-clés de référence et les termes-clés extraits par une méthode à évaluer. Pour chaque document d nous calculons :

La précision : Latex formula

Le rappel: Latex formula

La f1-mesure : Latex formula

Pour chaque méthode d’extraction candidate, les résultats de l’évaluation sont donnés par :

Latex formula

 

Latex formula

 

Latex formula

 

Notons que nous utilisons l’égalité stricte sur les mots-clés sans avoir recours à une distance sémantique qui permettrait par exemple de s’apercevoir que recherche d’information est plus proche de fouille de données que d’algorithmique afin de ne pas biaiser l’évaluation par rapport à une ontologie particulière. Nous décidons aussi de ne pas prendre en compte les recouvrements partiels de termes comme ayant une certaine validité pour éviter de récompenser un système qui retournerait fouilles archéologiques alors que la bonne réponse est fouille de données. Bien entendu, ce choix a pour résultat que par exemple l’identification d’un hyponymes d’un mot-clé au lieu du mot-clé sera considérée comme aussi fausse que l’identification de n’importe quel autre mot. En revanche, nous acceptons les variantes flexionnelles.

Pour les résultats officiels de la campagne seules les performances en F-mesure en macro-moyenne seront utilisées.

Bibliographie

[1] C. D. Manning et H. Schütze, Foundation of Statistical Natural Language Processing, Massachusetts institute of Technology Press, 2002.

[2] Didier Nakache et Elisabeth Métais, Évaluation : nouvelle approche avec juges, INFORSID, pp 555-570, 2005,Grenoble.

[3] Su Nam Kim, Olena Medelyan, Min-Yen Kan, Timothy Baldwin, SemEval-2010 task 5: Automatic keyphrase extraction from scientific articles, Proceeding SemEval ’10, Proceedings of the 5th International Workshop on Semantic Evaluation Association for Computational Linguistics Stroudsburg, PA, USA 2010.

[4] Benoît Crabbé, Marie Candito, Expériences d’analyse syntaxique statistique du français, 15ème conférence sur le Traitement Automatique des Langues Naturelles – TALN’08, Jun 2008, Avignon, France. pp. 44-54, 2008.

[5] Bird S., Klein E., Loper E., Natural Language Processing with Python. O’Reilly Media, 2009.

[6] Denis P., Sagot B., Coupling an Annotated Corpus and a Morphosyntactic Lexicon for State-of-the-Art POS Tagging with Less Human Effort. In Proceedings of the 23rd Pacific Asia Conference on Language, Information and Computation (PACLIC), p. 110–119, Hong Kong : City University of Hong Kong, 2009.