Robustesse des partitions de textes : une exploration autour de l'apport des motifs de mots.

التفاصيل البيبلوغرافية
العنوان: Robustesse des partitions de textes : une exploration autour de l'apport des motifs de mots.
المؤلفون: Cadot, Martine, Zitt, Michel, Meurin, Gabriel, Lelu, Alain
المساهمون: Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Études et de Recherches en Economie (LERECO CEDRAN), Institut National de la Recherche Agronomique (INRA), Unité de Recherches Animal et Fonctionnalités des Produits Animaux (URAFPA), Institut National de la Recherche Agronomique (INRA)-Université de Lorraine (UL), Knowledge Information and Web Intelligence (KIWI), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté COMUE (UBFC)-Université Bourgogne Franche-Comté COMUE (UBFC), Institut des Sciences de la Communication du CNRS (ISCC), Centre National de la Recherche Scientifique (CNRS), Sergio Bolasco
المصدر: Journées Internationales d'Analyse des Données Textuelles (JADT 2010) ; https://inria.hal.science/inria-00442952Test ; Journées Internationales d'Analyse des Données Textuelles (JADT 2010), Sergio Bolasco, Jun 2010, Rome, Italie. 13 p ; http://hal.inria.fr/docs/00/68/22/42/PDF/JADT2010final.PDFTest
بيانات النشر: HAL CCSD
سنة النشر: 2010
المجموعة: Université de Lorraine: HAL
مصطلحات موضوعية: validation, classification, motif de mots, nomenclature, analyse de données textuelles, catégorisation de texte, généralisation, robustesse de partition, stabilité de classification, requête booléenne, expansion de requête, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
جغرافية الموضوع: Rome, Italy
الوصف: International audience ; Les partitions d'ensembles de textes peuvent être d'origine endogène - provenir d'une classification non supervisée - ou exogène, par catégorisation a priori des textes par des experts. Dans les deux cas se pose la question du caractère généralisable des catégories qu'elles expriment. Dans le cadre de la recherche d'une meilleure catégorisation des domaines scientifiques, et à partir d'un extrait significatif de la base de référence Web of Science, nous avons appliqué la méthodologie classique de l'apprentissage automatique (sous-corpus distincts: apprentissage, ajustement, test) à une partition non supervisée du domaine de la génomique. Les résultats sur cet ensemble de 120 000 résumés d'articles font la preuve d'une qualité et d'une robustesse accrues quand on caractérise chaque partition, plutôt que par de simples termes, par des motifs de termes. Ces motifs spécifiques de chaque catégorie sont extraits par notre méthode Midova de sélection et détermination de liaisons complexes entre variables booléennes par "pulvérisation" des effectifs impliqués dans chaque relation n-aire.
نوع الوثيقة: conference object
اللغة: French
العلاقة: inria-00442952; https://inria.hal.science/inria-00442952Test; https://inria.hal.science/inria-00442952v2/documentTest; https://inria.hal.science/inria-00442952v2/file/JADT2010final.PDFTest; PRODINRA: 245324
الإتاحة: https://inria.hal.science/inria-00442952Test
https://inria.hal.science/inria-00442952v2/documentTest
https://inria.hal.science/inria-00442952v2/file/JADT2010final.PDFTest
حقوق: info:eu-repo/semantics/OpenAccess
رقم الانضمام: edsbas.B4A2AFEF
قاعدة البيانات: BASE