Laurent Candillier
Nationalité: français
Date et lieu de naissance: 29/11/1978 à Roubaix

E-mail: lcandillier@hotmail.com
Tél: 06 64 35 08 72
Adresse: 29 rue Pasteur, 59250 Halluin, France
Couch surfer
(Permis B)

       

Présentation rapide

Cursus général

Travaux de recherche

La problématique générale de l'ensemble des travaux de recherche que j'ai menés s'inscrit dans le cadre de l'Apprentissage Automatique (ou Machine Learning), qui constitue la thématique centrale du laboratoire GRAppA de l'université de Lille 3 dans lequel j'ai démarré en stage de Master 2. Le sujet connexe de la Fouille de Données (Data Mining) a été au centre des recherches menées en collaboration avec la société Pertinence à Paris. Je me suis ensuite expertisé dans le domaine des Systèmes de Recommandations au sein de l'équipe "Profiling and Data Mining" de France Telecom R&D à Lannion. Puis mes intérêts de recherche se sont élargis aux domaines de la Recherche d'Information (RI) et du Traitement Automatique des Langues (TAL) au sein de l'équipe R&D de Nomao à Toulouse.

Dans un premier temps, j'ai travaillé sur l'apprentissage automatique de profils de lecteurs (rapport technique n°22). L'objectif de cette étude consistait à aider les lecteurs de sites d'informations en ligne à cibler au mieux l'information qui les intéresse. Nous avons identifié pour cela deux approches intéressantes et complémentaires, relevant respectivement du filtrage collaboratif et de l'extraction d'information. Dans le premier cas, un profil utilisateur consiste en un ensemble de notes sur un ensemble de pages déjà visitées, et dans l'autre cas, le profil est thématique et déduit du contenu textuel des pages visitées. Lors de mon stage de DEA (Diplôme d'Études Approfondies, équivalent du Master 2), nous nous sommes concentrés principalement sur la première approche. J'ai d'abord développé une méthode permettant la génération automatique de notes d'utilisateurs sur les pages parcourues, à partir des informations contenues dans les fichiers de logs des sites concernés. Puis j'ai développé plusieurs méthodes de filtrage collaboratif, ainsi que d'autres méthodes n'utilisant aucune notion de profil, et les expérimentations ont alors montré l'intérêt de la création de tels profils pour aider à déterminer l'intérêt d'un visiteur donné pour une page donnée non encore visitée.

Initialement soutenue par la société Rosebud, cette étude a été poursuivie en thèse. J'ai alors développé la seconde approche basée sur l'extraction d'information. Nous avons ainsi constaté son intérêt et avons observé sa complémentarité avec la première approche. Nos premières expérimentations visant à combiner les deux approches se sont alors avérées très prometteuses. Malheureusement, suite à un problème interne à la société Rosebud, cette recherche de thèse a rapidement été interrompue. Notons enfin qu'une autre piste envisagée dans ce cadre était de créer des communautés de lecteurs ayant les mêmes centres d'intérêt. On passe alors dans le domaine de la classification non supervisée, ou clustering.

C'est ce domaine du clustering qui a constitué la base des travaux que j'ai ensuite mené dans le cadre de ma thèse. L'objectif général du clustering est d'identifier, dans un ensemble de données, des groupes aux caractéristiques similaires. Nous nous sommes intéressés particulièrement aux cas où certains attributs composant les données ont plus ou moins d'importance dans la formation de certains groupes, c'est-à-dire aux cas où tous les attributs ne sont pas forcément utiles et où ces attributs pertinents ne sont pas nécessairement les mêmes d'un groupe à l'autre. Une première méthode, appelée Tuareg, a ainsi été mise en œuvre (publication n°15). Dans l'esprit, l'approche est comparable à celle de l'arbre de décision C4.5 en apprentissage supervisé : il s'agit de repérer à chaque étape l'attribut permettant le partitionnement le plus pertinent pour le groupe de données considéré, et d'itérer ce processus jusqu'à ce que plus aucun groupe ne soit amélioré par découpage.

Cependant, dans certains cas, fractionner l'ensemble des données en considérant les attributs indépendamment les uns des autres n'est pas suffisant. Nous avons donc proposé une autre méthode appelée SSC, basée sur l'utilisation de modèles statistiques et d'une méthode originale permettant de fournir un résultat compréhensible (publications n°5, 14 et 21). Cette méthode a par ailleurs été adaptée pour faire face à des données présentées sous forme d'arbres, des expérimentations à grande échelle ayant ainsi été menées lors du challenge INEX portant sur les données XML (publications n°8 et 19). Elle s'est alors avérée très efficace, même face à des données bruitées, et en particulier pour fournir des résultats compréhensibles. Puis nous avons étendu la méthode, alors appelée SuSE, pour ajouter une phase de sélection rigide des attributs les plus pertinents pendant l'apprentissage (publications n°12 et 16). Ces travaux ayant été soutenus par la société Pertinence, ils ont finalement donné lieu à un prototype utilisable dans le logiciel développé par la société.

Enfin, nous nous sommes également attaqué, lors de cette recherche en thèse, à la problématique ouverte importante de l'évaluation et de la comparaison d'algorithmes de clustering. La nouvelle méthode que nous avons proposée dans ce cadre, appelée évaluation en cascade (publications n° 4, 7, 13 et 17), consiste à comparer les résultats d'un algorithme supervisé lorsqu'il est (ou pas) aidé par de l'information issue d'un algorithme de clustering. Ainsi, si les résultats de l'algorithme supervisé sont améliorés lorsqu'il utilise de l'information fournie par un algorithme de clustering, alors cela signifie que cette information est nouvelle et utile, ce qui permet de caractériser objectivement l'intérêt du clustering.

Ces travaux ont donné lieu à une thèse intitulée Contextualisation, Visualisation et Évaluation en Apprentissage Non Supervisé, rapportée par les Professeurs Edwin Diday et Gérard Govaert, et soutenue le 15 septembre 2006 à l'université Charles de Gaulle de Lille 3, devant le jury composé des Professeurs Rémi Gilleron, Edwin Diday et Gérard Govaert, des Maîtres de Conférence Isabelle Tellier et Fabien Torre, et du chercheur Olivier Bousquet (rapport n°20).

À la suite de cette thèse obtenue avec la mention très honorable, j'ai effectué un post-doctorat à France Telecom R&D sur les systèmes de recommandations. Nos travaux initiaux ont porté sur l'étude de l'état de l'art et l'expérimentation des méthodes principales de filtrage collaboratif. La publication n°3 fournit ainsi une vue générale clarifiée de l'existant dans ce domaine, mettant en avant les avantages et inconvénients de chaque approche, ainsi que certaines options qui ont mené à l'obtention de meilleurs résultats sur un jeu de données réel souvent utilisé comme référence dans la littérature : MovieLens. La publication suivante n°2, quant à elle, met en avant l'intérêt de mettre en place des mesures de similarité spécifiques pour le cadre de données creuses comme celles qui sont gérées en filtrage collaboratif. Les expérimentations ont été menées sur deux jeux de données de référence : MovieLens et Netflix. Ce deuxième ayant une taille cent fois supérieure à celle du premier, il soulève également les problématiques de tenue de charge des algorithmes implémentés. Enfin, la publication n°18 offre un tour d'horizon large du sujet, abordant également l'importante problématique des interactions des systèmes avec les utilisateurs. Ces travaux ont débouché sur la livraison d'un moteur générique très performant.

Nommé ensuite responsable de la Recherche & Développement chez Nomao, moteur de recherche géolocalisé personnalisé, mes centres d'intérêt se sont élargis aux thématiques de la Recherche d'Information et du Traitement Automatique des Langues. La publication n°11 fournit un tour d'horizon des problématiques scientifiques qui régissent le développement de Nomao : extraction et structuration de contenu local, interprétation de requête et recherche d'information, classement de résultats, personnalisations et recommandations. Et la publication n°9 aborde plus particulièrement nos travaux menés en Traitement Automatique des Langues. En collaboration avec l'Institut de Recherche en Informatique de Toulouse (IRIT), nous menons une recherche de thèse sur le thème du Learning-to-rank dans le cadre de la géolocalisation et de la personnalisation (publication n°10), et une autre sur le thème de la Détection des Mouvements d'Information. Cette deuxième étude, menée avec OverBlog, membre du groupe Ebuzzing, nous a conduit à nous pencher sur la problématique complexe de la recherche de diversité dans les systèmes de recommandations (publication n°1). En collaboration avec Orange Labs, nous avons également organisé un atelier et un challenge au sein de la conférence internationale ECML-PKDD 2012 : ALRA : Active Learning in Real-world Applications (publication n°6).

Mots clés : Apprentissage Automatique, Fouille de Données, Extraction de Connaissances, Apprentissage Supervisé, Apprentissage Non Supervisé, Apprentissage Semi-Supervisé, Apprentissage par Renforcement, Apprentissage Statistique, Modèles Probabilistes, Subspace Clustering, Données semi-structurées, Documents XML, Évaluation d'Algorithmes, Profiling, Systèmes de Recommandations, Filtrage Collaboratif, Extraction d'Information, Recherche d'Information, Traitement Automatique des Langues, Learning to Rank, Apprentissage Actif

Publications

    Conférences internationales

  1. [2011] Diversity in Recommender Systems : Bridging the gap between users and systems
    Laurent Candillier, Max Chevalier, Damien Dudognon, Josiane Mothe
    4th International Conference on Advances in Human-oriented and Personalized Mechanisms, Technologies, and Services
    CENTRIC'2011, Barcelona, Spain, 23-29 october 2011
    [ PDF ] [ Best Paper ]

  2. [2008] Designing Specific Weighted Similarity Measures to Improve Collaborative Filtering Systems
    Laurent Candillier, Frank Meyer, Françoise Fessant
    In Petra Perner, editor
    8th Industrial Conference on Data Mining
    ICDM'2008, Leipzig, Germany, 16-18 july 2008
    Lecture Notes in Computer Science, LNAI 5077, pages 242-255
    [ PDF ] [ Slides ] [ BibTeX ]

  3. [2007] Comparing state-of-the-art collaborative filtering systems
    Laurent Candillier, Frank Meyer, Marc Boullé
    In Petra Perner, editor
    5th International Conference on Machine Learning and Data Mining in Pattern Recognition
    MLDM'2007, Leipzig, Germany, 18-20 july 2007
    Lecture Notes in Computer Science, LNAI 4571, pages 548-562
    [ PDF ] [ Slides ] [ BibTeX ]

  4. [2006] Cascade Evaluation of Clustering Algorithms
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Johannes Furnkranz, Tobias Scheffer and Myra Spiliopoulou, editors
    17th European Conference on Machine Learning
    ECML'2006, Berlin, Germany, 18-22 september 2006
    Lecture Notes in Computer Science, LNAI 4212, pages 574-581
    [ PDF ] [ Poster ] [ BibTex ]

  5. [2005] SSC : Statistical Subspace Clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Petra Perner and Atsushi Imiya, editors
    4th International Conference on Machine Learning and Data Mining in Pattern Recognition
    MLDM'2005, Leipzig, Germany, 9-11 july 2005
    Lecture Notes in Computer Science, LNAI 3587, pages 100-109
    [ PDF ] [ Slides ] [ BibTeX ]

    Ateliers internationaux

  6. [2012] Design and Analysis of the Nomao Challenge - Active Learning in the Real-World
    Laurent Candillier, Vincent Lemaire
    Workshop on Active Learning in Real-world Applications
    ECML-PKDD'2012, Bristol, UK, 28 september 2012
    [ PDF ] [ BibTeX ]

  7. [2005] Cascade Evaluation of Clustering Algorithms
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    Workshop on Theoretical Foundations of Clustering
    NIPS'2005, Vancouver, Canada, 5-10 december 2005
    [ PDF ] [ Slides ] [ BibTeX ]

  8. [2005] Transforming XML trees for efficient classification and clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre
    Workshop on Mining XML documents
    INEX'2005, Schloss Dagstuhl, Wadern, Germany, 28-30 november 2005
    [ PDF ] [ Slides ] [ BibTeX ] [ Results ]

    Conférences françaises

  9. [2012] Nomao: un moteur de recherche géolocalisé spécialisé dans la recommandation de lieux et l'e-réputation
    Estelle Delpech, Laurent Candillier
    19ème conférence sur le Traitement Automatique des Langues Naturelles
    TALN'2012, Grenoble, 4-8 june 2012
    [ PDF ]

  10. [2012] Évaluation de la pertinence dans les moteurs de recherche géoréférencés
    Léa Laporte, Laurent Candillier, Sébastien Déjean, Josiane Mothe
    Informatique des Organisations et Systèmes d'Information et de Décision
    INFORSID'2012, Montpellier, 29-31 may 2012
    [ PDF ]

  11. [2011] Nomao : la recherche géolocalisée personnalisée
    Laurent Candillier
    In Djamel A. Zighed and Gilles Venturini, editors
    11ème Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances
    EGC'2011, Brest, 25-28 january 2011
    Revue des Nouvelles Technologies de l'Information (RNTI), volume 1, pages 259-261
    [ PDF ] [ Slides ] [ BibTeX ]

  12. [2006] SuSE : Subspace Selection embedded in an EM algorithm
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Laurent Miclet, editor, pages 331-345
    8ème Conférence francophone sur l'Apprentissage automatique
    CAp'2006, Trégastel, 22-24 may 2006
    [ PDF ] [ Slides ] [ BibTeX ]

  13. [2006] Évaluation en cascade d'algorithmes de clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Laurent Miclet, editor, pages 109-124
    8ème Conférence francophone sur l'Apprentissage automatique
    CAp'2006, Trégastel, 22-24 may 2006
    [ PDF ] [ Slides ] [ BibTeX ]

  14. [2005] SSC : Statistical Subspace Clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Suzanne Pinson and Nicole Vincent, editors
    5èmes journées francophones d'Extraction et Gestion des Connaissances
    EGC'2005, Paris, 19-21 january 2005
    Revue des Nouvelles Technologies de l'Information (RNTI), volume 1, pages 177-182
    [ PDF ] [ Slides ] [ BibTeX ]

  15. [2004] Tuareg : Classification non supervisée contextualisée
    Laurent Candillier, Isabelle Tellier, Fabien Torre
    In Michel Liquière and Marc Sebban, editors, pages 159-174
    6ème Conférence francophone sur l'Apprentissage automatique
    CAp'2004, Montpellier, 14-16 june 2004
    [ PDF.fr ] [ PDF.eng ] [ Slides ] [ BibTeX ]

    Ateliers français

  16. [2006] SuSE: Subspace Selection embedded in an EM algorithm
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    2èmes Rencontres Inter-Associations sur la classification et ses applications
    RIAs'2006, Lyon, 20-21 march 2006
    [ PDF ] [ Slides ] [ BibTex ]

  17. [2006] Évaluation en cascade d'algorithmes de clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    2èmes Rencontres Inter-Associations sur la classification et ses applications
    RIAs'2006, Lyon, 20-21 march 2006
    [ PDF ] [ Slides ] [ BibTex ]

    Chapitres de livres

  18. [2009] State-of-the-Art Recommender Systems
    L. Candillier, K. Jack, F. Fessant, F. Meyer
    In Collaborative and Social Information Retrieval and Access: Techniques for Improved User Modeling, chapter 1

  19. [2007] Mining XML Documents
    L. Candillier, L. Denoyer, P. Gallinari, M.C. Rousset, A. Termier, A.M. Vercoustre
    In Data Mining Patterns : new Methods and Applications, chapter 8

    Rapports

  20. [2006] Contextualisation, Visualisation et Évaluation en Apprentissage Non Supervisé
    Laurent Candillier
    PhD thesis, Université Charles de Gaulle de Lille 3, September 2006
    [ PDF ] [ Slides ] [ BibTeX ] [ Rapports ]

  21. [2005] SSC : Statistical Subspace Clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    Rapport technique GRAppA 2005 (version détaillée de l'article présenté à EGC'2005)
    [ PDF ] [ BibTeX ]

  22. [2001] Apprentissage Automatique de Profils de Lecteurs
    Laurent Candillier, Isabelle Tellier, Fabien Torre
    Rapport technique GRAppA 2001
    [ PDF ] [ BibTeX ]

Enseignement universitaire

Autre expérience professionnelle

Compétences en informatique

Langues parlées

Vie associative

Loisirs

Référencements