Laurent Candillier
Nationalité: français
Date et lieu de naissance: 29/11/1978 à Roubaix
E-mail: lcandillier@hotmail.com
Tél: 06 64 35 08 72
Adresse: 8 rue de la laque, apt 6, 31300 Toulouse, France
Couch surfer
(Permis B)
Présentation rapide
Cursus général
Travaux de recherche
La problématique générale de l'ensemble des travaux de recherche que j'ai menés s'inscrit dans le cadre de l'Apprentissage Automatique (ou Machine Learning), qui constitue la thématique centrale du laboratoire GRAppA de l'université de Lille 3. Le sujet connexe de la Fouille de Données (Data Mining) a été au centre des recherches menées en collaboration avec la société Pertinence à Paris. Je me suis ensuite expertisé dans le domaine des Systèmes de Recommandation au sein de l'équipe "Profiling and Data Mining" de France Telecom R&D à Lannion. La Recherche d'Information (RI) et le Traitement Automatique des Langues (TAL) complètent aujourd'hui mes intérêts de recherche au sein de l'équipe R&D de Nomao à Toulouse.
Dans un premier temps, j'ai travaillé sur l'apprentissage automatique de profils de lecteurs (rapport technique n°21). L'objectif de cette étude consistait à aider les lecteurs de sites d'informations en ligne à cibler au mieux l'information qui les intéresse. Nous avons identifié pour cela deux approches intéressantes et complémentaires, relevant respectivement du filtrage collaboratif et de l'extraction d'information. Dans le premier cas, un profil utilisateur consiste en un ensemble de notes sur un ensemble de pages déjà visitées, et dans l'autre cas, le profil est thématique et déduit du contenu textuel des pages visitées. Lors de mon stage de DEA, nous nous sommes concentrés principalement sur la première approche. J'ai d'abord développé une méthode permettant la génération automatique de notes d'utilisateurs sur les pages parcourues, à partir des informations contenues dans les fichiers de log des sites concernés. Puis j'ai développé plusieurs méthodes de filtrage collaboratif, ainsi que d'autres méthodes n'utilisant aucune notion de profil, et les expérimentations ont alors montré l'intérêt de la création de tels profils pour aider à déterminer l'intérêt d'un visiteur donné pour une page donnée non encore visitée.
Initialement soutenue par la société Rosebud, cette étude a été poursuivie en thèse. J'ai alors développé la seconde approche basée sur l'extraction d'information. Nous avons ainsi constaté son intérêt et avons observé sa complémentarité avec la première approche. Nos premières expérimentations visant à combiner les deux approches se sont alors avérées très prometteuses. Malheureusement, suite à un problème interne à la société Rosebud, cette recherche de thèse a rapidement été interrompue. Notons enfin qu'une autre piste envisagée dans ce cadre était de créer des communautés de lecteurs ayant les mêmes centres d'intérêt. On passe alors dans le domaine de la classification non supervisée, ou clustering.
C'est ce domaine du clustering qui a constitué la base des travaux que j'ai ensuite mené dans le cadre de ma thèse. L'objectif général du clustering est d'identifier, dans un ensemble de données, des groupes aux caractéristiques similaires. Nous nous sommes intéressés particulièrement aux cas où certains attributs composant les données ont plus ou moins d'importance dans la formation de certains groupes, c'est-à-dire aux cas où tous les attributs ne sont pas forcément utiles et où ces attributs pertinents ne sont pas nécessairement les mêmes d'un groupe à l'autre. Une première méthode, appelée Tuareg, a ainsi été mise en uvre (publication n°14). Dans l'esprit, l'approche est comparable à celle de C4.5 en apprentissage supervisé : il s'agit de repérer à chaque étape l'attribut permettant le partitionnement le plus pertinent pour le groupe de données considéré, et d'itérer ce processus jusqu'à ce que plus aucun groupe ne soit amélioré par découpage.
Cependant, dans certains cas, fractionner l'ensemble des données en considérant les attributs indépendamment les uns des autres n'est pas suffisant. Nous avons donc proposé une autre méthode appelée SSC, basée sur l'utilisation de modèles statistiques et d'une méthode originale permettant de fournir un résultat compréhensible (publications n° 5, 13 et 20). Cette méthode a par ailleurs été adaptée pour faire face à des données présentées sous forme d'arbres, des expérimentations à grande échelle ayant ainsi été menées lors du challenge INEX portant sur les données XML (publications n°7 et 18). Elle s'est alors avérée très efficace, même face à des données bruitées, et en particulier pour fournir des résultats compréhensibles. Puis nous avons étendu la méthode, alors appelée SuSE, pour ajouter une phase de sélection rigide des attributs les plus pertinents pendant l'apprentissage (publications n°11 et 15). Ces travaux ayant été soutenus par la société Pertinence, ils ont finalement donné lieu à un prototype utilisable dans le logiciel développé par la société.
Enfin, nous nous sommes également attaqué, lors de cette recherche en thèse, à la problématique ouverte importante de l'évaluation et de la comparaison d'algorithmes de clustering. La nouvelle méthode que nous avons proposée dans ce cadre, appelée évaluation en cascade (publications n° 4, 6, 12 et 16), consiste à comparer les résultats d'un algorithme supervisé lorsqu'il est (ou pas) aidé par de l'information issue d'un algorithme de clustering. Ainsi, si les résultats de l'algorithme supervisé sont améliorés lorsqu'il utilise de l'information fournie par un algorithme de clustering, alors cela signifie que cette information est nouvelle et utile, ce qui permet de caractériser objectivement l'intérêt du clustering.
Ces travaux ont donné lieu à une thèse intitulée Contextualisation, Visualisation et Évaluation en Apprentissage Non Supervisé, rapportée par les Professeurs Edwin Diday et Gérard Govaert, et soutenue le 15 septembre 2006 à l'université Charles de Gaulle de Lille 3, devant le jury composé des Professeurs Rémi Gilleron, Edwin Diday et Gérard Govaert, des Maîtres de Conférence Isabelle Tellier et Fabien Torre, et du chercheur Olivier Bousquet (rapport n°19).
À la suite de cette thèse obtenue avec la mention très honorable, j'ai effectué un post-doctorat à France Telecom R&D sur les systèmes de recommandations. Nos travaux initiaux ont porté sur l'étude de l'état de l'art et l'expérimentation des méthodes principales de filtrage collaboratif. La publication n°3 fournit ainsi une vue générale clarifiée de l'existant dans ce domaine, mettant en avant les avantages et inconvénients de chaque approche, ainsi que certaines options qui ont mené à l'obtention de meilleurs résultats sur un jeu de données réel souvent utilisé comme référence dans la littérature : MovieLens. La publication suivante n°2, quant à elle, met en avant l'intérêt de mettre en place des mesures de similarité spécifiques pour le cadre de données creuses comme celles qui sont gérées en filtrage collaboratif. Les expérimentations ont été menées sur 2 jeux de données de référence : MovieLens et Netflix. Ce deuxième ayant une taille 100 fois supérieure à celle du premier, il soulève également les problématiques de tenue de charge des algorithmes implémentés. Enfin, la publication n°17 offre un tour d'horizon large du sujet, abordant également l'importante problématique des interactions des systèmes avec les utilisateurs. Ces travaux ont ainsi débouché sur la livraison d'un moteur générique très performant.
Aujourd'hui en charge de la Recherche & Développement chez Nomao, moteur de recherche géolocalisé personnalisé, mes centres d'intérêt s'élargissent aux thématiques de la Recherche d'Information et du Traitement Automatique des Langues. La publication n°10 fournit un tour d'horizon des problématiques scientifiques qui régissent le développement de Nomao : extraction et structuration de contenu local, interprétation de requête et recherche d'information, classement de résultats, personnalisations et recommandations. Et la publication n°8 aborde plus particulièrement nos travaux menés en Traitement Automatique des Langues. En collaboration avec l'Institut de Recherche en Informatique de Toulouse (IRIT), nous menons une recherche de thèse sur le thème du Learning-to-rank dans le cadre de la géolocalisation et de la personnalisation (publication n°9), et une autre sur le thème de la Détection des Mouvements d'Information. Cette deuxième étude, menée avec OverBlog, membre du groupe Ebuzzing, nous a conduit à nous pencher sur la problématique complexe de la recherche de diversité dans les systèmes de recommandations (publication n°1). En collaboration avec Orange Labs, nous organisons également un atelier et un challenge au sein de la conférence internationale ECML-PKDD 2012 : ALRA : Active Learning in Real-world Applications.
Mots clés : Apprentissage Automatique, Fouille de Données, Extraction de Connaissances, Apprentissage Supervisé, Apprentissage Non Supervisé, Apprentissage Semi-Supervisé, Apprentissage par Renforcement, Apprentissage Statistique, Modèles Probabilistes, Subspace Clustering, Données semi-structurées, Documents XML, Évaluation d'Algorithmes, Profiling, Systèmes de Recommandations, Filtrage Collaboratif, Extraction d'Information, Recherche d'Information, Traitement Automatique des Langues, Learning to Rank
Publications
Enseignement universitaire
Autre expérience professionnelle
Compétences en informatique
Langues parlées
Vie associative
Loisirs
Référencements