Laurent Candillier
Nationalité: français
Date et lieu de naissance: 29/11/1978 à Roubaix
E-mail: lcandillier@hotmail.com
Tél: 06 64 35 08 72
Adresse: 29 rue Pasteur, 59250 Halluin, France
Couch surfer
(Permis B)
Présentation rapide
- Passionné de voyages et échanges interculturels,
auteur du roman philosophique Apocalypsoon - la vie de Gaïa
- Docteur en Informatique, spécialité Recherche & Développement en Apprentissage Automatique et Systèmes de Recommandations
- Enseignant tous niveaux, spécialité Mathématiques et Informatique
- Trilingue Français, Espagnol, Anglais
- Actif associativement et sportivement
Cursus général
- 2010-2012:
Responsable R&D,
Nomao
(moteur de recherche géolocalisé personnalisé), Toulouse
- 2006-2009:
Post-doctorat (systèmes de recommandations),
France Telecom R&D, Lannion
- 2003-2006:
Doctorat informatique (clustering),
laboratoire GRAppA, université de Lille 3
/ CIFRE / société Pertinence, Paris
- 2001-2002:
Doctorat informatique (profiling),
laboratoires LIFL / GRAppA,
université de Lille 1
- 1999-2001:
Master informatique, mention assez bien, université de Lille 1 et Aston University, Birmingham, Angleterre
- 1996-1999:
Licence informatique, mention assez bien, université de Lille 1
- 1995-1996:
Terminale Scientifique, mention bien,
lycée Gambetta, Tourcoing
Travaux de recherche
La problématique générale de l'ensemble des travaux de recherche que j'ai menés s'inscrit dans le cadre de
l'Apprentissage Automatique (ou Machine Learning), qui constitue la thématique centrale du
laboratoire GRAppA de l'université de Lille 3 dans lequel j'ai démarré en stage de Master 2.
Le sujet connexe de la Fouille de Données (Data Mining)
a été au centre des recherches menées en collaboration avec la société Pertinence à Paris.
Je me suis ensuite expertisé dans le domaine des Systèmes de Recommandations
au sein de l'équipe "Profiling and Data Mining" de France Telecom R&D à Lannion.
Puis mes intérêts de recherche se sont élargis aux domaines de la Recherche d'Information (RI)
et du Traitement Automatique des Langues (TAL) au sein de l'équipe R&D de Nomao à Toulouse.
Dans un premier temps, j'ai travaillé sur l'apprentissage automatique
de profils de lecteurs (rapport technique n°22). L'objectif de cette étude
consistait à aider les lecteurs de sites d'informations en ligne à cibler
au mieux l'information qui les intéresse. Nous avons identifié pour cela deux
approches intéressantes et complémentaires, relevant respectivement du
filtrage collaboratif et de l'extraction d'information. Dans le
premier cas, un profil utilisateur consiste en un ensemble de notes sur
un ensemble de pages déjà visitées, et dans l'autre cas, le profil est thématique
et déduit du contenu textuel des pages visitées. Lors de mon stage de DEA
(Diplôme d'Études Approfondies, équivalent du Master 2), nous nous
sommes concentrés principalement sur la première approche. J'ai d'abord développé une
méthode permettant la génération automatique de notes d'utilisateurs sur les pages
parcourues, à partir des informations contenues dans les fichiers de logs
des sites concernés. Puis j'ai développé plusieurs méthodes de
filtrage collaboratif, ainsi que d'autres méthodes n'utilisant aucune notion
de profil, et les expérimentations ont alors montré l'intérêt de la création de
tels profils pour aider à déterminer l'intérêt d'un visiteur donné pour
une page donnée non encore visitée.
Initialement soutenue par la société Rosebud, cette étude a été poursuivie
en thèse. J'ai alors développé la seconde approche basée sur
l'extraction d'information. Nous avons ainsi constaté son intérêt
et avons observé sa complémentarité avec la première approche. Nos
premières expérimentations visant à combiner les deux approches se sont alors
avérées très prometteuses. Malheureusement, suite à un problème interne à la
société Rosebud, cette recherche de thèse a rapidement été interrompue. Notons
enfin qu'une autre piste envisagée dans ce cadre était de créer des communautés
de lecteurs ayant les mêmes centres d'intérêt. On passe alors dans le
domaine de la classification non supervisée, ou clustering.
C'est ce domaine du clustering qui a constitué la base des travaux que
j'ai ensuite mené dans le cadre de ma thèse. L'objectif général du
clustering est d'identifier, dans un ensemble de données, des groupes
aux caractéristiques similaires. Nous nous sommes intéressés particulièrement
aux cas où certains attributs composant les données ont plus ou moins
d'importance dans la formation de certains groupes, c'est-à-dire aux cas où
tous les attributs ne sont pas forcément utiles et où ces attributs pertinents
ne sont pas nécessairement les mêmes d'un groupe à l'autre. Une première
méthode, appelée Tuareg, a ainsi été mise en uvre (publication n°15).
Dans l'esprit, l'approche est comparable à celle de l'arbre de décision C4.5 en
apprentissage supervisé : il s'agit de repérer à chaque étape l'attribut
permettant le partitionnement le plus pertinent pour le groupe de données
considéré, et d'itérer ce processus jusqu'à ce que plus aucun groupe ne soit
amélioré par découpage.
Cependant, dans certains cas, fractionner l'ensemble des données en considérant
les attributs indépendamment les uns des autres n'est pas suffisant. Nous avons
donc proposé une autre méthode appelée SSC, basée sur l'utilisation de
modèles statistiques et d'une méthode originale permettant de fournir un
résultat compréhensible (publications n°5, 14 et 21). Cette méthode a par ailleurs
été adaptée pour faire face à des données présentées sous forme d'arbres, des
expérimentations à grande échelle ayant ainsi été menées lors du challenge INEX
portant sur les données XML (publications n°8 et 19). Elle s'est alors avérée très
efficace, même face à des données bruitées, et en particulier pour fournir des
résultats compréhensibles. Puis nous avons étendu la méthode, alors appelée
SuSE, pour ajouter une phase de sélection rigide des attributs
les plus pertinents pendant l'apprentissage (publications n°12 et 16). Ces travaux
ayant été soutenus par la société Pertinence, ils ont finalement donné
lieu à un prototype utilisable dans le logiciel développé par la société.
Enfin, nous nous sommes également attaqué, lors de cette recherche en thèse, à la
problématique ouverte importante
de l'évaluation et de la comparaison d'algorithmes de clustering. La nouvelle
méthode que nous avons proposée dans ce cadre, appelée évaluation en cascade
(publications n° 4, 7, 13 et 17), consiste à comparer les résultats d'un algorithme
supervisé lorsqu'il est (ou pas) aidé par de l'information issue d'un algorithme
de clustering. Ainsi, si les résultats de l'algorithme supervisé sont
améliorés lorsqu'il utilise de l'information fournie par un algorithme de
clustering, alors cela signifie que cette information est nouvelle et utile,
ce qui permet de caractériser objectivement l'intérêt du clustering.
Ces travaux ont donné lieu à une thèse intitulée Contextualisation, Visualisation
et Évaluation en Apprentissage Non Supervisé, rapportée par les Professeurs
Edwin Diday et Gérard Govaert, et soutenue le 15 septembre 2006 à l'université Charles
de Gaulle de Lille 3, devant le jury composé des Professeurs Rémi Gilleron, Edwin Diday
et Gérard Govaert, des Maîtres de Conférence Isabelle Tellier et Fabien Torre, et du
chercheur Olivier Bousquet (rapport n°20).
À la suite de cette thèse obtenue avec la mention très honorable, j'ai
effectué un post-doctorat à France Telecom R&D sur les systèmes de recommandations.
Nos travaux initiaux ont porté sur l'étude de l'état de l'art et l'expérimentation des
méthodes principales de filtrage collaboratif. La publication n°3 fournit ainsi une vue
générale clarifiée de l'existant dans ce domaine, mettant en avant les avantages et
inconvénients de chaque approche, ainsi que certaines options qui ont mené à l'obtention de
meilleurs résultats sur un jeu de données réel souvent utilisé comme référence dans la
littérature : MovieLens. La publication suivante n°2, quant à elle, met en avant
l'intérêt de mettre en place des mesures de similarité spécifiques pour le cadre de données
creuses comme celles qui sont gérées en filtrage collaboratif. Les expérimentations ont été
menées sur deux jeux de données de référence : MovieLens et Netflix. Ce deuxième ayant
une taille cent fois supérieure à celle du premier, il soulève également les problématiques
de tenue de charge des algorithmes implémentés. Enfin, la publication n°18 offre un tour
d'horizon large du sujet, abordant également l'importante problématique des interactions
des systèmes avec les utilisateurs. Ces travaux ont débouché sur la livraison d'un
moteur générique très performant.
Nommé ensuite responsable de la Recherche & Développement chez Nomao, moteur de recherche géolocalisé personnalisé,
mes centres d'intérêt se sont élargis aux thématiques de la Recherche d'Information et du Traitement Automatique des Langues.
La publication n°11 fournit un tour d'horizon des problématiques scientifiques qui régissent le développement de Nomao :
extraction et structuration de contenu local, interprétation de requête et recherche d'information,
classement de résultats, personnalisations et recommandations.
Et la publication n°9 aborde plus particulièrement nos travaux menés en Traitement Automatique des Langues.
En collaboration avec l'Institut de Recherche en Informatique de Toulouse (IRIT),
nous menons une recherche de thèse sur le thème du Learning-to-rank
dans le cadre de la géolocalisation et de la personnalisation (publication n°10),
et une autre sur le thème de la Détection des Mouvements d'Information.
Cette deuxième étude, menée avec OverBlog, membre du groupe Ebuzzing, nous a conduit à nous pencher sur la problématique complexe
de la recherche de diversité dans les systèmes de recommandations (publication n°1).
En collaboration avec Orange Labs, nous avons également organisé un atelier et un challenge au sein de la conférence internationale
ECML-PKDD 2012 : ALRA : Active Learning in Real-world Applications (publication n°6).
Mots clés : Apprentissage Automatique, Fouille de Données, Extraction de Connaissances,
Apprentissage Supervisé, Apprentissage Non Supervisé, Apprentissage Semi-Supervisé,
Apprentissage par Renforcement, Apprentissage Statistique, Modèles Probabilistes,
Subspace Clustering, Données semi-structurées, Documents XML, Évaluation d'Algorithmes,
Profiling, Systèmes de Recommandations, Filtrage Collaboratif, Extraction d'Information,
Recherche d'Information, Traitement Automatique des Langues, Learning to Rank, Apprentissage Actif
Publications
Conférences internationales
-
[2011] Diversity in Recommender Systems : Bridging the gap between users and systems
Laurent Candillier, Max Chevalier, Damien Dudognon, Josiane Mothe
4th International Conference on Advances in Human-oriented and Personalized Mechanisms, Technologies, and Services
CENTRIC'2011, Barcelona, Spain, 23-29 october 2011
[ PDF ] [ Best Paper ]
-
[2008] Designing Specific Weighted Similarity Measures to Improve Collaborative Filtering Systems
Laurent Candillier, Frank Meyer, Françoise Fessant
In Petra Perner, editor
8th Industrial Conference on Data Mining
ICDM'2008, Leipzig, Germany, 16-18 july 2008
Lecture Notes in Computer Science, LNAI 5077, pages 242-255
[ PDF ] [ Slides ] [ BibTeX ]
-
[2007] Comparing state-of-the-art collaborative filtering systems
Laurent Candillier, Frank Meyer, Marc Boullé
In Petra Perner, editor
5th International Conference on Machine Learning and Data Mining in Pattern Recognition
MLDM'2007, Leipzig, Germany, 18-20 july 2007
Lecture Notes in Computer Science, LNAI 4571, pages 548-562
[ PDF ] [ Slides ] [ BibTeX ]
-
[2006] Cascade Evaluation of Clustering Algorithms
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Johannes Furnkranz, Tobias Scheffer and Myra Spiliopoulou, editors
17th European Conference on Machine Learning
ECML'2006, Berlin, Germany, 18-22 september 2006
Lecture Notes in Computer Science, LNAI 4212, pages 574-581
[ PDF ] [ Poster ] [ BibTex ]
-
[2005] SSC : Statistical Subspace Clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Petra Perner and Atsushi Imiya, editors
4th International Conference on Machine Learning and Data Mining in Pattern Recognition
MLDM'2005, Leipzig, Germany, 9-11 july 2005
Lecture Notes in Computer Science, LNAI 3587, pages 100-109
[ PDF ] [ Slides ] [ BibTeX ]
Ateliers internationaux
-
[2012] Design and Analysis of the Nomao Challenge - Active Learning in the Real-World
Laurent Candillier, Vincent Lemaire
Workshop on Active Learning in Real-world Applications
ECML-PKDD'2012, Bristol, UK, 28 september 2012
[ PDF ] [ BibTeX ]
-
[2005] Cascade Evaluation of Clustering Algorithms
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
Workshop on
Theoretical Foundations of Clustering
NIPS'2005, Vancouver, Canada, 5-10 december 2005
[ PDF ] [ Slides ] [ BibTeX ]
-
[2005] Transforming XML trees for efficient classification and clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre
Workshop on Mining XML documents
INEX'2005, Schloss Dagstuhl, Wadern, Germany, 28-30 november 2005
[ PDF ] [ Slides ]
[ BibTeX ] [ Results ]
Conférences françaises
-
[2012] Nomao: un moteur de recherche géolocalisé spécialisé dans la recommandation de lieux et l'e-réputation
Estelle Delpech, Laurent Candillier
19ème conférence sur le Traitement Automatique des Langues Naturelles
TALN'2012, Grenoble, 4-8 june 2012
[ PDF ]
-
[2012] Évaluation de la pertinence dans les moteurs de recherche géoréférencés
Léa Laporte, Laurent Candillier, Sébastien Déjean, Josiane Mothe
Informatique des Organisations et Systèmes d'Information et de Décision
INFORSID'2012, Montpellier, 29-31 may 2012
[ PDF ]
-
[2011] Nomao : la recherche géolocalisée personnalisée
Laurent Candillier
In Djamel A. Zighed and Gilles Venturini, editors
11ème Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances
EGC'2011, Brest, 25-28 january 2011
Revue des Nouvelles Technologies de l'Information (RNTI), volume 1, pages 259-261
[ PDF ] [ Slides ] [ BibTeX ]
-
[2006] SuSE : Subspace Selection embedded in an EM algorithm
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Laurent Miclet, editor, pages 331-345
8ème Conférence francophone sur l'Apprentissage automatique
CAp'2006, Trégastel, 22-24 may 2006
[ PDF ] [ Slides ] [ BibTeX ]
-
[2006] Évaluation en cascade d'algorithmes de clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Laurent Miclet, editor, pages 109-124
8ème Conférence francophone sur l'Apprentissage automatique
CAp'2006, Trégastel, 22-24 may 2006
[ PDF ] [ Slides ] [ BibTeX ]
-
[2005] SSC : Statistical Subspace Clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Suzanne Pinson and Nicole Vincent, editors
5èmes journées francophones d'Extraction et Gestion des Connaissances
EGC'2005, Paris, 19-21 january 2005
Revue des Nouvelles Technologies de l'Information (RNTI), volume 1, pages 177-182
[ PDF ] [ Slides ] [ BibTeX ]
-
[2004] Tuareg : Classification non supervisée contextualisée
Laurent Candillier, Isabelle Tellier, Fabien Torre
In Michel Liquière and Marc Sebban, editors, pages 159-174
6ème Conférence francophone sur l'Apprentissage automatique
CAp'2004, Montpellier, 14-16 june 2004
[ PDF.fr ] [ PDF.eng ]
[ Slides ] [ BibTeX ]
Ateliers français
-
[2006] SuSE: Subspace Selection embedded in an EM algorithm
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
2èmes Rencontres Inter-Associations sur
la classification et ses applications
RIAs'2006, Lyon, 20-21 march 2006
[ PDF ] [ Slides ] [ BibTex ]
-
[2006] Évaluation en cascade d'algorithmes de clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
2èmes Rencontres Inter-Associations sur la classification et ses applications
RIAs'2006, Lyon, 20-21 march 2006
[ PDF ] [ Slides ] [ BibTex ]
Chapitres de livres
-
[2009] State-of-the-Art Recommender Systems
L. Candillier, K. Jack, F. Fessant, F. Meyer
In Collaborative and Social Information Retrieval and Access: Techniques for Improved User Modeling, chapter 1
-
[2007] Mining XML Documents
L. Candillier, L. Denoyer, P. Gallinari, M.C. Rousset, A. Termier, A.M. Vercoustre
In Data Mining Patterns : new Methods and Applications, chapter 8
Rapports
-
[2006] Contextualisation, Visualisation et Évaluation en Apprentissage Non Supervisé
Laurent Candillier
PhD thesis, Université Charles de Gaulle de Lille 3, September 2006
[ PDF ] [ Slides ]
[ BibTeX ] [ Rapports ]
-
[2005] SSC : Statistical Subspace Clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
Rapport technique GRAppA 2005 (version détaillée de l'article présenté à EGC'2005)
[ PDF ] [ BibTeX ]
-
[2001] Apprentissage Automatique de Profils de Lecteurs
Laurent Candillier, Isabelle Tellier, Fabien Torre
Rapport technique GRAppA 2001
[ PDF ] [ BibTeX ]
Enseignement universitaire
- 2005-2006:
- Bases de Données en Master 1 PSYCHO à Lille 3
32 heures TD-TP
- Programmation en Python en Licence 2 MIASHS à Lille 3
16 heures TD-TP + co-préparation du projet, examens et corrections
- 2003-2004:
- Internet et Bases de Données en DEUG MASS 2 à Lille 3
46 heures CM-TD-TP + préparation du projet, examens et corrections
- 2001-2002:
- Pratique des tableurs en DEUG MASS 2 à Lille 3
28 heures TD-TP + corrections
- 2000-2001:
- Programmation en Ada en DEUG MIAS 2 à Lille 1
36 heures TD-TP
- Pratique des tableurs en DEUG MASS 2 à Lille 3
28 heures TD-TP
- Bases de Données en Maîtrise IDIST à Lille 3
16 heures TD-TP
Autre expérience professionnelle
- 2009-2010:
- Stages d'enseignement en écoles primaires
- 2002-2003:
- Agent de niveau 2 à la Caisse Primaire d'Assurance Maladie (CPAM) de Tourcoing,
au service SCANNER (saisie simple de feuilles de soin)
- Cours particuliers d'espagnol et de mathématiques à des élèves de Première S
- 2001-2002:
- Moniteur étudiant à la Bibliothèque Universitaire de Lille 1
dans le cadre du projet thèses électroniques
- Conception de QCM pour évaluer les métiers d'informaticiens
- Cours particuliers d'espagnol à un élève de Seconde
- Vendanges dans le Beaujolais et dans le Bordelais
- 1998-2001:
- Surveillant d'Externat au collège Robert Schuman à Halluin, et aide aux devoirs
- 1996-1999:
- Cours particuliers de mathématiques, physique, informatique, français (à une espagnole), et anglais
- 1996:
- Vendanges dans le Bordelais
Compétences en informatique
- Domaines de recherche: Apprentissage Automatique, Fouille de Données, Systèmes de recommandations,
Recherche d'Information, Traitement Automatique des Langues
- Enseignement: programmation fonctionnelle et objet, concepts algorithmiques,
usages d'internet, créations de sites web, bases de données, pratique des tableurs et traitements de texte
- Langages de programmation: java, C, C++, perl, python, ada
- Développement web: html, css, php, mysql, postgresql, pl/pgsql, pl/python
- Logiciels: eclipse, open office, access, excel, word
- Autres: git, latex, pstricks, xml, gnuplot
Langues parlées
- Français, espagnol, anglais trilingue
- Des notions d'allemand
- Plus de vingt séjours de un à deux mois en Espagne
- Cinq mois consécutifs en Angleterre (second semestre de master 1, programme ERASMUS)
Vie associative
- Culture : africaine (Un Baobab Sous Le Pied,
Baga Percussion),
brésilienne (Capoeiragem)
- Jeunesse : accompagnement à la scolarité à la
MJC Roguet Saint-Cyprien
- Écologie :
WWF,
Coeur de Forêt,
Enercoop,
Greenpeace,
Les blongios
- Humanitaire :
Médecins Sans Frontières,
Action Contre La Faim,
Don du sang,
Babyloan,
Orphelinats d'Afrique
Loisirs
- Sports, voyages, nature, danse, percussions, jonglage, lecture, écriture, jeux d'échecs et de cartes
- Sports pratiqués: football (7 ans), volley-ball (6 ans), judo (5 ans), tennis (2 ans)
ski (15 saisons), snowboard (6 saisons), randonnée, canyoning, escalade
beach volley, natation, plongée sous-marine (niveau 1), apnée, planche à voile, surf
danse (africaine, salsa, rock, capoeira, contemporaine), course, VTT, roller, équitation
- Écriture d'un roman philosophique : Apocalypsoon - la vie de Gaïa
Référencements