La cellule

La cellule FouilleData

Les techniques de fouille de données se sont largement démocratisées au sein du département AgroEcoSystem grâce à la mise en place de formations adaptées aux non spécialistes et à l’existence d’outils logiciels (paquets R, Python notamment) permettant leur utilisation en autonomie.

Il nous paraît important de fournir un cadre institutionnel propice à l’entretien et à l’expansion de ces nouvelles compétences, ainsi qu’à la diffusion de leur bonnes pratiques et à la discussion sur les spécificités de leur application au sein d’AgroEcoSystem. En effet, si ces techniques sont souvent rattachées à un contexte de données massives (notamment dans le cadre du phénotypage), une grande part des jeux de données manipulés au sein du département sont caractérisés par des effectifs beaucoup plus réduits (expérimentations au champ, observations sur le terrain), et des niveaux de qualité et d’hétérogénéité variables voire inconnus. Enfin, la question de l’interprétabilité de certaines de ces techniques et de leurs résultats est, à juste titre, souvent source d’interrogation chez les utilisateurs. Parmi les méthodes de fouille de données pouvant donner lieu à des développements méthodologiques spécifiques (fronts de science actuels) en lien avec nos thématiques et données en agronomie et écologie, on peut trouver par exemple :

  • approches non supervisées : clustering, fouille de motifs (règles d’association, fouille de séquences, fouilles sous contraintes, ...). on cherche des régularités dans les données.
  • apprentissage supervisé : régressions (dont arbres), classification supervisée (réseaux de neurones, deep learning, arbres, random forest...)
  • analyse de données, méthodes exploratoires (type ACP et toutes ses dérivées)

Nous proposons donc, en partenariat avec le département MathNum, de « réactiver » le réseau « fouille de données » du département, avec pour objectif d’accompagner les scientifiques du département dans la pratique de la fouille de données à travers trois objectifs

  • Assurer une veille 
    • sur les développements méthodologiques
    • sur les implémentations logicielles (paquets R, Python, ...)
    • sur les applications au sein du département
    • en collaboration avec des initiatives existantes (métaprogramme Digit-Bio)
    • mais attentive à l’adéquation avec les spécificités des données d’AgroEcoSystem
  • Populariser les travaux liés à l’interprétabilité des méthodes de fouille
    • en organisant un premier webinaire de vulgarisation
    • en proposant la mise en place de webinaires réguliers sur ces méthodes
  • Étendre ce dispositif de webinaires à d’autres fronts méthodologiques tels que ceux identifiés dans le livre blanc Agriculture et Numérique :
    • méthodes spécifiques aux séries temporelles,
    • apprentissage par renforcement,
    • recherche de motifs fréquents et rares sur données symboliques