Sciences participatives & apprentissage automatique pour identifier les plantes



Joseph Salmon

IMAG, Univ Montpellier, CNRS, Inria, Montpellier, France

Consortium Pl@ntnet

Présentation et parcours personnel

En bref


  • Prénom: Joseph

  • Nom: Salmon

  • Profession: Directeur de recherche

  • Employeur: Inria

  • Lieu de travail: Montpellier

  • Site web: https://josephsalmon.eu/

Baccalauréat, lycée J. Vilar (2000)


Classe préparatoire, St-Louis (2000-2003)


ENSAE (2003-2007)


ENS de Cachan (2005-2007)


Doctorat, Univ. Paris 7 (2007-2010)


Post-doctorat, Duke University (2011-2012)


Maître de conférence, Télécom Paris (2013-2018)


Visiting professor, Univ. of Washington (2018)


Professeur, UM (2018-2024)


Directeur de recherche, Inria (2024-)


Ma recherche aujourd’hui

Apprentissage automatique & sciences participatives


Une plateforme de science citoyenne utilisant l’apprentissage automatique pour aider les gens à identifier les plantes avec leur téléphone

Site web: https://plantnet.org/

  • Naissance: Montpellier, 2011
  • Note: pas de champignons, désolé!
  • Anecdote: découverte grâce à mon père Patrice Salmon, amateur de botanique





Pl@ntNet : utilisation et popularité


  • 25 Millions d’utilisateurs
  • 200+ pays
  • Jusqu’à 2 Millions d’images téléchargées par jour
  • 50 000 espèces de plantes (sur 300 000)
  • 1.2 Milliards d’images
  • 20 Millions étiquetées / validées
  • 20 chercheurs / ingénieurs (à Montpellier)

Pl@ntNet & l’apprentissage coopératif

Chronologie de Pl@ntNet









Que faut-il pour entraîner un réseau de neurone?



Données:

  • Images : images de plantes
  • Etiquettes : noms des plantes

Apprentissage:

  • Modèle (architecture) : réseau de neurones
  • Algorithme : optimise les performances du modèle
  • Infrastructure : puissance de calcul (GPU, TPU, etc.)

D’excellentes vidéos pour comprendre les réseaux de neurones:

3Blue1Brown: Neural Network

Mais les données d’où viennent-elles?

  • Images : images de plantes, facile à trouver (mais pas toujours de qualité), 1.2 Milliards d’images dans Pl@ntNet

  • Données étiquetées : images de plantes avec leur nom. Plus difficile à obtenir, 20 Millions d’images étiquetées dans Pl@ntNet


Question: Mais comment obtenir ces données étiquetées?

Réponse: laissons les utilisateurs, experts ou non, étiqueter les images!


Note : dans d’autres contextes on fait appel à des microtravailleurs (ex: Amazon Mechanical Turk) pour étiqueter les données

Exemple d’annotation dans Pl@ntNet

Aciachne pulvinata Benth.

Vote majoritaire



Vote majoritaire pondéré



Enjeux de recherche



Il faut donc proposer des bons poids!

Contraintes:

  • larges poids aux experts, ou aux personnes sur le terrain
  • faibles poids aux novices, aux tricheurs, aux spammeurs
  • faire évoluer les poids avec les temps: on peut devenir expert ou perdre la boule!

Mais surtout: il faut pouvoir traiter

  • 2 millions d’images collectées par jour
  • 60 000 utilisateurs actifs par jour

Et on travaille à améliorer tout cela!

Quelques histoires de biais

Mais le biais c’est quoi?



Biais géographique

Densité spatiale d’images collectées par Pl@ntNet (13/04/2024)

Biais d’estomac



Top-5 des espèces les plus observées dans Pl@ntNet (13/04/2024):


25134 obs. Echium vulgare L. Echium vulgare L.

24720 obs. Ranunculus ficaria L. Ranunculus ficaria L.

24103 obs. Prunus spinosa L. Prunus spinosa L.

23288 obs. Zea mays L. Zea mays L.

23075 obs. Alliaria petiolata Alliaria petiolata

Biais esthétique

10753 obs.

Centaurea jacea

6 obs.

Cenchrus agrimonioides

Biais de taille

8376 obs.

Magnolia grandiflora

413 obs.

Moehringia trinervia

En conclusion

lab, à la pointe de l’IA et de l’écologie


Pour aller plus loin

https://plantnet.org/2024/10/24/campagne-de-dons-2024/