Sciences participatives & apprentissage automatique pour identifier les plantes


Joseph Salmon

IMAG, Univ Montpellier, CNRS, Inria, Montpellier, France

Consortium Pl@ntnet

Présentation et parcours personnel

En bref


  • Prénom: Joseph

  • Nom: Salmon

  • Profession: Directeur de recherche

  • Employeur: Inria

  • Lieu de travail: Montpellier

  • Site web: https://josephsalmon.eu/

Baccalauréat, lycée J. Vilar (2000)


Classe préparatoire, St-Louis (2000-2003)


ENSAE (2003-2007)


ENS de Cachan (2005-2007)


Doctorat, Univ. Paris 7 (2007-2010)


Post-doctorat, Duke University (2011-2012)


Maître de conférence, Télécom Paris (2013-2018)


Visiting professor, Univ. of Washington (2018)


Professeur, UM (2018-2024)


Directeur de recherche, Inria (2024-)


Ma recherche aujourd’hui

Apprentissage automatique & sciences participatives


Une plateforme de science citoyenne utilisant l’apprentissage automatique pour aider les gens à identifier les plantes avec leur téléphone

Site web: https://plantnet.org/

  • Naissance: Montpellier, 2011
  • Note: pas de champignons, désolé!
  • Anecdote: découverte grâce à mon père Patrice Salmon, amateur de botanique





Pl@ntNet : utilisation et popularité1


Pl@ntNet & l’apprentissage coopératif

Chronologie de Pl@ntNet









Que faut-il pour entraîner un réseau de neurone?



Collecter des données:

  • Images : images de plantes
  • Etiquettes : noms des plantes

Entraîner un système automatisé:

  • Modèle (architecture) : réseau de neurones
  • Algorithme : optimise les performances du modèle
  • Infrastructure : puissance de calcul (GPU, TPU, etc.)

Entraînement du réseau de neurone



Mathématiquement: on minimmise une mesure de l’erreur sur une base d’entraînement (image - espèce)

  • Architecture: Dino-V2, finement calibré sur 10M d’images Pl@ntNet
  • Durée de l’entraînement : 5-6 jours sur “Jean Zay”
Architecture du réseau DinoV2

Mais les données d’où viennent-elles?

  • Images : images de plantes, facile à trouver (mais pas toujours de qualité), 1.5 Milliards d’images dans Pl@ntNet

  • Données étiquetées : images de plantes avec leur nom. Plus difficile à obtenir, 30 Millions d’images étiquetées dans Pl@ntNet


Question: Mais comment obtenir ces données étiquetées?

Réponse: laissons les utilisateurs, experts ou non, étiqueter les images!


Note : dans d’autres contextes on fait appel à des microtravailleurs (ex: Amazon Mechanical Turk) pour étiqueter les données

Exemple d’annotation dans Pl@ntNet

Aciachne pulvinata Benth.

Vote majoritaire



Vote majoritaire pondéré



Enjeux de recherche



Il faut donc proposer des bons poids!

Contraintes:

  • larges poids aux experts ou aux personnes sur le terrain
  • faibles poids aux novices, aux tricheurs, aux spammeurs
  • faire évoluer les poids avec le temps: on peut devenir expert ou perdre la boule!

Mais surtout: il faut pouvoir traiter

  • 2 millions d’images collectées par jour
  • 60 000 utilisateurs actifs par jour

Et on travaille à améliorer tout cela!

Pl@ntNet agrégation d’étiquettes (EM algorithm)

Schméma de pondération: doner un poids aux utilisateurs en fonctions du nombre d’espèces reconnues

Quelques histoires de biais

Mais le biais c’est quoi?



Biais = erreur systématique

Sondage raté (“epic fail”)

Franklin D. Roosevelt
Franklin D. Roosevelt campaign portrait
Credit: L. Perskie, CC BY 2.0, FDR Presidential Library & Museum

Élection présidentielle (USA 1936)






vs.

Alf Landon
Alf Landon campaign portrait
Credit: Unknown author, Public Domain, Library of Congress

Prédiction: 43%

Sondage du journal The Literary Digest

Prédiction: 57%

Résultat: 62%

Sondage du journal The Literary Digest

Résultat: 38%

Cause du naufrage: le journal avait sondé ses abonnés, le registre des conducteurs automobiles et les personnes ayant le téléphone (2.38 million de personnes). Mauvais échantillonnage, sur-représentation des plus aisés

Sauver les pilotes!

Survivorship bias diagram showing damage pattern on aircraft

Credit: Martin Grandjean (vector), McGeddon (picture),
US Air Force (hit plot concept), CC BY-SA 4.0

Question militaire (USA, 1943): Où renforcer les avions de combat, pour limiter les pertes?

Données: impacts sur les avions récupérés

La réponse (Wald) : Renforcer les autres zones, les avions touchés dans ces zones ne sont pas revenus!

Biais de survie (survivorship bias) : les données des avions détruits sont ignorées.


Portrait of Abraham Wald

Credit: By Konrad Jacobs, Erlangen, Copyright is Mathematisches Forschungsinstitut Oberwolfach, CC BY-SA 2.0

Abraham Wald (1902-1950)

Statisticien hongro-américain, ayant fui le nazisme, il a travaillé pour l’armée américaine durant la Seconde Guerre mondiale.

Biais de confirmation et pseudoscience


Question: Est-ce que l’hydroxychloroquine est utile pour traiter le Covid-19?

Portrait de Didier Raoult

Credit: Chinese Business Club, CC BY 3.0

Didier Raoult (Dakar, 1952 - ??): Charlatan professionnel, moralement responable de la mort de nombreuses personnes pour avoir promu un traitement inutile

Schéma de l'étude sur l'hydroxychloroquine
  • Patients jeunes : principalement traités
  • Patients âgés/graves : souvent exclus de l’étude
  • Conclusion erronée : le médicament semble efficace car testé sur les moins à risque (biais de sélection) \(\implies\) retard dans l’adoption de traitements efficaces

Retour aux plantes

Biais géographique

Densité spatiale d’images collectées par Pl@ntNet (13/04/2024)

Biais d’estomac



Top-5 des espèces les plus observées dans Pl@ntNet (13/04/2024):


25134 obs. Echium vulgare L. Echium vulgare L.

24720 obs. Ranunculus ficaria L. Ranunculus ficaria L.

24103 obs. Prunus spinosa L. Prunus spinosa L.

23288 obs. Zea mays L. Zea mays L.

23075 obs. Alliaria petiolata Alliaria petiolata (M.Bieb.) Cavara & Grande

Biais esthétique

10753 obs.

Centaurea jacea

6 obs.

Cenchrus agrimonioides

Biais de taille

8376 obs.

Magnolia grandiflora

413 obs.

Moehringia trinervia

En conclusion

lab, à la pointe de l’IA et de l’écologie


Pour aller plus loin

https://plantnet.org/2024/10/24/campagne-de-dons-2024/