INRIA – Institut National de Recherche en informatique et automatique

12/12/2024 | News release | Distributed by Public on 12/12/2024 03:33

Big data, IA et environnement : l’union des sciences face à l’urgence

Mis à jour le 12/12/2024
Face aux crises environnementales qui bouleversent toutes les facettes du vivant, comment faire parler les quantités astronomiques de données générées par les sciences environnementales dans une même quête de vraies réponses ? Une stratégie de recherche émerge : l'interdisciplinarité. Telle est l'approche choisie par la nouvelle équipe Iroko commune au centre Inria d'Université Côte d'Azur (antenne de Montpellier), à l'Université de Montpellier, à l'IMAG, au CNRS et au LIRMM. Dans leur laboratoire à la croisée des chemins entre sciences du numérique et sciences environnementales, informaticiens, écologues, paléo-écologues, agronomes et climatologues unissent forces et compétences pour que les solutions de demain soient guidées par les révélations du big data d'aujourd'hui. Bienvenue dans une aventure dont vous êtes aussi, sans le savoir, tous un peu les héros…


Faire parler le big data à l'aide de l'apprentissage machine et de techniques d'analyse de données dans le but de faire avancer un domaine de la science : rien de nouveau pour Iroko. Cette expertise était déjà le cœur battant de Zenith, l'équipe dont elle émane. Ce qui change avec Iroko, c'est la focale resserrée sur les sciences environnementales - celles qui s'intéressent aux interactions complexes entre le monde naturel, les sociétés humaines et leur impact sur l'environnement.

Les chercheurs ici présents partagent tous un dénominateur commun élevé au rang de critère d'embauche : la volonté d'apporter leur pierre d'expert à l'édifice de l'urgence climatique et de ses conséquences. Écologie, agronomie, climatologie, santé et environnement : les sciences qu'Iroko veut faire progresser au cours des douze prochaines années ont ceci en commun de laisser dans leur sillage des données d'une grande complexité. Car en plus d'être massives, ces données sont multimodales (provenant de sources variées) et multi-échelles (mesurées sur diverses échelles du temps ou de l'espace). Pour Florent Masseglia et l'équipe Iroko qu'il dirige, seule une approche interdisciplinaire permet de transformer cette complexité en solutions propulsées par les données. Il nous dévoile, un grand défi à la fois, les objectifs « ambitieux mais réalistes » que s'est fixés Iroko.

Surveiller et préserver la biodiversité

Les premiers botanistes à contribuer aux travaux de l'équipe, c'est vous, à chaque fois que vous utilisez l'application Pl@ntNet. Car pour faire l'inventaire des espèces végétales, quel meilleur moyen que d'utiliser les smartphones du monde entier ? C'est le pari (pas si) fou relevé par Alexis Joly et les informaticiens et botanistes de l'équipe sous la bannière Zenith en 2013. Dix ans et quelques millions de contributeurs plus tard, il est difficile de se représenter la quantité de données générées par Pl@ntNet. Il s'agit là pourtant du genre de big data dont raffolent les chercheurs de l'équipe Iroko.

A partir des images partagées par les utilisateurs, des technologies de pointe comme la vision par ordinateur et les réseaux de neurones profonds vont permettre aux chercheurs de suivre les évolutions des écosystèmes, de détecter l'invasion de plantes exotiques ou encore de constater des changements dans les populations végétales. Mais l'apprentissage machine rencontre ici un premier obstacle : ces données sont biaisées. Si l'on prend l'exemple de l'évolution de la biodiversité en montagne, il y aura toujours plus de photos prises par les randonneurs du dimanche au pied du massif que par les champions d'alpinisme à son sommet. Puisque les biais liés aux comportements des utilisateurs influencent directement l'entraînement d'un réseau neuronal profond, leur prise en compte et leur correction font donc partie intégrante des travaux de recherche d'Iroko. Pour prêter main forte à l'équipe sur ces questions, ce ne sont pas deux informaticiens mais bien deux écologues qui viennent de rejoindre ses rangs à temps complet.

Image
Verbatim

Pour pouvoir prédire la distribution d'une espèce là où il y a peu de données voire aucune, Pl@ntNet utilisera un Deep-SDM (modèle de distribution géographique d'espèce). Cet algorithme d'IA sera entraîné à prédire les espèces présentes à partir des données satellitaires haute résolution de l'IGN, mais aussi de données environnementales comme la température ou les précipitations.

Auteur

Alexis Joly

Poste

Directeur de recherche Inria, responsable scientifique et technique de Pl@ntNet et fondateur du laboratoire LifeCLEF dédié à l'identification assistée par ordinateur des organismes vivants

Dernière complexité et non des moindres : tout modèle de prédiction étant incertain, il conviendra pour l'équipe de modéliser cette incertitude, à l'aide d'outils de modélisation statistique. Apprentissage coopératif, correction des biais et gestion de l'incertitude : tels sont trois grands défis de l'apprentissage automatique avec l'Humain dans la boucle (Human-in-the-Loop, HITL). Sur la liste des priorités d'Iroko : mettre au point de nouveaux modèles capables de surmonter toutes ces limitations et de les évaluer à partir de données réelles issues des plateformes de science participative comme Pl@ntNet.

La récompense promet d'être à la hauteur de l'enjeu : à terme, les éclairages apportés par Iroko permettront de contribuer à la préservation de certaines espèces dans des régions spécifiques, de mettre en place les bonnes mesures préventives ou encore d'adapter les politiques de conservation. En parallèle, des relais scientifiques et citoyens seront également formés sur le terrain pour apprendre à augmenter et exploiter des données d'observation avec Pl@ntNet.

Pl@ntNet : IA et interdisciplinarité au cœur du fameux « shazam » des plantes

Née en 2013 d'une collaboration interdisciplinaire et passionnée entre informaticiens et botanistes de Zenith (équipe Inria dont émane Iroko), Pl@ntNet vous permet d'identifier des plantes à partir de simples photos prises avec votre smartphone. Bien plus qu'une application propulsée par l'intelligence artificielle pour faciliter l'identification et l'inventaire des espèces végétales, Pl@ntNet est devenue une référence en matière de science participative et citoyenne.


En alimentant de ses données massives la plus grande base de données mondiale sur la biodiversité végétale (GBIF), Pl@ntNet fait de chaque utilisateur un acteur de la préservation du patrimoine naturel terrestre. Dernière nouveauté de l'application : le service GeoPl@ntNet vous permet, à partir de la sélection d'un point sur une carte, de connaître les espèces de plantes déjà observées ou potentiellement présentes dans la zone. De quoi nourrir la discussion entre citoyens et décideurs en matière d'aménagement du territoire et d'impact des infrastructures humaines sur la biodiversité.

Une seule santé pour lutter contre l'antibiorésistance

Le second volet de l'aventure Iroko est un problème de santé publique majeur : l'antibiorésistance. Parce que cette dernière concerne tant la biodiversité et les cultures agricoles que la santé humaine et animale, il convient de l'aborder de façon globale. Les chercheurs vont donc faire équipe avec des experts spécialisés dans le One Health (Une seule santé), une approche fortement interdisciplinaire qui étudie les phénomènes liés à la santé en partant du postulat que l'environnement fait partie intégrante de l'équation.

Comprendre la croissance de l'antibiorésistance, c'est donc comprendre les données liées : en les croisant les données provenant des hôpitaux, laboratoires, vétérinaires et analyses environnementales, Iroko tente de mieux comprendre comment santé humaine, santé animale et environnement interagissent et influencent la montée de l'antibiorésistance.

Une quarantaine de laboratoires partenaires anonymisent, agrègent et partagent leurs données dans la plateforme Promise gérée par Iroko. L'analyse de l'eau fournit quant à elle des mesures précieuses sur la présence de bactéries et antibiotiques dans divers environnements. Aux modèles mis au point par l'équipe d'établir ensuite des corrélations afin de répondre à certaines questions. L'augmentation de consommation des antibiotiques dans une région, ou un type d'établissement comme les Ehpad, augmente-t-elle l'antibiorésistance ? Est-elle liée à la présence d'animaux de compagnie. Est-elle due à la présence de bactéries dans l'eau ? Ces interrogations soulignent l'importance cruciale d'une approche intégrée pour comprendre les dynamiques complexes de l'antibiorésistance et contribuer à la limitation de l'usage des antibiotiques dans l'élevage.

Chronique des phénomènes climatiques extrêmes

Chaque jour depuis soixante ans, stations météorologiques, satellites, drones et autres capteurs collectent d'innombrables données comme la température, la pluviométrie, le ruissellement, la couverture végétale sous forme de séries de temps à des échelles et localisations différentes. Autant de big data pour lesquelles la science a besoin de développer des modèles d'apprentissage machine aux caractéristiques précises, comme leur capacité à traiter des données multimodales et multi-échelles. Ce sera la troisième mission de l'équipe : identifier des anomalies climatiques dans l'histoire du climat enregistrée jusqu'ici.

Image
Verbatim

En étudiant toutes ces séries de données sur plusieurs décennies, nous cherchons à caractériser des phénomènes climatiques extrêmes comme des vagues de chaleur, tempêtes ou inondations, et à comprendre comment ces événements évoluent au fil du temps. Déjà, nous voyons émerger certaines tendances : non seulement ces phénomènes climatiques sont-ils de plus en plus nombreux, mais nous constatons aussi que ceux observés au cours de nos hivers récents commencent à ressembler à ceux de l'été des années soixante.

Auteur

Florent Masseglia

Poste

Directeur de recherche au centre Inria d'Université Côte d'Azur, antenne de Montpellier, et Adjoint au directeur scientifique d'Inria

Pour aboutir à de telles observations, l'équipe collabore avec une climatologue dont les modèles se voient enrichis de techniques d'analyse de séries temporelles nouvelles, aptes à caractériser des phénomènes d'une manière qui n'a pas encore été caractérisée jusqu'ici. Cette caractérisation des phénomènes extrêmes permettra-t-elle aux climatologues de mieux anticiper les impacts du changement climatique sur les écosystèmes et les sociétés humaines ? Cette question fait elle aussi partie du champ d'étude de l'équipe.

Optimiser les cultures dans les régions les plus touchées par le changement climatique

Place à l'agronomie : pour mieux comprendre la façon dont l'équipe veut faire avancer cette science environnementale, apprenons à décortiquer une plante à la mode Iroko : observe-t-on sa racine, son organe reproducteur, sa tige, ses feuilles ? A chaque échelle d'observation correspond un pan de science, avec ses propres chercheurs, expériences, langages, modèles et flux de travail (workflows). "Si notre mission de chercheur consiste à sélectionner de nouvelles variétés de plantes capables de résister aux sécheresses, inondations ou températures élevées, il nous faudra absolument trouver un moyen de connecter tous ces artefacts scientifiques pour les faire parler," explique Florent. Or il n'existe à ce jour aucune plateforme où les chercheurs peuvent aisément fouiller et manipuler tous ces artefacts. Ou si elles existent, elles ne pas encore passées à l'échelle.

C'est tout l'enjeu du projet Life Science Workflow Services (LSWS) mené par Iroko pour formaliser la collaboration pluridisciplinaire en agronomie. En permettant aux chercheurs du monde entier d'intégrer et partager leurs données, modèles et workflows biologiques, cette plateforme collaborative est un levier aussi ambitieux que nécessaire pour maximiser l'impact des découvertes scientifiques, notamment des travaux sur les grandes problématiques environnementales. A la clé : des outils et solutions que chercheurs, décideurs et gestionnaires d'écosystèmes pourront déployer sans tarder pour optimiser les pratiques agricoles dans les régions les plus touchées par le changement climatique.

Voyager dans le passé lointain pour mieux comprendre demain

La paléontologie, bien qu'ancrée dans l'étude des traces d'un passé lointain, s'équipe aujourd'hui d'outils technologiques de pointe pour revisiter l'histoire de la vie et mieux comprendre notre avenir. Grâce à des algorithmes d'apprentissage machine, des outils d'intelligence artificielle et d'analyse statistique, les chercheurs repoussent sans cesse les limites de notre connaissance des écosystèmes disparus.

La reconnaissance d'image, combinée à des bases de données de fossiles, permet d'identifier plus rapidement et précisément les variations de la biodiversité au fil des âges géologiques. Ces technologies ne se contentent pas de reconstruire des écosystèmes anciens : elles aident aussi à mieux comprendre les mécanismes d'extinction, d'adaptation ou de migration des espèces dans des contextes climatiques ou environnementaux changeants.

En parallèle, les analyses statistiques et l'IA extraient des fossiles des informations précieuses sur les environnements, les climats et les écosystèmes d'autrefois. Ces travaux offrent une vision détaillée des bouleversements environnementaux passés et de leurs impacts sur différentes espèces, y compris la nôtre.

Mais ce n'est pas tout : en intégrant ces données dans des modèles modernes, les scientifiques peuvent explorer la répartition géographique et les capacités d'adaptation des espèces face aux défis actuels. L'application de ces modèles à des périodes géologiques où les conditions climatiques étaient radicalement différentes enrichit notre compréhension des stratégies d'adaptation et de migration sur le long terme, tout en éclairant les défis auxquels nous pourrions être confrontés dans l'avenir.

Formaliser l'interdisciplinarité dans la recherche

Valorisée comme moteur, l'interdisciplinarité redéfinit les frontières de toutes les sciences qu'elle touche. Elle permet d'aboutir à des découvertes inédites dans les sciences environnementales, tout en faisant nécessairement progresser la science des données dans son sillage. À la fin de cette aventure collective, plusieurs domaines de l'informatique auront connu des avancées significatives : l'exploitation du big data à des fins évolutives, l'intégration de l'humain dans les boucles d'apprentissage automatique, et l'analyse des données complexes sur des échelles multiples et variées.

L'interdisciplinarité comme mesure, c'est aussi ce qui attend l'équipe au bout de l'aventure : auront-ils produit des résultats qu'il aurait été impossible d'obtenir sans cette synergie ? De plus en plus de chercheurs seront amenés à se poser cette question, poussés sur la voie de l'interdisciplinarité par la complexité croissante des problèmes étudiés. Or pour avancer ensemble, les efforts à déployer sont un peu à l'image des données d'Iroko : massifs, multi-échelle, avec une très forte dose d'humain dans la boucle et appelés à être partagés. Ainsi les scientifiques qui utilisent la science des données devraient-ils la considérer comme un simple outil ou comme une discipline de recherche à part entière ? D'autre part, comment tempérer les ardeurs solutionnistes des data scientists ? Dans quelle mesure, enfin, chacun devrait-il se former à la discipline de l'autre ?

Pour l'équipe Iroko, il est donc grand temps de faire de l'interdisciplinarité un objet d'étude à part entière. Or pour formaliser la recherche interdisciplinaire, rien de tel que de s'observer en train de la faire. Florent et son équipe vont donc consacrer les douze prochaines années à étudier cet objet en croissance pour mieux en cerner le fonctionnement, les défis mais aussi le mode d'évaluation. Au terme de ses travaux, Iroko partagera un retour d'expérience rationnel sur une expérience de recherche interdisciplinaire afin de faciliter la collaboration des scientifiques autour des données et d'aider d'autres équipes comme la leur à avancer ensemble.

Conclusion

Iroko, n.m. : grand arbre de la forêt tropicale africaine réputé pour son bois résistant, mais pas seulement. Si toutes les forêts du monde devaient élire un roi de la neutralité carbone et du travail en équipe, ce serait lui. Le fait que ce géant soit capable d'absorber des quantités phénoménales de CO2 pour les transformer en cristaux de calcaire a deux conséquences majeures pour lui-même et le milieu : il permet à l'iroko de stocker davantage de CO2 qu'un arbre classique tout en aidant le sol autour de lui à emmagasiner davantage de nutriments.

Florent et son équipe ne pouvaient rêver métaphore plus efficace pour servir d'étendard (et de logo) à leur quête scientifique de solutions concrètes. Les branches de leur Iroko sont des catalyseurs d'innovation pour les générations futures. Et si leur impact sur le monde réel demeure l'ultime et véritable mesure, les chercheurs le savent : pour avancer ensemble, il leur faut avant tout garder les deux pieds ancrés dans le terreau toujours fertile de l'humilité.