Le logiciel libre, outil de soft power et de lutte contre le Covid-19

Auteur: Grégoire Mialon, Gustave Ronteix
Date: 24 février 2021

Partager

Key Points

Depuis le début de la pandémie, la recherche scientifique et le monde médical se sont appuyés sur les innovations technologiques tous azimuts.
Les logiciels en open source ont été un levier fondamental de cette collaboration, en particulier scikit-learn.
L’analyse de ces collaborations de recherche montre en quoi le logiciel libre peut constituer, pour la France et pour l’Europe, un outil de soft power.

Pouvez-vous vous présenter, pour commencer ?

Je suis directeur de recherche au centre Inria (Institut National de Recherche en Informatique et Automatique) de Saclay, au sein de l’équipe Pariétal. Nous travaillons sur des applications du machine learning à des problématiques de neuro-imagerie et, de plus en plus, à la santé en général. À titre personnel, je travaille sur des algorithmes, des outils statistiques et des logiciels visant à traiter des données de neuroscience issues d’un contexte clinique, ou bien de la recherche en sciences cognitives. Je me situe à l’intersection des appareils et des médecins, auxquels je fournis des outils basés sur du machine learning, et travaille sur ces sujets depuis quinze ans. J’ai effectué ma thèse à l’Inria, puis je suis parti en post-doctorat au centre d’imagerie de l’université Harvard. J’ai ensuite été professeur à Télécom Paris de 2012 à 2017, avant de retourner à l’Inria. J’ai donc toujours baigné dans le monde de la neuroimagerie, et cumule cette casquette avec celle de mathématicien. En résumé, je développe des outils pour les personnes du domaine de la neuroimagerie qui ne sont pas informaticiens.

Peu de personnes en sont au courant, mais l’Inria et l’AP-HP (Assistance Publique-Hôpitaux de Paris) ont travaillé ensemble au début de la crise du Covid-19. Pouvez-vous nous raconter cette période ?

Fin mars, l’AP-HP a fait appel aux bonnes volontés sur les réseaux sociaux, et l’Inria a relayé cet appel à ses équipes, en particulier en mathématiques et informatique. Plusieurs équipes se sont mobilisées, et j’ai moi-même coordonné un groupe de personnes autour de ma propre équipe de recherche, Pariétal. Il s’agissait des quelques ingénieurs de scikit-learn [NDLR : le logiciel open-source de référence en science des données], mais aussi de personnes de Montpellier, Lille, et d’un ancien de mon équipe, aujourd’hui à l’ENS. Pendant deux mois et demi, nous avons donc constitué une task force d’une dizaine de personnes quasiment à plein temps afin de traiter un problème de l’AP-HP : exploiter les données issues de leur Entrepôt des données de danté (EDS). C’est un projet qui avait commencé à l’AP-HP il y a déjà plusieurs années, et qui a pris de l’importance au début de la crise du COVID puisqu’il fallait surveiller étroitement ce qui se passait dans les services : entrées des patients, activité en réanimation, comorbidités comme le diabète ou l’hypertension. À cet égard, l’EDS était une mine d’or de données pour comprendre comment la maladie se manifeste et quels facteurs influencent la durée d’hospitalisation. J’ajoute que d’autres équipes de l’Inria ont été mobilisées sur des sujets différents, comme la modélisation de la propagation du virus ou le traitement des données textuelles des comptes rendus médicaux

En ce qui nous concerne, nous devions développer une interface entre l’EDS et les médecins interprétant les données. Après quelques interactions avec le corps médical, nous avons fourni cette interface permettant dans un premier temps de générer automatiquement différentes visualisations des données à destination de la cellule de crise de l’AP-HP, puis de tous les médecins de santé publique de l’AP-HP. Ces visualisations étaient mises à jour toutes les nuits. Cela a été un travail d’ingénierie et de science des données plutôt qu’un travail de recherche, et ressemble aux services que peut par exemple fournir une société de conseil : « confiez-nous vos données, nous vous aiderons à les organiser et les visualiser ». L’AP-HP a eu le droit à du cousu-main. En pratique, nous montrions des choses aux médecins et ceux-ci nous faisaient leurs demandes : « pouvez-vous répondre à telle question ? Nous montrer ceci plutôt que cela, etc ». Il s’agissait de cycles de 24 ou 48 heures, une course permanente.

Construire sur de l’open source permet de garder le contrôle de ce qui fait la valeur, ou va devenir de plus en plus la valeur de leur entreprise.
ALEXANDRE gramfort

En résumé, notre collaboration a eu un effet positif, qui va générer des interactions de recherche dans les mois et les années à venir – même si nous sommes déjà intervenu par le passé dans les protocoles de recherche, et avons fourni un soutien sur des questions de données et d’outils logiciels dans le cadre de publications. En neurosciences, j’ai mis des années à comprendre quels étaient les problèmes les plus intéressants, en fréquentant des gens dont c’était le métier : cela prend du temps pour des informaticiens et des mathématiciens de comprendre quels sont les problèmes importants. Pour cela, il faut que les gens se fréquentent et se parlent. L’Inria et l’AP-HP viennent d’ailleurs d’annoncer la création d’un laboratoire commun pour faciliter les interactions.

**Les gros organismes comme l’AP-HP ou Santé Publique France peuvent se permettre ce genre de collaborations, mais quid des plus petits ?**

J’ai aussi été contacté par des hôpitaux du sud de la France dont je connais les équipes de recherche pour y avoir fait ma thèse. Ceux-ci voulaient faire comme l’AP-HP, sans disposer de son service de développement informatique, qui compte une trentaine de personnes. Les hôpitaux achètent des logiciels commerciaux pour collecter les données (biologie, prise de médicaments etc.), mais pour accéder à ces données il faut développer du code spécifique qui avait été déjà écrit par la DSI de l’AP-HP avant la crise Covid. C’est grâce à ce travail antérieur que notre équipe a pu écrire le code pour exploiter les bases de données hétérogènes des 30 hôpitaux de la région parisienne. Notre code était open source ; il pouvait donc nous permettre de travailler, contrairement aux plus petits hôpitaux. Une des choses sur lesquelles on pourrait travailler à l’avenir serait celle-ci : une brique logicielle pour démocratiser ces outils.

Vous parlez de fournir des briques logicielles afin de démocratiser des technologies, et vous avez effectivement travaillé sur ***scikit-learn*. Ce n’est ni un choix neutre ni un choix courant. Pourquoi avez-vous fait ce choix ?**

C’est une bonne question. Il y a à mon avis différentes motivations à faire de l’open source. D’abord, qu’est-ce que l’open source ? Cela caractérise un logiciel librement accessible qui peut être lu et utilisé gratuitement dans des contextes commerciaux ou non. Le code n’est pas caché comme dans un logiciel propriétaire. Pourquoi les gens font-ils plus d’open source aujourd’hui qu’auparavant ? L’open source a longtemps eu une image dogmatique : « il faut faire du logiciel libre parce que c’est bien. Tout devrait être ouvert ». À titre personnel, ce n’est pas du tout ma motivation. Je passe pourtant aujourd’hui un temps énorme à faire de l’open source parce que c’est utile à l’écosystème.

L’open source est un accélérateur de recherche.
ALEXANDRE GRAMFORT

Tout d’abord, cela permet de commencer à innover là où les autres se sont arrêtés. Pour faire mieux, on part de ce qui marche déjà et on n’est pas obligés de réinventer la roue, c’est-à-dire passer du temps et de l’argent afin de rattraper des choses qui ont déjà été faites. Or dans la recherche, il est important d’avoir des cycles d’itérations courts. L’open source est donc un accélérateur de recherche.

Il y a ensuite un argument moins spécifique à la recherche et davantage au monde industriel : l’open source permet de garder le contrôle de ses ressources. Beaucoup d’entreprises d’aujourd’hui sont de plus en plus numériques ou data centrées, et tournent de plus en plus sur les stacks [NDLR: une liste de tous les outils technologiques utilisés pour développer et faire fonctionner un programme] data construites par leurs équipes. Construire sur de l’open source permet de garder le contrôle de ce qui fait la valeur, ou va devenir de plus en plus la valeur de leur entreprise. Dans le cas contraire, où la valeur de l’entreprise se construit de plus en plus autour d’une technologie non open source, on s’enchaîne aux entreprises qui en sont, elles, les propriétaires. Il peut en résulter une perte de contrôle.

Du point de vue des géants du numérique, l’open source permet d’influencer l’écosystème global : quand on fait du logiciel libre et qu’on est massivement utilisé, on devient un standard de facto. Facebook et Google, par exemple, publient des briques logicielles développées en interne : c’est une façon de dire « c’est notre façon de faire qui est la bonne », et d’imposer un standard car ils ont de l’avance. Réutiliser ce qu’ils font fait gagner du temps à tout le monde. Ce temps gagné n’est toutefois pas complètement gratuit : il empêche les autres de se positionner sur le même marché.

En somme, l’open source me permet de faire de la recherche plus vite, et c’est pour cela que j’en fais. Car, en tant que chercheur, j’ai deux enjeux. D’abord, que mes papiers soient cités par d’autres chercheurs. Ensuite, que des gens me disent ce qui ne marche pas dans mes logiciels, ce qui me donne des idées de quelle est la piste suivante à explorer. Faire de l’open source comme scikit-learn est un investissement colossal : aujourd’hui, j’y passe deux heures par jour. Pendant certaines années, c’était la moitié de mon temps. Mais ça a été bénéfique : mon travail est cité, reconnu, disséminé, et utilisé.

Peut-il y avoir des luttes d’influence dans un logiciel ***open source*, par exemple parce qu’une entreprise tente de l’orienter ?**

Si une entreprise est bloquée car il manque des fonctionnalités à un logiciel libre, elle va pouvoir le faire évoluer en y mettant un ingénieur. Ces contributions vont-elles être intégrées au logiciel historique pour devenir un standard ? Cela dépend de l’écosystème, de l’organisation de la communauté du logiciel : il peut y avoir autant de forks ¹ que de personnes travaillant dessus. Si l’on veut que la communauté se consolide, il faut arriver à créer une dynamique. Il y a des logiciels doués pour cela. Je pense par exemple à Python : ses développeurs sont très pragmatiques et efficaces pour concentrer leurs efforts sur des briques communes, même si cela ralentit légèrement le développement. En conséquence de quoi des standards ont émergé dans l’open source en Python, car des gens ont travaillé ensemble au service d’une vision commune plutôt que de créer dix versions différentes d’un logiciel pour faire du calcul numérique : je pense dans le premier cas à numpy [NDLR : librairie Python destinée au calcul scientifique, créée en 2005 et au sujet de laquelle un article vient tout juste d’être publié dans Nature au moment de l’entretien]. Numpy est issu de la fusion de deux bibliothèques différentes, dont les développeurs se sont mis d’accord pour travailler ensemble et devenir le standard de la communauté, ce qui fut très bénéfique pour elle. Il y a en revanche des communautés mécaniquement plus éclatées – je pense à des langages web comme JavaScript – où l’on peut trouver quinze librairies faisant la même chose. Il est pour moi moins facile de naviguer dans ce monde que dans celui de Python, où l’on trouve des processus comme le sprint, le mentoring avec pour but d’améliorer les briques existantes plutôt que d’en créer régulièrement une nouvelle.

Faire de l’open source comme scikit-learn est un investissement colossal : aujourd’hui, j’y passe deux heures par jour. Pendant certaines années, c’était la moitié de mon temps. Mais ça a été bénéfique : mon travail est cité, reconnu, disséminé, et utilisé.
ALEXANDRE gramfort

Quelle position scikit-learn adopte-t-il à cet égard ?

Pour commencer, un peu d’histoire. Scikit-learn a été créé en 2006 par un français, David Cournapeau, lors d’un Google Summer of Code. Ponctuellement, d’autres personnes se sont impliquées. Puis, en 2010, suite à un financement Inria, une personne a été recrutée à plein temps – Fabian Pedregosa, aujourd’hui chez Google Brain – pour faire naître scikit-learn tel qu’on le connaît aujourd’hui. En quelques courtes itérations, avec une mise à jour tous les quelques mois, nous avons changé la trajectoire et le design du logiciel. Notre mission : « Démocratiser le machine learning pour les autres disciplines scientifiques », en particulier dans le cadre des neurosciences.

Dans ce domaine, les chercheurs tentent de prédire l’activité du cerveau, ce qui implique des outils de machine learning. Nous voulions rendre ces briques les plus simples d’utilisation possible. Au début, chacun des membres a amené ses propres implémentations des algorithmes connus. Nous avons organisé des sprints et nous avons mis en commun, uniformisé et consolidé tout cela, et créé un accès via une API [NDLR: une interface simple entre les algorithmes et l’utilisateur]. Puis a eu lieu un effet boule de neige : suite à de la communication, des articles de blogs, une vision claire aussi, de plus en plus de personnes sont venues aider. Sur les dix dernières années, nous comptons un millier de contributeurs. Nous avons publié un papier fin 2011, cité maintenant plus de 35 000 fois.

Scikit-learn est massivement utilisé dans le milieu académique, et va donc bien au-delà des neurosciences. Nous avons plus tard construit une brique de neurosciences par dessus scikit-learn, mais nous avons volontairement évité d’implémenter quoique ce soit de spécifique aux neurosciences dans les interfaces d’utilisation. Scikit-learn a été pensé comme une brique logicielle de bas niveau sur laquelle d’autres disciplines peuvent venir se greffer. Enfin, Github a changé le monde ² : avoir un développement fluide, complètement distribué et asynchrone est aujourd’hui très simple, ce qui n’était pas le cas il y a encore quinze ans. Cela permet par exemple de distribuer de gros projets sur plusieurs universités, et donc de mettre ses ressources en commun lorsque l’on manque de financements. Scikit-learn l’a compris tôt, ce qui nous a permis d’obtenir ce résultat.

Comment voyez-vous l’avenir de scikit-learn **et de l’open source en général ?**

J’ignore si le code de scikit-learn sera toujours pertinent dans dix ans, mais je pense que le standard que nous avons nous-même instauré avec notre API demeurera lui longtemps. Il y a une volonté d’une partie de la communauté du machine learning d’adhérer à ce standard. Je dois faire une remarque importante : les logiciels libres coûtent cher car des développeurs s’investissent en coulisse pour maintenir le code. Les personnes les plus utiles sont celles qui s’investissent sur le long terme et qui ont donc en tête l’historique du projet, les raisons des choix, la vision globale. Or, ces personnes vieillissent, n’ont plus 25 ou 30 ans, et il faut leur trouver des situations stables où elles pourront s’investir tout en étant à l’aise à titre personnel et financièrement. Il faut donc parvenir à créer un cadre pour garder ces personnes. Il y a deux ans, à travers la fondation Inria, un consortium a été créé en France pour scikit-learn. Ce consortium est basé sur le mécénat de sept entreprises qui financent le projet de façon récurrente, ce qui correspond aujourd’hui à 0.5-1 million d’euros par an environ. Les 4, bientôt 5 ingénieurs à plein temps du consortium sont administrativement rattachés à mon équipe de Saclay mais restent autonomes.

Tous les projets doivent réfléchir à leur survie, ce qui passe par un cadre financier. On ne peut pas vivre dix ans sans anticiper cela, on ne peut pas avoir un seul développeur qui porte tout sur ses épaules 24h / 24 : ce n’est pas durable.
ALEXANDRE gramfort

De façon générale, les grands projets ne peuvent devenir grands sans argent derrière, qu’il soit public, privé ou issu du mécénat. Tous les projets doivent réfléchir à leur survie, ce qui passe par un cadre financier. On ne peut pas vivre dix ans sans anticiper cela, on ne peut pas avoir un seul développeur qui porte tout sur ses épaules 24h / 24 : ce n’est pas durable. Au début de scikit-learn, nous avons fourni énormément d’efforts pour distribuer la maintenance et le déploiement entre différentes universités et différentes personnes : à une certaine époque, sept personnes étaient actives et capables de maintenir scikit-learn, ce qui est énorme. Normalement, ce sont plutôt 3 ou 4 personnes pour des projets utilisés par plus de cent mille personnes. Ce sont des écosystèmes fragiles qui ne peuvent survivre qu’avec de l’argent.

Y a-t-il en Europe une attitude différente vis-à-vis de l’open source comparé à d’autres endroits dans le monde ?

Il y a en France beaucoup d’open source, mais on ne le sait pas assez. C’est peut être un avis biaisé, mais je crois qu’il y a en France un état d’esprit inclinant à faire des choses pour le bien commun. Est-ce une culture propre à notre vieux continent ? Nous n’avons pas d’études à rembourser, une sécurité sociale, le coût de la vie n’est pas exorbitant, de même que celui des enfants ; l’argent n’est donc souvent pas un moteur intrinsèque, contrairement aux États-Unis. Il nous est plus facile de trouver du temps pour faire des choses dont on ne voit pas l’intérêt financier, ce qui contribue à faire naître des vocations. C’est en tout cas ma perception. Si beaucoup de gens font du logiciel libre en France, si c’est une culture répandue, c’est que notre pays rend possible ce genre de choses.

Si beaucoup de gens font du logiciel libre en France, si c’est une culture répandue, c’est que notre pays rend possible ce genre de choses.
ALEXANDRE gramfort

La recherche en France est donc très libre comparée aux États-Unis, mais il y a en France peu de programmes de recherche en lien avec l’État. Plus globalement, il y a peu de dialogue entre le politique et le chercheur. Vous aviez contribué au rapport France is AI en 2017.

Oui, c’était avant le rapport Villani ³. Il y avait justement une volonté de créer plus de synergie entre chercheurs, entreprises, et décideurs publics. Le rapport Villani a eu un côté positif : on a beaucoup parlé de l’IA, fait découvrir et prendre conscience à beaucoup de monde des changements qui se passent dans ce domaine. Cela a mis la France sur la carte européenne. De façon concomitante, des entreprises européennes ou étrangères ont créé des centres de recherche en France, ce qui a amené des emplois. Cela serait-il arrivé sans le rapport Villani ?

Un point négatif cependant : si les industriels et les entreprises savaient mieux ce que font les chercheurs, et inversement, il y aurait peut-être davantage de synergies. Par exemple, en neurosciences, il faut que je voie les chercheurs transpirer pour comprendre quel est leur problème. Quand on se lève le matin, on a envie de faire des choses qui servent. La meilleure façon d’ y arriver, et de se convaincre que c’est utile, est de voir des gens qui ont des problèmes. En tant que chercheur, mieux comprendre les problèmes de l’industrie permet peut-être de mieux orienter ses idées. Leur montrer des problèmes récurrents dans l’industrie, c’est en quelque sorte du soft power qui orientera leur recherche vers les problèmes importants à résoudre, ce qui peut générer des choses intéressantes.

Le rapport Villani a eu un côté positif : on a beaucoup parlé de l’IA, fait découvrir et prendre conscience à beaucoup de monde des changements qui se passent dans ce domaine. Cela a mis la France sur la carte européenne.
alexandre gramfort

Quand nous avons développé scikit-learn, nous avions une vision de son utilité : les neurosciences. Par exemple, maintenant que des actuaires et des entreprises d’assurances utilisent notre logiciel, on réalise que scikit-learn n’est parfois pas idéal pour eux. Nous avons donc réfléchi à comment l’adapter ce qui, personnellement, m’a donné des idées de recherches auxquelles je ne pensais pas. Dans ce sens là, avoir des interactions plus naturelles avec R&D et laboratoires de recherche ne peut que aider à répondre à des problèmes qui intéressent beaucoup de monde.

Une des dispositions du rapport Villani visait à faire davantage se rencontrer les chercheurs et les entreprises, par exemple au sein des instituts 3IA.

Ces instituts sont plutôt des co-financements public-privé (par exemple Google, Facebook, Microsoft) qui permettent de financer des chaires pour des chercheurs, à l’anglo-saxonne ou comme les ERC [NDLR : par abus de langage, une série de bourses avantageuses, délivrées par le Conseil européen de la recherche]. Quant aux interactions, elles sont rendues compliquées sans rapprochement physique : la machine à café, c’est idéal. Ma machine à café personnelle, c’est la mailing list de mes logiciels, où les gens écrivent quand ça ne marche pas. Il n’y a rien de mieux que les interactions spontanées, car autrement on est trop occupé. C’est plus fécond qu’une présentation de 15 minutes pour raconter un travail fini. Ce n’est pas simple, beaucoup de personnes y ont pensé avant moi, et des bâtiments ont été construits pour cela. Créer des synergies, ça prend du temps.

Beaucoup de personnes aiment leur travail, mais aussi leurs collègues. Un sujet de thèse est moins important que l’équipe dans laquelle on le réalise. J’échange avec les entreprises dans lesquelles se trouvent mes anciens étudiants : énormément de choses se font par réseau. En ce moment, avec le télétravail, c’est plus dur. Il est plus difficile d’aller vers les autres quand il n’y a pas eu d’interaction spontanée avant.

On a introduit en France la possibilité pour des chercheurs de travailler à temps partiel dans des laboratoires privés. La France y trouve-elle son compte ?

C’était une préconisation du rapport Villani. La réalité est plus compliquée car il n’est pas simple d’adapter le statut de la fonction publique. Il y a des passerelles mais le mi-temps n’est pas simple à mettre en place : d’un point de vue légal, il s’agit de faire le même métier. Mais on ne sait alors pas quels travaux appartiennent à qui, et des problèmes de propriété intellectuelle apparaissent donc. Cela a cependant permis de ramener des amis de l’étranger à Paris et de débuter des collaborations entre des chercheurs talentueux du privé et le monde académique. Les GAFA participent aussi aux 3IA et font rêver les jeunes, ce qui donne de bons étudiants en thèse. Que les GAFA s’intéressent à nos sujets convainc le public que ce que l’on fait sert à quelque chose. C’est donc globalement bénéfique.

Comment garder les chercheurs dans les laboratoires publics français ?

Ce qui est regrettable, c’est que les gens qui rentrent en recherche chez Google ou Facebook sont très forts et auraient obtenu un poste dans le public à l’Inria ou au CNRS. Ce n’est pas un choix par défaut, car le niveau d’exigence de recrutement de Google est immense.

Cela dit, on trouve deux profils dans ces entreprises : des jeunes et des moins jeunes. Les moins jeunes ont connu le monde académique, gardent des encadrements dans leur laboratoire et contribuent encore à former des chercheurs. C’est fondamental pour que le domaine évolue. Je considère à titre personnel que c’est mon travail de former et faire naître des chercheurs, bien que tous les jeunes en thèse ne soient certes pas fait pour la recherche. Les laboratoires privés n’assument pas ce rôle, c’est-à-dire prennent peu de doctorants, ce qui est dommage. Les entreprises comme Google ne cherchent pas à embaucher de doctorants, Facebook le fait un peu via des thèses CIFRE. En résumé, ils contribuent moins à former les gens tout en récupérant nos meilleurs éléments qui ont émergé de leurs premières années de recherche, ce qui est frustrant puisqu’ils ont le retour sur investissement sans la prise de risque. Bien sûr, nous récupérons aussi d’excellents chercheurs.

Il y a un problème également au niveau de l’enseignement : quelqu’un qui rentre chez DeepMind ou Google après son post-doc aura peu enseigné et n’enseignera, je pense, jamais, tandis que les gens qui ont été enseignant-chercheur quelques années vont continuer à enseigner.

Parlons d’Europe. Estimez-vous avoir un lien particulier avec des chercheurs européens davantage qu’avec des chercheurs américains ou asiatiques ? Existe-t-il un modèle, un type de recherche ou de chercheur européen ?

J’ai des collaborations aux États-Unis, en Finlande, en Allemagne, en Hollande. Les interactions sont semblables, bien que les personnes avec lesquelles je travaille aux États-Unis soient européennes… J’ignore si cela est structurel : c’est en tout cas mon expérience limitée. Les collaborations sont naturelles, le système de publication est le même pour tous : journaux, reviews, conférences, évaluations, standards, etc. Notre recherche est similaire, et nous partageons les mêmes valeurs de ce qu’est un travail utile dans notre communauté. Quant à l’approche de la recherche, nous en avons déjà parlé. C’est peut-être la situation des chercheurs américains qui les oblige à penser à l’impact de leurs travaux pour garantir la pérennité de leur poste et de leur financement. Il y a bien entendu des chercheurs français qui ont cette mentalité, cela peut d’ailleurs être un choix de recrutement : les commissions peuvent poser ce genre de questions.

L’analyse de données via les statistiques a historiquement toujours été très présente en neurosciences, mais elle est une tâche chronophage que le machine learning peut permettre d’accélérer.
ALEXANDRE gramfort

Certains peuvent trouver « pipeau » d’interroger les chercheurs sur l’impact de leurs travaux, mais ça ne l’est pas forcément. « Pourquoi faire cela maintenant, est-ce quelque chose à faire en 2020 ? » Quand je préparais mon ERC, j’ai été traumatisé quand on m’a demandé : « pourquoi toi, pourquoi maintenant ? » Mais, il est normal de poser cette question quand on on va faire un chèque considérable sur 5 ans, tout comme lorsque l’on investit dans une start up. Est-ce le moment de monter sa propre entreprise ? Sont-ce les bonnes personnes ? J’ai tendance à dire que créer un laboratoire, c’est comme créer une boîte, bien que le P&L ne soit pas le même. La valeur que l’on crée n’est pas un chiffre d’affaires, ce sont les papiers, les sujets qu’on fait émerger et les scientifiques qu’on forme. Mais on doit trouver les bons sujets et les bonnes personnes, tout comme une boîte.

Vous avez obtenu cette ERC en 2015, pour laquelle il vous reste un an. Quel a été le processus d’obtention et quel fut l’impact sur votre recherche ? Est-ce un bon système ?

Je l’ai eu, donc je vous dirai que c’est très bien ! Cela a pris deux mois et demi de ma vie pour 25 pages : c’est cher la page. Mais c’est un exercice fondamental, que l’on candidate à une ERC ou pas. Écrire ces pages est formateur car cela permet de réfléchir à l’horizon de cinq ans : quels sont les problèmes qui nous intéressent, convaincre, et se convaincre par écrit que ces problèmes sont intéressants et faisables. Certains chercheurs sont critiques de ce principe, tout le monde n’est pas tout câblé pour ça, mais cela s’apprend. L’ERC m’a appris à demander des financements et « vendre » ma recherche. Ce n’est pas un gros mot. On ne mise tout simplement pas un million et demi d’euros sur un problème inabordable. J’ai obtenu l’ERC, ce qui a changé ma vie de chercheur : je suis passé de 30 000 euros par an à gérer à 300  000. J’ai pris un poste de recherche pure, et changé mon environnement de recherche. L’ERC est un cercle vertueux : on commence à avoir de l’argent, que l’on gère, avec lequel on réalise des travaux intéressants, ce qui amène plus d’argent, etc. Par exemple, je viens d’obtenir une chaire IA, ce qui représente la moitié d’une ERC et entretient la pompe. Je peux me permettre de construire dans la durée et le déclencheur en fut l’ERC.

Revenons rapidement à vos sujets de recherche. Vous travaillez à la frontière entre neurosciences et machine learning : en quoi sont-ils liés ?

Il s’agit d’un lien double. D’abord, beaucoup de systèmes de machine learning sont inspirés par les neurosciences. DeepMind, par exemple, se positionne beaucoup sur ce créneau car ses fondateurs sont issus de la culture des neurosciences, dont les idées dictent souvent les choix techniques de l’entreprise en matière d’architectures de machine learning. Dans le sens contraire, étudier les algorithmes de machine learning qui fonctionnent aujourd’hui, par exemple les réseaux de neurones à convolution en vision, peut fournir des pistes sur le fonctionnement du cerveau. Ces algorithmes peuvent également être appliqués directement à l’étude du cerveau, par exemple pour prédire son activité. Là, les motifs appris par ces algorithmes peuvent aussi donner des pistes. Il y a donc une fertilisation réciproque. L’analyse de données via les statistiques a historiquement toujours été très présente en neurosciences, mais elle est une tâche chronophage que le machine learning peut permettre d’accélérer, en détectant par exemple automatiquement certains artefacts statistiques, etc. Cette idée s’applique bien sûr à d’autres domaines que les neurosciences.

Avec quels laboratoires collaborez-vous ?

Historiquement, je collabore avec des laboratoires de sciences cognitives car mon travail porte sur de l’imagerie fonctionnelle et non statique, comme dans un contexte clinique. L’imagerie fonctionnelle permet d’observer la dynamique d’un cerveau en fonctionnement, ce qui intéresse les chercheurs en sciences cognitives qui veulent comprendre, par exemple comment le cerveau apprend à lire. J’ai aussi quelques collaborations récentes sur des problèmes cliniques. C’est moins évident car on a encore du mal aujourd’hui à guérir le cerveau. L’imagerie est un bon outil de diagnostic, mais ne guérit pas directement. Or, c’est ce qui intéresse les médecins. C’est selon moi pour cela que la neuroimagerie fonctionnelle n’est pas un élément clinique majeur. Et, si l’on ne guérit pas, on n’est pas remboursé par la sécurité sociale, pas financé par les entreprises pharmaceutiques, en bref, l’écosystème n’existe pas. Cela pourra être remis en question le jour où l’on fera d’excellents diagnostics et guérira des pathologies importantes avec de l’imagerie fonctionnelle.

N’est-ce pas le projet de Neuralink ?

Je suis au fait de leurs travaux. Elon Musk a gardé sa naïveté, sa fougue, bref, ce côté « stay foolish » : il dit « Venez travailler avec moi, de toute façon, personne d’autre n’est très avancé ». Et ils arrivent à faire des choses. Leur positionnement est intéressant : ils travaillent beaucoup sur le système d’implantation automatique de leur appareil. C’est une étape clé pour arriver sur le marché de masse, même si j’ignore ce que serait le marché de masse dans ce business là. Pour ce qui est de leurs données, on arrive à les avoir mais en quantités limitées, avec des protocoles très coûteux. Par exemple, il y a longtemps qu’une équipe de John Hopkins a implémenté une électrode à une femme afin qu’elle contrôle un bras robotisé. L’étape suivante consiste à industrialiser cela. Est-ce du transhumanisme ? Je suis peut-être naïf mais je n’ai pas peur du mythe de l’apprenti sorcier : je pense qu’il y a plein de choses intéressantes à faire. Quand on met de l’argent sur un projet, il en ressort forcément des choses.

Des équipes ont donc obtenu des résultats semblables ou supérieurs à Neuralink, mais personne n’en parle comme d’eux.

On a effectivement beaucoup parlé d’eux sur Twitter. Musk, c’est l’une de ses forces, fait rêver et attire les gens brillants du monde entier, ce qui est la clé. Ceci étant dit, la technologie qui s’imposera sera-t-elle celle qui fonctionne le mieux ou celle dont on entend le plus parler ? L’expérience passée a montré que ce qui s’impose est ce qui est bien expliqué, bien packagé, et Neuralink à la culture adéquate pour cela. Est-ce que leur projet fonctionnera ?

La technologie qui s’imposera sera-t-elle celle qui fonctionne le mieux ou celle dont on entend le plus parler ? L’expérience passée a montré que ce qui s’impose est ce qui est bien expliqué, bien packagé, et Neurolink à la culture adéquate pour cela.
alexandre gramfort

Comme de plus en plus de chercheurs, on peut vous retrouver sur Twitter. Quel est l’impact de ce réseau social ?

Dans ces périodes sans conférence physique, et même en temps normal, l’influence de Twitter est colossale, c’est un énorme vecteur de communication sur ce que je fais. Je n’y vais pas tous les jours même si j’en connais qui y passent au moins 30 minutes. Dès que je publie un papier, je l’annonce sur Twitter. Ceux qui ne le font pas perdent une opportunité de rayonnement colossale. Mais savoir utiliser Twitter s’apprend. Hier, dans un jury de thèse, un examinateur blaguait en disant au candidat qu’il devrait y avoir une formation Twitter lors de la thèse. Des chercheurs y ont été rendus extrêmement visibles, des gens ont connu et compris mes travaux juste en lisant mes fils de tweets et les citent ensuite puisqu’ils savent que cela existe, et ce qu’ils contiennent. Mais attention, Twitter peut aussi renforcer des positions dominantes. J’ai déjà entendu des chercheurs de Facebook dire : « à partir du moment où mon papier est publié sur la page de la recherche de Facebook, je n’ai pas forcément besoin de me déplacer en conférence, des centaines de personnes l’auront déjà lu ». Twitter a un peu le même effet.

Sources

« versions » disponibles dudit logiciel.
Plateforme collaborative open source de partage de documents, utilisée par la plupart des développeurs pour héberger et proposer au téléchargement leurs produits logiciels.
Commandé par le premier ministre Édouard Philippe et rendu public en mars 2018, ce rapport avait pour but de « dresser une feuille de route sur l’IA » en France.

Key Points

Pouvez-vous vous présenter, pour commencer ?

Peu de personnes en sont au courant, mais l’Inria et l’AP-HP (Assistance Publique-Hôpitaux de Paris) ont travaillé ensemble au début de la crise du Covid-19. Pouvez-vous nous raconter cette période ?

Les gros organismes comme l’AP-HP ou Santé Publique France peuvent se permettre ce genre de collaborations, mais quid des plus petits ?

Vous parlez de fournir des briques logicielles afin de démocratiser des technologies, et vous avez effectivement travaillé sur scikit-learn. Ce n’est ni un choix neutre ni un choix courant. Pourquoi avez-vous fait ce choix ?

Peut-il y avoir des luttes d’influence dans un logiciel open source, par exemple parce qu’une entreprise tente de l’orienter ?

Quelle position scikit-learn adopte-t-il à cet égard ?

Comment voyez-vous l’avenir de scikit-learn et de l’open source en général ?

Y a-t-il en Europe une attitude différente vis-à-vis de l’open source comparé à d’autres endroits dans le monde ?

La recherche en France est donc très libre comparée aux États-Unis, mais il y a en France peu de programmes de recherche en lien avec l’État. Plus globalement, il y a peu de dialogue entre le politique et le chercheur. Vous aviez contribué au rapport France is AI en 2017.

Une des dispositions du rapport Villani visait à faire davantage se rencontrer les chercheurs et les entreprises, par exemple au sein des instituts 3IA.

On a introduit en France la possibilité pour des chercheurs de travailler à temps partiel dans des laboratoires privés. La France y trouve-elle son compte ?

Comment garder les chercheurs dans les laboratoires publics français ?

Parlons d’Europe. Estimez-vous avoir un lien particulier avec des chercheurs européens davantage qu’avec des chercheurs américains ou asiatiques ? Existe-t-il un modèle, un type de recherche ou de chercheur européen ?

Vous avez obtenu cette ERC en 2015, pour laquelle il vous reste un an. Quel a été le processus d’obtention et quel fut l’impact sur votre recherche ? Est-ce un bon système ?

Revenons rapidement à vos sujets de recherche. Vous travaillez à la frontière entre neurosciences et machine learning : en quoi sont-ils liés ?

Avec quels laboratoires collaborez-vous ?

N’est-ce pas le projet de Neuralink ?

Des équipes ont donc obtenu des résultats semblables ou supérieurs à Neuralink, mais personne n’en parle comme d’eux.

Comme de plus en plus de chercheurs, on peut vous retrouver sur Twitter. Quel est l’impact de ce réseau social ?

Sources

**Les gros organismes comme l’AP-HP ou Santé Publique France peuvent se permettre ce genre de collaborations, mais quid des plus petits ?**

Vous parlez de fournir des briques logicielles afin de démocratiser des technologies, et vous avez effectivement travaillé sur ***scikit-learn*. Ce n’est ni un choix neutre ni un choix courant. Pourquoi avez-vous fait ce choix ?**

Peut-il y avoir des luttes d’influence dans un logiciel ***open source*, par exemple parce qu’une entreprise tente de l’orienter ?**

Comment voyez-vous l’avenir de scikit-learn **et de l’open source en général ?**