Meet-Up Le Traitement des données de santé, enjeux et réalités

De Challenge4Cancer
Aller à : navigation, rechercher

L'Intervenant

AlexandreTemplier.png










Alexandre Templier

Spécialiste de la Data Science

Alexandre Templier évolue depuis plus de 20 ans dans le domaine des Sciences de la Vie. Passionné par les technologies de l'information et l'optimisation des décisions en environnements complexes, il a consacré l'essentiel de sa carrière à mettre les sciences de l'ingénieur au service du monde médical. Co-fondateur et Président de QUINTEN, il est notamment en charge du développement et des partenariats académiques dans le domaine de la Santé.

Youtube31.png

3 Questions à...

En quoi les données massives de santé sont une opportunité pour la santé de demain ?

Les progrès thérapeutiques de la médecine moderne reposent aujourd'hui essentiellement sur la réalisation d'études cliniques qui ont pour objet de démontrer l'efficacité et la sécurité de produits pharmaceutiques ou de dispositifs médicaux. Ces études cliniques sont réalisées sur un nombre de patients extrêmement réduit au regard des populations concernées à l'échelle globale. Il est en effet assez rare de voir des études de plusieurs milliers de patients, compte tenu du coût et des difficultés organisationnelles liés à la réalisation de ces études. Ceci peut entraîner la mise sur le marché de produits globalement peu efficaces, ou pire, potentiellement dangereux.
De plus, les données générées dans le cadre de ces études cliniques ne servent la plupart du temps qu'à vérifier des hypothèses (d'efficacité et de sécurité) et pratiquement jamais à en générer de nouvelles. Les hypothèses qui sont testées à travers ces études sont, en effet, souvent le fruit d'une démarche empirique, qui s'alimente de la richesse des connaissances des experts métiers que sont les biologistes et les médecins, qui n'ont pas encore vraiment l'habitude de nourrir et d'amplifier le champ de leurs hypothèses par des explorations "naïves" des données dont ils disposent et qui concernent le plus souvent un nombre réduit de patients.
Nous allons assister à la naissance d'une nouvelle médecine dont les progrès seront largement basés sur les découvertes rendues possibles par l'avènement simultané de nouvelles sources de données (notamment à travers la mutualisation des bases) et de nouvelles compétences/technologies d'analyse de données (la Data Science). Le médecin restera au centre et sera "augmenté" par les technologies dans toutes ses tâches (diagnostic, prescription, suivi, amélioration continue des pratiques) qui lui permettront probablement de se concentrer sur ce qui est moins facilement mesurable comme les émotions, la psychologie, l'empathie, l'écoute, …

Pour qui est-ce une opportunité ? (patients, acteurs économiques, pouvoirs publiques, médecins, hôpitaux, etc.)

Sans tomber dans l'angélisme ni dans un optimisme forcené, je crois que l'avènement des données massives sera une opportunité pour tous. Tout progrès, toute évolution, comme toute régression, comporte évidemment sa part de risque. Les libertés publiques, la vie privée, les modèles de mutualisation des risques, l'emploi et bien d'autres choses seront assurément remodelés par les nouveaux usages que les méga données, la Data Science et l'internet des objets vont apporter.
Comme toutes les évolutions, celles-ci seront des opportunités pour toute personne et toute organisation ouverte et réceptive au changement, et capable de se réinventer. Les mêmes évolutions seront dramatiques pour ceux qui refuseront ce changement au lieu de s'y adapter. L'exemple des taxis face à l'arrivée d'Uber est un exemple flagrant. S'adapter ou être ubérisé (nouveau terme pour subir un changement généré par un nouvel usage massivement adopté car répondant à un besoin massif) - tel est peut être le lot de chacun pour le siècle à venir. Mais à bien y regarder, ce n'est pas nouveau - c'est juste de plus en plus rapide.

Quels sont les grands challenges d'aujourd'hui pour une analyse des données de santé et quels seraient les freins à lever ?

Les principaux défis me semblent essentiellement réglementaires et organisationnels. Beaucoup plus de choses seraient possibles dès aujourd'hui si la réglementation était assouplie. Un seul exemple : le consentement éclairé de chaque patient, qui est obligatoire dans toutes les études clinique, précise l'usage qui va être fait des données, notamment en termes d'analyses. S'il est tout à fait normal que les principes de la CNIL soient appliqués dans le cadre de la recherche médicale, il semble excessif de bloquer par principe toute analyse des données ainsi générées sous prétexte que celle-ci n'était pas prévue initialement. Cela bloque structurellement et inutilement les découvertes qui pourraient découler d'une exploration systématique de ces données. On observe d'ailleurs, en particulier aux États-Unis, une tendance à élargir dès la conception des études cliniques le champs des analyses qui pourront être réalisées en aval.
L'autre grand challenge pourrait être de faire face à l'évolution exponentielle de la quantité de données générées par les nouvelles technologies de séquençage et, plus généralement, par toutes les technologies d'imagerie et d'exploration fonctionnelle. Ces nouvelles données sont autant d'opportunités de découvertes mais il ne faut pas perdre de vue que plus il y a de variables pour décrire un nombre d'individus bien plus faible, plus le risque de trouver par hasard des corrélations et des relations entre les variables est important. C'est d'ailleurs probablement une des raisons pour laquelle Google investit massivement dans des cohortes prospectives de l'ordre de centaines de milliers de patients avec sa filiale HLI (Human Longevity Inc.).


Compte rendu

Introduction

Les enjeux et les réalités du traitement des données de santé couvrent un sujet très large, que mon expérience et le temps qui m’est imparti ne me permettent pas de traiter tout à fait. Je me bornerai donc à partager l’expérience de Quinten dans le domaine de la valorisation des données de santé.
Quinten est un « pur player » de la data science, qui a débuté en 2008 avec la mise au point d’un algorithme innovant et le choix d’une une spécialisation sectorielle forte dans la santé, et plus spécifiquement dans le secteur pharmaceutique. Ce secteur est complexe, notamment du fait de l’hétérogénéité et de l’importance des données générées dans le cadre de la recherche et du développement de médicaments.


Apport des big data dans la santé

La meilleure définition du phénomène big data que j’ai vue à ce jour prend la forme d’une addition :
Nouvelles sources de données + Nouvelles compétences et technologies de valorisation de données = Nouvelles opportunités génératrices de valeur.
On observe un véritable engouement aujourd’hui vis-à-vis des nouvelles sources de données (les objets connectés, l’open data, les réseaux sociaux etc.). On constate également une prise de conscience progressive de l’importance des moyens d’analyse et de traitement des données (pour le moment essentiellement associé aux données massives et aux infrastructures qu’elles impliquent). Cependant, la plupart des gens, qui ne sont pas spécialistes, ont une vision de l’innovation qui se limite et à ce qu’ils en appréhendent – ou en entendent – dans leur vie de tous les jours (c’est-à-dire aux nouvelles sources de données, en ce qui concerne le Big Data).
Au fil du temps, Quinten a élargi son champ d’action à des secteurs qui dépassent la Santé (l'Assurance et les Médias notamment), où l’on trouve des méga données : des millions d’individus décrits par des centaines ou des milliers de caractéristiques.
Au contraire, dans la recherche médicale, on travaille exclusivement sur de la small data : des centaines ou des milliers de patients… décrits par des milliers ou millions de caractéristiques !
En effet, la dimension importante – porteuse d’opportunités – n’est pas le volume des fichiers, mais bien la taille de l’échantillon au regard de la population mère. Quoiqu’il en soit, l’expérience montre qu’il est possible de générer énormément de valeur, quel que soit le volume des données à exploiter.


Enjeux de l’exploitation des données
Importance et irréductibilité de la subtilité de l’humain

Quel que soit le secteur, un constat : les données générées par les organisations sont sous-exploitées. Or, leur exploitation est un levier d’amélioration des conditions et des performances de travail, et de croissance pour l’entreprise. La valeur des données s’impose au-delà de leur volume et provient surtout de la manière dont elles sont exploitées et – bien entendu – des enjeux en présence.
Les entreprises documentent leurs performances et leurs risques principaux afin de mesurer leurs risques et leurs opportunités. Souvent cela passe par des compétences humaines. Même si l’on s’appuie sur la data, l’expérience humaine reste importante et nécessaire. Par exemple, le traitement de la data sera complété par l’intuition du médecin, son expérience et son savoir-faire. La plupart du temps, les données générées par les organisations correspondent à des enjeux que des experts humains, à travers leur expérience vécue, cherchent à maîtriser par l’observation, l’induction, l’action et la déduction – en un mot : l’expérience.
Il y a globalement deux manières de voir la Data dans l’entreprise : Certains la voient comme un moyen de remplacer l’humain ... D’autres la voient comme un moyen d’augmenter l’action humaine. L’extraction de règles métiers permet non seulement d’établir un dialogue constructif avec les experts humains, mais également d’atteindre de meilleures performances lorsque l’objectif n’est pas seulement de prédire, mais également d’influencer, d’optimiser.
L’exploitation systématique et approfondie des données peut aider les experts à maîtriser plus efficacement leurs performances et leurs risques. C’est l’un des rôles principaux des data scientists.
Il y a beaucoup de valeur à créer dans la relation avec les métiers, quel que soit le secteur et les fonctions.


Hétérogénéité des données : à quand la fin du « moyennage » ?

Prenons l’exemple des études cliniques dont l’objectif est de démontrer l’efficacité et l’innocuité des médicaments afin d’obtenir leur homologation et leur mise sur le marché. Ces études sont conçues en fonction des hypothèses à vérifier. Les critères d’inclusion, la taille de l’échantillon, le type de protocole utilisé, sont choisis en fonction de ce que l’on veut démontrer. L’industrie pharmaceutique supporte des taux d’échec très importants à chaque étape de son cycle de recherche et développement, et en particulier dans les phases cliniques. En moyenne, sur 10 molécules testées chez l’homme, une seule arrive en effet sur le marché. Cela tient à plusieurs choses mais probablement par dessus tout à la complexité et à la diversité du vivant.
Imaginons la population générale de millions de patients souffrant d’une pathologie X, ciblée par un médicament Y. Les médecins savent bien que tous les patients ne réagissent pas de la même manière aux médicaments qu’ils leur prescrivent. Faisons donc l’hypothèse qu’il existe au sein de cette population de millions de patients, différents profils d’individus présentant des taux de réponses particulièrement élevés pour des raisons propres à chacun de ces sous-groupes. Certains profils sont de taille réduite et concernent peu de patients ; d’autres sont de taille plus importante. Ces profils sont généralement inconnus. La même hypothèse peut être formulée concernant les patients présentant des taux de réponse particulièrement faibles. Nous avons donc dans la population mère des profils de bons répondeurs et des profils de mauvais répondeurs de tailles inégales et dont nous ne connaissons pas grand chose.
Une question simple : Quelle est la probabilité pour que tous ces sous-groupes soient représentés dans un échantillon de 500 ou de 1 000 individus sur des millions patients et a fortiori que ces sous-groupes soient représentés dans des proportions relatives comparables à celles de la population générale ? Cette probabilité est évidemment très faible, quand bien même les précautions les plus grandes auraient été prises pour faire en sorte que l’échantillon contienne des proportions d’hommes et de femmes ou une distribution des âges comparables à ceux de la population mère. Pourtant, toutes les conclusions et tous les modèles tirés de ces échantillons sont fondés sur le postulat que ces derniers sont représentatifs de la population mère, ce qui impliquerait que tous les sous-groupes de bons et de mauvais répondeurs soient effectivement représentés dans l’échantillon, dans des proportions comparables à celles de la population mère. Or, il suffit qu’un profil de mauvais répondeurs soit par hasard surreprésenté dans l’échantillon, et/ou qu’un profil de bons répondeurs soit sous-représenté, pour que l’étude soit négative et le produit abandonné alors même qu’il aurait pu guérir ou sauver des vies. Inversement, qu’un profil de bons répondeurs soit par hasard surreprésenté dans l’échantillon et/ou qu’un profil de mauvais répondeurs soit sous-représenté et l’étude sera positive jusqu’à l’étude suivante qui, elle, sera peut-être un échec. Alors pourquoi ne pas systématiquement rechercher les sous-groupes de bons et de mauvais répondeurs dans ces études, pour générer de nouvelles hypothèses et les vérifier progressivement dans les différentes études successives ?
La statistique classique, nécessairement fondée sur l’hypothèse de représentativité de l’échantillon, est incontournable. Elle reste – et restera probablement encore longtemps – le corollaire indispensable à l’expérimentation pour établir – et renverser – des « vérités » scientifiques. Pour autant, il est fort dommage que l’industrie pharmaceutique (comme bien d’autres industries) néglige à ce point le potentiel des données qu’elle génère dans le cadre de la vérification d’hypothèses. Les réticences et les critiques concernant les « analyses exploratoires post-hoc » qualifiant la recherche de sous-groupes de « partie de pêche » ou de « torture de données » sont loin d’être injustifiées. L’exercice est certes délicat, et souvent périlleux, car grand est le risque de prendre du simple bruit pour du signal mais il n’est pas impossible, comme en témoigne l’expérience de Quinten depuis 7 ans. Claude Bernard, l’un des pères de la médecine moderne, dans ses cours au Collège de France en 1859, insistait sur le nécessaire équilibre entre la vérification d’hypothèses existantes et la conquête d’idées nouvelles dans le cadre de sa méthode hypothético-déductive.
"Suivant moi, l’expérimentation doit donc non seulement avoir pour objet d’aller à la vérification d’idées basées sur des faits antérieurement acquis, mais en même temps elle doit aussi, pour être entière et féconde, chercher à conquérir des idées nouvelles qui surgiront naturellement des faits imprévus que présentent toujours les expériences instituées".
Il s’agit donc d’observer des mécanismes, des effets synergiques inattendus, de les vérifier et, ce faisant, d’en découvrir de nouveaux.
Quand on parle de sous-groupe, cela renvoie généralement à des approches de type « clustering non supervisé », qui consistent à identifier des typologies d’observations (de patients par exemple). On cherche alors à répondre à la question “Existe-t-il des sous-groupes de patients qui se ressemblent ? Si tel est le cas, ces sous-groupes montrent-ils des taux de réponse significativement différents ”, ce qui n’est pas exactement la question qui nous intéresse ici. La vraie question est plutôt : "Existe-t-il des sous-groupes de patients présentant des taux de réponse non seulement significativement différents de la moyenne, mais surtout extrêmement différents ? Quelles sont les combinaisons de variables contribuant à ces différences ?".
Le médecin trouve des réponses à ces questions par l’observation. Il perçoit progressivement ce que les bons répondeurs ont en commun et que les mauvais répondeurs n’ont pas. La démarche d’apprentissage du cerveau humain semble être beaucoup plus proche d’une exploration combinatoire et d’un comptage systématique que d’une mise en équation du phénomène. Tout se passe comme si ce "comptage combinatoire" détectait des "anomalies" locales dans l’expérience, générant ainsi des intuitions, des idées, des hypothèses, qui deviendront des fait établis après vérifications successives. L’algorithme Q-Finder mis au point par Quinten s’inspire largement de ce "comptage combinatoire" et permet aujourd’hui aux experts humains, d’exploiter leurs données pour aller encore plus loin dans la maîtrise de leur discipline. Notre objectif est de comprendre la manière dont les experts humains appréhendent leur discipline afin de mettre la quintessence de leurs données au service de leurs activités quotidiennes.


Étude de cas à l’Institut Gustave Roussy

Prenons un exemple sur lequel nous pouvons communiquer librement : Le professeur Jean-Charles SORIA, de Gustave Roussy, nous a confié pour analyse une base de données anonymisée relative à une cohorte de 126 patients atteints de cancer du poumon, tous traités chirurgicalement (résection tumorale). Sur les 121 patients, seuls 61 patients avaient reçu une chimiothérapie adjuvante. La courbe de survie à 7 ans de recul ne montrait aucune différence significative entre le groupe de patients traités et le groupe de patients non traités par chimiothérapie adjuvante. L’équipe de Gustave Roussy disposait des données transcriptomiques relatives aux tumeurs réséquées chez tous les patients. Des analyses bio-informatiques et de data mining n’avaient pas permis d’identifier de quelconques sous-groupes présentant de meilleurs résultats sous traitement.
Notre analyse a permis de montrer que ce résultat global, suggérant que la chimiothérapie adjuvante n’avait aucune efficacité en moyenne, cachait une réalité bien différente. Nous avons été en effet en mesure d’identifier un gène, qui combiné à 3 autres permet d’isoler un tiers de la population montrant 7 fois moins de rechute dans le groupe traité (13% versus 87%), sachant que ce même gène, combiné à 4 autres gènes, permet d’isoler un autre tiers de la population, montrant 20 fois plus de rechute chez les traités (80% versus 4%). Ces résultats ont fait l’objet de multiples validations qui ont toutes confirmé le rôle pivot du gène que nous avons mis en évidence.

Séance de questions/réponses

  • Quels sont les profils des pharmaciens avec lesquels Quinten interagit ? Sont-ils capables de comprendre (les enjeux du traitement de données) ?
Quinten travaille avec de nombreux professionnels de Santé, dont des médecins, des biologistes, des pharmaciens, etc. L’un des intérêts à utiliser des outils d’extraction de sous-groupes est que les experts métier avec lesquels nous travaillons n’ont pas besoin d’avoir fait des études de mathématiques ou de machine learning pour comprendre les résultats que nous leur présentons. Néanmoins, comme je l’ai mentionné précédemment, cela suppose une grande rigueur et une grande prudence. Ce n’est pas parce qu’un expert juge un résultat pertinent que ce dernier est nécessairement robuste et reproductible. Il convient donc de rester humble et pragmatique.
L’intérêt de l’extraction de sous-groupes est qu’on réconcilie quelque part les métiers avec les data en s’affranchissant des modèles hermétiques. Permettre aux experts de détecter des bonnes ou des mauvaises pratiques qui leur avaient échappées, telle est la première vertu de cette approche.


  • Par rapport au small data, à partir de combien de data le taux de réponse est considéré comme précis ?
Nous avons d’emblée défini un seuil de manière arbitraire : on ne s’intéresse pas aux sous-groupes qui représentent moins de 10% de la population globale. Plus le nombre d’observations est faible, plus il convient d’être prudent. Parfois, nos partenaires nous demandent de baisser ce seuil de 10% et nous le faisons en conscience des risques que cela implique. Ce faisant, il nous est néanmoins arrivé de faire émerger des résultats qui en valaient la peine.


  • Débat entre corrélation et causalité.
Globalement, nous traitons deux types de sujets. Ceux pour lesquels il n’y a pas de flux de données mais des "photos" séparées par des intervalles pouvant aller jusqu’à plusieurs années et ceux pour lesquels il existe un flux de données plus ou moins continu. Dans tous les cas, notre approche consiste à générer des hypothèses d’associations. Dans le premier type de sujet, il nous faut soit trouver un jeu de données distinct et comparable, soit attendre des années avant de vérifier si ces hypothèses sont vérifiées. Dans le deuxième cas, il suffit d’attendre quelques jours ou quelques semaines pour vérifier la robustesse de nos hypothèses et l’efficacité des actions qui en ont découlé. Au-delà de la robustesse de l’association, le fait de vouloir tester la causalité implique de travailler dans des cadres expérimentaux de type randomisé en double aveugle ou de type AB testing.
Quoiqu’il en soit, on ne dispose jamais vraiment de toutes les variables permettant de décrire parfaitement tous les mécanismes de causalité. De plus, ceci n’est pas toujours nécessaire : souvent une association robuste suffit.


  • Pensez-vous que la mainmise des laboratoires pharmaceutiques sur les données cliniques pourrait être un obstacle au big data ? L’obligation de confidentialité ne restreint-elle pas le potentiel du big data ?
Ce n’est pas tant la confidentialité que le coût et la durée des études cliniques qui limitent de fait le potentiel de ces données. La collecte de ces données est très onéreuse et très longue, par conséquent les laboratoires pharmaceutiques la limitent à un nombre de patients généralement très réduit. C’est principalement la contrainte de coût qui fait que les études sont petites. Mais elles sont extrêmement documentées.
Les laboratoires sont loin d’être les seuls à posséder des données cliniques. Les hôpitaux, les groupes de recherche, la CNAM et de plus en plus de nouveaux acteurs collectent, hébergent et cherchent à analyser ces données. Le défi principal est aujourd’hui de définir un standard d’interopérabilité entre toutes ces sources de données afin que le chaînage soit possible lorsque le patient le demandera.


  • Les données de santé sont-elles soumises à la CNIL ? Peut-on faire ce qu’on veut avec ?
Il est nécessaire de s’assurer que les partenaires fournissant les données à analyser ont l’autorisation de les transmettre à un tiers, fut-ce sous accord de confidentialité. Cela suppose une anonymisation systématique voire un chiffrage des données. De plus, l’hébergement de données de santé est très encadré. Les parties prenantes doivent s’engager à être conformes à la réglementation.
Le niveau de contrainte réglementaire est tel que beaucoup de choses sont faites alors même qu’elles ne sont pas forcément légales. Par exemple : le consentement éclairé des patients est souvent donné pour une utilisation trop étroite des données collectées, eu égard aux analyses exploratoires qui sont effectivement faites en aval. Néanmoins, comme souvent, on peut s’attendre à ce que la réglementation suive les usages. Il serait par exemple plus pertinent de punir sévèrement les abus en aval que de bloquer le système en amont par un système de précaution excessif.


  • La notion d’hébergement de données de santé est une spécialité française. Beaucoup de start-ups pensent que c’est pénalisant pour la recherche. Y a-t-il un couplage des données soumises avec des données ouvertes, par exemple de type environnemental ?
Coupler les data soumises avec l’open data, cela apportera de la valeur mais c’est aussi là que beaucoup de problèmes et de questions se posent, notamment en termes juridiques. Géolocalisation, ré-identification, objets connectés etc ; tout cela est en réflexion et prendra encore pas mal de temps – dans le même temps de plus en plus d’acteurs se positionnent sur la collecte de données personnelles de santé. Dans l’hôpital, chez le médecin, dans l’officine, etc. Seuls survivront ceux qui sauront provoquer, ou a minima anticiper, les changements liés à l’apparition de standards d’opérabilité et à la probable reprise en main de ses données par l’individu lui-même.
A priori, en ce qui concerne les données de l’assurance maladie, un consensus semble se dégager sur le fait que ces données resteront sur les serveurs de la CNAM tout en étant accessibles à des acteurs agréés via un espace sécurisé dans lequel il serait possible d’installer ses propres outils d’analyse.


  • Les données médicales constituent l’identité médicale des patients. Ne serait-il pas pertinent que l’hébergeur des données médicales soit le patient lui-même ?
Oui, absolument. Dans d’autres domaines comme la grande consommation, il existe déjà des initiatives qui permettent à l’individu de valoriser ses données personnelles (Cashinfo, YesProfile) : ces plateformes valorisent des données et reversent à l’individu jusqu’à deux tiers des revenus générés à l’aide de ses données. Cela constitue un renversement de modèle qui préfigure une reprise en main progressive des données individuelles par l’individu lui-même. Il est possible que cela tende à se généraliser et que ce secteur devienne extrêmement compétitif.


  • Demain le patient sera-t-il en mesure d’héberger lui-même ses données et d’autoriser le partage de certaines d’entre elles, sans passer par des tiers pour en donner l’autorisation ?
On peut, en effet, imaginer un modèle privilégiant le stockage des données personnelles en général et de santé en particulier par l’individu lui-même, sous réserve que le niveau de sécurité soit suffisant, qu’un standard d’interopérabilité – même partiel – existe et que les transactions soient "protocolisées". Le technologie "Blockchain" contribuera probablement à rendre cela possible. Cela constituerait une manière de décentraliser l’hébergement et d’offrir un niveau de sécurité supérieur. Évidemment il est plus difficile de hacker des millions d’individus l’un après l’autre que de hacker un serveur sur lequel se trouvent les données d’un million d’individus.


  • Échange sur la notion de traçabilité.
(Intervenante dans le public :) « En France on ne peut pas aujourd’hui autoriser le patient à ajouter, enlever des données le concernant, car le médecin doit avoir accès des informations justes et correctes. Ainsi, dans une relation médecin patient idéale, le patient n’est peut-être pas si maître de ses données que cela. Le patient peut consulter mais il n’a pas le droit d’ajouter ou de supprimer une donnée car la responsabilité du médecin est en jeu. »


  • Avec le mouvement scientifique prônant la mise en ligne des données des articles, des essais cliniques... n’a-t-on pas envie de revenir 10 ans en arrière pour réinventer le monde ? Quel serait l’apport global que cela pourrait donner ?
Oui, ce serait bien mais la réalité c’est qu’une fois que c’est perdu, c’est perdu. Plus un jeu de données est ancien, plus il est difficile d’y revenir pour générer de nouvelles connaissances. Par ailleurs, comme nous l’avons vu, l’industrie est peu efficiente en raison de forts taux d’échec mais ce déficit d’efficience fait aujourd’hui partie de son ADN même si celui-ci est amené à évoluer.
Les entreprises pharmaceutiques ne peuvent plus tellement agir sur le revenu généré par un médicament, étant sous pression croissante des payeurs et des génériques. Elles n’auront donc à terme pas d’autre choix que d’agir sur les coûts de développement, ce qui passera sans nul doute par une exploitation du plein potentiel de leurs données, pour réduire les taux d’échecs et céder les molécules sur lesquelles les études ont été négatives mais pour lesquelles il existe des profils de répondeurs intéressants.


  • Comment éviter les risques de faux positifs dans les techniques d'extraction de règles ?
Nous avons mis au point des méthodes qui permettent de gérer sereinement l’explosion combinatoire à laquelle on s’expose lorsqu’on se lance dans ce type d’analyses. Nous effectuons par exemple des calculs a priori sur le nombre maximum de sous-groupes autorisés en fonction du volume et du type de données disponibles, nous mesurons l’écart à l’aléa de chacun de nos résultats que nous pondérons avant d’interagir avec le métier et confronter l’expert/l’humain à ce que nous avons mis en évidence sans a priori. Cela conforte souvent les intuitions et les découvertes des experts métier et leur permet surtout de voir ce qu’ils n’ont pas encore vu. Nous ne prétendons jamais que nos résultats sont systématiquement et nécessairement robustes – notre rôle se limite dans un premier temps à détecter des contextes dans lesquels il semble se passer des choses intéressantes et de faire réagir les experts à ces contextes, avant de passer à la vérification de la robustesse et au développement des solutions qui accompagnent ensuite ces experts au quotidien. Il existe une réelle complémentarité et une réelle coopération entre nos data scientists et les experts métier pour lesquels ils travaillent. Cette expérience humaine renouvelée est toujours génératrice de sens et de valeur. C’est d’ailleurs certainement l’une des choses les plus motivantes et les plus intéressantes pour les data scientists qui rejoignent l’aventure Quinten.