BD4Cancer

De Challenge4Cancer
Aller à : navigation, rechercher

BIENVENUE SUR LE WIKI DU PROJET BD4Cancer !

L'équipe de BD4Cancer vous souhaite la bienvenue sur la page Wiki du projet, qui vous offre accès à toutes les ressources liées au projet.
"Big problems require big solutions, and for complex diseases such as cancer or diabetes, the big solution is Big Data"
- Li et al. Science Translational Medicine, 28 October 2015 -

Sommaire

À PROPOS DU PROJET BD4Cancer

Proposé pour répondre au défi n°3 : Meta Epidemio du Challenge4Cancer, le projet BD4Cancer combine analyses Big Data des réseaux sociaux et les techniques de traitement automatique du langage biomédical (Biomedical Natural Language Processing; BioNLP) pour:

  1. Identifier des événements liés à l'usage des médicaments anti-cancers, dont les effets secondaires (Drug Side Effects; DSE) et les effets indésirables (Adverse Drug Reaction; ADR).
  2. Extraire des connaissances à partir de la littérature scientifique en oncologie et en analysant un grand nombre d'essais cliniques accessibles dans des registres internationaux, notamment, à l'ICTRP (WHO International Clinical Trials Registry Platform) de l'Organisation Mondiale de Santé (OMS) et le ClinicalTrials.Gov des Instituts Américains de la Santé (NIH). L'objectif est de prédire de nouvelles interactions médicamenteuses.

La Figure 1 schématise la nature et les sources des données utilisées dans le cadre de ce projet.

Fig. 1 Nature et sources des données utilisées dans le cadre des projet BD4Cancer.

Notre première hypothèse est que les données massives des réseaux sociaux tel que Twitter sont une source importante pour identifier des événements liés à l'usage des médicaments anti-cancers. L'intégration des résultats du traitement automatique de la littérature scientifique en oncologie à l'aide des méthodes BioNLP (Biomedical Natural Language Processing) et l'analyse Big Data des réseaux sociaux permettrait de mettre en place un système de pharmacovigilance afin surveiller en temps-réel le risque d'effet indésirable résultant de l'utilisation des médicaments anti-cancers.

Notre seconde hypothèse est que les essais cliniques représentent une source de connaissances importante pour la pharmacogénomique. Ce domaine qui focalise, notamment, sur l'étude des mécanismes génétiques des variations individuelles de la réponse des individus aux différents médicaments. Extraire à partir de données structurées et non-structurées les relations gène-maladie et médicament-maladie, ensuite proposer un modèle qui utiliserait les relations gène-médicament (gene-drug interactions) pour prédire les interactions médicamenteuses (drug-drug intercations) constitue une étape importante vers la personnalisation des traitements et la détermination de la résistance des individus à certains médicaments.

Mots clés en français: Cancer, Essais Cliniques, Littérature Biomédicale, pharmacogénomique, pharmacovigilance, Données Massives, Données Ouvertes, Traitement Automatique du Langage Naturel, TALN, Extraction de Connaissances, Fouille deTextes, Fouille de Données, Apprentissage Artificiel.

Mots clés en anglais: Cancer, Clinical Trials, Biomedical Literature, pharmacigenomics, pharmacovigilance, Big Data, Open Data, NLP, BioNLP, Biomedical Natural Language Processing, Literature Mining, Knowledge Retrieval, Text Mining, Data Mining, Machine Learning.

Membres du projet

Le projet est composé d'une équipe pluridisciplinaires dont les membres ont des expertises complémentaires. Les membres du projet sont honorés par la présence dans cette équipe du Dr Marthe Gautier (90 ans), découvreuse de la trisomie 21, médecin et passionnée par les sciences.

Liens du projet

Contact

Pour contacter la porteuse du projet, vous pourrez lui envoyer un e-mail à seraya.maouche@iscb.org ou utiliser la fonctionnalité d'envoi de messages de la plateforme Epidemium.

Relations avec les autres projets

La porteuse du projet contribue au projet Baseline porté par Edouard DEBONNEUIL. L'objectif des porteurs des deux projets est de centraliser toutes les données et résultats de leurs projets respectifs afin de créer une base de données centrale pour tout le Challenge4Cancer. Le projet EpidemiumDB, initié par la porteuse du projet, inclut les données du projet Baseline et il est ouvert à tous les autres projets.

Licence

  • Le contenu produit dans le cadre de ce projet est sous licence libre GNU General Public License version 3 (GPL-3). La librairie R (RBD4Cancer) développée dans le cadre de sera distribuée sur le R CRAN avec la licence GPL-3. La base de données EpidemiumDB

OBJECTIFS DU PROJET

Ce projet, d'une durée de six mois, vise à:

  1. Développer une librairie en langage R pour l'analyse Big Data appliquée au cancer qui inclura un module pour l'analyse du réseau Twitter à des fins de pharmacovigilance et un module pour la classification automatique des publications scientifiques en oncologie et leur analyse à l'aide des méthodes BioNLP.
  2. Proposer une approche combinant analyses Big Data et BioNLP pour l'analyse de la littérature biomédicale et des essais cliniques en oncologie pour la pharmacogénomique et la prédiction de nouvelles interactions médicamenteuses.

CONTEXTES SCIENTIFIQUE ET TECHNOLOGIQUE

Dans cette section, nous présentons un rappel des contextes scientifique et technologique et l'état de développement des Big Data en santé. Nous présentons, dans un premier temps, un rappel sur les cancers, notamment quelques rappels épidémiologiques et étiologiques. Nous présentons ensuite l'usage des techniques de Big Data pour améliorer la prise en charge des différents cancers. Nous présentons également l'utilisation des réseaux sociaux en santé et en recherche biomédicale. Enfin, nous présentons les approches BioNLP pour extraire de nouvelles connaissances à partir de la littérature biomédicale.

Le Cancer – Rappel en quelques chiffres

Avant de présenter quelques chiffres sur les cancers, nous rappelons ici la définition des cancers, notamment pour ceux/celles qui n’ont pas

fait un cursus médical:
 "Le Cancer est un terme général appliqué à un grand nombre de maladies qui peuvent toucher n'importe quelle partie de l'organisme. L'une de ses caractéristiques est la prolifération rapide de cellules anormales qui peuvent essaimer dans d'autres organes, formant ce qu'on appelle des métastases."
Cette définition a été proposée par l'Organisation Mondiale de Santé (OMS)[1].Selon le "Cancer Research UK", il existe aujourd'hui plus de 200 types de cancer. L'Institut Américain du Cancer (National Cancer Institute; NCI) donne, sur cette page, la liste des différents cancers.

a- Épidémiologie

En France, les cancers demeurent la principale cause de mortalité. Ils sont responsables de près de 150 000 décès chaque année. Le 7ème rapport « Les cancers en France », publié en février 2015 par l’Institut National du Cancer (INCa)[2] donne des données précises sur l’épidémiologie des cancers en France. Nous présentons ici quelques chiffres mais nous invitons le lecteur à lire ce rapport qui inclut des détails sur l'incidence, la mortalité, la survie, la prévalence et l'évolution des cancers chez l'homme et chez la femme.

  • En 2012, le nombre de nouveaux cas de cancer en France métropolitaine est estimé à 355 000 dont 200 000 chez l’homme et 155 000 chez la femme.
  • Chez l’homme, les trois cancers les plus fréquents sont ceux de la prostate (56 841 cas), du poumon (28 211 cas) et du colon-rectum (23 266) pour les tumeurs solides.
  • Chez la femme, les trois cancers les plus fréquents sont ceux des cancers du sein (48 763 cas), du colon-rectum (18 926 cas) et du poumon (11 284 cas). La Figure 1 montre les cinq cancers les plus fréquents chez l'homme et chez la femme selon les statistiques de l'OMS.
  • Le taux de mortalité estimés en 2012 en France métropolitaine : 133,6 pour 100 000 hommes et 73,2 pour 100 000 femmes.

Les cancers forment un enjeu majeur de santé publique. En France, trois Plans cancers ont déjà été mis en œuvre : Le Plan Cancer I (2003-2007), le Plan Cancer II (2009-2013) et le Plan Cancer III (2014-1019). Ces Plans traduisent l’engagement et la volonté des autorités publiques de mettre en place et d’accélérer des programmes de lutte contre les cancers en mettant en place des mesures et des initiatives concrètes.

Fig. 2 Incidence des cancers en France en 2012 (source: OMS)

Au niveau européen, la France se situe parmi les pays à fort taux d’incidence de cancer chez les hommes comme chez les femmes. Elle se caractérise par une mortalité par cancer élevée, notamment chez les hommes mais une survie meilleure comparée à la moyenne de l'Europe.

A l’échelle internationale, les cancers constituent également la principale cause de morbidité et de mortalité dans le monde. Les chiffres publiés par l’OMS indiquent qu’en 2012, on comptait approximativement 14 millions de nouveaux cas et 8,2 millions de décès liés aux cancers.

Le 22 avril 2016, L'institut national du cancer a publié son huitième rapport sur les cancers de France. La section précédente sera mise à jour après lecture de ce rapport.

b- Les cancers sont des maladies complexes et multifactorielles

Les cancers sont des maladies complexes dont l'étiologie est multifactorielle. Cela signifie qu’ils résultent de l'interaction de plusieurs facteurs, génétiques et environnementaux. Les études génétiques de petite ou de grande échelle ont identifiés, ces dernières années, plusieurs mutations associées aux différents cancers. Ces études ont largement amélioré nos connaissances de la composante génétique des cancers. Les projets en cours, notamment pour le développement de la médecine de précision, permettront d'avoir des données sur un très grand nombre de patients. Par exemple, l’initiative du Président Obama (Precision Medicine Initiative) pour la médecine de précision, qui a été lancée en janvier 2015 envisage de construire une cohorte d'un million de patients.[3]

Les études épidémiologiques ont identifié un certain nombre de facteurs de risque qu'on peut classer en facteurs internes (tel que l'âge) ou externes (qui sont liés à l'environnement), modifiables ou non modifiables.

  • l'âge
  • l'hérédité
  • le tabagisme;
  • la surcharge pondérale et l’obésité;
  • la consommation d'alcool;
  • Une alimentation déséquilibrée, par exemple une consommation insuffisante de fruits et légumes;
  • le manque d’exercice physique (sédentarité);
  • l’infection à HPV sexuellement transmissible;
  • l’infection à virus HBV;
  • les rayonnements ionisants et non ionisants;
  • la pollution de l’air des villes;
  • Une exposition à certains produits physiques et chimiques (amiante, benzène,...)
  • les hormones
  • ...
Les Big Data en santé

Il n'existe pas de définition rigoureuse pour le terme anglo-saxon "Big Data" qui peut être traduit en français en "données massives" même si la délégation générale à la langue française et aux langues de France (DGLFLF) recommande le terme méga données. Ce terme regroupe toutes les approches et technologies qui focalisent sur le traitement massif de grands volumes de données. L'Office parlementaire d'évaluation des choix scientifiques et technologiques donne une définition similaire (OECST). Nous vous invitons à lire ses rapports sur ce sujet.

Fig. 3 Les V des Big Data.
Nous tenons à rappeler ici que même si les Big Data sont devenues une tendance très importante de ces dernières années, le concept lui-même existe depuis des années. Gil Press a publié, en 2013 dans Forbes, une très courte histoire des Big Data[4], dans laquelle il rappelle que l'expression “information explosion” a été déjà employée en 1941.

En 2008, la revue scientifique Nature a publié un numéro spécial dédié au Big Data qui a discuté les différents aspects d'analyse, de stockage, et de gestion de grands volumes de données.

"Les chercheurs doivent adapter leurs institutions et pratiques en réponse à des torrents de nouvelles données. Ils doivent compléter une science intelligente par une recherche d'information intelligente".[5]

Les Big Data sont souvent définies par un certain nombre de V qui couvrent leurs différentes dimensions ou leurs principales caractéristiques. Initialement, le volume, la vélocité, et la variété constituaient les trois V (the 3 Vs of Big Data), qui ont été identifiés, pour la première fois en 2001, dans un rapport[6] de Doug Laney de Gartner (connu à l'époque sous le nom de META Group). Depuis, cette définition a évoluée et le nombre de V a augmenté (Fig 3). Dans son dernier article sur ce sujet, le Dr. Kirk Borne, un Data Scientist et expert en Big Data, a identifié dix Vs que nous vous invitons à découvrir dans son article "Top 10 Big Data Challenges – A Serious Look at 10 Big Data V’s".

Il ne faut pas confondre Big Data (mégadonnées) et Open Data (données ouvertes). Les deux concepts sont très proches mais ne sont pas similaires. En effet, les données ouvertes se caractérisent notamment par leur usage alors que dans Big Data, il y a notamment l'aspect volume des données. Les Big Data ne sont pas tous des jeux de données ouverts et un jeux de données Open Data n'est pas forcément du "Big Data". Il est important de comprendre la relation entre ces deux concepts. Nous vous recommandons de lire l'article de Joel Gurin (Université de New York) "Big data and open data: what's what and why does it matter" qu'il a publié, dans The Guardian, en avril 2014.

La santé et la recherche biomédicale connaissent une prolifération des données, notamment avec le développement de technologie de séquençage de l'ADN à haut débit et son utilisation dans le processus de soins (génomique clinique). Deux revues intéressantes sur les Big Data en santé et en recherche biomédicale ont été publiées récemment [7],[8].

En France, la ministre des affaires sociales, de la santé et des droits des femmes, Madame Marisol Touraine, a lancé le 10 septembre 2015, un groupe de réflexion sur le Big Data en santé qui doit rendre les conclusions de ses travaux début 2016.

Les Big Data pour le cancer

Les résultats de notre étude bibliographique sur les Big Data en oncologie sont présentés dans une revue "Le Big Data pour vaincre le cancer", qui sera envoyée à une revue à comité de lecture. Nous avons créée la page Big Data en oncologie afin de centraliser toutes les ressources sur ce sujet.

Nous avons également créée une visualisation dynamique en ligne pour centraliser tous les événements et publications liés aux "Big/Open" Data en oncologie.

L'utilisation des données des réseaux sociaux en santé et en recherche biomédicale

L'article "L’oiseau bleu a fait son nid en santé et en recherche biomédicale", publié par la porteuse du projet dans Les Echos - Le Cercle et disponible également en version plus longue sur le blogue d'Epidemium, discute l'utilisation des données des réseaux sociaux plus spécifiquement Twitter en santé et en recherche biomédicale.

Notre page "les Big Data dans le secteur pharmaceutique" décrit l'utilisation des Big Data en industrie et recherche pharmaceutique.

Les BioNLP

Les BioNLP, appelées également fouille du texte biomédical (Biomedical text mining) regroupent les approchent de fouille de texte appliquées aux textes biomédicaux. Il s'agit d'un domaine lié à l'informatique médicale, le traitement du langage naturel, la bioinformatique et le calcul linguistique. L'accumulation des publications scientifiques et les données génomiques et biologiques dans les bases de données a accéléré la recherche sur les approches BioNLP. Une des applications des approches BioNLP est la reconnaissance des entités nommées (named entity recognition) telles les gènes, les protéines et les médicaments. Une autre application des BioNLP est la classification des textes [9].

Notre page "BioNLP et Text Mining" sur le Wiki donne accès à plusieurs ressources sur ce domaine.

CONCEPTION ET PLANIFICATION DU PROJET

Afin de gérer le projet de manière optimale, nous avons découpé la conception et le développement du projet en modules ou "working packages" (WPs). Le projet est composé de cinq WPs ou modules connectés qui correspondent aux principales composantes et étapes du projet (Fig. 4). La tableau 1, ci-après, décrit de manière détaillée chacun de ces WP.

Tableau 1. Descriptions des WP du projet.

Working Package Objecif(s) Expertise requise
WP1 Ce WP vise à proposer une approche BioNLP pour

l'extraction de connaissances à partir des essais cliniques et la littérature scientifique en oncologie.

Text Mining

Natural Language Processus

BioNLP

Oncologie

Informatique

WP2 Ce WP a pour objectif de développer un module

pour l'analyse Big Data des réseaux sociaux. Nous focaliserons sur Twitter pour proposer des cas d'usage en oncologie.

Big Data

Analyse des réseaux sociaux

Twitter API

R

WP3 Ce WP focalise sur l'analyse des essais cliniques et l'identification des interactions médicamenteuses (drug-drug interactions). Le résultat de cette étape du projet sera intégré au WP4 et utilisé pour entraîner un algorithme d'apprentissage dans le cadre du WP5. Oncologie

Pharmacie

Pharmacogénétique

WP4 Ce WP est dédié à la conception et au développement d'une base de données pour centraliser toutes les ressources et résultats de chaque WP. Afin de faciliter l'utilisation ultérieure de cette ressource. Nous développerons également un environnement dynamique pour visualiser toutes les données et résultats du projet. Informatique

Oncologie

R/Bioconductor

WP5 Ce module constitue la composante principale du projet qui utilisera les modules développés en WP1 et WP2 pour la découverte de nouvelles connaissances en oncologie. Une librairie en langage R sera développée et compilé à la fin de WP. Machine Learning

Développement de package R


LES DONNÉES MASSIVES UTILISÉES DANS LE CADRE DU PROJET

Exploration des jeux de données ouverts (Open Data) fournis par Epidemium

Nous avons développé une série de scripts R (disponibles en ligne dans le répertoires Github de BD4Cancer) afin d'importer et d'explorer les données fournies par Epidemium qui seront utilisées dans ce projet. Après évaluation de la qualité de chaque jeu de données, une décision est prise pour inclure ou exclure le jeu de données. Si ce dernier est exclu, il est remplacé par un autre jeu de données, plus récent et de meilleure qualité.

Jeux de données (décision)

Script à utiliser

Description Nombre de fichiers,

éléments, études,..

Taille Format
Pubmed/open_articles

(à inclure)

BD4Cancer_ReadPMCdataset.R

Ce jeu de données contient la base de données complète des articles disponibles dans PMC en "Open Access". Le jeu de données est composé de quatre archives (tar.gz). Les articles n'ont pas été sélectionnés en utilisant des mots clés liés aux cancers. Ce jeu de données contient 3602 sous-répertoires qui correspondent aux différentes revues. Chaque sous-répertoire contient des fichiers XML. Le nombre total de fichiers dans ce jeu de données est égal à 359 945. 55.11 Go XML
Les essais cliniques obtenus

de ClinicalTrials.gov

(à remplacer*)

BD4Cancer_ReadClinicalTrialsdotGov.R

Ce jeu de données contient des essais cliniques (CT) dans plus de 190 pays qui sont enregistrés dans le registre américain des CT. Ce jeu de données contient 201 598 études (actuellement, il y a 208 867 études dans la base de données de ClinicalTrials.gov). Après filtrage des données, seulement 15 171 essais portent sur les différents types de cancer. 179 Mo CSV
Le jeu de données ClinicalStudyDataRequest(à remplacer*)

BD4Cancer_ClinicalStudyDataRequest.R

Ce jeu de données contient des essais cliniques obtenus du ClinicalStudyDataRequest. Ce dernier offre accès aux documents de description des CT, mais aussi à des données anonymes de patients. Ce jeu de données est de mauvaise qualité. 2.3 Mo XML
Le jeu de données ICTRP

(à inclure)

Ce jeu de données contient les essais cliniques enregistrés dans le registre de l'OMS

(WHO International Clinical Trials Registry Platform; ICTRP)

Ce jeu de données contient trois fichiers XML. 588 Mo XML

*Nous avons préféré exclure ce jeu de données et développer un script R afin d'interroger directement la base de données de ClinicalTrials.Gov.

Considérations méthodologiques

Les principaux problèmes identifiés dans le jeu de données "ClinicalTrialsdotGov", fourni par Epidemium sont:

a- Jeu de données incomplet

Le jeu de données fourni par Epidemium contient 201 598 études. Après filtrage, seulement 15 171 essais portent sur le cancer (nos analyses ont identifiées 50 000 études sur le cancer dans ClinicalTrials.Gov).

b- Manque d’homogénéité dans la nomination des maladies (la colonne "Conditions")

Par exemple, les études qui portent sur le cancer du poumon à petites cellules ne sont pas toutes codées de la même manière. La simple présence d'un "-" ou l'utilisation d'une majuscule suffit pour créer quatre identifiants différents pour la même maladie.

  • "Non-small Cell Lung Cancer"   (n=290)
  • "Non-Small Cell Lung Cancer" (n= 259)
  • "Non Small Cell Lung Cancer" (n=225)
  • "Carcinoma, Non-Small-Cell Lung" (n=226)

c- Données manquantes

La colonne "Gender" qui permet de classer les essais cliniques selon le sexe des sujets inclus dans chaque étude, indique que sur les 201 598 études qui ont été conduites, 170 910 ont inclut aussi bien des femmes que des hommes, 10466 sur les hommes, 19423  sur les femmes seulement. Cependant, pour 799 études l'information sur le sexe des sujets n'est pas disponible.

Both : 170910 Female : 19423  Male : 10466    null : 799

Nous envisageons de prendre en compte cette anomalie lors des analyses, par exemple, il est possible d'utiliser la partie "description de l'essai clinique" ou la publication correspondante à cet essai pour extraire les données manquantes (le sexe des sujets).

d- Type de l'étude

En plus de leur classification en fonction de la phase de l'essai (phases 1-4; Fig. 4), les études sont classées selon leur type:

Les phases des essais cliniques
Fig.4 Les phases des essais cliniques. Ce schéma montre qu'après l'autorisation de mise sur le marché (AMM) d'un médicament, des études cliniques se poursuivent tout au long de sa commercialisation. Les essais dits de Phase IV ont pour objectifs de repérer d'éventuels effets indésirables (pharmacovigilance), préciser les conditions d'utilisation pour certains groupes de patients à risques, identifier des interactions médicamenteuses,..Des ressources informatiques ont été crées pour centraliser les essais cliniques. Le registre des essais cliniques de l'OMS, le ClinicalTrials.Gov, le registre européen des essais cliniques sont des exemples de ces ressources.
  • études interventionnelles qui évaluent les effets d’une intervention auprès du malade. Cette catégorie inclut les interventions de type "drug","biologic", "Vaccine","behavrioal","surgical procedure","device","other". Le site Web de l'Agence américaine des produits alimentaires et médicamenteux (FDA) liste toutes les catégories.
  • études observationnelles (ou études non-interventionnelles) qui permettent de suivre les malades, sans intervenir, afin de mieux comprendre et décrire la maladie, l'âge moyen de son apparition,.. une définition de cette catégorie plus détaillée est disponible sur cette page du site Web du FDA.
  • étude cliniques pour un usage compassionnel (essais cliniques à accès élargi) : Ce sont les études appelées "Expanded access", ou “compassionate use" qui permettent aux fabricants de nouveaux médicaments expérimentaux de traiter un patient avec une maladie grave ou un état qui ne lui permet pas de participer à un essai clinique.

Les paramètres à prendre en considération:

  • Une étude peut inclure plusieurs interventions. Le résultat de cette situation est que ce type d'études peut être comptée plus d'une fois dans le registre.
  • Le manque de certaines colonnes dans le jeux de données fourni par Epidemium ne permet pas d'avoir toutes les informations sur un essai.

ClinicalTrials.Gov fournit un document intéressant (Points to Consider Document) qui discute les différentes anomalies qui peuvent influencer les résultats des analyses.

Collecte des données nécessaires pour le projet

Dans cette section, nous décrivons l'approche que nous avons suivi pour collecter des données nécessaires pour le projet.

1- Données des essais cliniques

Ces données incluent:

a- Les essais cliniques enregistrés dans ClinicalTrials.gov

Clinicaltrials.Gov est un service du NIH qui offre un accès à un registre et une base de données de résultats des essais cliniques sur des sujets humains[10]. Crée en février 2000, Clinicaltrials.Gov représente le plus large registre des essais cliniques dans le monde. Il n'est pas limité seulement aux USA, mais inclut des études conduites dans 192 pays (20 février 2016). Le registre inclut 58 509 études européennes, la France occupe la deuxième position, après l'Allemagne, avec 13 791 essais cliniques enregistrés. En septembre 2008, Clinicaltrials.Gov a crée sa base de données pour les résultats des essais cliniques. Sur les 208 867 essais cliniques enregistrés, 20 191 études ont déposé leurs résultats dans cette base de données. Ce chiffre est en augmentation, notamment qu'en 2005, les recommandations de l'International Committee of Medical Journal Editors (ICMJE), ont exigés l'enregistrement de l'essai clinique afin que la publication portant sur cet essai puisse être accepté par un éditeur. Un article intéressant de Zarin et Keselman [11] a discuté l'intérêt de l'enregistrement des essais cliniques, notamment pour le respect de l'éthique. Notre exploitation aujourd'hui de ce registre est, sans doute, un des grands intérêts d'avoir de telles ressources.

Fig. 5 Le Workflow de l'extraction des essais cliniques à partir de ClinicalTrials.Gov.

En plus d'une interface Web pour effectuer des recherches dans ce registre et une page sur les statistiques et la distribution géographique des études, Clinicaltrials.gov offre la possibilité de télécharger l’intégralité des données dans le format XML ou dans trois formats de bases de données relationnelles qui ont été formatées par le Clinical Trials Transformation Initiative (CTTI), un partenariat académie-industrie qui travaille sur l’agrégation et la structuration des essais cliniques enregistrés dans ClinicalTrials.Org (Database for Aggregate Analysis of ClinicalTrials.gov (AACT).

.Afin de générer un jeu de données complet de toutes les études sur les différents cancers, nous avons préféré une troisième approche qui consiste à utiliser l'API de ClinicalTrials.gov (Fig. 5) Nous avons ainsi généré un jeux de données composé de 53 564 essais cliniques sur le cancer. Les scripts R que nous avons développé pour cette étape du projet ont été déposés dans notre répertoire sur Github.

b- Les essais cliniques disponibles au registre de l'OMS

L'OMS dispose d'un registre appelé "WHO International Clinical Trials Registry Platform" (ICTRP) qui regroupe un grand nombre d'essais cliniques. Epidemium a fourni un jeu de données ICRTP que nous utilisons dans le cadre de ce projet.

c- Les essais cliniques européens.

En 2011, L’agence européenne du médicament – EMA, European Medicines Agency, en anglais – a mis en ligne en accès ouvert le Registre européen des essais cliniques (EU Clinical Trials Register). Ce registre contient 27 408 essais cliniques (statistique du 15 février 2016). L'EMA a lancé également la base de données EudraCT (the European Clinical Trials Database) qui respecte la directive européenne Directive 2001/20/EC du Parlement européen et du Conseil du 4 avril 2001 concernant le rapprochement des dispositions législatives, réglementaires et administratives des États membres relatives à l'application de bonnes pratiques cliniques dans la conduite d'essais cliniques de médicaments à usage humain

Après examen des relations entre les différents registres, nous avons trouvé que le registre européen fait partie du réseau du registres de l'OMS (WHO Registry Network). Afin d'éviter de travailler sur des essais cliniques redondants, nous avons décidé d’exclure cette source des CT.

d- Les essais cliniques français.

En France, L’Agence nationale de sécurité du médicament et des produits de santé (ANSM) fournit un répertoire des registres d'essais cliniques sur certaines maladies dont le Registre des Essais Cliniques en Cancérologie à l'Institut National du Cancer (INCa). La durée de six mois du Challenge4Cancer ne nous permet pas de prendre en compte plusieurs langues. Nos développements seront limités dans un premier temps à la langue anglaise. Les essais cliniques accessibles à l'INCas ne seront pas considérés. cependant, un grand nombre des essais cliniques français sont inclus dans les registres ICRTP et ClinicalTrials.Gov, décris ci-dessus..

2- Littérature scientifique en oncologie

Après obtention d'une licence données, l'équipe du National Library of Medicine (NLM) nous a données accès FTP à l'intégralité du contenu de la base de données Pubmed. Nous avons également développé une série de script qui d'utilise l'API ENTREZ, le système global de recherches inter-bases de données, qui inclut Pubmed et 31 autres bases de données.

3- Données sur la fraude scientifique en oncologie.
La porteuse du projet est aussi fondatrice de la plateforme Ethics and Integrity qui inclut une base de données (RIDB) sur les différentes formes de fraudes scientifiques. Un sous ensemble de ces données qui portent sur les cancers a été utilisé dans le cadre de ce projet afin d'éliminer les études rétractées ou qui ont été publiées par des auteurs connus pour des cas de fraudes scientifiques. Les données de l'Office Américain pour l’intégrité Scientifique (the Office of Research Integrity; ORI), ainsi que celles de Retraction Watch, ont également été exploitées. Les publications des personnes tels que Joachim Boldt (90 cas de fraudes) et Anil Potti (plus de dix études frauduleuses) ne sont pas incluses dans les analyses.
Most Cancer Research Is Largely A Fraud” - Linus Pauling, two time Nobel Prize winner in chemistry (1901-1994)
4- Données Twitter

Nous collectons actuellement un jeu de données composé d'un grand nombre de Tweets qui portent sur les différents cancers ou qui contiennent une citation des médicaments anti-cancers. Nous avons développé des fonctions R qui utilisent l'API Twitter.

Nous avons pris contact avec l'équipe de Twitter (Adam Nowlin) afin de discuter des droits d'utilisation des données et possibilité d'avoir un grand jeu de données des tweets depuis 2006 (date de lancement de Twitter). Ils ont refusé de nous fournir gratuitement un jeu de données pour le projet. En effet, Twitter a racheté en 2015 la société GNIP (spécialisée dans la vente des données Twitter) et facture désormais l'accès aux données historiques de Twitter. L'interface http://gnipinc.formstack.com/forms/hpt_adam nous a été fournie par Twitter pour exprimer nos besoins. Nous avons donc décidé de collecter nous même des données pour le projet. Cette démarche a été approuvée par Twitter en utilisant ce formulaire. Les règles d'utilisation de Twitter ne nous autorisent pas à distribuer les données brutes.

Nous avons également obtenu un corpus de tweets sur 74 médicaments annoté par une équipe de l'Arizona State University. Ce corpus est décrit dans [O'Connor, 2014][12].

5- Données gène-cancer

Nous collectons tous les gènes associés aux différents cancers qui ont été identifiés par des études omiques ou avant 2005 à l'aide des approches gène-candidat. Les résultats des études d'association pan-génomique (Genome Wide Association Studies, GWAS), le séquençage de l'Exome (toutes les parties codantes de l'ADN) et les résultats de séquençage haut débit de l'ADN (NGS ou également WGS pour Whole-Genome Sequencing) ont été collectés. Nous avons également utilisé des bases de données existantes telles que DDPC (Dragon Database of Genes associated with Prostate Cancer). L'analyse automatique de la littérature en oncologie nous permettra d'identifier d'autres gènes à l'aide des approches de reconnaissance des entités nommées (named entity recognition).

6- Données sur les médicaments anti cancers

Geoffrey Humbert, pharmacien et membre de ce projet a collecté une liste de 413 médicaments anti-cancers qui a été annotée et comparée avec le contenu de bases de données sur les médicaments. Nous avons également utilisé OpenFDA, un projet et une API pour utilisation des données publiques partagées par la FDA (Agence américaine des produits alimentaires et médicamenteux), et d'autres bases de données sur les médicaments.

Standardisation et normalisation des données

La standardisation décrite ici ne porte pas sur les formats des fichiers ou la standardisation telle qu'elle est connue en statistiques mais plutôt sur le processus du respect des normes et des standards pour le codage et la nomination des noms d'entités (gène, maladie, médicament,..). L'OCDE définit la standardisation par "Le processus de parvenir à un accord sur les définitions communes des données, les formats, la représentation et les structures de toutes les couches de données et éléments". La standardisation est un processus important pour le partage, l'intégration et l'interprétation des données. Beaucoup de problèmes d'intégration des bases de données dans le domaine des sciences de la vie résultent d'un manque de standardisation.

Pour chaque type de données collectée dans le cadre de ce projet, nous avons appliqué les standardisations requises:

  • Les noms de maladies: La classification statistique internationale des maladies et des problèmes de santé connexes (CIM, en anglais : International Statistical Classification of Diseases and Related Health Problems, ICD) a été utilisée dans le cadre de ce projet afin de coder les maladies. La CIM est gérée par l’OMS, la version actuelle utilisée est la CIM-10 (la CIM-11 doit être soumise à l'Assemblée mondiale de la santé dès mai 2018. La version bêta a été soumise au public dès mai 2012). Pour l'oncologie, il existe, depuis 1076, une classification internationale appelé ICD-O (International Classification of Diseases for Oncology). La version ICD-O-3 a été publiée en 2011 et approuvé en 2011 par WHO/IARC Committee, un comité de l'OMS et du Centre Internationale de Recherche sur le Cancer (IARC). Afin de comprendre la différence entre la CIM et la classification ICD-O, nous avons sollicité le Centre Internationale de Recherche sur le Cancer pour nous fournir des explications. ICD-0 est une classification internationale mais l'Institut Américain du Cancer écrit sur son site que cette classification n'est pas compatible avec la classification utilisée aux USA. l'IARC nous a fournis les explications, présentées dans ce document en ligne qui expliquent également la correspondance entre l'ICD-O et la nomenclature SNOMED (Systematized Nomenclature of Medecine), ce qui permettrait d'éviter un double codage.
  • Les noms des médicaments: L'OMS a mis en place une initiative de normalisation de la nomenclature des médicaments et a publié des dénominations communes internationales (DCI) pour plus de 6000 produits pharmaceutiques. Chaque DCI est une appellation unique reconnue au niveau mondial et distincte de tout nom de produit commercial. La directive européenne 92/27/CEE recommande l’usage des DCI pour l’ensemble des pays de l’Union européenne.
  • Les noms des gènes: Pour chaque gène humain connu, le Comité 'HUGO' (HUman Genome Organisation) de Nomenclature du Gène (HGNC) approuve un nom unique. En plus d'un nom long, le HGNC attribue également une abréviation (appelée symbole ou Gene Symbol) à chaque gène. Ces gènes ont également des codes uniques dans les bases de données des gènes telles que Entrez Gene (Gene ID) et Ensembl (Ensembl ID). Nous avons obtenus du HGNC la liste complètes des noms de gènes avec les alias (d'autres nom connus pour chaque gène). L'existence de ces alias (ou synonymes) nous oblige à prendre cette information en considération lors de nos analyses et de l'extraction des données.

Aspects réglementaires et éthiques à prendre en considération

  1. Nomenclature des médicaments : La directive 92/27/CEE du 30 avril 1992 recommande l’usage des dénominations communes internationales (DCI) pour l’ensemble des pays de l’Union européenne. En France, selon la loi n° 2011-2012 du 29 décembre 2011, Il est obligatoire depuis le pour les logiciels de prescription médicale de donner les noms en DCI (les médecins généralistes sont tenus, depuis le de rédiger 25% des lignes de leurs prescriptions en DCI).
  2. Traitement des données à caractère personnel. Les traitements de données de santé à caractère personnel doivent être réalisés dans le respect des dispositions de la loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés.
  3. Obtention d'une licence pour exploiter les données Pubmed: Utilisation d'une grande quantité de données extraites de Pubmed nécessite une licence (gratuite mais obligatoire). Après échange avec l'équipe du U. S. National Library of Medicine (NLM), une procédure d'obtention d'une licence "LICENSE AGREEMENT FOR NLM DATA" a été lancée par la porteuse du projet le 18 février 2016 qu'elle lui a été accordée rapidement. Les termes de cette licences sont décrite dans ce document reçu de NLM.
  4. Utilisation des données Twitter : L'utilisation des données des réseaux sociaux est aujourd'hui un des sujet de débats éthiques et juridiques. Trois principes éthiques devraient être respectés: le consentement des utilisateurs, l'anonymisation et éviter que l'exploitation des données des internautes leur porte préjudice. L'obtention d'un consentement est difficile vu le nombre de Tweets que nous analysons. Cependant, nous garantissons l'anonymisation des données en protégeant l'identité des auteurs des tweets. Un avis sur ce sujet a été demandé au comité d'éthique du projet Epidemium.
  5. Effets indésirables des médicaments: Lors de la présentation du 12 mars 2016, deux questions ont été discutées avec les membres des comité d'éthique du projet Epidemium. Me David Simhon a soulevé la question de la classification des effets indisérables du point de vue juridique. Afin de prendre en considération cette remaque pertinente, nous avons pris contact avec le département de pharmacovigilance de l'Agence Nationale de Sécurité du Médicament et des Produits de Santé (ANSM).
  6. Ce dernier nous a expliqué que l'Agence utilise la classification de l'OMS. Le BD4Cancer ne vise pas à évaluer les risques mais son rôle se limite à l'identification. Le second point concerne le signalement et la publication des effets indésirables qui seront identifiés dans le cadre de projet. Ce point a été soulevé par le Pr Bernard Nordlinger. Nous avons également discuté ce point avec l'ANSM et examiné le texte de la Loi n° 2011-2012 du 29 décembre 2011 relative au renforcement de la sécurité sanitaire du médicament et des produits de santé.

DÉVELOPPEMENT DU PROJET

Working package 1 : Développement d'un module BioNLP pour la classification et la fouille de la littérature médicale en Oncologie.

Ce module est composé des étapes suivantes:

Étape 1: Exploration de la littérature scientifique en oncologie en utilisant Entrez Programming Utilities (E-utilities)
Fig.6 Évolution des publications scientifiques dans PubMed pour les cancers les plus fréquents. (1996-2016). Analyse effectuée le 8 février 2016.

Le National Center for Biotechnology Information (NCBI; le Centre américain pour les informations biotechnologiques) développe et héberge un grand nombre de bases de données biologiques, génétiques et bibliographiques. Il offre un système global de recherches inter-bases de données appelé Entrez.(en anglais Entrez Global Query Cross-Database Search System). NCBI offre également plusieurs APIs qui permettent d'accéder aux différentes bases de données et outils dont Entrez Programming Utilities (E-utilities). Cette dernière constitue une API publique pour accéder à toutes les bases de données Entrez, telles que PubMed, PMC, OMIM et Gene.

Nous avons développé une série de scripts R qui utilisent cette API pour explorer et extraire la littérature scientifiques sur les différents types de cancers. L'analyse ce ces publications a montré que le nombre d'articles publiés par année augmente pour tous les cancers. Le nombre d'articles dans PubMed sur les cancers a dépassé les 3 millions. Le 30 avril 2016, le nombre total des publications sur les cancers est égal à 3 288 384 (lors de notre première analyse du 8 février 2016, ce chiffre était 3 246 260). La figure 6 montre l'évolution des publications scientifiques pour les cancers les plus fréquents depuis 1996 (date de création de la base de données PubMed) jusqu'à 2015 (les publications de 2016 ont été ignorées lors de la création de cette représentation graphique). Comme le montre la Figure 6, le cancer du sein (Breast Cancer sur la Figure), le premier cancer chez la femme en France et dans le monde, a fait l'objet du plus grand nombre de publications. A partir de 2004, le nombre d'article sur ce cancer a dépassé 10 000 publications. La ligne rouge (Cancer sur la Figure) qui dépasse 100 000 articles à partir de 2007 correspond à toutes les publications quelque soit le type du cancer.

Nous recommandons aux utilisateurs de l'API Entrez et de la base de données Pubmed de combiner plusieurs mots clés afin d'éviter les erreurs de codages des données. Par exemple, la table ci-après illustre le nombre d'article extraits de Pubmed en fonction du mot clé.

Mot clé Nombre d'articles
Cancer 3 288 384
Cancers 2 839 184
Neoplasm 2 837 056
Neoplasms 2 799 641
Oncology 2 927 202

Etape 2: Filtrage des publications en fonction de la langue

Nous avons dans un premier utilisé l'API Entrez pour extraire tous les champs qui peuvent être utilisés pour la recherche dans la base de données PubMed. La fonction R entrez_db_searchable("pubmed") permet d'extraire la liste présentée, ci-après, qui inclut notamment la langue (LANG), le type de publication qui nous permettra de classifier les publications (résultats, revue,..) ou également identifier celles qui ont été rétractées et aussi le MeSH (Medical Subject Heading).

 ALL    All terms from all searchable fields 
 UID    Unique number assigned to publication 
 FILT   Limits the records 
 TITL   Words in title of publication 
 WORD   Free text associated with publication 
 MESH   Medical Subject Headings assigned to publication 
 MAJR   MeSH terms of major importance to publication 
 AUTH   Author(s) of publication 
 JOUR   Journal abbreviation of publication 
 AFFL   Author's institutional affiliation and address 
 ECNO   EC number for enzyme or CAS registry number 
 SUBS   CAS chemical name or MEDLINE Substance Name 
 PDAT   Date of publication 
 EDAT   Date publication first accessible through Entrez 
 VOL    Volume number of publication 
 PAGE   Page number(s) of publication 
 PTYP   Type of publication (e.g., review) 
 LANG   Language of publication 
 ISS    Issue number of publication 
 SUBH   Additional specificity for MeSH term 
 SI     Cross-reference from publication to other databases 
 MHDA   Date publication was indexed with MeSH terms 
 TIAB   Free text associated with Abstract/Title 
 OTRM   Other terms associated with publication 
 INVR   Investigator 
 COLN   Corporate Author of publication 
 CNTY   Country of publication 
 PAPX   MeSH pharmacological action pre-explosions 
 GRNT   NIH Grant Numbers 
 MDAT   Date of last modification 
 CDAT   Date of completion 
 PID    Publisher ID 
 FAUT   First Author of publication 
 FULL   Full Author Name(s) of publication 
 FINV   Full name of investigator 
 TT     Words in transliterated title of publication 
 LAUT   Last Author of publication 
 PPDT   Date of print publication 
 EPDT   Date of Electronic publication 
 LID    ELocation ID 
 CRDT   Date publication first accessible through Entrez 
 BOOK   ID of the book that contains the document 
 ED     Section's Editor 
 ISBN   ISBN 
 PUBN   Publisher's name </code>

Etape 3: Filtrage des publications pour retirer les rétractations et les articles d'auteurs frauduleux

Cette étape vise à développer une procédure automatique pour éliminer tous les articles qui ont été rétractés, et ignorer les publications des auteurs connus pour des problèmes de fraude scientifique tel que Anil Potti, dont la falsification des données lors de ses travaux de recherche sur le cancer à Duke University a conduit les revues scientifiques à rétracter plus de dix publications.

Étape 4: Développer une procédure pour la classification automatique des publications

L'objectif de cette phase est de pouvoir catégoriser de manière automatique les publications en fonctions d'un certain nombre de paramètres dont le type du cancer ou aussi les médicaments anti-cancer. Nous avons appliqué en parallèle dans R neuf algorithmes de Machine Learning (Random Forests (RF), Bagging, SVM, glmnet, boosting , maximum entropy, scaled linear discriminant analysis (slda), neural networks (nnet), classification or regression tree (TREE).

SVM        <- train_model(containerOnco,"SVM")
GLMNET     <- train_model(containerOnco,"GLMNET")
MAXENT     <- train_model(containerOnco,"MAXENT")
SLDA       <- train_model(containerOnco,"SLDA")
BOOSTING   <- train_model(containerOnco,"BOOSTING")
BAGGING    <- train_model(containerOnco,"BAGGING")
RF         <- train_model(containerOnco,"RF")
NNET       <- train_model(containerOnco,"NNET")
TREE       <- train_model(containerOnco,"TREE")

Étape 5: Développement d'un module BioNLP pour l'analyse automatique de la littérature scientifique en oncologie et des essais cliniques

Cette étape inclut la création d'un corpus à partir des articles ou abstracts PubMed, une phase de pré-traitement, le calcul d'une matrice de termes Document Term Matrix; DTM), le calcul de la fréquence de chaque terme (word frequency), les relations et les corrélations entre les termes.

Le prétraitement vise à préparer le texte pour l'analyse ; cette étape inclut :

  • enlever les ponctuations
  • suppression des espaces
  • suppression des caractères spéciaux
  • suppression des chiffres
  • conversion du texte en minuscule
  • suppression des mots sans intérêt et les mots d'arrêt.
  • suppression de certains mots
  • combinaison des mots qui devraient rester ensemble, par exemple "breast cancer"
  • suppression des espaces créés par les prétraitements précédents
  • ...

Une fois ces étapes appliqués, une matrice de termes (Document Matrix Terms) est calculée

<<DocumentTermMatrix (documents: 10, terms: 621)>>
Non-/sparse entries: 983/5227
Sparsity           : 84%
Maximal term length: 26
Weighting          : term frequency (tf)

Les fréquences des termes pourront être explorées:

freq
  1   2   3   4   5   6   7   9  10  11  12  13  14  16  17  19  22  34 
396 108  47  15  12   8  11   3   4   2   3   2   1   4   2   1   1   1

Les termes les plus fréquents peuvent être identifiés. La figure 7 montre la fréquence de chaque terme identifié par le text mining. Le figure 8 présente une visualisation de ces termes en "nuage de mot" (word cloud).

Fig. 7 Clustering des termes identifiés par la fouille de texte.
Fig. 8 Le nuage des mots (Word Cloud) identifiés par l'analyse.
Working package 2 : Développement d'un module pour l'analyse Big Data des réseaux sociaux.

Ce développement sera limité au réseau Twitter. Les questions auxquelles nous essayerons de répondre sont:

  1. Peut-on utiliser les données twitter pour identifier des effets indésirables des médicaments anti-cancers.
  2. Quels sont les acteurs qui tweetent sur le cancer.

Ce WP est composé des étapes suivantes:

Étape 1: Comprendre l'utilisation des données Twitter en santé et recherche biomédicale.

Une étude bibliographiqiue est menée afin de comprendre l'utilisation des données Twitter en oncologie et en recherche biomédicale, notamment sur le cancer. Le résultat de cette étude, qui se focalise notamment sur les aspects méthodologiques pour l'utilisation des données Twitter, est présenté dans l'article "L'oiseau bleu pour la pharmacovigilance et la recherche biomédicale"

Étape 2: Création d'une API Twitter et collecte de données

Après avoir créé des comptes pour le projet BD4Cancer sur quelques réseaux sociaux, nous avons créé et configuré une API Twitter afin d’utiliser l'interface de programmation de Twitter pour collecter les tweets. A cette phase du projet. Les tweets sont collectés sans restriction sur la langue, mais les tweets en anglais seront analysés dans le cadre de projet (nous envisageons d'analyser après le 5 mai les tweets en français et en allemand).

Cette étape est suivie de:

Étape 3: Développement du module R pour l'analyse Big Data du réseau Twitter

Étape 4: Test et applications à l'oncologie

Étape 5: Construction d'un corpus de tweets sur les médicaments anti-cancers

Working package 3: Analyse des essais cliniques

Analyse des essais cliniques et développement d'un module pour l'identification des relations: gène-maladie, gène-gène, gène-médicament, et médicament-médicament pour les utiliser dans l'identification de nouvelles interactions médicamenteuses.

Working package 4: Conception et développement d'une base de données pour le projet.

Étape 1: Conception d'une base de données pour le projet.

Nous avons conçu une base de données de type relationnelle afin de centraliser toutes les données et ressources liées au projet BD4Cancer. Nous avons utilisé l'outil MySQL Workbench qui permet de modéliser les données et de construire le modèle de la base de données. MySQL Workbench (version actuelle: 6.3) est un logiciel open source qui offre plusieurs fonctionnalités dont la validation du modèle de base de données et des fonctionnalités de migration.

Pour développer la base de données, nous avons opté pour un serveur MySQL et une base de données embarquée SQLite, une libraire écrite en langage C qui propose un moteur de base de données relationnelles embarquées qui s’intègre facilement dans R et dans d'autres environnements.

Afin de pouvoir intégrer la base de données BD4CancerDB dans R, nous utilisons la librairie RMySQL combinée à quelques fonctions des librairies DBI et sqldf.

Les scripts développés dans le cadre des WP1 et WP2 sont utilisés pour extraire toutes les informations sur le cancer. Nous ne limitons pas à un cancer particulier. Les informations collectées seront centralisées dans la base de données BD4CancerDB (WP4).

La porteuse du projet est aussi fondatrice de deux plateformes pour la médecine de précision et les Big Data qui incluent deux bases de données qui ne sont pas encore publiquement accessibles. Nous avons interrogé ces deux bases de données afin d'extraire toutes les informations sur les Big Data en oncologie.

Working package 5: Développement d'une librairie en langage R pour le Big Data en onologie

Nous avons conçu et un paquetage logiciel en langage R appelé RBD4Cancer. Cette phase est décrite de manière détaillée sur cette page.

RÉSULTATS

Cette section décrit les résultats du projet BD4Cancer. Les visualisations dynamiques ou applications en ligne sont accessibles sur le serveur de BD4Cancer en utilisant les liens fournis, ci-après. Avant de présenter les résultats de chaque étape, nous donnons, ci-après, l'architecture globale de la solution proposée.

Architecture globale de la solution proposée

Fig 9. Architecture globale de la solution proposée dans le cadre du projet BD4Cancer.

Le projet BD4Cancer est composé de:

1- une librairie en langage R, composée essentiellement de deux modules:

a- un module BioNLP pour l'analyse des essais cliniques et des publications scientifiques en oncologie. Ce module inclut des fonctionnalités pour la connexion et l'utilisation des API de Entrez, ClinicalTrials.Gov et OpenFDA.

b- un module de collecte, prétraitement, analyse et visualisation des données Twitter. La librairie (non encore compilée en package) est disponible sur notre répertoire Github. Elle sera également distribuée sur le CRAN de R (la plateforme de distribution des librairies R).

2- Une base de données relationnelle (MySQL) avec tous les résultats des analyses et de la modélisation des données (les différents types de cancer, statistiques des cancers par pays, facteurs de risque, relation cancer/facteurs de risque, médicaments anti-cancers, effets secondaires, effets indésirables,..) et beaucoup d'autres ressources (registres cancer, bases de données externes, données ouvertes, projets cancer,..). Cette base de données BD4CancerDB a donné naissance à une base de données globale pour tout le Challenge4Cancer appelée EpidemiumDB (la présentation du 7 avril donnée par la porteuse du projet au Meetup d'Epidemium décrit l'architecture de cette base de données) .

EpidemiumDB (http://wiki.epidemium.cc/wiki/EpidemiumDB) est destinée à intégrer les résultats de tous les projets. BD4Cancer et le projet Baseline l'utilisent. Les autres projets envisagent de rejoindre cette initiative et de déposer leurs données dans cette base commune.

3- Une application, oncoVigil, hébergée en ligne pour la pharmacovigilance en temps réel (limitée aux médicaments anti-cancer dans sa version actuelle). Cette application est décrite de manière détaillée ci-après. Les effets indésirables identifiés seront distribués dans une base de données dédiée appelée oncoADR.KB (Oncology - Adverse Drug Reactions Knowledge Base).

4- Un serveur Web/Base de données (http://bd4cancer.tbiscientific.com) a été développé dans le cadre de ce projet pour visualiser les résultats.

Enfin, pour quelques visualisations dynamiques, elles ont été publiées sur le serveur public RPub.

Fig 10. Evolution du nombre de publications par type de cancer 1818-2016).

Analyse de la littérature scientifique en oncologie

Plus de 3 millions d'articles scientifiques en oncologie ont été analysés dans le cadre de ce projet. Nous avons développé:

a- une procédure de catégorisation automatique des publications par du type de cancer ou en fonction d'un autre critère de catégorisation (médicament, gène,..).

b- Un module BioNLP pour l'analyse de la littérature scientifique en oncologie afin d’extraire les relations gène-maladie (type de cancer), gène-médicament et médicament-médicament.

c- une procédure pour exclure les articles rétractés ou présentant des problèmes de fraudes scientifiques.

Pour la visualisation des résultats, nous avons déployé notre solution pour les 20 cancers les plus fréquents chez l'homme et la femme (données incidences cancer du rapport 2015 de l'INCa). Les résultats sont accessibles sur notre serveur http://bd4cancer.tbiscientific.com/db/publication.html

La figure 10 montre la distribution du nombre de publications par type de cancer depuis 1818 (date de publication du premier article sur le cancer). L’utilisateur pourra ensuite choisir un type de cancer pour visualiser une table des publications (Fig. 11) générée de manière dynamique à partir de notre base de données (http://bd4cancer.tbiscientific.com/db/publicationPC.php).

Fig 11. Publications par type de cancer.

Tous les types de cancers (Fig. 12), ainsi que leurs facteurs de risque (http://bd4cancer.tbiscientific.com/db/cancerRiskFactors.php) ont été modélisés (Fig. 13) et standardisés dans le cadre de ce projet (le standard ICD-10 version 2015 a été utilisé pour la classification des cancers).

Résultats: http://bd4cancer.tbiscientific.com/viz/cancerViz.html

Fig. 12 Visualisation, à l'aide d'un arbre dynamique, des différents types de cancers et leur classification ICD-10.
Fig. 13 Facteurs de risque pour les différents cancer catégorisés en groupe (facteurs non-modifiables, hormonaux, agents toxiques,..)

Fouille des données Twitter (Twitter Mining)

Nous avons effectué dans un premier temps une fouille générale de Twitter afin d’identifier les acteurs (stakeholders) qui publient sur les différents cancers. Nous avons ensuite focalisé sur les médicaments anti-cancers.

Identifications des acteurs

Afin d'éviter de constituer des listes à caractère personnel dans notre base de données (une procédure qui nécessite une déclaration préalable au niveau de la CNIL), nous avons opté pour la fonctorialité listes de Twitter.

Nous avons constitué des listes des acteurs par catégorie. Pour chaque liste, nous avons créé une "Widget" dont le code a été inséré dans nos pages HTML afin de suivre en temps réel les Tweets de ces acteurs (résultat: http://bd4cancer.tbiscientific.com/stakeholders.html).

Fig 14. Les acteurs du cancer identifiés par analyse de Twitter.

Identifications de tous les articles qui portent sur les méga données et les données ouvertes en santé et en oncologie

Nous avons développé cette représentation en "Timeline" dynamique (http://bd4cancer.tbiscientific.com/viz/BigDataTimeline.html) pour visualiser toutes ressources identifiées par notre "Twitter Mining" (Fig. 15).

Fig. 15 "Timeline" dynamique des ressources pour les "Big/Open data" en oncologie.

Analyse de Twitter pour l'identification des ADR

Les médicaments analysés sont présentés dans cette table (http://bd4cancer.tbiscientific.com/db/anticancerDrugs.php). Notre analyse des essais cliniques nous a permis d'identifier ces médicaments. Pour chaque médicament, nous avons inclus les différents noms et synonymes. Le NCI Drug Dictionnary et d'autres bases de données que nous avons collecté dans le cadre de ce projet (http://bd4cancer.tbiscientific.com/db/drugDBs.php), ainsi que la plateforme OpenFDA ont été utilisés pour annoter manuellement notre liste de médicaments composée de 166 noms de médicaments.

DrugList  <- c("Rituximab","Rituxan","Mabthera","Trastuzumab","Herceptin",
"Zelboraf","Vemurafenib","Capecitabine","Xeloda","Interferon alfa-2a","Erlotinib,..)

length(DrugList)
[1] 166
length(unique(DrugList))
166
DrugList[duplicated(DrugList)]
character(0)

Pour chaque médicament, une analyse détaillée (identification des tweets qui mentionnent ce médicament, traitement de texte, calcul de la matrice des termes, le nuage des mots, clustering,.. ) a été effectuée dans R. Le réseau des tweets pour chaque médicament est très complexe. Nous présentons ici l'exemple du Rituximab. La visualisation dynamique en ligne est accessible sur cette page.

Fig. 16 réseau des Tweets qui mentionnent le médicaments anti-cancer Rituximab.

Déploiement de l'application OncoVigil pour la pharmacovigilance en temps réel

Une version alpha de notre application OncoVigil a été déployée sur Shinyapps, une plateforme PaaS (Platform-as-a-Service) qui permet d'héberger des applications R sur le Web en utilisant la librairie Shiny. L'architecture et le mode de déploiement de l'application sont décrits sur la figure 17. L'application est composée de deux parties (ou deux fichiers de code R (ui.R et server.R) qui sont développés en local, ensuite déployés sur le serveur R Studio, après une étape authentification. La fonction R deployApp() est utilisée pour déployer OncoVigil. Cette dernière peut être arrêtée, archivée ou supprimée directement sur le serveur. Pour tester OncoVigil, il suffit de cliquer sur ce lien https://bd4cancer.shinyapps.io/oncoVigil (l'application est arrêtée de 16h à 9h afin d'économiser le temps de calcul).

library(rsconnect)
rsconnect::deployApp('<path>:/oncoVigil')

Les Tweets collectés sur le coté clients sont stockés dans une base de données MongoDB en utilisant l'interface R mongolite.

Fig. 17 Architecture et mode de déploiement de notre application OncoVigil.

Après optimisation, OncoVigil sera déployée en machine virtuelle sur le Cloud (sur Orange Cloud for Business, collaborateurs de la porteuse du projet) afin de garantir sa disponibilité 7j/7 et 24H/24h. Le code de l'application est distribué sur notre répertoire Github.

DISCUSSION - Scénarios d'utilisation de BD4Cancer et impact sur la santé des patients

Les effets indésirables des médicaments (ADR) représentent une véritable préoccupation de santé publique (5% des admissions hospitalières et un coût de 79 milliards d'euros en Europe). Il est reconnu aujourd'hui que certains ADR sont des facteurs de risque pour certains cancers. En France, L'étude EMIR (Effets indésirables des Médicaments : Incidence et Risque), menée en 2007 par le réseau des Centres régionaux de pharmacovigilance (CRPV), a montré que « 3,60 % des hospitalisations étaient dues à des effets indésirables de médicaments » et que « le nombre annuel d’hospitalisations dues à des effets indésirables de médicaments en France peut être estimé à 143 915 et le nombre de journées d’hospitalisation à 1 480 885 ». Les systèmes de pharmacovigilances actuels, qui se basent sur "les signalements spontanés" des patients et les déclarations des professionnels de santé, ont montré leurs limites. Notre solution permet de compléter les initiatives existantes telles que celle de l'Agence Nationale de Sécurité du Médicament et des Produits de Santé (ANSM), le système de pharmacovigilance européen de l'EMA ou celle de l'OMS (Adverse Drug Reactions Monitoring),

La solution proposée dans le cadre du projet BD4Cancer a principalement trois cas d'usage (Figure 18):

Cas 1 - utilisation par les groupes pharmaceutiques

Cette utilisation peut inclure la surveillance en temps réel à l'aide de notre application oncoVigil dès la mise sur le marché d'un nouveau médicament ou pour la surveillance des médicaments commercialisés (Cas 1, Fig. 11) ou après les études animales pour utiliser notre base de connaissances OncoADR.KB pour le recrutements des patients (Cas 3, Fig. 11).

Cas 2 - utilisation par les agences de régulation et de santé publique

Les agences de régulation, de sécurité des médicaments et de santé publique pourront exploiter le contenu de la base de connaissances OncoADR.KB et/ou utiliser l'application oncoVigil pour la surveillance des événements liés à l'usage des médicaments anti-cancers (Cas 2, Fig. 11).

Cas 3- utilisation dans la recherche pour des études "omiques" dans le cadre de la médecine de précision

La réponse des patients aux médicaments peut être le résultat du profil génétique de chaque patient. La médecine de précision vise à inclure cette variabilité génétique pour le développement de traitements personnalisés. Les équipes de recherche académiques ou industrielles en sciences "omiques" (génomique, transcriptomiques,..) peuvent exploiter oncoADR.KB pour cibler les patients ayant publiés en ligne des messages qui mentionnent des effets indésirables (Cas 3, Fig. 11).

Fig. 18 Scénarios d'utilisation de BD4Cancer et impact sur la santé des patients.

CONCLUSIONS

L'importance des méga-données (Big Data) en santé et en recherche biomédicale n'est plus à prouver actuellement. Des jeux de données existent dans le domaine publique, mais souvent très peu exploités et intégrés. Des initiatives telles que le Challenge4Cancer permettent d'accélérer ce processus de valorisation des données afin d'avancer la recherche sur le cancer ou d'autres pathologies. Cependant, la qualité des données et leur annotation est souvent un obstacle à leur exploitation. Les plateformes "Open Data" ont besoin d'accorder plus d’importance à la documentation et à la qualité des données. Ce n'est pas le nombre de jeux de données collectés qu'il faut utiliser comme paramètre pour évaluer une plateforme de données ouvertes, mais la qualité et la maintenance des jeux de données.

Le projet BD4Cancer est né d'un engagement fort de la porteuse du projet pour une recherche biomédicale "ouverte", transparente, éthique et intègre et pour libérer l'accès aux données tout en respectant la vie privée des patients et des internautes. Les données de Twitter, de plus en plus utilisé en santé et en recherche biomédicale, et celles des autres réseaux sociaux représentent de réels potentiels pour la santé afin d'accélérer le recrutement des patients pour un essai clinique, prévenir les cancers ou faire de la pharmacovigilance en temps réel. Cette dernière application est utile à la fois pour la santé des patients, les agences de régulation, mais aussi pour les groupes pharmaceutiques qui peuvent accompagner la mise sur le marché d'un nouveau médicament de notre système de pharmacovigilance basé sur les données des réseaux sociaux. Les groupes pharmaceutiques, peuvent non seulement utiliser notre système pour la détection des événements liés à l'utilisation des médicaments anti-cancers, mais ils peuvent également cibler les internautes qui publient des effets indésirables des médicaments pour les recruter pour des études de médecine de précision ; ceci dans le but de personnaliser les traitements et comprendre les réponses individuelles à l'usage de ces médicaments. La solution proposée dans le cadre du BD4Cancer sera optimisée et étendue à d'autres langues et à d'autres réseaux sociaux et intégrera tous médicaments anti-cancers.

PRÉSENTATIONS, RENCONTRES, COMMUNICATION ET DATES IMPORTANTES DANS LA VIE DE BD4CANCER

  • 20 avril 2016: Conseil National du Numérique - Présentation du projet Epidemium par la porteuse du projet dans le cadre d'une visite et des ateliers numériques effectués dans le cadre du projet INESA (projet numérique porté par Seraya Maouche).
  • 18 avril 2016: Rencontre de travail entre la porteuse du projet avec Delphine Barrau du Projet ELSE.
  • 16 avril 2016: Réunion de travail entre la porteuse du projet et le Dr Marthe Gautier, membre et experte médicale du projet.
  • 12 avril 2016: La porteuse du projet a présenté BD4Cancer et Epidemium à l'équipe dirigeante du Genopole. Une présentation plus large est prévue pour le mois de juin.
  • 07 avril 2016: Meetup Epidemium - La porteuse du projet a présenté le projet EpidemiumDB avec l'équipe du projet Baseline.
  • 30 mars 2016: Clémence Couderc (ingénieure biomédicale) rejoint le projet BD4Cancer.
  • 25 mars 2016: La porteuse du projet a accordée une interview à Lola Ay, doctorante en sociologie à l’Université de Lausanne sur le thème des méga-données et la cancérologie.
  • 12 mars 2016: Présentation mi-parcours en présence de quelques membres des comités éthique et scientifique.
  • 26 Février 2016: Le Dr Marthe Gautier (médecin et ex. directrice de recherche INSERM) rejoint le projet BD4Cancer.
  • 25 février 2016: Participation de la porteuse du projet au Bocal Oncologie et épidémiologie.
  • 02 février 2016: Geoffrey Humbert (pharmacien) a rejoint le projet BD4Cancer.
  • 12 janvier 2016: La porteuse du projet a discuté avec Madame Axelle Lemaire, secrétaire d'Etat chargée du numérique, des données scientifiques lors de la conférence DataDay, organisée à Bercy.
  • 08 décembre 2015: La porteuse du projet a participé à la conférence sur la médecine de précision en présence de la ministre de la santé et des directeurs des institutions de recherche en science de la vie. Le cancer et les Big Data sont au centre des discussions pour l'application de la médecine de précision en France.
  • 07 décembre 2015: la page du projet et le Wiki du BD4Cancer ont été lancés.
  • 15 novembre 2015: première invitation pour collaborer sur un projet Epidemium (reçu d'Edouard DEBONNEUIL, porteur du projet Baseline).
  • 05 novembre 2015: la porteuse du projet a participé à la soirée de lancement du projet Epidemium.

La porteuse du projet est invitée pour présenter son projet à l'Agence Nationale de Sécurité du Médicament et des Produits de Santé (ANSM), qui s'intéresse à l'utilisation des données des réseaux sociaux pour la pharmacovigilance.

PUBLICATIONS ET RESSOURCES PRODUITES EN LIGNE DANS LE CADRE DE CE PROJET

Cette section décrit la production du projet BD4Cancer.

1- Publication dans des revues à comité de lecture

La porteuse du projet a préparé trois revues résultant du travail bibliographique réalisé dans le cadre du projet BD4Cancer.

  • L'épidémiologie à l'ère des Big Data
  • Le Big Data pour vaincre le cancer
  • Les Big Data pour la pharmacovigilance

De plus, un article sur la base de données globales EpidemiumDB pour l'épidémiologie et le Big Data en Oncologie est en préparation. Olivier de Fresnoye (membre de l'équipe organisatrice d'Epidemium) et la porteuse du projet ont discuté avec une membre de la plateforme collaborative de rédaction authorea pour écrire cet article qui inclura tous les contributeurs de la base de donnée (équipe BD4Cancer, équipe Baseline, Olivier de Fresnoye, et toute personne qui apportera une contribution significative à ce travail). Seraya Maouche a pris contact avec l'éditeur du NAR (Nucleic Acid Research Journal), qui publie chaque année un numéro spécial dédié aux bases de données biomédicales. L'éditeur invite les auteurs d'EpidemumDB à soumettre leur manuscrit au NAR ou au journal Oxford Database.

2- Publication dans la presse spécialisée

3- Articles en ligne publiés par l'équipe BD4Cancer (blogue Epidemium ou autre)

4- Pages Wiki éducatives pour la communauté

5- Site Web en anglais dédié aux "Big Data" en oncologie

Le site est utilisé également pour héberger la base de données BD4Cancer : http://bd4cancer.tbiscientific.com

RESSOURCES UTILISÉES DANS LE CADRE DE CE PROJET

Dans cette section, nous présentons les ressources logiciel, bases de données et liens utilisés pour le projet BD4Cancer. Nous avons choisi de développer nous même un librairie logicielle en R pour implémenter nos "workflow" d'analyses.

Essais cliniques

BioNLP et Text Mining

Drug-drug interactions

Librairies R et Bioconductor

  • Les environnements R et Bioconductor ont été utilisés pour les analyses.

Base de données

  • MongoDB (utilisée pour les analyses Twitter)
  • MySQL (pour la base de données globale du Challenge4Cancer) et pour BD4Cancer.
  • SQLite et ses libraires interface avec R.

Librairies Javascript pour la visualisation

REMERCIEMENTS

Les membres du projet tiennent à remercier:

  1. Le Dr Laurence Samelson, médecin spécialiste des essais cliniques et des études pharmaco-épidémiologiques chez Roche, pour ses conseils sur le choix de la stratégie d'analyse des essais cliniques.
  2. Le responsable du département pharmacovigilance de l'Agence Nationale de Sécurité du Médicament et des Produits de Santé (ANSM) pour ses explications sur les effets indésirables des médicaments.
  3. L'équipe de l'Agence International de la Recherche sur Cancer pour les explications sur la classification des cancers.
  4. L'équipe du National Library of Medicine (NLM) pour nous avoir permis d'avoir un accès FTP à tous les fichiers composant la base de données Pubmed pour le projet.
  5. Les membres de l'équipe d'Epidemium pour leur assistance et gestion du projet.
  6. Tous les participants au Challenge4Cancer pour les échanges enrichissants, notamment l'équipe du projet Baseline porté par Edouard DEBONNEUIL et Delphine Barrau du Projet ELSE..

RÉFÉRENCES

  1. Organisation Mondiale de Santé (OMS). Le Cancer. Disponible sur [ http://www.who.int/topics/cancer/fr/ http://www.who.int/topics/cancer/fr/]
  2. Institut National du Cancer. Les cancers en France, édition 2014, 2015, 245 pages. Accessible à http://www.e-cancer.fr/Expertises-et-publications/Catalogue-des-publications/Les-cancers-en-France-Edition-2014
  3. Collins FS, Varmus H. A new initiative on precision medicine. N Engl J Med. 2015 Feb 26;372(9):793-5. doi: 10.1056/NEJMp1500523. PMID: 25635347
  4. Gil Press. A very short history of Big Data. Forbes. December, 2013. Accessible online at http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#27db6c4b55da
  5. Community cleverness required. Nature. 2008;455(7209):1. PubMed: 18769385
  6. Laney Douglas. "3D Data Management: Controlling Data Volume, Velocity and Variety". feb. 6, 2001. http://gartner.com
  7. Luo J, Wu M, Gopukumar D, Zhao Y. Big Data Application in Biomedical Research and Health Care: A Literature Review (2016). Biomed Inform Insights, 19;8:1-10. doi: 10.4137/BII.S31559. PMID: 26843812
  8. Bellazzi R. Big data and biomedical informatics: a challenging opportunity (2014). Yearb Med Inform., 22;9:8-13. doi: 10.15265/IY-2014-0024. PMID: 24853034
  9. Saha S, Ekbal A, Sikdar UK. Named entity recognition and classification in biomedical text using classifier ensemble (2015). Int J Data Min Bioinform., 11(4):365-91. PMID: 26336665
  10. Fact Sheet, ClinicalTrials.Gov. U.S. National Library of Medicine. May 3, 2011. Retrieved Fubrurary 16, 2016.
  11. Zarin DA, Keselman A. Registering a clinical trial in ClinicalTrials.gov. Chest, 2007;131(3):909-12. PMID:17303677
  12. O'Connor K, Pimpalkhute P, Nikfarjam A, Ginn R, Smith KL, Gonzalez G. Pharmacovigilance on twitter? Mining tweets for adverse drug reactions (2014). AMIA Annu Symp Proc., 4:924-33. eCollection 2014.PMID:25954400