Approches prédictives et risque de cancer

De Challenge4Cancer
Aller à : navigation, rechercher

Bienvenue sur le wiki du projet "Approches prédictives et risque de cancer"!

Du 5 novembre 2015 au 5 mai 2016, Roche et la Paillasse ont organisé le Challenge4Cancer dans le cadre duquel le projet décrit ci-après a pu émerger.

Démarré fin avril 2016, ce projet se poursuivra au-delà de la date de clôture du challenge Epidemium.

Description du Projet

Thématique explorée

C'est davantage sur le versant facteurs environnementaux que notre attention se porte. En décembre dernier, la 21e conférence des parties (COP 21) à Paris a rappelé combien une transition vers une économie sobre en carbone devenait urgente pour limiter les émissions de gaz à effet de serre et prévenir les dérèglements climatiques à venir.

Les définitions de l’environnement varient selon les organisations. En France, l'Agence nationale de sécurité sanitaire de l'alimentation, de l'environnement et du travail (Anses) définit l'environnement comme l'ensemble des expositions à des agents physiques, biologiques et/ou chimiques présents dans les lieux de vie et de travail. Elle estime que les expositions volontaires, par exemple aux UV, et les comportements individuels, comme le tabagisme, la consommation d'alcool ou une alimentation déséquilibrée, n'en font pas partie. L'Organisation mondiale de la santé (OMS), à l'inverse, y inclut l'ensemble des facteurs déjà cités, y compris les comportements individuels.

Selon l’Organisation mondiale de la santé (OMS), 19% des cancers dans le monde seraient dus à des facteurs environnementaux.

 Certains de ces facteurs sont bien identifiés : amiante, radon, cadmium, arsenic, les particules en suspension dans l’air, rayons ultraviolets, certains polluants chimiques[… D’autres font l’objet de travaux et de recherche comme les radiofréquences, les pesticides ou les nanoparticules.

Quelques exemples illustrent ces constats. L’effet des rayonnements ionisants est connu depuis le début du vingtième siècle. L’étude de référence sur leurs effets fut le suivi des survivants aux bombardements de Hiroshima et Nagasaki, soit 86.000 personnes. Les résultats des études ont clairement montré un excès de risque pour les tumeurs solides et les leucémies. De même, il a été prouvé que le radon, gaz radioactif qui s’échappe naturellement de certaines roches, était à l’origine de cancers du poumon[1].

Evaluer la cancérogénicité d'une substance présente dans notre environnement est une tâche délicate. D'abord parce que définir l'environnement est très complexe. Ensuite, parce qu'un cancer résulte d'expositions successives ou simultanées à plusieurs facteurs et qu'il peut s'écouler de nombreuses années entre l'exposition et l'apparition de la maladie. Enfin, parce qu'on sait encore mal estimer le risque de cancers associés à des niveaux d'exposition faibles mais chroniques à ces substances.

Une classification proposée par le Centre International de Recherche sur le Cancer (CIRC) permet de classer ces différentes substances :

  • Groupe 1 : L’agent est cancérogène pour l’homme (108 agents)
  • Groupe 2A  : L’agent est probablement cancérogène pour l’homme (64 agents)
  • Groupe 2B  : L’agent est peut-être cancérogène pour l’homme (272 agents)
  • Groupe 3 : L’agent est inclassable quant à sa cancérogénicité pour l’homme (508 agents)
  • Groupe 4 : L’agent n’est probablement pas cancérogène pour l’homme (1 agent)

Nous allons nous intéresser à quelques uns de ces agents cancérigènes chez l’homme :

Pollution atmosphérique

Selon   l’OMS, la pollution de l’air est désormais le principal risque environnemental pou la santé dans le monde.

Ce problème de la pollution de l’air n’épargne aucun continent, et concerne aussi bien les villes des pays industrialisé que celles des pays en voie de développement.

L'enjeu est à la fois climatique et de santé publique: la pollution de l'air extérieur est classée cancérogène certain (groupe 1) pour l'homme par le Centre International de Recherche sur le Cancer (CIRC). Les « matières particulaires » (particules en suspension, « particulate matter » - PM - en anglais), « une composante majeure de la pollution de l'air extérieur », ont été évaluées séparément et ont également été classées comme cancérogènes pour l’homme (groupe 1).

Les principales sources de pollution sont les transports, la production stationnaire d'électricité, les émissions industrielles et agricoles, le chauffage résidentiel et la cuisine[2]. Le CIRC avait déjà établi le caractère cancérogène à l’intérieur des habitations de la combustion domestique (chauffage et cuisson des aliments) du charbon, notamment pour le cancer du poumon. Le caractère cancérogène à l'intérieur des habitations de la combustion domestique de biomasse (principalement le bois) a été établi pour le cancer du poumon seulement[3].

A titre d'exemple, les différentes fractions de particules fines observées en France sont les suivantes :

  • PM2,5 secondaires de nitrate d'ammonium : 51 % - Ce composé est formé dans l’atmosphère à partir d’ammoniac (NH3) et d’oxydes d’azote (NOx), suivant un processus photochimique. L’ammoniac est principalement émis par les activités agricoles et les oxydes d’azote sont principalement émis par les transports.
  • PM2,5 primaires de combustion de biomasse : 15 % - Particules émises directement dans l'atmosphère par le chauffage au bois et le brûlage de déchets verts.
  • PM2,5 organiques secondaires : 12 % - Particules fines composées de matière organique, générées dans l'atmosphère à partir de précurseurs gazeux comme les composés organiques volatils (COV). En période hivernale (comme c'est le cas encore à cette période de l’année), ces COV sont émis principalement par les activités humaines.
  • PM2,5 primaires « fuel » fossile : 11 % - Particules fines émises directement dans l'atmosphère par la combustion de dérivés du pétrole (dont les transports).
  • PM2,5 secondaires de sulfate d'ammonium : 11 % - Le sulfate d'ammonium est formé dans l'atmosphère à partir d'ammoniac et de dioxyde de soufre. Le dioxyde de soufre est émis en France par l'industrie manufacturière et la transformation d'énergie.

Une étude de l'OMS du 25 mars 2014 indique que 7 millions de personnes sont décédées prématurément en 2012 dans le monde, décès attribuables aux effets de pollutions de l'air extérieur et domestique dont 5,9 millions en Asie-Pacifique (source LE MONDE du 25.03.2014). La pollution particulaire est l'un des prédicteurs du taux de mortalité dans la population qui la subit[4]

Selon leurs tailles, ces particules fines pénètrent plus ou moins profondément dans le système respiratoire.

  • Des particules de type PM2,5, par exemple, arrivent jusqu'au niveau des alvéoles pulmonaires.
  • Les particules issues des processus de combustion sont identifiées comme étant particulièrement dangereuses.
  • Les PM 1 (particules ultrafines, nanoparticules) peuvent franchir les barrières cellulaires et certaines (métalliques ou carbonées notamment) présentent une toxicité cellulaire[5][6].

Ces particules présentent une forme de toxicité liée à leur petite taille, indépendante de la toxicité chimique ou radiologique intrinsèque de la molécule ou du composé chimique[7].

Le Citepa, organisme qui assure la réalisation technique des inventaires de la pollution atmosphérique en France métropolitaine, signale qu'une attention particulière doit être portée aux émissions de particules : « Les particules solides servent de vecteurs à différentes substances toxiques voire cancérigènes ou mutagènes (métaux lourds, HAP,...) et restent de ce fait un sujet important de préoccupation ».

Selon l'INRS, «la concentration en poussières alvéolaires (susceptibles de pénétrer dans les voies pulmonaires jusqu'aux alvéoles, de s’y déposer et d’y rester durablement, en créant une surcharge pulmonaire néfaste pour l’organisme) ne doit pas dépasser 5 milligrammes par mètre cube (mg/m3) d'air». (5 milligrammes = 5 000 μg/m3). Mais l’Organisation mondiale de la santé (OMS) considère qu’il vaut mieux ne pas dépasser le seuil 25 μg/m3 en moyenne sur 24 heures pour les particules 2,5, et de 50 μg/m3 en moyenne sur 24 heures pour les PM10. Selon l’OMS, au moins 1,4 % des décès dans le monde seraient induites par les particules polluantes de l’air - qui figurent aussi, pour un grand nombre de gens, comme facteur de diminution de l’espérance de vie :

  • diminution de 8,2 mois dans l’Europe des quinze ;
  • diminution de 10,3 mois dans les dix nouveaux États de l’Union européenne (plus pollués).
  • les effets sont 3 fois plus élevés là où sont concentrés les transports et émissions de chauffage ou centrales thermiques mal filtrées (par rapport aux zones moins polluées)
  • les PM de taille inférieure à 2,5 micromètres (PM2,5) sont les plus dangereuses[8].

Pollution de l’air intérieur

En plus de la pollution de l’air extérieur, il ne faut pas oublier non plus la pollution de l’air intérieur.

En climat tempéré, une personne passe en moyenne 85 % de son temps dans des environnements clos.

La nature de ces polluants intérieurs dépend notamment des caractéristiques du bâti, des activités et des comportements (tabac, bricolage, peinture, etc.).

On peut citer par exemple :

-          Les bio contaminants : moisissures, allergènes domestiques provenant d‘acariens, d’animaux domestiques et de blattes, pollens, etc.

-          Les polluants chimiques : composés organiques volatils, oxydes d’azote, monoxyde de carbone , hydrocarbures aromatiques polycycliques (HAP), phtalates, etc.

-          Les polluants physiques : particules et fibres (amiante, fibres minérales artificielles), etc.[9]

Cette pollution de l’air semble impliquée dans de nombreux cancers. Concernant le cancer du poumon, le tabac est bien évidemment le facteur de risque principal pour développer un cancer du poumon. Cependant l’OMS a estimé en 2014  que 14% des cancers du poumon pouvait être attribuable à la pollution de l’air.

Perturbateur endocrinien[10]

Les perturbateurs endocriniens sont des substances chimiques d'origine naturelle ou artificielle étrangères à l'organisme, et présentes dans l'environnement, qui peuvent interférer avec le fonctionnement du système hormonal.

Les perturbateurs endocriniens sont très nombreux, il s'agit par exemple de certains pesticides, des phtalates (utilisés dans les matières plastiques), du bisphénol A, du chlordécone, de résidus de médicaments.  Ils sont présents dans l'eau, l'alimentation, l'air et certains produits industriels (médicaments, cosmétiques...).

Le rôle des perturbateurs endocriniens (PE) a été suspecté au début des années 60 aux Etats-Unis, les publications sur ce sujet se sont multipliées au début des années 90.

On suspecte un rôle des PE dans le développement des cancers hormono-dépendants.

Parmi les différents perturbateurs endocriniens identifiés comme cancérogènes, on peut notamment citer[11] :

  • le bisphénol A, associé aux cancers du sein, des ovaires et de la prostate ;
  • les hydrocarbures aromatiques polycycliques (HAP), associés au cancer du sein ;
  • le diéthyltilbestrol (DES), associé au cancer de l'utérus et du sein ;
  • les dioxines, en cause dans les cancers du sein, les lymphomes malins non-hodgkiniens, et les myélomes multiples ;
  • les phtalates, associés au développement de l'endométriose chez les femmes et au cancer du sein, des tumeurs hépatocellulaire dans les modèles animaux et des tumeurs des testicules après exposition en continu ;
  • les retardateurs de flamme bromés (RFB), qui altèrent le système immunitaire, la thyroïde et le métabolisme, sont associés à une puberté tardive et à une ménopause précoce, deux facteurs de risque importants dans la survenue du cancer du sein ;

Pesticides[12]

L'exposition aux pesticides accroît les risques d'altération chromosomique et de cancer.

Les pesticides ont été largement utilisés à partir de la seconde moitié du XXe siècle, en particulier dans l’agriculture intensive, entraînant la présence de résidus dans l’environnement, notamment dans l’eau des rivières et des nappes phréatiques, dans l’air et dans les eaux de pluie.

Les pesticides se retrouvent également dans les aliments tels que les fruits, les légumes, les céréales et les produits d’origine animale (œufs, lait, viande, poisson...).

Les professionnels utilisant les pesticides sont les plus exposés, mais la population générale est également concernée, à des niveaux variables et souvent difficiles à apprécier, car les effets des faibles doses, des mélanges ou d’expositions de longue durée sont mal connus.

L’ensemble des données épidémiologiques disponibles aujourd’hui pointent l’existence d’un lien entre la survenue de la maladie de Parkinson et l’exposition professionnelle ou non professionnelle.

Les effets cancérogènes de certains pesticides ont été mis en évidence expérimentalement chez l’animal. Sur la base de ces données toxicologiques et des données épidémiologiques disponibles, le Centre international de recherche sur le cancer (CIRC) a évalué et classé la cancérogénicité de certains pesticides :

  • Insecticides arsenicaux: cancérogène avéré (groupe 2A)
  • Application professionnelle d'insecticides non arsenicaux: cancérogène probable (groupe 2B)
  • Captafol et dibromure d'éthylène: cancérogène possible (groupe 2B)
  • Métabolites: éthylène thiourée, sodium ortho-phénylphénate: cancérogène possible (groupe 2B)
  • Matières actives (aramite, chlordane,DDT,...): cancérogène possible (groupe 2B)
  • Familles chimiques (phythormones de synthèse et hexachlorocyclohexanes): cancérogène possible (groupe 2B)

Ainsi l’on observe par exemple une augmentation du risque de cancer de la prostate chez les applicateurs de pesticides[13], et les ouvriers d’usines de production de pesticides[14].

Une augmentation du risque de Lymphome Non Hodgkinien (LNH), a également été observée chez les professionnels exposés aux pesticides du secteur agricole et non agricole.

Contributeurs

Notre équipe :

  • Benjamin Schannes : data scientist
  • Jordan Scheer: interne en santé publique
  • Mohamed Zenadi : PhD High Performance Computing
  • Bernard Finas : ingénieur en agronomie et météorologie

Données considérées

Des données agrégées par pays et année sont en open source sur le site de la FAO

Au rang des données qui nous intéressent dans le cadre considéré, on notera d'abord certains indicateurs agroenvironnementaux:

  • Air et changement climatique avec la part des émissions d'ammoniac provenant de l'agriculture dans le total des émissions d'ammoniac de 1992 à 2009.
  • Energie avec notamment la consommation d'énergie dans les secteurs de l'agriculture et de la foresterie en % du total de la consommation d'énergie et la production de bioénergie en % du total de la production d'énergie renouvelable
  • Engrais avec notamment les Engrais azotés et phosphatés (total d'élément fertilisant N)
  • Terres à travers le % de la superficie agricole et le % de la superficie des terres pour les prairies, les cultures, les pâturages, terres arables notamment.
  • Elevage avec des données relatives au cheptel total par ha de terres agricoles. Cette densité est déclinée par type d'élevage (porcin, bovins, volaille).
  • Pesticides
  • Sols avec la teneur moyenne en carbone dans la couche arable
  • Eaux avec des informations sur les prélèvements d'eau à des fins agricoles

On s'intéresse également aux données d'émissions de GES provenant de l'agriculture, qui sont dominées par le méthane (CH4) et l’oxyde nitreux (N2O), et à la base de données rapportant les émissions de CO2 et absorptions de CO2 pour les Terres forestières, Terres cultivées et prairies, ainsi que les émissions de gaz sans CO2 provenant de la combustion de biomasse et des sols organiques.

Pour les données de cancer, on reprend les données d'incidence disponibles sur le site de l'OMS avec un focus sur le cancer du pancréas.

Approche et Analyses effectuées

Approche méthodologique

Analyser l'impact sanitaire d'un facteur isolé peut être fait à travers des expériences en laboratoire. Mais il est très coûteux en pratique de mener des études expérimentales sur l'impact d'une exposition plus ou moins prolongée à toutes les combinaisons de facteurs de risque que l'on retrouve dans la vie quotidienne. C'est là que l'analyse statistique et le Machine Learning prennent peut-être tout leur sens d'un point de vue épidémiologique: en permettant de prendre en compte un grand nombre de croisements potentiels de facteurs de risque qu'il n'est pas possible d'implémenter en laboratoire à un coût raisonnable. L'hypothèse sous-jacente est ici que la mortalité ou l'incidence d'un cancer sera mieux expliquée en prenant en compte la richesse des interactions des divers facteurs de risque (environnementaux pour notre propos) que l'impact de chaque facteur de risque indépendamment des autres.

Pour les facteurs environnementaux dont l'impact est liée à une exposition prolongée, une idée qui sera déployée dans les prochains jours est de construire un indicateur d'exposition de la population de référence, une année donnée, à l'aide de la pyramide des âges. On peut ainsi reconstituer toute l'histoire de l'exposition aux pesticides d'une certaine population à un moment donné: un individu représentatif d'âge x en année t a par exemple été exposée les années t, t-1, ..., t-x à hauteur des pesticides utilisés sur cette période dans une zone géographique représentative.

Expériences numériques réalisées

Des premiers algorithmes de prédiction de l'incidence du cancer (tous types) ont été mis en oeuvre à l'occasion du RAMP 1, organisé le 13 février 2016 à La Paillasse (http://wiki.epidemium.cc/wiki/Baseline/Ramp), grâce à la collaboration de l'équipe Baseline et de l'UPMC. Les algorithmes que nous avons soumis ont fourni les prédictions les plus fidèles. Par construction, ces modèles ne sont pas les plus adaptés pour comprendre et évaluer le rôle respectif de chacun des facteurs explicatifs. D'où l'idée de localiser davantage les problèmes prédictifs en s'intéressant à des problèmes moins agrégés (un seul type de cancer dans une seule région du monde sur une période courte et dans une couche assez étroite de la population par exemple) pour pouvoir fournir des modèles interprétables sans trop nuire à la puissance prédictive. Pour concilier ces deux exigences, des algorithmes de type règles de prédiction peuvent constituer un levier assez fécond. Moralement on atteint un degré élevé de précision et on peut raconter une histoire en termes de croisement de certains niveaux des facteurs explicatifs utilisés.

A l'occasion du RAMP 2, organisé à La Paillasse le 30 avril 2016 (http://www.ramp.studio/events/epidemium2_cancer_mortality) et centré sur l'étude de la multimorbidité dans le cadre des cancers de la sphère digestive, à travers un problème de prédiction d'un vecteur de taux de mortalité, on a pu voir que des réseaux de neurones peu profonds, à trois couches, (avec des fonctions d'activation simples de type sigmoid et softmax) fournissaient des résultats comparables à des méthodes de stacking de modèles de type GBM, SVR. L'un des enseignements de cette expérience est l'importance de creuser les pistes d'explication par l'interaction des variables. De ce point de vue, pour conserver une dimension explicative et interprétable, des approches de type règles prédictives apparaissent à nouveau comme de bons candidats pour mener à bien les analyses requises.

Les premières analyses, assez simples, menées sur les données de la FAO et l'incidence du cancer du pancréas (données OMS), font ressortir que la variable la plus discriminante pour expliquer le cancer du pancréas, parmi les variables agro-environnementales, est la consommation d'énergie dans les secteurs de l'agriculture et de la foresterie en % du total de la consommation d'énergie. Pour pouvoir déployer ces analyses, un grand nombre de retraitements et jointures a été nécessaire, avec une attention particulière portée sur les valeurs manquantes, assez nombreuses. Les expositions des années passées sont prises en compte à travers un vecteur de variables retardées (lags) reconstruites pour chacune des variables agro-environnementales disponibles.

Les codes Python et R ayant permis de mener à bien ces analyses sont disponibles ici: https://github.com/BenSchannes/Epidemium.

Conclusion

L'épidémiologie peut s'enrichir d'analyses statistiques et d'expériences numériques permettant de mesurer l'influence de divers facteurs de risque et de diverses combinaisons de ces derniers à moindre coût que dans le cadre d'études expérimentales en laboratoire.

L'exploitation de méthodes de type "règles prédictives" réalise potentiellement l'un des meilleurs compromis entre un impératif d'explication par des facteurs (i.e. par des co-occurences de niveaux de facteurs de risque) et un impératif de pouvoir prédictif, grâce à la localisation de l'analyse. De ce point de vue ces méthodes seront peut-être priviligiées dans le champ épidémiologique par rapport à des approches "boîte noire" qui permettent d'optimiser le pouvoir prédictif, mais parfois au

détriment de la capacité à raconter une histoire rendant compte des facteurs à l'oeuvre.
  1. ANSES, Cancer et environnement Comprendre où en est la recherche, Novembre 2014
  2. Dossier de presse, dans le cadre de la Semaine de l’Industrie, sous le Haut Patronage du Ministère du redressement productif, p. 16, sur le site Ingénieurs et scientifiques de France, consulté le 30 janvier 2015
  3. Household Use of Solid Fuels and High-temperature Frying, « heating and cooking », p. 39, Household combustion of coal causes cancer of the lungHousehold combustion of biomass fuel (primarily wood) causes cancer of the lungp. 307 ; contextesp. 301, 302, sur le site monographs.iarc.fr du Centre international de recherche sur le cancer, consulté le 16 octobre 2013.
  4. Pope III, C. A., Thun, M. J., Namboodiri, M. M., Dockery, D. W., Evans, J. S., Speizer, F. E., & Heath Jr, C. W. (1995). Particulate air pollution as a predictor of mortality in a prospective study of US adults. American journal of respiratory and critical care medicine, 151(3_pt_1), 669-674 
  5. Magrez, A., Kasas, S., Salicio, V., Pasquier, N., Seo, J. W., Celio, M., ... & Forró, L. (2006).Cellular toxicity of carbon-based nanomaterials. Nano letters, 6(6), 1121-1125.
  6. Oberdörster, G. (2000). Pulmonary effects of inhaled ultrafine particles. International archives of occupational and environmental health, 74(1), 1-8
  7. Oberdörster, G. (2000). Pulmonary effects of inhaled ultrafine particles. International archives of occupational and environmental health, 74(1), 1-8.
  8. Health risks of particulate matter from long-range transboundary air pollution, Organisation mondiale de la santé, bureau régional européen de Copenhague, 2006.
  9. ANSES,https://www.anses.fr/fr/content/qualit%C3%A9-de-l%E2%80%99air-int%C3%A9rieur
  10. Institut National du Cancer ( INCA) http://www.e-cancer.fr/Professionnels-de-sante/Facteurs-de-risque-et-de-protection/Environnement/Perturbateurs-endocriniens#notes
  11. Macon MA and Fenton SE. Endocrine disruptors and the breast : early life effects and later life disease. J Mammary Gland Biol Neoplasia (2013) 18: 43-61
  12. INCA, FICHE REPÈRE, Pesticides et risques de cancer
  13. Van Maele-Fabry G, et al. Int Arch Occup Environ Health 2004;77:559-70.
  14. Van Maele-Fabry G, et al. Cancer Causes Control 2006;17:353-73.