ELSE

De Challenge4Cancer
Aller à : navigation, rechercher

Sommaire

Prélude

Pourquoi participer au Challenge ?

Participer au challenge c’est l’occasion pour CONIX de lancer un projet d’entreprise, de créer une dynamique en travaillant tous ensemble sur un projet commun, ce qui ne nous arrive pas tous les jours !

Cela permet aux profils expérimentés de mettre à profit leurs connaissance en Big data et en data science et de faire monter en compétence les profils plus jeunes.

C’est l’occasion de mettre en œuvre nos compétences sur tous les axes du BIG DATA :

  • Infrastructure
  • Maîtrise d’œuvre et développement
  • Maîtrise d’ouvrage
  • Méthodologie projet

Il ne nous manque que l’expertise métier.

C’est aussi l’opportunité d’avoir d’autres histoires à raconter que celles de nos clients traditionnels.

Et c’est aussi l’occasion de désacraliser le mot BIG DATA en permettant aux curieux de s’initier à l’analyse de données grâce à la richesse du challenge, ainsi qu’à l’émulation de connaissance de l’équipe.

Mais la motivation de notre participation est également de pouvoir apporter notre contribution à la compréhension du cancer par l’analyse des données disponibles. Notre volonté est de sensibiliser les jeunes au cancer grâce à notre projet qui est développé en ce sens.

Notre équipe

Equipe.png
Photo Nom et Prénom Compétences
Cyril BROUARD.png
Cyril BROUARD
  • Analyse de données
  • Big Data
Delphine BARRAU.png
Delphine BARRAU
  • Analyse de données
  • Machine Learning
  • Data visualisation
Elkhader FATNI.png
Elkhader FATNI
  • Analyse de données
  • Machine Learning
  • Data visualisation
  • Développeur R/Python
  • Big data
Elmouatassim LOUHAIDIA.png
Elmouatassim LOUHAIDIA
  • Dévelopeur R / Python
  • Ingénieur en sécurité informatique
Didier DALMASSO.png
Didier DALMASSO
  • Analyse de données
Hervé HUSSON.png
Hervé HUSSON
  • Big Data
  • Santé publique
  • Data mining
  • Cloud, BI
Matthias FERRAINA.png
Matthias FERRAINA
  • Statistiques
  • Analyse de données
  • VBA
Thibaud BLANCHARD.png
Thibaud BLANCHARD
  • Analyse de données
  • Développeur R/Python
  • Data visualisation
PatriceC.jpg
Patrice COORTEL
  • Big Data
  • Data Visualisation
Komiste.jpg
Komitse ATAMEKLO
  • Développeur R / Python
  • Ingénieur en sécurité informatique
LB.jpg
Louis BUREAU
  • Statistiques
  • Analyse de données
  • VBA
CCeline.jpg
Maryam ALJOUFI
  • Statistiques
  • Analyse de données
Ma pic.png
Abdoul Aziz BAH
  • Statistiques
  • Analyse de données
  • Data mining
  • Programmation SAS-R
  • Machine learning
Cmaryam.jpg
Céline EPOUHE
  • Analyse de données
BeaConix.jpg
Béatrice GUILLOT
  • Communication
Berengere.jpg
Bérengère HUSSON
  • Médecin interne en dermatologie
Logo final bannière acro.jpg
Renaud, Guillaume,

Gilles, Denis, Jean-marc,

Annie, ...

Nos supporters, 100% curieux

L'organisation

Etant nombreux, des outils de gestion de projet et de communication ont été mis en place.

Pour la gestion du projet, l’application Trello est utilisée. Elle permet de créer et de suivre des tâches, les affecter à des personnes, les clôturer et effectuer bien d’autres actions utiles. Tout cela très ergonomiquement. Ainsi, nous pouvons visualiser aisément les tâches à effectuer au cours de chacun de nos RUN.

Trello.JPG

Afin de communiquer entre nous, nous utilisons Salesforce Chatter qui est le RSE (Réseau Social D’Entreprise) de CONIX. Ce choix a permis d’éviter la mise en place d’un autre moyen de communication qui aurait été redondant.

Chatter.JPG

Afin d’échanger nos idées et de faire avancer le projet, nous nous réunissons dans les locaux de Conix une fois toutes les 3 semaines. C’est l’occasion de faire un point d’avancement du Run en cours, et d’évaluer le « reste à faire ».

  • Sprint 0 -> 17/12 – 14/01
  • Sprint 1 -> 14/01 – 04/02
  • Sprint 2 -> 04/02 – 25/02
  • Sprint 3 -> 25/02 – 15/03
  • Sprint 4 -> 15/03 – 07/04
  • Sprint 5 -> 07/04 – 28/04

Notre projet

Nous souhaitons créer une expérience interactive, ludique et sensibilisante, où dans la peau d'un personnage né en 2000, en fonction de nos choix d'implantation géographique, nous serons sensibilisés aux risques liés aux cancers qui pourraient nous toucher ou toucher nos proches, en fonction de nos modes d'alimentation et des changements climatiques et environnementaux supposés.

Nous limiterons notre analyse à quelques cancers représentatifs (en cours de définition), aux changements climatiques principaux (catastrophes naturelles, variation des heures d’ensoleillement, précipitations, températures, pression) et à l'évolution de notre environnement technologique (évolution des ondes électromagnétiques).

Si les données disponibles sont suffisantes nous aborderons également la problématique de l'accès aux soins avec le phénomène de désertification médicale en zone rurale.

Sprint 0 : Du 17 décembre 2015 au 14 janvier 2016 : Début du projet

Objectifs

  • Choisir le projet
  • Constituer l’équipe
  • Se répartir le travail

Production

Le choix du projet

Lors de la réunion de lancement, nous avions choisi collectivement le challenge Epidemium qui nous séduisait le plus : "Changement environnementaux et cancer". Pendant ce premier sprint une dizaine d'idées de projets se rapportant à ce challenge ont été proposées, et par vote nous avons retenu "France : cancer, horizon 2036", que nous avons également appelé ELSE dans sa version anglaise !

ELSE pour "Evolutive Live Selection Experience"
Logo ELSE.png

Sprint 1 : Du 15 Janvier au 4 Février 2016 : Ecriture du scénario et recherche de données

Objectifs : partager la problématique

  • Ecrire le scénario
  • Chercher et collecter des données
  • Identifier des données externes d’intérêt
  • Mettre  en avant des sources inexplorées

Production

Le scénario

Un personnage de 15 ans en 2016, va évoluer dans la vie, année par année. Il va être confronté à la maladie de ses proches, il va participer à des actions de sensibilisation au lycée, il sera confronté aux changements climatiques et leurs impacts, il va se marier, avoir des enfants, faire des choix professionnels et environnementaux qui font progressivement le mener jusqu'en 2036.  En fonction du département où il sera installé et des précédents événements de sa vie, il sera plus ou moins exposé à un risque de cancer. Ce "risque de cancer" sera le résultat d'analyse prédictive sur la base de données médicales et environnementales à la maille départementale.

Les données identifiées

Notre période de référence pour les données cancer : de 2005 à 2009.

  • Alimentation : 9 fichiers identifiés. échantillonnage stratifié à 3 degrés (tirage au sort d'individu dans toutes la France selon certains critères) réalisé entre fin décembre 2005 et avril 2007,
  • Météo :
  1. enneigement ==> une seule station (FRANCE, COL DE PORTE)
  2. ensoleillement ==> 13 stations avec des valeurs allant de 1931 à 2005
  3. précipitation ==> 50 stations, de 1881 à 2005
  4. pressions ==> 7 stations seulement, de 1945 à 2000 pour toutes les stations
  5. température Max, min, moyenne ==> pour 50 stations, à la journée
  6. Pollution: 4 fichiers excel à traiter avant de pouvoir les exploiter sur des mesures prises en 2010, 2011, 2012 et 2013 pour une trentaine de grandes métropoles
  • Inondation : données identifiées mais non encore analysées. A priori, difficile à concilier à une maille départementale.
  • Déchet urbain : données identifiées mais non encore analysées
  • Qualité de l'air : données identifiées mais non encore analysées
  • Qualité de l'eau : données identifiées mais non encore analysées
  • Données "environnement" : données identifiées mais non encore analysées
  • Antenne Mobile : localisation précise sur un intervalle allant de 2000 à 2010 au moins

Autre événement de la période

Le samedi 13 février, nous avons participé à la RAMP (Rapid Analytics and Model Prototyping) avec une seule soumission (nous devions partir à 13h30), mais un événement très enrichissant en particulier sur la manière d'implémenter l'imbrication de modèles prédictifs.

Sprint 2 : Du 5 Février au 25 Février 2016 : On rentre dans le vif du sujet

Objectifs : 1ère boucle d’analyse

  • Préparer les données
  • Modéliser
  • Evaluer
  • Choisir la data-visualisation

Production

Gros stress ! Le 12 Mars nous présentons notre projet devant le jury. Présentation à mi parcours ... Dans l'idéal il nous faut un visuel (dataviz, infographie ou poster scientifique).

Mais où en sommes nous finalement ?

Outils et plate-forme

Notre plate-forme Hadoop, mise en place par notre directeur technique, est accessible de l'extérieur. "Youpi" !!!! C'est un socle hadoop composé de 5 nœuds :

CentOS67NameNode (8 cpu; 16Go de RAM; 100Go de disque)
CentOS67DataNode1 (8 cpu; 16Go de RAM; 100Go de disque)
CentOS67DataNode2 (8 cpu; 16Go de RAM; 100Go de disque)
CentOS67DataNode3 (8 cpu; 16Go de RAM; 100Go de disque)
CentOS67DataNode4 (8 cpu; 16Go de RAM; 100Go de disque)

La réplication des fichiers s'effectue sur 3 nœuds. Les outils installés et opérationnels sont PIG, HIVE, SPARK, AMBARI et MAHOUT.

Notre datascientist en chef a réfléchi aux meilleurs outils à utiliser et nous a mis en place un notebook Ipython sur la plate-forme et chargé toutes les bibliothèques utiles :
Jupiter.JPG

Tutorial

Il nous a même préparé un "tuto datascience" pour nous familiariser avec les outils :
Tuto.JPG

Les données disponibles

Côté recherche de données nous avons deux personnes qui se sont pris au jeu et ca dépote ! Finalement ce qui va nous poser problème c'est notre choix de se focaliser sur la France et la période 2005-2009. Nous risquons d'avoir du mal à trouver des données ouvertes sur ces critères.

Etat de l'art

Coté "Etat de l'Art" notre interne en dermatologie a repéré de nombreuses études scientifiques qu'il faudra lire pour mieux appréhender un monde que nous ne connaissons très mal (celui de la recherche médicale) et éviter ainsi les erreurs d'interprétation.

Application

Pour le scénario cela se précise. Nous avons choisi un visuel type jeu de plateau. Voici en gros ce que cela pourrait donner :
Elseplateau.JPG

Le principe ? A travers une application interactive, notre personnage avance dans la vie, gagne des points de "sensibilisation" et en fonction des choix qu'il fera et des données en notre possession nous ferons tourner un modèle prédictif pour évaluer l'importance de ces choix comme "facteurs de risque" de cancers.

Modèle prédictif

Nous avons fait une première boucle d'analyse sur les données cancer fournies sur EPIDEMIUM (mortalité.cancer), que nous avons réparti par département et par type de cancer, et que nous avons enrichi de données sur le RADON pour faire tourner notre premier modèle prédictif (un GradientBoostingRegressor).

Sprint 3 : Du 26 Février au 15 mars 2016 : ca avance

Objectifs : 2ème boucle d’analyse

  • Préparer les données
  • Modéliser
  • Evaluer
  • Faire évoluer la data-visualisation

Production

Les données disponibles

Côté data, ça cherche des données ("Lycos le chien", pour ceux de la génération des premiers moteurs de recherche). Nous ne les arrêtons plus. Une vraie passion. Petit état des lieux de nos recherches :
Data1.JPG
Data2.JPG

Modèle prédictif

Du côté de la modélisation et l'évaluation, notre datascientist a intégré de nouvelles données (sur l'alimentation), le score de fiabilité du modèle de prédiction est assez élevé (92%) mais nous ne sommes pas dupes : le modèle de test est un sous ensemble du modèle d’entrainement. Et puis comment "prédire 2036" ? Nous nous orientons vers une projection entre 2 époques à prendre en compte dans le modèle et l'utilisation de mortalités comparées. Mais trouverons nous des Open Data d'avant 2000 ?

Application

Et pour notre application, le squelette de développement a été préparé pour un premier "rendu". Le scénario a été un peu adapté pour être cohérent avec les jeux de données en notre possession et enfin un dépôt SVN a été mis en place pour les développements (qui jusqu'à présent étant fait sur la machine personnelle du développeur) :
Else1.JPG
Else2.JPG

Autre événements de la période

  • Le 1er Mars participation au Meet-up "Un Google 3.0 du cancer : est-ce possible ?" par Alain Livartowski, médecin à l’Institut Curie: passionnant ! Il y a vraiment un fort potentiel dans ce domaine et énormément à apporter en échangeant sur nos problématiques, quelque soit le sujet traité. Nous avons beaucoup aimé l'équation "miracle" pour progresser : données de la vie + données de l'hôpital + données de la recherche. Mais il faut aussi faire avec les aspects vie privée et éthique. C'est pas simple mais cela donne envie d'avancer et de participer.
  • Le 12 mars participation en force (Matthias, Elkhader, Thibaud, Hervé et Delphine) au jury intermédiaire : le sentiment d'être la seule équipe 100% informaticiens. Toutes les équipes appliquent le même modèle : rechercher des données, les mettre en qualité, les analyser, les exploiter. D'où l’intérêt de mettre en commun nos contributions. Merci EPIDEMIUM.

Sprint 4 : Du 16 mars au 7 avril 2016 : on se rapproche de l’échéance

Objectifs : 3ème boucle d’analyse

  • Préparer encore les données
  • Affiner le modèle
  • Evaluer les résultats
  • Améliorer la data-visualisation

Production

Les données disponibles

A un mois de la fin du challenge nous considérons que nous avons assez de données. Elles ont toutes été nettoyées, ramenées à une maille départementale et sont disponibles dans le notebook Jupyter, prêtes à être intégrées à notre modèle :
Dataok.JPG
Nous avons retenues des données environnementales (base du challenge retenu), des données alimentaires et des données sociales pour l'impact direct ou indirect qu'elles peuvent avoir sur notre santé (au travers du stress engendré, du pouvoir d'achat associé,...).

Quelques unes de nos sources de données :

Données environnementales

Météo : We acknowledge the data providers in the ECA&D project. Klein Tank, A.M.G. and Coauthors, 2002. Daily dataset of 20th-century surface air temperature and precipitation series for the European Climate Assessment. Int. J. of Climatol., 22, 1441-1453. Data and metadata available at http://www.ecad.eu

Environnement en général : http://www.toutsurlenvironnement.fr/

Qualité de l'eau : http://www.data.eaufrance.fr/

Pollution de l'air en france : https://www.data.gouv.fr/fr/datasets/qualite-de-l-air-nd/

Pollution de l'air par ville : http://www.eea.europa.eu/data-and-maps/data/air-pollutant-concentrations-at-station Inondation : http://www.eea.europa.eu/data-and-maps/data/european-past-floods Traitement des eaux usées : http://www.eea.europa.eu/data-and-maps/data/waterbase-uwwtd-urban-waste-water-treatment-directive-4

Antennes mobiles : http://mobile-users.net/_antennes_mobiles.zip

Qualité de l'eau : http://www.ades.eaufrance.fr/ExportData.aspx

Emission polluantes du traitement des dechets : http://public.opendatasoft.com/explore/dataset/registre-francais-des-emission-polluantes-traitement-dechets/table/

Données alimentaires

INCA 2 : Afssa (2009). Etude Individuelle Nationale des Consommations Alimentaires 2 (INCA 2) (2006-2007). Rapport Afssa.

Consommation de viande : https://data.oecd.org/fr/agroutput/consommation-de-viande.htm

Fruit and vegetable consumption among adults : http://www.oecd-ilibrary.org/social-issues-migration-health/health-at-a-glance-europe-2014/daily-fruit-eating-among-adults-2012-or-nearest-year_health_glance_eur-2014-graph48-en

Consommation de légumes par sexe, âge et niveau d'éducation (%) - vague d'enquête 2008. Ce jeu de données provient d'un service public certifié Tableau 1 : Données interprétées Tableau 2 : Données brutes

Tableau 3 : Légende de l'indicateur age (Classe d'âge) Tableau 4 : Légende de l'indicateur frequenc (Fréquence) Tableau 5 : Légende de l'indicateur geo (Entité géopolitique (déclarante)) Tableau 6 : Légende de l'indicateur isced97 (Classification Internationale Type de l'Education 1997 (CITE)) Tableau 7 : Légende de l'indicateur sex (Sexe)

== > http://www.data-publica.com/opendata/5912--facteurs-de-sante-consommation-de-legumes-par-sexe-age-et-niveau-d-education#

Alimentation en général : http://fr.openfoodfacts.org/

DataE.PNG
DataE2.PNG

Notre application

Le scénario de notre application a été largement enrichi et l'application n'est plus un simple squelette ! Les dialogues sont plus denses, les images ont été intégrées et les jauges de scores de sensibilisation mises en place. Par exemple notre petit personnage sera confronté dès son adolescence à la maladie lorsque le vétérinaire diagnostiquera un cancer à son plutôt fidèle compagnon, son chien Katpat. Et il devra faire des choix qui auront un impact sur sa sensibilisation au cancer (matérialisée par une "jauge" verte).

Scenario.jpg

Jauge.png

Le modèle prédictif

Concernant le modèle prédictif, il a largement évolué pour prendre en compte des périodes de temps différents sur le jeu d'apprentissage (2000-2004) et le jeu de test (2005-2009) :

Split1.JPG
Split3.JPG

Autres événements de la période

  • Le 31 mars réunion en comité restreint de l'équipe pour réfléchir sur la manière la plus pertinente d'intégrer les données dans le modèle.
  • Le 6 avril on parle de nous sur la page Facebook d'Epidémium ! Notre pitch :

Dans la peau d’un personnage (que vous choisirez) né en 2000, vous allez vivre votre vie par anticipation jusqu’en 2036 !

La vie vous réservera de bonnes et de mauvaises surprises, vous serez confronté aux problèmes de santé de vos proches, à des changements climatiques et environnementaux, vous devrez faire des choix professionnels et géographiques …

France Horizon 2036 (ou ELSE pour « Evolutive Live Selection Expérience » ) se veut une expérience interactive, ludique et sensibilisante, permettant à la fois d’aborder des sujets de société (la maladie, les changements climatiques,…) mais également, au travers d’un modèle prédictif se basant sur les jeux de données disponibles en Open Data sur la maille départementale française, de proposer une estimation du risque de cancer en fonction d’un certain nombre de paramètres environnementaux et sociétaux choisis.

Ce projet n’a pas la prétention de faire progresser la recherche en quelques semaines, mais de démontrer qu’en mettant nos idées en commun, en combinant nos compétences et en ouvrant les données, l’approche collaborative laisse présager de belles avancées.  

Sprint 5 : Du 8 avril au 28 avril 2016 : Y’a le feu !!!

Objectifs : 4ème et dernière boucle d’analyse

  • Préparer encore et toujours les données
  • Améliorer notre modélisation
  • Evaluer nos résultats
  • Paufiner la data-visualisation

Production

Les données disponibles

Nous avons parcouru les études "Etat de l'Art" identifiées au Sprint 2, afin de dégager de nouvelles variantes /  hypothèses significatives dans l'élaboration du scénario de vie de notre héros, par rapport à des facteurs de risques connus :

1ère étude  : "conséquences cutanées des modifications environnementales".

Voilà 5 variantes que l'on peut en tirer :

- 1/ Fille ou garçon, il faudrait proposer de choisir sa couleur de cheveux, car les roux sont plus sujets aux cancers cutanés.

- 2/ Notre sujet est jeune, il faudrait proposer la possibilité de lui faire utiliser des cabines de bronzage, qui sont directement en rapport avec le nombre de cancers cutanés.

- 3/ Il faudrait proposer qu'il puisse habiter dans une région où la couche d'ozone est trouée (à déterminer), car la conséquence sur les mélanomes et cancers cutanés est manifeste.

- 4/ Dans le même registre sur l'augmentation des UV, il faudrait lui laisser le choix de ses vacances car l'exposition solaire excessive favorise  les mélanomes.

- 5/ Enfin, le choix de son lieu de vie est important, car les pesticides et autres produits agricoles à haute dose sont en lien avec le cancer du sein.

2ème étude  : "conséquences médicales du réchauffement climatique".

Cette 2ème étude corrobore les conclusions de la 1ère, en apportant quelques chiffres précis. Exemple : les projections établies pour le rayonnement UV concluent à une multiplication par 4 des cancers de la peau d'ici à 2100 :-(

Nous suivrons notre héros jusqu'en 2036, on pourrait donc établir un ratio de multiplication de l'ordre de 1,5 des cancers de la peau sur notre période de référence, en appliquant une bestiale règle de 3, qui n'est certainement pas la meilleure loi en la matière...

3ème étude : "nutrition, activité physique, environnement et cancer".

En introduction : 35% des cancers sont dus à notre alimentation, suivant l’INCA – Institut National du Cancer :-(

Voilà 5 variantes que l'on peut en tirer :

- 1/ Il est important de savoir s'il est carnivore ou pas, car il est démontré qu’une consommation trop importante de viande est associée à un risque accru de cancer colorectal.

- 2/ De plus, on peut se demander s’il aime les produits laitiers, dont les yaourts, car ceux-ci jouent un rôle protecteur vis-à-vis de la survenue du cancer colorectal.

- 3/ De même, s’il est habitué au « régime méditerranéen » riche en aliments sources d’antioxydants et de polyphénols (fruits, légumes, thé, huile d’olive, cacao, épices), c’est un point positif contre le cancer colorectal.

- 4/ S’il aime le soja, de nombreux travaux ont démontré de façon convaincante son rôle dans la prévention et le pronostic du cancer du sein.

- 5/ Enfin, si notre héros a eu la malchance d’avoir déjà développé un cancer avant 2036, il est établi que l’activité physique réduit les risques de l’ordre de 40 à 50 % de décès en diminuant les risques de rechute des principaux cancers (en particulier mammaires, coliques ou prostatiques).

4ème étude : « pollution atmosphérique, cause de cancer bronchique ? »

Voilà encore 4 variantes que l'on peut en tirer :

- 1/ Puisqu'il vit en France, « leader européen du diesel », de nombreuses études ont démontré une association entre l’exposition aux polluants ambiants et des taux élevés de cancer bronchique. Ce sont essentiellement les particules émises par les moteurs diesel qui sont en cause (source la plus importante de la pollution aérienne), avec un risque relatif estimé à 1,5 dans la plupart des cas.

- 2/ On peut aussi se demander si notre héros fume ou pas. En effet, le tabagisme actif est universellement reconnu comme le facteur majeur de cancer du poumon.

- 3/ De plus, le tabagisme passif qu’il aurait pu subir est un caractère cancérogène pour le poumon, clairement démontré depuis 2002 par l’OMS – Organisation Mondiale de la Santé.

- 4/ Enfin, le lieu de vie de notre héros pourrait avoir son importance, car toutes les études mondiales sur le cancer bronchique depuis 1990 mettent en évidence un ratio urbain vs rural allant jusqu’à 1,6 chez l’homme et 1,9 chez la femme.

5ème et 6ème études

- "Disparités géographiques d'évolution d'incidence des cancers de la thyroïde par taille entre 1983 et 2000 en France"

- "Perturbateurs endocriniens environnementaux et cancers hormono dépendants. De nouveaux facteurs de risque ?"

Ces 2 dernières études n'ont pas permis de dégager de nouvelles variantes /  hypothèses significatives dans l'élaboration des scénarios de vie de notre héros.

Notre application

Le scénario est finalisé. Nous n'irons pas plus loin, en tout cas pour cette fois. Vous pouvez-le découvrir ici : Média:Scénario_Epidemium_V3.pdf

Les différents choix que feront notre personnage conditionneront à la fois ces scores de sensibilisation, à sa santé, au cancer et à l'environnement; mais également les données qui seront prises dans le modèle prédictif.

Le modèle prédictif

A partir des données récupérées, préparées et nettoyées nous constituons une grande matrice avec :

- une ligne par type de cancer, sexe et département (soit environ 18 type de cancers * 2 sexes * 100 départements = 3600 lignes) extraite du fichier mortalité fourni par Epidemium, avec le taux de mortalité associé sur la période

Target.JPG
- une colonne par variable extraite des jeux de données que nous avons recensés et ramenée à une maille départementale :
Target2.JPG
Nous avons une matrice pour "apprendre" sur la période 2000-2004 et une matrice pour "prédire" sur la période 2005-2009. Les noms des variables est le même dans les deux matrices. Dans l'idéal pour aurions dû prendre les taux de mortalité de 1985-1989 et 2005-2009 pour simuler l'écart de 20 années comme dans notre scénario (2016 - 2036) mais nous n'avons pas trouvé assez de données ouvertes et disponibles sur la période 1985-1989. Peut-être qu'avec plus de temps nous aurions pu faire mieux.

Le modèle prédictif appliqué est un modèle de RandomForest ("Foret aléatoire"), le GradientBoostingRegressor. Il construit (ou calcule) un nombre démesuré d'arbres et de forêts pour identifier les chemins (ou branches) qui amènent le mieux aux résultats et donc définir les variables qui ont le plus d'importance dans l’obtention du résultat (taux de mortalité connu).

(ASR : Age Standardised Rate)

Predictif.JPG

Data-visualisation

En sortie du modèle prédictif, ce type de data-visualisation montre l'impact de chaque variable sur le résultat (ici le taux de mortalité pour un cancer donné):

Causalite.JPG

On peut donc imaginer qu'en fonction du parcours de vie de notre personnage, certaines variables seront retenues en entrée du modèle et pas d'autres. Et pour chacune de ses variables retenues, le modèle déterminera l'impact (plus ou moins fort) sur le taux de mortalité pour un cancer donné, dans le département d'habitation de notre héros, sur la base des taux de mortalité standardisé.

Autres événements de la période

Le 18 Avril échanges avec Seraya Maouche, porteuse du projet EPIDEMIUM BD4Cancer qui nous donne quelques conseils précieux avec un prisme médical :

  • Intégrer des données génétiques, très utiles dans les études de recherche sur le cancer. Nous pourrions ajouter une question dans notre scénario sur la réalisation du séquençage du génome.
  • Prendre en compte d'autres facteurs de risques (ex : obésité ….) et les consommations de drogues et de médicaments
  • Intégrer d'autres données sur la mortalité car on ne peut pas décorréler "taux de mortalité du cancer" du "taux global de mortalité". Un site à consulter : http://www.mortality.org/

Sprint final : Du 29 avril au 5 mai 2016 : le sprint "Epidémium"

Objectif : finir dans les temps !

Il ne nous reste plus qu'une petite semaine et tant de choses encore à finir, améliorer, comprendre, expliquer ...

Il y a encore tant d'opendata à explorer, tant de variables à intégrer dans notre modèle prédictif, tant d'autres modèles que le GradientBoostingRegressor à essayer ...

Et puis il y a l'interprétation de ces premiers résultats, la prise en compte des remarques de Seraya, l'intégration de données de génétique et des mutations des gènes BRCA1 et BRCA2, la prise en compte des facteurs de risques identifiés dans les études médicales, ...

Il nous faudrait aussi fignoler notre scénario pour prendre en compte tous ces paramètres, le reporter dans le code de l’application ...

Et puis travailler notre data-visualisation finale pour bien faire passer le message, éviter les erreurs d'interprétation, expliquer au joueur que nous n'avons d'autre ambition que le sensibiliser au cancer et à sa capacité de minorer le risque en fonction de ses choix de vie.

Bien analyser également le post que nous a partagé Seraya (http://www.fastcodesign.com/3058943/the-ux-of-ethics-should-google-tell-you-if-you-have-cancer) sur ce que l'on peut dire et ne pas dire, sur le respect des "principes de bienfaisance et de non-malfaisance au travers une évaluation du rapport bénéfice / risque". Nos résultats n'étant que des probabilités de facteurs de risque et ne devant pas déclencher de "psychose" !

En fait il nous faudrait encore des semaines mais le challenge s’arrête jeudi 5 Mai à 23h59.

Alors dans la semaine qui reste, nous allons calmer les tensions et les frustrations de chacun de ne pas avoir réussi à mener son ambition jusqu'au bout, nous allons nous retourner pour regarder le chemin parcouru depuis le début du challenge, ce que nous avons appris individuellement et collectivement. Tous ces bons moments que nous avons partagés, les enseignements que nous en tirons, ce que nous avons appris et comment nous pourrions continuer, partager, progresser sur ces quelques bases posées ensemble.

Et bien sur remercier les organisateurs d'Epidémium qui nous ont donné une belle occasion de travailler ensemble sur un sujet qui nous touche tous.

34ans.jpg