Discussion:Baseline

Aller à : navigation, rechercher
 

Précisions sur la méthodologie

6
PE (discussioncontributions)

Le point 1 de la description indique que "A partir des jeux de donnés ayant en commun la région, l'âge et le sexe, nous modéliserons l'incidence de cancers et la mortalité par cancer selon de nombreuses variables".

Questions : Ces "nombreuses variables" ne doivent-elles pas être communes à tous les jeux de données qui vont être utilisés? Si oui, il est à craindre que très peu de telles variables (pertinentes) existent et que la fonction f estimée soit alors trop basique. Si non, quelle type de méthode peut permettre de pallier cette difficulté (le fait que dans la plupart des zones, certaines variables de la fonction f seront manquantes)?

Edebonneuil (discussioncontributions)

Merci PE pour cette question. En fait non, ma vision actuelle est que la baseline soit en fait un paquet de modèles suivant les variables considérées, chaque modèle étant calibré sur l'ensemble des départements/counties/zones-géographiques dans le monde pour lesquels des jeux de données avec ces variables ont été trouvées. Ce paquet de modèles sert aussi après lors de la comparaison de jeux de données spécifiques par rapport à la baseline.

Voilà donc pour l'approche que je vois sur base de méthodes que j'ai très souvent utilisé. Après, l'équipe s'annonce large et variée, avec des profs d'actuariats pour soutenir sur des méthodes innovantes, des experts en machine learning et en big data de pays différents... donc il y aura certainement plein d'idées et de cross-polénisation entre domaines. J'avoue être assez impatient ;)

Augustin (discussioncontributions)

Thank you Edouard for launching this project and generating this flow of ideas. To be sure I understood well the main steps of the projects (as discussed in previous comments), I took the freedom to summarize them here. 1. Build a GLOBAL database in .xls. This should include variables which are available in all the countries. For instance, • Incidence • Mortality • Age • Time • Country • Sex • … Note: I built this database for the US and all the above mentioned variables are available. 2. Draw additional regressions by adding other variables at LOCAL levels (i.e. in a specific country), e.g. • Cancer sites • Jobs • Eating habits • … 3. Aggregate both databases into a single meta-model Note: As mentioned by PE, there might be a mismatch between the GLOBAL and the LOCAL databases. E.g. “Saucisson sec” data presented only for Ireland. Tricky step! 4. Further steps • Model optimization through machine learning • Results presentation enhanced with web design, etc. • Other … 5. Final goal of “what we do” IMHO I truly think it is important to have a practical goal in mind before starting anything. It calibrates ideas and helps commit stakeholders to the project. For example we could target the launch of an app on the Appstore and giving each user a “cancer risk score” as well as advices about how to decrease it. Although the main hurdle to such development is legal and not technical, this type of application is useful and feasible!

Augustin (discussioncontributions)

See you all tomorrow Cheers Augustin

Augustin (discussioncontributions)

Btw j'avais commencé à écrire en anglais ds l'avion. On peut également s'accorder sur une langue commune demain. Sujet important surtout si les experts viennent du monde entier;-)

PE (discussioncontributions)

OK, merci beaucoup à vous deux pour ces précisions. La richesse de l'approche (du "paquet de modèles") va donc dépendre de l'étape 1. décrite par Augustin (ie, de la richesse des variables communes à suffisamment de jeux de données). La confrontation des méthodologies actuarielles et économétriques peut s'avérer enrichissante. Je suis intéressé à creuser ces questions.

Et, plus généralement, si j'en ai le temps, je débuterai un wiki pour l'ensemble du challenge sur les possibilités et les limites des données ouvertes pour faire avancer la recherche en santé, et plus particulièrement ici sur le cancer.

Cancer en France par département

3
JosephxLam (discussioncontributions)

Les cancers recensés ne sont pas uniquement buccaux pharyngés. En allant, au bout du lien, on peut accéder aux autres types de cancers également. Cependant, ce sont des tableaux html. J'ai écrit un programme Python qui permet de les scraper et de tous les télécharger en csv. Je ne sais pas où contribuer pour le mettre à disposition cependant.

OFF (discussioncontributions)

Merci JosephxLam, Le wiki est une bonne solution pour ajouter le code dans un espace dédié sur la page du projet. Pour les jeux de données, nous explorons actuellement les options pour partager les jeux de données améliorées par les participants. Merci

Edebonneuil (discussioncontributions)

Merci @JosephxLam!! N'hésite pas à enrichir le wiki de telles informations pour la France ou d'autres pays, c'est fait pour!

Il n’y a pas de discussions plus anciennes