Baseline/Vambok

From Challenge4Cancer
Jump to: navigation, search

Started by Vambok, continued by Eouard

 Cancer risks worldwide

http://data.epidemium.cc/dataset/cancer-registry >> http://www-dep.iarc.fr/

  • Ci5 for cancer incidence by region (registry)
    • on the download page (http://ci5.iarc.fr/CI5plus/Pages/download.aspx) there is a zip file (http://ci5.iarc.fr/CI5plus/old/CI5plus.zip) that contains
      • registry.txt : a list of registries (regions in the world, sometimes with a distinction by population type)
        • File uploaded on DSS as Y_registry Doing so is not straight forward:
          • Fixed-Width format
          • column-offsets 0,11,16
          • unselect "Parse next line as column headers"
          • the name of the columns was then manually chosen: registry_id, population_type, registry_name
      • cancer_summary.txt : a list of cancers by body location
        • File uploaded on Dataiku as Y_organ This was straightforward to add to DSS
      • populations.csv : for each registry and year it contains the population size by age tranch and gender
        • File uploaded on Dataiku as Y_population This was straightforward to add to DSS
      • summary.csv : for each registry and year it contains the number of cancer cases by organ
        • File uploaded on Dataiku as Y_incidence This was straightforward to add to DSS though I renamed columns like N50_54 into i50_54 in order indicate clearly that it is incidence and later allow to combine the data with cancer mortality without confusion of names.
      • other files: for many registries more details are available regarding the types of cancer. But it is not TNM staging so we did not thing it would bring more useful information to the project and decided not to upload that information.

- WHO for cancer mortality risk by country

  • File uploaded on DSS as "CancerMortalityWHO_88countries" and taken from Epidemium's start package: http://data.epidemium.cc/files/core/dataset_core.zip

- ECO for cancer mortality in Europe

- Survcan for mortality by region (registryà in lower and mid income areas

added by others

edouard:

  • Ci5 (incidence monde): nous avons fait un scrapeur en php => poursuivre et charger les fichiers dans DSS
  • ECO (incidence, mortalité et survie Europe): http://eco.iarc.fr/EUREG/AnalysisT.aspx est le seul endroit où récupérer les données... et quand je regarde le code html ce n'est ps évident peut-être suffit il de faire http://eco.iarc.fr/EUREG/AnalysisT.aspx?ctl00$mainContent$Loc=rbLocation&ctl00$mainContent$ddlCustomCountry=40&ctl00$mainContent$ddlRegistries=EUAUTSAL& et une dizaine de variables supplémentaires ainsi, peut-être faut-il faire l'équivalent en post et là je ne sais pas faire mais je me souviens que c'est faisable en jouant avec les fonctions header de php, peut être faut-il recopier tout leur code javascript pour que ça fasse les bonnes transformations lors de onsubmit. as-tu déjà commencé à regarder ces choses?
  • NORDCAN (incidence, mortalité et prévalence Pays Nordiques): pour télécharger les données il faut que demander par email pour avoir un code comme écrit ici: http://www-dep.iarc.fr/NORDCAN/english/Table8_sel.asp et dans tous les cas il faut une permission: "Systematic retrieval of data to create or compile, directly or indirectly, a collection, database or directory without written permission from ANCR via the secretariat is prohibited."
  • SURVCAN (survie Afrique, Caraibes, Asie, Amérique Centrale): là c'est facile http://survcan.iarc.fr/survivalstats.php?country=hongkong&soumission=subm , un peu comme Ci5. Mais il n'y a que la survie, donc on n'a pas la mortalité par cancer (incidence, survie et mortalité sont 3 choses bien différentes)