Données

De Challenge4Cancer
Aller à : navigation, rechercher

Le Challenge4Cancer met à la disposition des participants plusieurs types de données :

  1. Un jeu de données principal, présent dans le data set core, utilisables pour les quatre Challenges.
  2. Des jeux de données spécifiques pour chacun des Challenges (détaillés ci-dessous).
  3. D'autres jeux de données plus généraux disponibles sur la plateforme de données Epidemium.
  4. Des jeux de données que les participants peuvent soumettre à l'équipe Epidemium. Ces jeux de données doivent pouvoir être utilisables par tous.


Jeu de données principal


Le jeu de données principal contient :

  • les jeux de données de mortalité du cancer
    • Monde (World Health Organisation)
      • sur la période 1950-2012
      • par pays
      • par localisation de cancers
      • par tranche d’âge
      • par sexe
    • OCDE sur la période 1960-2012
      • par pays
      • pour l'ensemble des cancers
      • par sexe
    • France
  • les jeux de données d'incidence du cancer
    • Monde (World Health Organisation)
      • sur la période 1953-2007
      • par pays
      • par localisation de cancers
      • par tranche d'âge
      • par sexe
    • En France
      • sur la période 2009-2012
      • par région
      • par localisation des cancers

Vous trouverez ici le lien de téléchargement de ces données. Il s'agit de datasets d'incidence monde 1953-2007 et de mortalité monde 1950-2013. Le dataset prêt à l'emploi est dataset_core.zip ; les datasets suivants sont plus complets et plus complexes : dataset_simply.zip & dataset_full.zip (ce dernier est le plus complet mais n'est pas nettoyé).

Jeux de données spécifiques à un Challenge


Challenge 2 : Facteurs de risques et Facteurs protecteurs du cancer

Exemple de jeux de données spécifique : Pour les équipes qui se pencheraient sur le rapport entre cancers et comportement sexuels à risques, nous mettons à disposition des datasets des Infections Sexuellement Transmissibles dont la dynamique peut indirectement témoigner de l’évolution des comportements sexuels. Les datasets les plus complets couvrent l’épidémiologie des IST aux Etats-Unis.

  • Seront a disposition diverses indicateurs relatifs aux maladies suivantes :
    • aux Etats-Unis
      • SIDA (mortalité, diagnostiqués, mode de transmission) pour la période 2000-2011
      • Syphilis
      • Tuberculose
      • Hépatites A, B, C
      • Infections à Chlamydiae, Gonococques
    • Dans le monde (World Health Organisation)
      • SIDA (mortalité, incidence, co-infection tuberculeuse, ...) par tranche d’âge, par pays pour la période 1990-2011
      • Syphilis (travailleurs du sexe atteints, syphilis congénitale...)

Télécharger les données Facteur de risque.

Challenge 3 : Meta-épidemiologie : comprendre le cancer à partir de la littérature scientifique médicale

Nous mettons à dispositions les jeux de données spécifiques suivants :

  • les essais cliniques réalisés dans le monde et rassemblés sur la plate-forme de l’OMS  ICTRP ;
  • les essais cliniques rassemblés dans ClinicalTrials.gov ;
  • les essais cliniques rassemblés dans Clinical Study Data Request ;
  • les méta-données de tous les articles taggés Cancer du portail Pubmed, téléchargeables ICI ;
  • la base complète d’articles de Pubmed en Open Access, non spécifiquement taggés Cancer, téléchargeable ICI. Pour information, les fichiers sont en format XML (avec une extension nxml). Les images et autre documents PDF parfois associés aux articles ne sont pas disponibles dans ces fichiers.

Vous trouverez les ontologies ouvertes suivantes :

Télécharger les données MetaEpidemio.

Challenge 4 : Changements environnementaux et cancer

Vous trouverez ICI le lien vers de nombreux datasets climatiques.

Jeux de données généraux : plateforme de données Epidemium


Accessibilité

Découvrez plus de 21 000 jeux de données, via la technologie ouverte CKAN, accessibles par un moteur d’exploration sur : http://data.epidemium.cc

Typologie des données

Démographie :
  • Âge
  • Population homme/femme
  • Taux suicide
  • Indice de mortalité
  • Indice de fécondité
  • Nombre d’enfant par femme
  • Âge du premier enfant
  • Mortalité infantile
  • Mortalité maternelle



Environnement & Agriculture :
  • Emission CO2
  • Emission GES, ammoniac, soufre, pesticide & fertilisants
  • Emissions de non-methane volatile organic compounds par secteur
  • Pourcentage de terres agricoles
  • Biomasse en forêt
  • Données de consommation d’enrj & prix & taxes
  • Pollution par transport
  • Traitement des déchets
Travail  :
  • Emploi & conditions de travail
  • Indicateur Qualité de vie : espérance de vie en bonne santé
  • Revenus, Chômage, Temps de travail
  • Conditions de vie : logement, précarité
  • Scolarisation & Formation
  • Population active
  • Taux de chômage




Economique :
  • Croissance
  • PIB par habitant
  • Revenu par habitant
  • Corruption perçu
  • Score démocratique
  • Croissance économique 2005 - 2015







Comportement :
  • Consommation alcool
  • Consommation tabac
  • Utilisation charbon
  • Consommation téléphonique
  • Mort accident de la route












Santé :
  • Tuberculose,
  • HIV (prévalence)
  • Espérance de vie à la naissance, à 65 ans, espérance de vie en bonne santé…
  • Maladies professionnelles
  • Maladie cardiovasculaires (mortalité)
  • Mortalité des maladies chroniques
  • Immunisation vaccin (DTP, Polio)
  • Malnutrition + obésité (prévalence)
  • Contraception
  • Maladies congénitales
  • Tension A. , cholestérol
  • Diarrhée enfant
  • Statut vaccinal
  • Mortalité par accidents
  • Mortalité par cancer
  • Pneumopathie
  • Hépatite Chronique
  • Maladies du système nerveux
  • Alcoolisme
  • Dépendance aux drogues
  • Diabète
  • Nombre de machines mammographiques
  • Santé & Admin : Indicateurs de dép. de santé sur 20 ans/ pays : dépenses publiques, des ménages, assurances privés, totales de santé, soins, de prévention, consommation de soins
  • Démographie médicale/spécialité, des professionnels de santé (Nombre d’hôpitaux, de pharmacies, de laboratoires, nombre de lits)
Cancer :
  • Cancer statistiques régionales
  • Dépistage du cancer (colon, utérus, …)
  • Décès dû au cancer / Mortalité par cancer
  • Cancer du sein, du poumon
  • Cancer & génomique
  • Mortalité/Incidence du cancer par âge, sexe, régions, race depuis les registres 1999 - 2012
  • Ontologie du cancer
  • Incidence du mélanome






Jeux de données soumis par les participants


Les participants au Challenge4Cancer peuvent soumettre d'autres jeux de données à l'équipe Epidemium afin de les utiliser dans leur projet. Ces jeux de données doivent être rendus accessibles à tous les particitants du C4C. Ils peuvent également mettre à disposition des jeux de données cleanés.

EpidemiumDB


Méta-projet du Challenge4Cancer, EpidemiumDB est une base de données commune à tous les membres d'Epidemium afin que chacun puisse partager ses données.

Base de données open data Roche


Dans le cadre d'Epidemium et suite à l'autorisation finale de la CNIL, Roche vient d'ouvrir pour la première fois ses données cliniques, pour faire avancer la recherche contre le cancer.

Dès le début d'Epidemium, Roche a souhaité évaluer la possibilité de mettre à disposition des participants du Challenge4Cancer des données cliniques Roche France.

Pour conduire le projet, une équipe interne transverse a été mise en place, avec pour mission d'en évaluer la faisabilité et, in fine, de construire une base de données anonymisée et ouverte.

Cette base de données est agrégée à partir des données de 12 études cliniques Roche France non interventionnelles incluant plus de 8 000 patients. La CNIL a même reconnu ce projet d’intérêt public.

Voici le lien d'accès à cette base : http://data.epidemium.cc/files/open_data_roche/