Methodologie

De Challenge4Cancer
Aller à : navigation, rechercher

Cette page méthodologie est là pour accueillir les contributions de tous ceux qui souhaitent explorer les questions méthodologiques liées au big data et à l'épidémiologie, rédiger des éléments de méthodes pour aider les participants à éviter les biais, les erreurs et ainsi construire leurs projets ans les meilleurs conditions possibles.

C'est à vous,

Intérêts et limites des données écologiques pour l’épidémiologie du cancer

Les données ouvertes (open data) disponibles pour le C4C sont essentiellement des données populationnelles ou écologiques (par opposition à des données individuelles, en coupe ou longitudinales). Il s’agit ici de fournir quelques éléments de réflexion sur l’utilité et l’utilisation de ce type de données, et, le cas échéant, d’initier une discussion sur le sujet.

**********

La plupart des éléments de réponse à la problématique exprimée dans le titre de cette page sont exposées dans un court éditorial (2 pages) du Journal of Epidemiology & Community Health (Pearce Neil, 2000 [A]).

En résumé, les données écologiques (populationnelles) ont deux intérêts principaux :

  • “Population level studies play an essential part in defining the most important public health problems to be tackled, and in generating hypotheses as to their potential causes.”
“For example, many of the recent discoveries on the causes of cancer (including dietary factors and colon cancer, hepatitis B and liver cancer, aflatoxins and liver cancer, human papilloma virus and cervical cancer) have their origins, directly or indirectly, in the systematic international comparisons of cancer incidence conducted in the 1950s and 1960s. These suggested hypotheses concerning the possible causes of the international patterns, which were investigated in more depth in further studies.”
  • “Some risk factors for disease genuinely operate at the population level.” (Déterminants environnementaux, sociaux, etc.)

D’où le succès des modèles multi-niveaux qui permettent de combiner à la fois des données individuelles et des données populationnelles et d’estimer des effets à chacun des deux niveaux.

Mais qu’en est-il des analyses qui ne s’appuient que sur des données populationnelles ?

**********

  • Intérêt.

Des analyses de ce type sont bien sûr utiles pour « comprendre la répartition du cancer dans le temps et dans l’espace » (challenge 1), et elles peuvent être utiles pour générer de nouvelles hypothèses sur les « facteurs de risques et facteurs protecteurs du cancer » (challenge 2) et sur l’impact du changement climatique sur le cancer (challenge 3).

Comme indiqué ci-dessus, de nombreux travaux visant à rechercher des hypothèses sur les causes du cancer ont été menées depuis l’après-guerre (en particulier grâce aux bases répertoriées par l’International Agency for Research on Cancer [C] ; voir aussi [D]). Cependant, l’accès récent à de nombreuses nouvelles données (open data) permet de nouveaux croisements et peut éventuellement faire émerger de nouvelles hypothèses.

  • Les limites de ces analyses sont cependant assez évidentes :

> Les (non-)associations observées au niveau d’une population entre un cancer et un facteur de risque ne sont souvent pas valides au niveau des individus. Interpréter une association populationnelle comme une association individuelle constitue une erreur écologique (“ecological fallacy” = “the assumption that an observed relationship in aggregated data will hold at the individual level, [B] p.15[1] ; voir aussi [A] pour d’autres exemples[2]).

En effet, les observations sur lesquelles reposent les analyses populationnelles sont des « individus moyens », ie des individus virtuels dont les caractéristiques sont les valeurs moyennes calculées au niveau d’une aire géographique (pays, états, régions ou départements). L’information contenue dans ces observations agrégées est donc très limitée en comparaison de celle contenue dans des données individuelles. La distribution de chacune des caractéristiques dans la population de l’aire géographique est en général inconnue (eg, connaitre la consommation moyenne de viande dans un pays ne donne aucune information sur la proportion de végétariens ou de ceux qui consomment plus de 200g de viande par jour) ; et les liens entre les différentes caractéristiques le sont aussi (eg, est-ce que les personnes qui mangent plus de viande consomment aussi plus de féculents ? boivent plus d'alcool ?).

Ainsi, à titre d'exemple, si la proportion de femmes dans la population est à peu près identique dans toutes les unités géographiques observées (idem pour l’âge moyen, la consommation de viande ou n’importe quelle autre variable), alors aucune association n’apparaitra au niveau populationnel entre ces caractéristiques et les cancers (si ce n’était déjà su, il ne serait alors pas possible de détecter que le cancer du sein concerne très majoritairement les femmes ou que le cancer des testicules touche surtout les hommes jeunes).

> Il n’est pas possible avec des données populationnelles d’aller au-delà de la mise en évidence d’associations entre des cancers et des facteurs de risque (bien loin de toute causalité). Et encore s’agit-il d’associations au niveau agrégé, d’un statut plus faible que ne l’est une association observée au niveau individuel et décrite par Woodward comme une condition nécessaire mais non suffisante pour établir une causalité (voir la section 1.6 de [B] pour une discussion sur la causalité en épidémiologie).

**********

Conclusion : C’est un vrai « challenge » que d’arriver à produire des idées neuves dans un domaine, la recherche sur le cancer, qui fait l’objet de 150.000 publication chaque année[3]. C’est d’autant plus difficile à partir de données déjà connues et utilisées (à moins que de « nouvelles » données, des laboratoires Roche, finissent par passer le barrage de CNIL). Enfin, pour les challenges 2 & 4, une difficulté supplémentaire vient du nombre restreint de bases de données individuelles (qui peuvent permettre des études multi-niveaux) ; les seules données écologiques ne permettant que de faire du "small data" d’un intérêt assez limité.

******************************************************

Références :

[A] Pearce, N. (2000). The ecological fallacy strikes back”. Journal of epidemiology and community health, 54(5), 326-327.

[B] Woodward, M. (2013). Epidemiology: study design and data analysis. CRC Press. (peut être trouvé sur http://bookzz.org/)

[C] Des données sur l’incidence, la mortalité et la prévalence des différents types de cancer par pays/région (et qui ne sont peut-être? pas toutes présentes dans les bases Epidemium) se trouvent dans les bases répertoriées sur le site de l’International Agency for Research on Cancer, et en particulier dans les 10 volumes des Cancer Incidence in Five Continents.

[D] Frank, S. A. (2007). Dynamics of cancer: incidence, inheritance, and evolution. Princeton University Press. (voir aussi sur bookzz)

******************************************************

[1] “For instance, consider a study using routine data that shows a relationship between the death rate due to AIDS and the percentage who are heavy drinkers for 20 different countries. Drinking is then certainly related to AIDS at the national level, but can we necessarily infer that the relationship will hold amongst individual people? We have no means to answer this question from the aggregate analysis; even a situation in which no person who drinks heavily has AIDS may be compatible with the data.”

[2] “For example, almost any disease that is associated with affluence and Westernisation has in the past been associated at the national level with sales of television sets, and nowadays is probably associated at the national level with rates of internet use.”

[3] “Around the world, 150,000 articles are published every year on cancer alone.