Mortalité des cancers

From Challenge4Cancer
Jump to: navigation, search

Bienvenue sur la page du projet BD4Cancer qui focalise sur la mortalité des cancers. Cette page donne accès à des statistiques et ressources sur la mortalité des cancers.

Le code R est disponible sur le Github d'Epidemium.

Objectifs de cette page

Cette page vise à centraliser les ressources et résultats sur la mortalité par cancers.

Mots clés en Français: mortalité, projection démographique.

Mots clés en anglais: Mortality forecasting, Life expectancy.

Rappel sur les derniers chiffres de mortalité par cancer en France

Selon le rapport 2014 de l'Institut Français du Cancer (INCa), le nombre de décès par cancer en 2012 est estimé à 148 000 décès (85 000 hommes et 63 000 femmes). Chez l'homme, le cancer du poumon est la première cause de décès par cancer (21 326 décès), devant le cancer colorectal (9 275 décès) et le cancer de la prostate (8 876 décès). Chez la femme, le cancer du sein (11 886 décès) se situe au premier rang, devant le cancer du poumon (8 623 décès), qui arrive désormais en deuxième position, et le cancer colorectal (8 447 décès). Le classement des cancers par mortalité estimée en 2012 en France métropolitaine par localisations selon le sexe est présenté sur la pyramide de la figure 1.

Le rapport de l'INCa recommande d’analyser les estimations par localisation cancéreuse et non pour l’ensemble «tous cancers» pour ne pas masquer les variabilités d’évolution de l’incidence et de la mortalité des différentes localisations étudiées.

L'édition 2015 du rapport "Les cancers en France" a été publié en avril 2016. La [France2015.png|figure 1] montre le classement des cancers par mortalité projetée en 2015 en France métropolitaine par localisations selon le sexe.

Fig 1. Classement des cancers par mortalité projetée en 2015 en France métropolitaine par localisations selon le sexe (source: Les cancers en France - Edition 2015)

Données fournies par Epidemium

Epidemium a fourni a jeu de données 'data.core.zip' sur l'incidence et la mortalité de 1950 à 2012. La première colonne permet d'identifier le cancer (codification ICD-10). La correspondance code-type du cancer est donnée dans le fichier cancer.txt (dans la même archive zip). La troisième colonne donne les tranches d'âges (attention lorsque l'on ouvre ce fichier dans Excel, certaines données se transforment en dates). Il y a 19 tranches d'âges: 0-4 5-9 10-14  15-19  20-24  25-29  30-34  35-39  40-44  45-49  50-54  55-59 60-64  65-69  70-74  75-79  80-84  85+

La quatrième colonne donne le pays. Un fichier localite.txt est fourni dans cette même archive qui permet de faire la correspondance entre le pays et la localité. La dernière colonne (cases.number) donne le nombre de décès.                                                                                                                                  

datadir   <- "/home/common/data/" 
filename  <-"mortalite_1950_2013.csv"
setwd(datadir)
mortality <- read.csv(filename, header = TRUE, sep=";") 
dim(mortality) 
[1] 3191598       6 
head(mortality)    
id.cancer  sex age registry year cases.number
1        C11 Male 0-4  Albania 2009            0
2     C00-14 Male 0-4  Albania 2009            0
3 C00-15,C32 Male 0-4  Albania 2009            0
4        C15 Male 0-4  Albania 2009            0
5        C16 Male 0-4  Albania 2009            0
6     C17-21 Male 0-4  Albania 2009            0 
# Si vous voulez travailler sur la France, il suffit 
de faire un simple subset sur la colonne 4:
dataFrance <- subset(mortality, mortality[,4] =="France") 
dim(dataFrance)
[1] 59850     6

Vous pourrez utiliser la libraire R ‘epiDisplay’ (Epidemiological Data Display) pour explorer les données.

Fig 2. Classement des cancers par mortalité estimée en 2012 en France métropolitaine par localisations selon le sexe (source Binder-Foucard et al. 2013)

Donnée mortalité de la base de données "Human Mortality Database" (HMD)

La base de données internationale HMD[1] constitue le développement du projet Berkeley mortality database. L’Institut national d’études démographiques (Ined) contribue à cette base pour les données françaises. HMD contient des données de mortalité dans 38 pays.

Pour importer les données françaises, vous aurez besoin d'ouvrir un compte sur le serveur d'HMD. Nous vous indiquerons ci-après comment importer dans R les données de la mortalité.

La fonction R hmd.mx() de la librairie demography permet d'établir la connexion avec HMD.

library(demography)
library(forecast)
library(lifecontingencies)

# Utilisez dans la fonction hmd.mx() votre email et votre mot de passe obtenus de l'administrateur d'HMD. 
# Pour les données française, le paramètre "country" doit être changé à "FRATNP" (pour toute la population française) ou
# FRACNP (toute la population civile)
FrenchDemogData <-hmd.mx(country="FRACNP", username="XXXXXXXXXXXXX", password="YHYUNH", label="French")

Une fois la connexion établie avec HMD, vous pourrez explorer les données. La fonction hmd.mx () retourne un objet de classe demogata avec les composantes suivantes:

  • year: un vecteur des années.
  • age: un vecteur des âges
  • rate: une liste avec une matrice ou plus des taux pour chaque groupe d'âge par ligne, et une colonne pour chaque année.
  • pop: une liste similaire à celle de "rate", mais qui contient les effectifs de la population à la place des taux.
  • type: type de l'objet, qui peut être "mortality", "fertility" ou "migration"
summary(FrenchDemogData)
Mortality data for French
    Series: female male total
    Years: 1816 - 2013

Vous pourrez ensuite visualiser le "pattern" de mortalité (le logarithme des taux de mortalité) dans la population française par sexe, pour les femmes, les hommes et pour toute la population et par tranches d'âges.

par(mfrow=c(1,3))
plot(FrenchDemogData ,series="male",datatype="rate", main="Male rates")
plot(FrenchDemogData ,series="female",datatype="rate", main="Female rates")
plot(FrenchDemogData ,"total",datatype="rate", main="Total rates")
par(mfrow=c(1,3))
plot(FrenchDemogData,series="male",datatype="rate",plot.type="time", main="Male rates",xlab="Years")
plot(FrenchDemogData,series="female",datatype="rate",
plot.type="time", main="Female rates",xlab="Years")
plot(FrenchDemogData,series="total",datatype="rate",
plot.type="time", main="Total rates",xlab="Years")
Fig 2. Mortalité en France (données HMD)
ED: Notez bien comment ces courbes à droite plongent de plus en plus alors même qu'une échelle log est utilisée sur l'axe des Y: la mortalité par cancer décroît plus vite qu'exponentiellement.
Fig 1. Le "pattern" de mortalité (le logarithme des taux de mortalité) dans la population française par sexe, pour les femmes, les hommes et pour toute la population et par tranches d'âges.
Vous pouvez à présent ajuster un modèle Lee-Carter, et utiliser ensuite la package R "forcast" pour la projection de la mortalité.

Dans cet exemple, le modèle est appliqué séparément sur les femmes,sur les hommes et sur la population totale. L'âge maximum a été considéré =100.

FranceMortLcaM <-lca(FrenchDemogData,series="male",max.age=100)
FranceMortLcaF <-lca(FrenchDemogData,series="female",max.age=100)
FranceMortLcaT <-lca(FrenchDemogData,series="total",max.age=100)

par(mfrow=c(1,3))
plot(FranceMortLcaT$ax, main="ax", xlab="Age",ylab="ax",type="l")
lines(x=FranceMortLcaF$age, y=FranceMortLcaF$ax, main="ax", col="red")
lines(x=FranceMortLcaM$age, y=FranceMortLcaM$ax, main="ax", col="blue")
legend("topleft" , c("Male","Female","Total"),
cex=0.8,col=c("blue","red","black"),lty=1);
plot(FranceMortLcaT$bx, main="bx", xlab="Age",ylab="bx",type="l")

lines(x=FranceMortLcaF$age, y=FranceMortLcaF$bx, main="bx", col="red")
lines(x=FranceMortLcaM$age, y=FranceMortLcaM$bx, main="bx", col="blue")
legend("topright" , c("Male","Female","Total"),
cex=0.8,col=c("blue","red","black"),lty=1);
plot(FranceMortLcaT$kt, main="kt", xlab="Year",ylab="kt",type="l")
lines(x=FranceMortLcaF$year, y=FranceMortLcaF$kt, main="kt", col="red")
lines(x=FranceMortLcaM$year, y=FranceMortLcaM$kt, main="kt", col="blue")
legend("topright" , c("Male","Female","Total"),
cex=0.8,col=c("blue","red","black"),lty=1);
Fig 3. Modèle Lee-Carter.

Comme le montre la figure 3, le taux moyen de mortalité

augmente avec l'augmentation de l'âge. Un "pattern" similaire est observé chez les hommes et chez les femmes.

Dans cet exemple, la version originale du modèle Lee-Carter a été utilisée. Le paramètre "ajust" de la fonction lca() permet de choisir un autre modèle

  • “dxt” (BMS method),
  • “dt” (Lee-Carter method)
  • “e0” (method based on life expectancy)

D'autres librairies R permettent d'appliquer d'autres modèles (exemple: le paquetage StMoMo)

<<ED: regardez le "kt", qui représente le niveau de mortalité à chaque, qui plonge de façon totalement non linéaire: c'est que le modèle de Lee Carter essaie de calibrer des données qui ne sont pas compatibles avec sa forme fondamentale. En réalité, les améliorations de mortalité gagnent progressivement des âges de plus en plus avancés. Ce décalage vers les grands âges n'est pas pris en compte par le modèles de Lee Carter. Aussi, pour des projections lointaines (plus de 15 ans), mieux vaut prendre des des méthodes "e0".>>

forecastM <-forecast(FranceMortLcaM,h=110)
forecastF <-forecast(FranceMortLcaF,h=110)
forecastT <-forecast(FranceMortLcaT,h=110)

par(mfrow=c(1,3))
plot(forecastM$kt.f,main="Male")
plot(forecastF$kt.f,main="Female",)
plot(forecastT$kt.f,main="Total")

Le résultat est présenté sur la figure 4.

Fig 4. Projections des taux de mortalité.

<<ED: clairement, le cône de projection ici tracé n'y est pas du tout! Demandez à un enfant de poursuivre le trait noir, il fera une ligne qui ira très vie vers le bas et il aura raison (en fait il s'agit d'une sorte de compensation du modèle de Lee Carter à faire pour pallier sa non-modélisation de l'augmentation des avancées aux grands âges). A cause de cette différence, dans le monde des retraites, l'utilisation massive du modèle de Lee Carter a justifié des prédictions que l'espérance de vie augmenterait en moyenne de un demi trimestre par an et non pas d'un trimestre par an environ. Aujourd'hui, si des projections plus correctes étaient utilisées, la France serait en récession depuis des années (et sur ce sujet la France fait plutôt figure de bon élèves par rapport à d'autres pays...): c'est important car nous avons ainsi contribué à nous empêtrer dans la crise actuelle pour bien des générations. Nous avons donné des retraites trop généreuses et sommes embourbés. Attnetion donc aux mauvaises tendances de ces modèles, qui ne reproduisent pas les tendances du passé.>>

Il est maintenant possible de déduire les taux:

ratesM <- cbind(FrenchDemogData$rate$male[1:100,],forecastM$rate$male[1:100,])
ratesF <- cbind(FrenchDemogData$rate$female[1:100,],forecastF$rate$female[1:100,])
ratesT <- cbind(FrenchDemogData$rate$total[1:100,],forecastT$rate$total[1:100,])
par(mfrow=c(1,1))
plot(seq(min(FrenchDemogData$year),max(FrenchDemogData$year)+110),ratesF[65,],
      col="red",xlab="Years",ylab="Death Rates",type="l")
lines(seq(min(FrenchDemogData$year),max(FrenchDemogData$year)+110),ratesM[65,],
     col="blue",xlab="Years",ylab="Death Rates")
lines(seq(min(FrenchDemogData$year),max(FrenchDemogData$year)+110),ratesT[65,],
     col="black",xlab="Years",ylab="Death Rates")
legend("topright" , c("Male","Female","Total"),
      cex=0.8,col=c("blue","red","black"),lty=1);
Le "pattern" des taux de mortalité projetés pour les personnes âgées de 65 ans.
BD4Cancer deathRatesFrance.png

Modèles (+extensions) et algorithmes

  • Le modèle de Lee–Carter (1992)[2] - Une bonne référence sur ce modèle est accessible à cette URL.
  • Lee and Miller (2001)[3]
  • Booth et al. (2002)[4]
  • Brouhns et al. (2002)[5]
  • Renshaw and Haberman (2003)[6]
  • Hyndman and Ullah (2007)[7]
  • Renshaw and Haberman (2006)[8]
  • Cairns et al. (2006)[9]

Critique des modèles de la section précédente

Les modèles de la section précédente sont des évolutions du modèle de Lee Carter qui gardent la particularité de ne pas projeter que les améliorations (de mortalité, incidence, santé publique) gagnent des âges de plus en plus grands.

L'article original de Lee Carter expliquait bien que ces modèles produisaient naturellement une décélération et ils s'en félicitaient. Le contexte y était indiqué dans l'article: à l'époque, la plupart des personnes pensaient que l'espérance de vie allait bientôt stagner. La raison principale est vraisemblablement que l'hygiène et les spectaculaires progrès cardio-vasculaires avaient déjà fait beaucoup et l'on voyait mal ce que l'on pourrait faire contre des fléaux comme le cancer notamment / contre le vieillissement.

Mais... les améliorations cardio-vasculaires bientôt contre le cancer et tout un pan de notre vieillissement se sont fait ressentir. Les conditions de vie ont continué à s'améliorer (malgré bien-sûr aussi d'importances menaces futures pour la santé), en particulier pour les grands âges. Les améliorations gagnent des âges de plus en plus grands. C'est ainsi que, contrairement aux prédictions de l'article original de Lee Carter, l'espérance de vie a continué à augmenter d'environ un trimestre par an, année après année. Bien qu'il soit devenu établi aujourd'hui comme "connu" que l'espérance de vie augmente d'un trimestre par an, une très grande communité a continuer à utiliser le modèle de Lee Carter et ses dérivés, sans faire le lien -- et sans se rendre compte -- que cela produit des améliorations d'espérance de vie plus faible.

Au début des années 2000 John Bongaarts est l'un des premiers à se rendre compte et a publier sur le problème fondamental qui est en train de se passer (nous sous-estimons les besoins de retraites et faisons payer durablement les générations suivantes) et a proposé un modèle beaucoup plus simple: logit Y =a + b year + c age (avec des calibrations de a particulières) [Bongaarts 2004].

Aujourd'hui on peut reprendre le modèle de John Bongaarts et voir comment entre temps l'utilisation massive du modèle de Lee Carter et ses dérivés a amené l'essentiel des pays à ne pas équilibrer leur économie de ce point de vue ([Debonneuil 2015] article pour informer du problème et des améliorations --heureuses-- potentielles, et non pour se faire connaitre). La tendance continue, d'où cette réaction ici: attention, ces modèles ne reproduisent pas l'évolution des améliorations vers les grands âges -- auxquelles d'ailleurs Epidemium participe. Suggestion donc d'utiliser un modèle d'espérance de vie ou une simple régression logistique, et de faire passer le message que les modèles de type Lee Carter ont une tendance constitutive à ignorer les améliorations potentielles et en cours aux grands âges.

  • Bongaarts J. [2004] « Long-Range Trends in Adult Mortality: Models and Projections Methods », Population Council, WP192.
  • E. Debonneuil, F. Planchet, S. Loisel [2015]. Do actuaries believe in longevity deceleration? 2015; Cahiers de l’ISFA, https://hal.archives-ouvertes.fr/hal-01219270
  • Beaucoup d'autres articles mis en référence dans ces deux articles.

Librairies R utiles pour l'épidémiologie

  • epiDisplay (Epidemiological Data Display Package)
  • demography (Forecasting mortality, fertility, migration and population data)
  • epiR (Tools for the Analysis of Epidemiological Data)
  • StMoMo (Stochastic Mortality Modelling)
  • ilc (Lee-Carter Mortality Models using Iterative Fitting Algorithms)
  • LifeMetrics (implements the original Cairns-Blake-Dowd (CBD))
  • forcast

Références

  1. Human Mortality Database.  University of California, Berkeley (USA), and Max Planck Institute for Demographic Research (Germany). Available at www.mortality.org or www.humanmortality.de (data downloaded on [3 March 2016]).
  2. Lee, R.D. and L. Carter. 1992. “Modeling and Forecasting the Time Series of U.S. Mortality.” Journal of the American Statistical Association 87:659–71.
  3. Lee, Ronald and Timothy Miller (2001) Evaluating the Performance of the Lee-Carter Approach to Modeling and Forecasting Mortaliy, Demography, v. 38, n. 4 (November, 2001) pp. 537-549.
  4. Booth, H., Maindonald, J., Smith, L., 2002. Applying Lee-Carter under conditions of variable mortality decline. Population Studies 56 (3), 325–36.
  5. Brouhns, N., Denuit, M., Vermunt, J., 2002. A Poisson log-bilinear regression approach to the construction of projected lifetables. Insurance: Mathematics and Economics 31 (3), 373–393.
  6. Renshaw, A., Haberman, S., 2003. Lee-Carter mortality forecasting with age-specific enhancement. Insurance: Mathematics and Economics 33 (2), 255–272.
  7. Hyndman, R. J., Ullah, S., 2007. Robust forecasting of mortality and fertility rates: A functional data approach. Computational Statistics & Data Analysis 51 (10), 4942–4956.
  8. Renshaw, A., Haberman, S., 2003. Lee-Carter mortality forecasting with age-specific enhancement. Insurance: Mathematics and Economics 33 (2), 255–272.
  9. Cairns, A. J. G., Blake, D., Dowd, K., 2006. A two-factor model for stochastic mortality with parameter uncertainty: theory and calibration. Journal of Risk and Insurance 73 (4),687–718.