MemoiresBaseline

De Challenge4Cancer
Aller à : navigation, rechercher

Rapports et mémoires dans le cadre du projet Baseline

Rapport poussé d'élèves à l'ENSAE sur la base de données de départements Français. Différentes techniques pour compléter les données manquantes. Regression multilinéaires et random forest sont deux techniques utiles à l'analyse. Une matrice de corrélation indique une association forte entre mortalité par cancer et véhicules: (carrés marrons sur la première colonnMatrice corr.pnge, à mi-hauteur)

Analyse des données age-standardized dans le monde (matrice du RAMP1). Les risques de cancer sont très disparates dans le monde:

Essais infructueux avec un modèle Bayesien non adapté à la sparsité des données.

Le modèle GLM aggregate donne lui des résultats, et suggère ces facteurs de risque vis à vis de l'incidence de cancers:

    • 'incidence de cancer plus élevée chez les hommes
    • chez les populations vaccinées contre la polio // effet vraisemblablement indirect: pays avec plus de dépistage?
    • chez les populations qui consomment de l‟alcool
    • chez les populations qui ont un indice de masse corporel (score BMI) élevé
    • dans les pays à fortes inégalités (indice d'inégalité) // vraisemblablement fort risque de cancer
    • pays qui dépensent moins pour la santé
    • pays qui ont beaucoup de chômage longue durée
    • un cholestérol sanguin élevé
    • une haute pression sanguine 
    • où la pilule contraceptive est plus utilisée
    • où les femmes se marient jeunes Comme nous le voyons, il faut prendre ces résultats avec de grandes pincettes. L'incidence de cancer peut venir à la fois d'un risque réellement plus élevé mais aussi d'un plus grand dépistage, et beaucoup de facteurs de risques sont en lien indirect avec l'un de ces deux aspects, voir les deux.

Résultats décevants avec des approches CART, PLS (qui gère la sparcité), un peu moins pour des GLM et random forest. "Il faudrait plus de données" "Comment gérer la sparcité de la matrice?". En même temps, certains résultats peuvent être interprétés comme bons. Par exemple la matrice suivante est les coefficients de régression linéaire pour différents types de cancers:

Coeff-lin-RAMP1.png

Nous voyons que des signes positifs ou négatifs se dégagent assez clairement dans différentes colonnes. Par exemple colonne Gender, les hommes ont plus de risque. L'interprétation doit se faire en connaissance des "Types" de cancer, ici par exemple le type 5 est le cancer du sein donc le coefficient Gender n'y a pas de sens; d'autres types de cancers sont quant à eux très peu fréquents. De plus, lorsque cette analyse est effectuée sur log(Y) et non pas Y (étape testée par E Debonneuil avant de créer GLM Aggregate; car en actuariat et épidémiologie ce genre d'analyse est généralement inadéquat sur Y, sachant que le risque est en fait >0) les résultats sont beaucoup plus robustes et correspondent à ceux du rapport de Nga et Adrien plus haut. Donc des techniques intéressantes à appliquer à ln(Y), dans le contexte de l'analyse.