-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathdevoir_par1.Rmd
105 lines (62 loc) · 3.9 KB
/
devoir_par1.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
---
title: "Devoir - partie 1"
output:
pdf_document: default
html_notebook:
highlight: tango
theme: cerulean
---
```{r, message=FALSE}
library(tidyverse)
library(survey)
```
On réalise une étude afin d'estimer la prévalence de la maladie $M$ en population générale adulte en Île-de-France (adultes de 20 à 90 ans).
Pour cela, on réalise le diagnostic dans un échantillon de 6348 sujets, composé de sujets issus de 5 cohortes :
- 2686 participants de la cohorte A ;
- 2934 participants de la cohorte B ;
- 112 participants de la cohorte C ;
- 119 participants de la cohorte D ;
- 497 participants de la cohorte E.
Les populations cibles de ces cohortes sont les suivantes :
- A : hommes et femmes de 20 à 80 ans ;
- B : hommes et femmes de 20 à 90 ans ;
- C : femmes de 70 à 90 ans ;
- D : hommes de 70 à 90 ans ;
- E : hommes et femmes de 25 à 70 ans.
Le tableau `devoir_sample` contient les données de cet échantillon. Les variables sont les suivantes :
- `id` : identifiant unique de chaque sujet ;
- `cohorte` : cohorte d'origine du sujet ;
- `age` : âge du sujet ;
- `sexe_m` : sexe masculin (`0` = femme, `1` = homme) ;
- `csp` : catégorie socio-professionnelle (8 catégories) ;
- `poids_sond` : poids de sondage (inverse des probabilités d'inclusion);
- `statut` : présence de la maladie (`0` = non, `1` = oui).
```{r}
data <- read_csv("C:/Users/antoi/Documents/Cours/Master/M2_SMSDS/Modelisation/Devoir/devoir_sample.csv")
head(data)
```
```{r}
summary(data)
```
### Question 1
En faisant l'hypothèse que les poids de sondage décrivent directement le nombre de sujets représentés dans la population cible (on verra par la suite que cette hypothèse est discutable), estimer pour chacune des cohortes la prévalence de la maladie dans sa population-cible.
La fonction estweights permet d'estimer le poids de sondage des individus dont la données est manquante dans la cohorte A
```{r}
design <- data %>% filter(cohorte == "A") %>% estWeights(formula =~1)
design$phase1$sample$variables$poids_sond
data <- data %>% mutate(poids_sond = ifelse(cohorte == "A", design$phase1$sample$variables$poids_sond, poids_sond))
```
```{r}
data %>% group_by (cohorte) %>% summarise(Prevalence = sum(statut*poids_sond)/sum(poids_sond))
```
### Question 2
On souhaite à présent utiliser l'information issue de toutes les cohortes pour estimer la prévalence de la maladie dans toute la population des 20-90 ans.
Avec la même hypothèse que pour la question 1, pourquoi ne peut-on pas simplement réaliser cette estimation sur l'ensemble de l'échantillon en utilisant directement les poids de sondage proposés ?
On ne peut pas estimer directement la prévalence sur l'ensemble de l'échantillon en prenant le poids de sondage de chaque participant car nous sommes dans un cas où l'échantillon est stratifié.
Quelle(s) information(s) serait nécessaire pour réaliser cette estimation ?
Les individus de la cohorte E pourraient être inclus dans plusieurs autres cohortes. C'est à dire que les individus présents dans la cohorte E possèdent les mêmes caractéristiques (âge) que les individus inclus dans les cohortes A et B.
On ne connait pas les caractéristiques permettant de séparer, de caractériser entiérement les individus dans les différentes cohortes.
Dans de cadre d'un échantillonage stratifié, le poids de sondage correspond au poids de représentativité.
Les ni (avec i={A,B,C,D,E}) individus d'une des cohortes représentent Ni individus de la population d'Ile de France. Le poids de représentativité pour chaque sujet de la cohorte i doit être égal à Wi= Ni / ni.
Cette formule permet de calculer le poids de représentativité de chaque sujet en fonction de sa strate (cohorte) d'origine.
Cependant, on ne dispose pas de l'information sur la population totale par strate (Ni)