You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: inst/tutorials/A09La_anova/A09La_anova.Rmd
+11-11Lines changed: 11 additions & 11 deletions
Original file line number
Diff line number
Diff line change
@@ -121,15 +121,15 @@ toothgrowth %>.%
121
121
122
122
**Cette étape est la première à réaliser après avoir importé les données. Il faut vérifier et adapter les types et les labels des variables.** Il est particulièrement important que les variables qui définissent les sous-populations comparées soient bien encodées sous forme d'objets `factor` ou `ordered` ! Le piège lorsqu'il s'agit de valeurs numériques, comme ici, est de laisser la variable sous forme `integer` ou `numeric`, car alors, la fonction `lm()` fera une autre analyse (régression linéaire que nous verrons au cours SDD II).
123
123
124
-
Nous allons nous concentrer uniquement sur les individus qui ont reçu de la vitamine C. La question biologique est la suivante: **y a-t-il une différence de la longueur des odontoblastes en fonction de la ration journalière de vitamine C administrée sous forme d'acide ascorbique ?**
124
+
Nous allons nous concentrer uniquement sur les individus qui ont reçu de la vitamine C. La question biologique est la suivante: **y a-t-il une différence de la longueur des odontoblastes en fonction de la ration journalière de vitamine C administrée sous forme d'acide ascorbique ?**
125
125
126
126
```{r, echo=TRUE}
127
127
tooth_vc <- sfilter(toothgrowth, supp == "VC")
128
128
```
129
129
130
130
### Description des données
131
131
132
-
Rappelez-vous que la description des données est une étape indispensable avant l'analyse (voir modules [1](https://wp.sciviews.org/sdd-umons/?iframe=wp.sciviews.org/sdd-umons-2024/visu1.html), [2](https://wp.sciviews.org/sdd-umons/?iframe=wp.sciviews.org/sdd-umons-2024/visu2.html) et [3](https://wp.sciviews.org/sdd-umons/?iframe=wp.sciviews.org/sdd-umons-2024/visu3.html) de SDD I).
132
+
Rappelez-vous que la description des données est une étape indispensable avant l'analyse (voir modules [1](https://wp.sciviews.org/sdd-umons/?iframe=wp.sciviews.org/sdd-umons-2024/introvisu.html), [2](https://wp.sciviews.org/sdd-umons/?iframe=wp.sciviews.org/sdd-umons-2024/visu2.html) et [3](https://wp.sciviews.org/sdd-umons/?iframe=wp.sciviews.org/sdd-umons-2024/visu3.html) de SDD I).
133
133
134
134
### Description numérique
135
135
@@ -195,18 +195,18 @@ grade_code("Vous obtenez le tableau adéquat en vue de réaliser ensuite une ANO
195
195
196
196
### Description graphique
197
197
198
-
Plusieurs graphiques différents permettent de visualiser correctement vos observations avant de réaliser une ANOVA. Étant donné que nous avons trois groupes avec dix individus par groupe, nous vous proposons de réaliser des boites de dispersion parallèles avec l'ajout des valeurs sous la forme de point (tout en évitant le chevauchement des observations) et des moyennes.
198
+
Plusieurs graphiques différents permettent de visualiser correctement vos observations avant de réaliser une ANOVA. Étant donné que nous avons trois groupes avec dix individus par groupe, nous vous proposons de réaliser des boites à moustaches parallèles avec l'ajout des valeurs sous la forme de point (tout en évitant le chevauchement des observations) et des moyennes.
stat_summary(geom = "point", fun = "mean", color = "red", size = 2) # points représentant les moyennes
222
222
```
223
223
224
224
```{r tooth_graph_h2-check}
225
-
grade_code("Ce graphique est adéquat pour visualiser les données avant une ANOVA à un facteur avec dix individus par groupe dont le but est de comparer la longueur des dents en fonction de la dose administrée. Avec un nombre plus important d'individus, vous auriez pu remplacer les boites de dispersion par par un graphique en \"violon\". Avec un nombre plus faible d'observation, l'affichage plus simple des points et de la moyenne de chaque groupe est encore le meilleur choix.")
225
+
grade_code("Ce graphique est adéquat pour visualiser les données avant une ANOVA à un facteur avec dix individus par groupe dont le but est de comparer la longueur des dents en fonction de la dose administrée. Avec un nombre plus important d'individus, vous auriez pu remplacer les boites à moustaches par un graphique en \"violon\". Avec un nombre plus faible d'observation, l'affichage plus simple des points et de la moyenne de chaque groupe est encore le meilleur choix.")
226
226
```
227
227
228
228
Maintenant que vous avez pris connaissance de vos données grâce à un tableau et un graphique, vous pouvez réaliser votre test d'hypothèse... tout en vous assurant de bien vérifier que les conditions d'application du test sont respectées.
@@ -278,15 +278,15 @@ question("Y a-t-il homoscédasticité (égalité des variances entre sous-popula
278
278
279
279
Dans R, nous avons plusieurs fonctions pour réaliser une ANOVA. Nous utilisons `lm()` qui demande un jeu de données et une formule. Nous lui appliquons ensuite la fonction `anova()` pour produire le tableau de l'analyse de la variance. Si le résultat doit être propre, nous pouvons ensuite utiliser `tabularise()` pour formater le tableau de l'ANOVA.
Vous êtes habitué à cette interface formule que vous utilisez dans la réalisation de vos graphiques ou de vos tests d'hypothèse précédents. Cette fonction calcule un objet de classe `lm` (pour "linear model", que nous aborderons plus en détails au cours SDD II) duquel la fonction `anova()` va extraire l'information qui nous intéresse pour interpréter ce test. Réalisez votre modèle ANOVA sur la longueur des odontoblastes en fonction de la dose de vitamine C administrée pour votre sous-tableau relatif aux cochons d'Inde ayant reçu de l'acide ascorbique.
286
286
287
287
<!-- 💬 **Ce code correspond au snippet `.hmanova1`** -->
@@ -379,7 +379,7 @@ question("Quels sont les niveaux significativement différents au seuil alpha de
379
379
380
380
## Interprétation biologique
381
381
382
-
Notre ANOVA est terminée. En situation réelle, il nous resterait à intégrer ces résultats dans notre rapport ou notre présentation pour les communiquer au public intéressé. Rappelez-vous que la formulation est importante. Vous utiliserez une phrase du genre : "chez le cochon d'Inde, la longueur des odontoblastes s'accroît de manière significative au seuil $\alpha$ de 5% en passant de rations quotidiennes de vitamine C ration de 0.5 à 1, et à 2 mg/J (ANOVA à 2 et 27 ddl, F = 67,1, valeur P \< 3,3•10^-11^ ; voir aussi tests post-hoc de Tukey Table X et Fig. Y)". Ceci correspond à l'interprétation sur le plan statistique de vos résultats. Vous discuterez ensuite des mécanismes qui entrent possiblement en jeu ici, en réfléchissant au rôle de l'acide ascorbique dans les réactions biochimiques de formation de la dentine et de l'émail, par exemple (interprétation biologique de vos résultats).
382
+
Notre ANOVA est terminée. En situation réelle, il nous resterait à intégrer ces résultats dans notre rapport ou notre présentation pour les communiquer au public intéressé. Rappelez-vous que la formulation est importante. Vous utiliserez une phrase du genre : "chez le cochon d'Inde, la longueur des odontoblastes s'accroît de manière significative au seuil $\alpha$ de 5% en passant de rations quotidiennes de vitamine C ration de 0.5 à 1, et à 2 mg/J (ANOVA à 2 et 27 ddl, F = 67,1, valeur *p*\< 3,3•10^-11^ ; voir aussi tests post-hoc de Tukey Table X et Fig. Y)". Ceci correspond à l'interprétation sur le plan statistique de vos résultats. Vous discuterez ensuite des mécanismes qui entrent possiblement en jeu ici, en réfléchissant au rôle de l'acide ascorbique dans les réactions biochimiques de formation de la dentine et de l'émail, par exemple (interprétation biologique de vos résultats).
383
383
384
384
Comme la formulation du test dans la parenthèse est fort longue pour l'ANOVA, on utilise souvent un renvoi vers la table de l'analyse de la variance que vous pouvez intégrer dans le document pour plus de lisibilité à la fois du texte et du résultat de l'ANOVA. Naturellement, si un test post-hoc est réalisé, il doit aussi être présenté, soit sous forme de tableau, soit sous forme de graphique, ou encore les deux si la place dans le document le permet (pour les articles scientifiques on est souvent fort limité en nombre de figures et de tables, et il faut parfois se résoudre à les placer dans les annexes ou dans le matériel complémentaire).
Tout comme le test de Wilcoxon/Mann-Whitney est l'équivalent non paramétrique du test *t* de Student, le test de Kruskal-Wallis est l'équivalent non paramétrique de l'analyse de variance à un facteur.
42
+
Tout comme le test de Wilcoxon-Mann-Whitney est l'équivalent non paramétrique du test *t* de Student, le test de Kruskal-Wallis est l'équivalent non paramétrique de l'analyse de variance à un facteur.
43
43
44
44
Dans ce tutoriel, vous allez pouvoir auto-évaluer votre capacité à :
45
45
@@ -71,7 +71,7 @@ plant <- dtx(
71
71
skimr::skim(plant)
72
72
```
73
73
74
-
Vous pouvez observer que ce tableau comprend deux variables dont une variable facteur à trois niveaux et une variable numérique. Chaque groupe est constitué de 30 réplicas. Il n'y a pas de valeurs manquantes dans ce tableaux. Votre objectif est de comparer les rendements obtenus pour les trois groupes (moyennes ou médianes).
74
+
Vous pouvez observer que ce tableau comprend deux variables dont une variable facteur à trois niveaux et une variable numérique. Chaque groupe est constitué de 30 réplicats. Il n'y a pas de valeurs manquantes dans ce tableaux. Votre objectif est de comparer les rendements obtenus pour les trois groupes (moyennes ou médianes).
75
75
76
76
## Un peu de théorie
77
77
@@ -84,33 +84,33 @@ Lorsque l'on souhaite comparer les valeurs moyennes ou médianes d'une variable
84
84
- distribution normale des résidus,
85
85
- homoscédasticité (même variance intragroupe).
86
86
87
-
Les quatre premières conditions sont similaires pour le test de Kruskal-Wallis. Les deux dernières conditions sont propres à l'ANOVA. Le raisonnement pour faire un choix entre ANOVA (test paramétrique) et Kruskal-Wallis (test non paramétrique) est le même que pour décider entre l'utilisation d'un test *t* de Student ou d'un test de Wilcoxon/Mann-Whitney. Lorsque les conditions sont remplies, l'ANOVA est un test plus puissant que le Kruskal-Wallis. Il est donc à utiliser en priorité, sauf dans les cas impossibles où aucune transformation des données ne permet d'obtenir une distribution acceptable des résidus ou l'homoscédasticité.
87
+
Les quatre premières conditions sont similaires pour le test de Kruskal-Wallis. Les deux dernières conditions sont propres à l'ANOVA. Le raisonnement pour faire un choix entre ANOVA (test paramétrique) et Kruskal-Wallis (test non paramétrique) est le même que pour décider entre l'utilisation d'un test *t* de Student ou d'un test de Wilcoxon-Mann-Whitney. Lorsque les conditions sont remplies, l'ANOVA est un test plus puissant que le Kruskal-Wallis. Il est donc à utiliser en priorité, sauf dans les cas impossibles où aucune transformation des données ne permet d'obtenir une distribution acceptable des résidus ou l'homoscédasticité.
88
88
89
89
Concernant le test de Kruskal-Wallis, le calcul se fait dans R comme suit :
90
90
91
91
```{r, echo=TRUE, eval=FALSE}
92
92
kruskal.test(data = DF, YNUM ~ XFACTOR)
93
93
```
94
94
95
-
- DF: le tableau de données
96
-
- YNUM: la variable quantitative
97
-
- XFACTOR: la variable qualitative
95
+
- DF: le tableau de données
96
+
- YNUM: la variable quantitative
97
+
- XFACTOR: la variable qualitative
98
98
99
99
À présent que vous êtes au point concernant les conditions d'application, il est temps de répondre à la question posée.
100
100
101
101
## Description graphique
102
102
103
103
Toute analyse débute par la description des données à l'aide de descripteurs numériques et de graphiques **pertinents**. Vous voulez comparer les **moyennes** de trois groupes (si ANOVA). Il semble évident de présenter graphiquement les moyennes de chaque groupe de telle façon que la comparaison visuelle sur le graphique est facile à réaliser. C'est ce que nous avons fait dans le tutoriel learnr précédent consacré à l'ANOVA.
104
104
105
-
Par contre, si au cours de votre analyse, vous réalisez que c'est plutôt un test de Kruskal-Wallis, alors il faudra revenir sur votre description initiale des données et vous tourner vers un graphique qui comparera plutôt les **médianes** des trois groupes. Ici, nous savons d'avance que nous réaliserons un test de Kruskal-Wallis au final. Donc, afin d'économiser notre temps, nous ferons directement un graphique en boites de dispersion parallèles. Vous annoterez le graphique avec le nombre d'observations au-dessus de chaque boite de dispersion.
105
+
Par contre, si au cours de votre analyse, vous réalisez que c'est plutôt un test de Kruskal-Wallis, alors il faudra revenir sur votre description initiale des données et vous tourner vers un graphique qui comparera plutôt les **médianes** des trois groupes. Ici, nous savons d'avance que nous réaliserons un test de Kruskal-Wallis au final. Donc, afin d'économiser notre temps, nous ferons directement un graphique en boites à moustaches parallèles. Vous annoterez le graphique avec le nombre d'observations au-dessus de chaque boite à moustache.
grade_code("Les boites de dispersion parallèles sont tout indiquées pour représenter les données avant un test de Wilcoxon/Mann-Whitney indépendant ou un test de Kruskal-Wallis.")
147
+
grade_code("Les boites à moustaches parallèles sont tout indiquées pour représenter les données avant un test de Wilcoxon/Mann-Whitney indépendant ou un test de Kruskal-Wallis.")
148
148
```
149
149
150
150
Que cela soit un tableau résumé ou un graphique, ils ne permettent pas d'affirmer ou d'infirmer qu'il y a une différence significative entre les groupes présentés. Vous devez réaliser un test d'hypothèse pour décider si les différences observées sont probablement issues de ces différences ou si elles sont plutôt imputables à la variations entre individus et aux erreurs de mesure (variations aléatoires).
@@ -213,7 +213,7 @@ question("Sélectionnez l'interprétation adaptée au test réalisé ci-dessus",
213
213
answer("Au moins la moyenne d'un groupe diffère des autres significativement au seuil alpha de 5%."),
214
214
answer("Les rangs moyens (médianes) ne différent pas significativement au seuil alpha de 5%"),
215
215
answer("Les rangs moyens (médianes) différent significativement au seuil alpha de 5%"),
216
-
answer("Au moins un rang moyen (médianes) d'un groupe diffère des autres significativement au seuil alpha de 5%.", correct = TRUE), correct = "L'interprétation complète est la suivante : Au moins un rang moyen d'un groupe diffère des autres significativement au seuil alpha de 5% (Chi^2 = 54,95, ddl = 2, valeur p = 1,17e-12).",
216
+
answer("Au moins un rang moyen (médianes) d'un groupe diffère des autres significativement au seuil alpha de 5%.", correct = TRUE), correct = "L'interprétation complète est la suivante : Au moins un rang moyen d'un groupe diffère des autres significativement au seuil alpha de 5% (Chi^2 = 54,95, ddl = 2, valeur p < 1e-3).",
0 commit comments