Skip to content

Commit a190840

Browse files
committed
aula 3
1 parent d56ad78 commit a190840

25 files changed

+10178
-688
lines changed

Relatorio_Iris_Semabio.Rmd

Lines changed: 136 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,136 @@
1+
---
2+
title: "Analise dos dados 'iris'"
3+
author: "Carolina Musso"
4+
date: "2023-11-28"
5+
output:
6+
html_document:
7+
df_print: paged
8+
---
9+
10+
```{r setup, include=FALSE}
11+
knitr::opts_chunk$set(echo = F)
12+
if (!require(pacman)) install.packages("pacman")
13+
pacman::p_load(palmerpenguins, tidyverse,
14+
ggstatsplot,gtsummary, ggpubr)
15+
```
16+
17+
## Introdução
18+
19+
Este relatório tem como foco a análise da renomada base de dados Iris, um conjunto de dados clássico no campo da estatística. Originalmente coletada pelo botânico Edgar Anderson e popularizada pelo estatístico Ronald Fisher, a base de dados Iris consiste em 150 observações de três espécies de íris (Iris setosa, Iris virginica e Iris versicolor). Cada observação registra quatro características das flores: o comprimento e a largura da sépala, e o comprimento e a largura da pétala.
20+
21+
Neste relatório, empregaremos técnicas de análise exploratória de dados para extrair insights valiosos sobre as características dessas espécies de íris. Além disso, exploraremos como diferentes métodos de visualização de dados podem ser utilizados para compreender melhor as relações entre as variáveis. O objetivo é proporcionar uma compreensão abrangente da base de dados Iris, servindo como um ponto de referência para futuras análises e utilização de relatórios automatizados.
22+
23+
# Material e métodos
24+
25+
Neste relatório, utilizaremos métodos de análise exploratória de dados para explorar as características físicas dos pinguins e as diferenças entre as espécies. Nosso foco será em destacar padrões interessantes, identificar correlações potenciais e proporcionar insights visuais por meio de gráficos e análises estatísticas.
26+
27+
28+
# Resultados
29+
30+
Um gráfico clássico.
31+
32+
```{r}
33+
34+
iris_area <- iris %>%
35+
mutate(area_petala = Petal.Length*Petal.Width/2) %>%
36+
filter(area_petala<=6)
37+
38+
iris_media_area <- iris_area %>%
39+
group_by(Species) %>%
40+
summarise(area_media=mean(area_petala),
41+
area_dp=sd(area_petala))
42+
43+
graf1 <- iris_media_area %>%
44+
ggplot(aes(x=Species, y=area_media)) +
45+
geom_col(fill="#9c9ff7",
46+
color="#684dcf")+
47+
geom_errorbar(aes(ymin = area_media-area_dp,
48+
ymax = area_media+area_dp),
49+
width=0.3,
50+
color="#684dcf")+
51+
theme_classic(base_size = 16)+
52+
labs(x = "",
53+
y=expression("Área média da pétala (cm"^2*")"))+
54+
coord_flip()+
55+
theme(axis.text.y = element_text(face = "italic"))
56+
57+
58+
59+
graf1
60+
61+
# Abaixo fazemos o código com o R base, tente transferir para o dplyr
62+
63+
media_virginica <- iris_media_area[iris_media_area$Species=="virginica", "area_media"] |> as.numeric()
64+
65+
media_setosa <- iris_media_area[iris_media_area$Species=="setosa", "area_media"] |> as.numeric()
66+
67+
media_versicolor <- iris_media_area[iris_media_area$Species=="versicolor", "area_media"] |> as.numeric()
68+
69+
# repare onde no no texto estamos "chamando" esses objetos.
70+
71+
```
72+
73+
Vemos no gráfico acima que a média de área da pétala da espécie *Iris virginica* é de `r media_virginica` cm$^2$, a da *Iris versicolor* é de cm$^2$ e a de *Iris setosa* é de `r media_setosa` cm$^2$. Esta última, portanto é a que possui menores pétalas entre as três espécies.
74+
75+
76+
Uma tabela resumo
77+
78+
```{r}
79+
tbl_summary(iris,
80+
by = Species,
81+
statistic = list(all_continuous() ~ "{mean} ({sd})"),
82+
label = list(
83+
Sepal.Length ~ "Comprimento da Sépala",
84+
Sepal.Width ~ "Largura da Sépala",
85+
Petal.Length ~ "Comprimento da Pétala",
86+
Petal.Width ~ "Largura da Pétala")) %>%
87+
modify_header(label ~ "**Variável (cm)**")
88+
```
89+
90+
## Gráficos e testes
91+
92+
```{r}
93+
ggscatter(iris_area,
94+
x = "Sepal.Length",
95+
y = "Petal.Length",
96+
add = "reg.line", # Adicionar linha de regressão
97+
conf.int = TRUE, # Adicionar intervalo de confiança
98+
color = "Species",
99+
palette = "Set1"
100+
) +
101+
stat_cor(aes(color = Species),
102+
label.x = 6.8,label.y=c(2,3,4)) +
103+
labs(x="Comprimento da Pétala (cm)",
104+
y= "Comprimento da Sétala (cm)") # Ajustar posição dos labels
105+
106+
107+
108+
```
109+
110+
111+
```{r}
112+
my_comparisons <- list( c(1, 2), c(1, 3), c(2, 3) )
113+
ggboxplot(iris_area,
114+
x = "Species", y = "area_petala", fill = "Species",
115+
palette = c("green", "blue", "red"),
116+
add.params = list(fill = "white"))+
117+
stat_compare_means(comparisons = my_comparisons,
118+
label.y = c(5, 7.95, 9),
119+
p.adjust.method = "bonferroni",
120+
method = "t.test")+ # Add significance levels
121+
stat_compare_means(label.y = 10,
122+
label.x = 0.75,
123+
method = "anova") +
124+
labs(x="",
125+
y=expression("Área média da pétala (cm"^2*")"))+
126+
theme(axis.text.x = element_text(face="italic"))
127+
128+
```
129+
## Mais Dicas
130+
131+
132+
- Podemos escolher [cores](https://www.color-hex.com) [exatas](https://colorbrewer2.org/#type=sequential&scheme=BuGn&n=3)
133+
134+
- [Temas](https://ggplot2.tidyverse.org/reference/ggtheme.html)
135+
136+
- [Cheat Sheets](https://www.maths.usyd.edu.au/u/UG/SM/STAT3022/r/current/Misc/data-visualization-2.1.pdf)

Relatorio_Iris_Semabio.docx

309 KB
Binary file not shown.

Relatorio_Iris_Semabio.html

Lines changed: 2152 additions & 0 deletions
Large diffs are not rendered by default.

Relatorio_penguin_Semabio.Rmd

Lines changed: 183 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,183 @@
1+
---
2+
title: "Gráficos com dados de Pinguins"
3+
author: "Carolina Musso"
4+
date: "2023-11-29"
5+
output:
6+
html_document:
7+
self-contained: true
8+
---
9+
10+
```{r setup, include=FALSE}
11+
knitr::opts_chunk$set(echo = F)
12+
```
13+
14+
## Introdução
15+
16+
Este relatório apresenta uma análise a da base de dados 'Palmer Penguins', um recurso emergente e instrutivo no domínio da ciência de dados e estatística. A base de dados foi coletada pela Dra. Kristen Gorman com o Programa de Pesquisa Polar Palmer Station, Antártica. Os dados abrangem três espécies de pinguins encontradas nas ilhas próximas à Estação Palmer: Adelie, Chinstrap e Gentoo.
17+
18+
Com 344 observações, esta base de dados inclui medidas como o tamanho do bico, a profundidade do bico, o comprimento das nadadeiras, a massa corporal dos pinguins, além de informações sobre a espécie, sexo e local de coleta.
19+
20+
Este relatório não apenas serve como uma exploração aprofundada da base de dados biológicos realista e relevante, mas também como um exemplo prático da utilização do relatorios automatizados em Rmarkdown.
21+
22+
# Material e métodos
23+
24+
Neste relatório, utilizaremos métodos de análise exploratória de dados para explorar as características físicas dos pinguins e as diferenças entre as espécies. Nosso foco será em destacar padrões interessantes, identificar correlações potenciais e proporcionar insights visuais por meio de gráficos e análises estatísticas.
25+
26+
```{r}
27+
# Carregando os pacotes necessários
28+
if (!require(pacman)) install.packages("pacman")
29+
pacman::p_load(palmerpenguins, tidyverse,
30+
ggstatsplot,gtsummary, ggpubr)
31+
32+
# Carregando os dados
33+
data("penguins")
34+
penguins <- na.omit(penguins) # Removendo observações com valores ausentes
35+
36+
```
37+
38+
39+
40+
```{r}
41+
ggplot(penguins, aes(x = bill_length_mm, y = bill_depth_mm, color = species)) +
42+
geom_point() +
43+
labs(title = "Comprimento x Profundidade do Bico por Espécie",
44+
x = "Comprimento do Bico (mm)",
45+
y = "Profundidade do Bico (mm)")
46+
47+
```
48+
49+
50+
51+
52+
```{r}
53+
# Carregar o pacote ggpubr
54+
ggscatter(penguins,
55+
x = "bill_length_mm",
56+
y = "bill_depth_mm",
57+
add = "reg.line", # Add regression line
58+
conf.int = TRUE, # Add confidence interval
59+
color = "species", palette = "jco", # Color by groups "cyl"
60+
shape = "species"
61+
)+
62+
stat_cor(aes(color = species), label.x = 3)
63+
64+
65+
library(ggpubr)
66+
67+
ggscatter(penguins,
68+
x = "bill_length_mm",
69+
y = "bill_depth_mm",
70+
add = "reg.line", # Adicionar linha de regressão
71+
conf.int = TRUE, # Adicionar intervalo de confiança
72+
color = "species",
73+
palette = "Set1"
74+
) +
75+
stat_cor(aes(color = species),
76+
label.x = c(30, 40, 50),label.y=22) +
77+
labs(x="Comprimento do Bico (mm)",
78+
y= "Profundidade do Bico (mm)") # Ajustar posição dos labels
79+
80+
81+
82+
ggscatter(
83+
data = penguins,
84+
x = "bill_length_mm",
85+
y = "bill_depth_mm",
86+
color = "species",
87+
palette = "jco",
88+
add = "reg.line",
89+
conf.int = TRUE,
90+
cor.coef = TRUE,
91+
cor.method = "pearson",
92+
xlab = "Comprimento do Bico (mm)",
93+
ylab = "Profundidade do Bico (mm)",
94+
ggtheme = theme_pubr()
95+
) +
96+
theme(
97+
plot.title = element_text(size = 14)
98+
) +
99+
labs(
100+
title = "Dispersão do Tamanho do Bico por Espécie"
101+
)
102+
103+
```
104+
105+
106+
```{r}
107+
# Tabela resumo com gtsummary
108+
table1 <- penguins %>%
109+
select(-year) %>%
110+
tbl_summary(
111+
by = species,
112+
type = list(
113+
where(is.numeric) ~ "continuous",
114+
where(is.factor) ~ "categorical"
115+
),
116+
statistic = list(
117+
all_continuous() ~ "{mean} ({sd})",
118+
all_categorical() ~ "{n} / {N} ({p}%)"
119+
)
120+
)
121+
122+
# Adicionar testes estatísticos
123+
table1 <- table1 %>%
124+
add_p(test = list(
125+
where(is.numeric) ~ "kruskal.test",
126+
where(is.factor) ~ "chisq.test"
127+
))
128+
129+
# Mostrar a tabela
130+
table1
131+
132+
```
133+
134+
```{r}
135+
# Carregar pacote necessário
136+
library(ggpubr)
137+
library(dplyr)
138+
139+
# Função para criar um gráfico para uma espécie específica
140+
create_species_plot <- function(species_name) {
141+
penguins %>%
142+
filter(species == species_name) %>%
143+
ggscatter(
144+
x = "bill_length_mm",
145+
y = "bill_depth_mm",
146+
add = "reg.line",
147+
conf.int = TRUE,
148+
cor.coef = TRUE,
149+
cor.method = "pearson",
150+
xlab = "Comprimento do Bico (mm)",
151+
ylab = "Profundidade do Bico (mm)",
152+
ggtheme = theme_pubr()
153+
) +
154+
labs(
155+
title = paste("Dispersão do Tamanho do Bico para", species_name)
156+
)
157+
}
158+
159+
# Criar gráficos separados para cada espécie
160+
plot_adelie <- create_species_plot("Adelie")
161+
plot_chinstrap <- create_species_plot("Chinstrap")
162+
plot_gentoo <- create_species_plot("Gentoo")
163+
164+
# Combinar os gráficos
165+
ggarrange(plot_adelie, plot_chinstrap, plot_gentoo, ncol = 3, nrow = 1)
166+
167+
```
168+
169+
# Bonus
170+
171+
## Testes bayesianos
172+
173+
```{r}
174+
ggbetweenstats(
175+
data = penguins,
176+
x = species,
177+
y = body_mass_g,
178+
title = "Comparação da Massa Corporal entre Espécies",
179+
xlab = "Espécie",
180+
ylab = "Massa Corporal (g)"
181+
)
182+
183+
```

Relatorio_penguin_Semabio.html

Lines changed: 911 additions & 0 deletions
Large diffs are not rendered by default.
File renamed without changes.

0 commit comments

Comments
 (0)