|
| 1 | +--- |
| 2 | +title: "Analise dos dados 'iris'" |
| 3 | +author: "Carolina Musso" |
| 4 | +date: "2023-11-28" |
| 5 | +output: |
| 6 | + html_document: |
| 7 | + df_print: paged |
| 8 | +--- |
| 9 | + |
| 10 | +```{r setup, include=FALSE} |
| 11 | +knitr::opts_chunk$set(echo = F) |
| 12 | +if (!require(pacman)) install.packages("pacman") |
| 13 | +pacman::p_load(palmerpenguins, tidyverse, |
| 14 | + ggstatsplot,gtsummary, ggpubr) |
| 15 | +``` |
| 16 | + |
| 17 | +## Introdução |
| 18 | + |
| 19 | +Este relatório tem como foco a análise da renomada base de dados Iris, um conjunto de dados clássico no campo da estatística. Originalmente coletada pelo botânico Edgar Anderson e popularizada pelo estatístico Ronald Fisher, a base de dados Iris consiste em 150 observações de três espécies de íris (Iris setosa, Iris virginica e Iris versicolor). Cada observação registra quatro características das flores: o comprimento e a largura da sépala, e o comprimento e a largura da pétala. |
| 20 | + |
| 21 | +Neste relatório, empregaremos técnicas de análise exploratória de dados para extrair insights valiosos sobre as características dessas espécies de íris. Além disso, exploraremos como diferentes métodos de visualização de dados podem ser utilizados para compreender melhor as relações entre as variáveis. O objetivo é proporcionar uma compreensão abrangente da base de dados Iris, servindo como um ponto de referência para futuras análises e utilização de relatórios automatizados. |
| 22 | + |
| 23 | +# Material e métodos |
| 24 | + |
| 25 | +Neste relatório, utilizaremos métodos de análise exploratória de dados para explorar as características físicas dos pinguins e as diferenças entre as espécies. Nosso foco será em destacar padrões interessantes, identificar correlações potenciais e proporcionar insights visuais por meio de gráficos e análises estatísticas. |
| 26 | + |
| 27 | + |
| 28 | +# Resultados |
| 29 | + |
| 30 | +Um gráfico clássico. |
| 31 | + |
| 32 | +```{r} |
| 33 | +
|
| 34 | +iris_area <- iris %>% |
| 35 | + mutate(area_petala = Petal.Length*Petal.Width/2) %>% |
| 36 | + filter(area_petala<=6) |
| 37 | + |
| 38 | +iris_media_area <- iris_area %>% |
| 39 | + group_by(Species) %>% |
| 40 | + summarise(area_media=mean(area_petala), |
| 41 | + area_dp=sd(area_petala)) |
| 42 | +
|
| 43 | +graf1 <- iris_media_area %>% |
| 44 | + ggplot(aes(x=Species, y=area_media)) + |
| 45 | + geom_col(fill="#9c9ff7", |
| 46 | + color="#684dcf")+ |
| 47 | + geom_errorbar(aes(ymin = area_media-area_dp, |
| 48 | + ymax = area_media+area_dp), |
| 49 | + width=0.3, |
| 50 | + color="#684dcf")+ |
| 51 | + theme_classic(base_size = 16)+ |
| 52 | + labs(x = "", |
| 53 | + y=expression("Área média da pétala (cm"^2*")"))+ |
| 54 | + coord_flip()+ |
| 55 | + theme(axis.text.y = element_text(face = "italic")) |
| 56 | + |
| 57 | + |
| 58 | +
|
| 59 | +graf1 |
| 60 | +
|
| 61 | +# Abaixo fazemos o código com o R base, tente transferir para o dplyr |
| 62 | +
|
| 63 | +media_virginica <- iris_media_area[iris_media_area$Species=="virginica", "area_media"] |> as.numeric() |
| 64 | +
|
| 65 | +media_setosa <- iris_media_area[iris_media_area$Species=="setosa", "area_media"] |> as.numeric() |
| 66 | +
|
| 67 | +media_versicolor <- iris_media_area[iris_media_area$Species=="versicolor", "area_media"] |> as.numeric() |
| 68 | +
|
| 69 | +# repare onde no no texto estamos "chamando" esses objetos. |
| 70 | +
|
| 71 | +``` |
| 72 | + |
| 73 | +Vemos no gráfico acima que a média de área da pétala da espécie *Iris virginica* é de `r media_virginica` cm$^2$, a da *Iris versicolor* é de cm$^2$ e a de *Iris setosa* é de `r media_setosa` cm$^2$. Esta última, portanto é a que possui menores pétalas entre as três espécies. |
| 74 | + |
| 75 | + |
| 76 | +Uma tabela resumo |
| 77 | + |
| 78 | +```{r} |
| 79 | +tbl_summary(iris, |
| 80 | + by = Species, |
| 81 | + statistic = list(all_continuous() ~ "{mean} ({sd})"), |
| 82 | + label = list( |
| 83 | + Sepal.Length ~ "Comprimento da Sépala", |
| 84 | + Sepal.Width ~ "Largura da Sépala", |
| 85 | + Petal.Length ~ "Comprimento da Pétala", |
| 86 | + Petal.Width ~ "Largura da Pétala")) %>% |
| 87 | + modify_header(label ~ "**Variável (cm)**") |
| 88 | +``` |
| 89 | + |
| 90 | +## Gráficos e testes |
| 91 | + |
| 92 | +```{r} |
| 93 | +ggscatter(iris_area, |
| 94 | + x = "Sepal.Length", |
| 95 | + y = "Petal.Length", |
| 96 | + add = "reg.line", # Adicionar linha de regressão |
| 97 | + conf.int = TRUE, # Adicionar intervalo de confiança |
| 98 | + color = "Species", |
| 99 | + palette = "Set1" |
| 100 | + ) + |
| 101 | + stat_cor(aes(color = Species), |
| 102 | + label.x = 6.8,label.y=c(2,3,4)) + |
| 103 | + labs(x="Comprimento da Pétala (cm)", |
| 104 | + y= "Comprimento da Sétala (cm)") # Ajustar posição dos labels |
| 105 | +
|
| 106 | +
|
| 107 | +
|
| 108 | +``` |
| 109 | + |
| 110 | + |
| 111 | +```{r} |
| 112 | +my_comparisons <- list( c(1, 2), c(1, 3), c(2, 3) ) |
| 113 | +ggboxplot(iris_area, |
| 114 | + x = "Species", y = "area_petala", fill = "Species", |
| 115 | + palette = c("green", "blue", "red"), |
| 116 | + add.params = list(fill = "white"))+ |
| 117 | + stat_compare_means(comparisons = my_comparisons, |
| 118 | + label.y = c(5, 7.95, 9), |
| 119 | + p.adjust.method = "bonferroni", |
| 120 | + method = "t.test")+ # Add significance levels |
| 121 | + stat_compare_means(label.y = 10, |
| 122 | + label.x = 0.75, |
| 123 | + method = "anova") + |
| 124 | + labs(x="", |
| 125 | + y=expression("Área média da pétala (cm"^2*")"))+ |
| 126 | + theme(axis.text.x = element_text(face="italic")) |
| 127 | + |
| 128 | +``` |
| 129 | +## Mais Dicas |
| 130 | + |
| 131 | + |
| 132 | +- Podemos escolher [cores](https://www.color-hex.com) [exatas](https://colorbrewer2.org/#type=sequential&scheme=BuGn&n=3) |
| 133 | + |
| 134 | +- [Temas](https://ggplot2.tidyverse.org/reference/ggtheme.html) |
| 135 | + |
| 136 | +- [Cheat Sheets](https://www.maths.usyd.edu.au/u/UG/SM/STAT3022/r/current/Misc/data-visualization-2.1.pdf) |
0 commit comments