Página para a divulgação dos conteúdos das aulas da disciplina “Projetos de análise de dados usando R”. Essa á uma discipĺina especial do Programa de Pós-Graduação em Botânica da Escola Nacional de Botânica Tropical do Jardim Botânico do Rio de Janeiro. A disciplina é anual e foi ministrada nos anos de 2019 e 2020 por Andrea Sánchez-Tapia, Sara Ribeiro Mortara e Diogo Rocha.
O ambiente estatístico R está sendo cada vez mais utilizado em biologia, ecologia e taxonomia, não só pela robustez e variedade de análises que podem ser feitas, mas também porque proporciona um entorno reproduzível, por estar baseado em scripts. Isto permite fazer o seguimento do fluxo de trabalho inteiro, realizar correções de maneira rápida e robusta, aumentar a quantidade de dados que podem ser analisados e contribuir a criar uma ciência mais aberta. Há múltiplos cursos de R nas pós-graduações, porém estes se focam no aprendizado da linguagem e da estatística, sem focar na estrutura dos projetos de análise, o qual dificulta que o aluno mantenha a continuidade no uso das ferramentas.
O objetivo do curso é que as pessoas participantes entendam a estrutura básica de um projeto de análise de dados, aprendam o básico de R, saibam onde buscar as soluções específicas para os próprios problemas e aprendam a executar a análise exploratória dos dados de uma maneira organizada e reproduzível. Isto é, separando os dados brutos e modificados, e dando visibilidade, reprodutibilidade e portabilidade a cada passo da análise, para que esta possa ser replicada posteriormente
Não é necessário nenhum conhecimento prévio de R ou git. Porém é necessário que a pessoa participante instale os seguintes programas:
seg | ter | qua | qui | sex |
---|---|---|---|---|
Aula 1: ciência aberta & reprodutibilidade | Aula 3: controle de versões usando git | Aula 5: manipulação de dados em bases relacionais | Aula 7: gráficos em R | Aula 9: Gestão de bibliografia e rmarkdown (Zotero, bibtex) |
Aula 2: introdução a fluxos de trabalho reprodutíveis | Aula 4: gestão de dados | Aula 6: análise exploratória de dados | Aula 8: relatórios reprodutíveis (LaTeX, markdown e Rmarkdown) | Aula 10: trabalho final & tira dúvidas |
Annesley, T. M. (2010). Who, What, When, Where, How, and Why: The Ingredients in the Recipe for a Successful Methods Section. Clinical Chemistry, 56(6), 897–901. doi:10.1373/clinchem.2010.146589
Baumer, B., Cetinkaya-Rundel, M., Bray, A., Loi, L., & Horton, N. J. (2014). R Markdown: Integrating A Reproducible Analysis Tool into Introductory Statistics. ArXiv:1402.1894 [Stat]. Retrieved from http://arxiv.org/abs/1402.1894
Biotaxa: Online library for taxonomic journals. (n.d.). Retrieved February 4, 2019, from https://www.biotaxa.org/
Borregaard, M. K., & Hart, E. M. (2016). Towards a more reproducible ecology. Ecography, 39(4), 349–353. doi:10.1111/ecog.02493
Bryan, J. (2018). Project-oriented workflow - Tidyverse. Retrieved February 5, 2019, from https://www.tidyverse.org/articles/2017/12/workflow-vs-script/
Chamberlain, S. A., & Szöcs, E. (2013). taxize: taxonomic search and retrieval in R. F1000Research. doi:10.12688/f1000research.2-191.v2
D’Ignazio, C., & Klein, L. F. (2020). Data feminism. MIT Press.
Gewin, V. (2016). Data sharing: An open mind on open data. Nature, 529(7584), 117–119.
Hampton, S. E., Anderson, S., Bagby, S. C., Gries, C., Han, X., Hart, E., others. (2014). The tao of open science for ecology. PeerJ PrePrints. Retrieved from https://peerj.com/preprints/549/
Lowndes, J. S. S., Best, B. D., Scarborough, C., Afflerbach, J. C., Frazier, M. R., O’Hara, C. C., … Halpern, B. S. (2017). Our path to better science in less time using open data science tools. Nature Ecology & Evolution, 1(6), s41559-017-0160–017. doi:10.1038/s41559-017-0160
Marwick, B., Boettiger, C., & Mullen, L. (2017). Packaging data analytical work reproducibly using R (and friends). PeerJ Preprints. doi:/10.7287/peerj.preprints.3192v1
Mislan, K. A. S., Heer, J. M., & White, E. P. (2016). Elevating the status of code in Ecology. Trends in Ecology & Evolution, 31(1), 4–7. doi:http://dx.doi.org/10.1016/j.tree.2015.11.006
Noble, W. S. (2009). A Quick Guide to Organizing Computational Biology Projects. PLOS Computational Biology, 5(7), e1000424. doi:10/fbbpkn
Penev, L., Kress, W. J., Knapp, S., Li, D.-Z., & Renner, S. (2010). Fast, linked, and open – the future of taxonomic publishing for plants: launching the journal PhytoKeys. PhytoKeys, (1), 1–14. doi:10/chv8xq
Peng, R. (2015). The reproducibility crisis in science: A statistical counterattack. Significance, 12(3), 30–32. doi:10.1111/j.1740-9713.2015.00827.x
Piccinini, P. (2015, December 30). R Course. Retrieved February 4, 2019, from https://pagepiccinini.com/r-course/
Reichman, O. J., Jones, M. B., & Schildhauer, M. P. (2011). Challenges and Opportunities of Open
Data in Ecology. Science, 331(6018), 703–705. doi:10.1126/science.1197962 Shade, A., & Teal, T. K. (2015). Computing Workflows for Biologists: A Roadmap. PLoS Biol, 13(11), e1002303. doi:10.1371/journal.pbio.1002303
Strasser, C. A., & Hampton, S. E. (2012). The fractured lab notebook: undergraduates and ecological data management training in the United States. Ecosphere, 3(12), art116. doi:10.1890/ES12-00139.1
Toczydlowski, R. H. (2017). An Efficient Workflow for Collecting, Entering, and Proofing Field Data: Harnessing Voice Recording and Dictation Software. The Bulletin of the Ecological Society of America, 98(4), 291–297. doi:10.1002/bes2.1334
Tukey, J. W. (1977). Exploratory Data Analysis (Vol 2).
Zuur, A. F., Ieno, E. N., & Elphick, C. S. (2010). A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution, 1(1), 3–14. doi:10/cw57t3