curso

Disciplina: Projetos de análise de dados usando R (ENBT-JBRJ)

Página para a divulgação dos conteúdos das aulas da disciplina “Projetos de análise de dados usando R”. Essa á uma discipĺina especial do Programa de Pós-Graduação em Botânica da Escola Nacional de Botânica Tropical do Jardim Botânico do Rio de Janeiro. A disciplina é anual e foi ministrada nos anos de 2019 e 2020 por Andrea Sánchez-Tapia, Sara Ribeiro Mortara e Diogo Rocha.

O por quê do curso?

O ambiente estatístico R está sendo cada vez mais utilizado em biologia, ecologia e taxonomia, não só pela robustez e variedade de análises que podem ser feitas, mas também porque proporciona um entorno reproduzível, por estar baseado em scripts. Isto permite fazer o seguimento do fluxo de trabalho inteiro, realizar correções de maneira rápida e robusta, aumentar a quantidade de dados que podem ser analisados e contribuir a criar uma ciência mais aberta. Há múltiplos cursos de R nas pós-graduações, porém estes se focam no aprendizado da linguagem e da estatística, sem focar na estrutura dos projetos de análise, o qual dificulta que o aluno mantenha a continuidade no uso das ferramentas.

Para que o curso?

O objetivo do curso é que as pessoas participantes entendam a estrutura básica de um projeto de análise de dados, aprendam o básico de R, saibam onde buscar as soluções específicas para os próprios problemas e aprendam a executar a análise exploratória dos dados de uma maneira organizada e reproduzível. Isto é, separando os dados brutos e modificados, e dando visibilidade, reprodutibilidade e portabilidade a cada passo da análise, para que esta possa ser replicada posteriormente

Quais os requisitos do curso?

Não é necessário nenhum conhecimento prévio de R ou git. Porém é necessário que a pessoa participante instale os seguintes programas:

seg ter qua qui sex
Aula 1: ciência aberta & reprodutibilidade Aula 3: controle de versões usando git Aula 5: manipulação de dados em bases relacionais Aula 7: gráficos em R Aula 9: Gestão de bibliografia e rmarkdown (Zotero, bibtex)
Aula 2: introdução a fluxos de trabalho reprodutíveis Aula 4: gestão de dados Aula 6: análise exploratória de dados Aula 8: relatórios reprodutíveis (LaTeX, markdown e Rmarkdown) Aula 10: trabalho final & tira dúvidas

Aulas teóricas:

Tutoriais:

Datasets:

Referências

Annesley, T. M. (2010). Who, What, When, Where, How, and Why: The Ingredients in the Recipe for a Successful Methods Section. Clinical Chemistry, 56(6), 897–901. doi:10.1373/clinchem.2010.146589

Baumer, B., Cetinkaya-Rundel, M., Bray, A., Loi, L., & Horton, N. J. (2014). R Markdown: Integrating A Reproducible Analysis Tool into Introductory Statistics. ArXiv:1402.1894 [Stat]. Retrieved from http://arxiv.org/abs/1402.1894

Biotaxa: Online library for taxonomic journals. (n.d.). Retrieved February 4, 2019, from https://www.biotaxa.org/

Borregaard, M. K., & Hart, E. M. (2016). Towards a more reproducible ecology. Ecography, 39(4), 349–353. doi:10.1111/ecog.02493

Bryan, J. (2018). Project-oriented workflow - Tidyverse. Retrieved February 5, 2019, from https://www.tidyverse.org/articles/2017/12/workflow-vs-script/

Chamberlain, S. A., & Szöcs, E. (2013). taxize: taxonomic search and retrieval in R. F1000Research. doi:10.12688/f1000research.2-191.v2

D’Ignazio, C., & Klein, L. F. (2020). Data feminism. MIT Press.

Gewin, V. (2016). Data sharing: An open mind on open data. Nature, 529(7584), 117–119.

Hampton, S. E., Anderson, S., Bagby, S. C., Gries, C., Han, X., Hart, E., others. (2014). The tao of open science for ecology. PeerJ PrePrints. Retrieved from https://peerj.com/preprints/549/

Lowndes, J. S. S., Best, B. D., Scarborough, C., Afflerbach, J. C., Frazier, M. R., O’Hara, C. C., … Halpern, B. S. (2017). Our path to better science in less time using open data science tools. Nature Ecology & Evolution, 1(6), s41559-017-0160–017. doi:10.1038/s41559-017-0160

Marwick, B., Boettiger, C., & Mullen, L. (2017). Packaging data analytical work reproducibly using R (and friends). PeerJ Preprints. doi:/10.7287/peerj.preprints.3192v1

Mislan, K. A. S., Heer, J. M., & White, E. P. (2016). Elevating the status of code in Ecology. Trends in Ecology & Evolution, 31(1), 4–7. doi:http://dx.doi.org/10.1016/j.tree.2015.11.006

Noble, W. S. (2009). A Quick Guide to Organizing Computational Biology Projects. PLOS Computational Biology, 5(7), e1000424. doi:10/fbbpkn

Penev, L., Kress, W. J., Knapp, S., Li, D.-Z., & Renner, S. (2010). Fast, linked, and open – the future of taxonomic publishing for plants: launching the journal PhytoKeys. PhytoKeys, (1), 1–14. doi:10/chv8xq

Peng, R. (2015). The reproducibility crisis in science: A statistical counterattack. Significance, 12(3), 30–32. doi:10.1111/j.1740-9713.2015.00827.x

Piccinini, P. (2015, December 30). R Course. Retrieved February 4, 2019, from https://pagepiccinini.com/r-course/

Reichman, O. J., Jones, M. B., & Schildhauer, M. P. (2011). Challenges and Opportunities of Open

Data in Ecology. Science, 331(6018), 703–705. doi:10.1126/science.1197962 Shade, A., & Teal, T. K. (2015). Computing Workflows for Biologists: A Roadmap. PLoS Biol, 13(11), e1002303. doi:10.1371/journal.pbio.1002303

Strasser, C. A., & Hampton, S. E. (2012). The fractured lab notebook: undergraduates and ecological data management training in the United States. Ecosphere, 3(12), art116. doi:10.1890/ES12-00139.1

Toczydlowski, R. H. (2017). An Efficient Workflow for Collecting, Entering, and Proofing Field Data: Harnessing Voice Recording and Dictation Software. The Bulletin of the Ecological Society of America, 98(4), 291–297. doi:10.1002/bes2.1334

Tukey, J. W. (1977). Exploratory Data Analysis (Vol 2).

Zuur, A. F., Ieno, E. N., & Elphick, C. S. (2010). A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution, 1(1), 3–14. doi:10/cw57t3