Este post é um relato realizado a partir da atividade de um dos grupos participantes do evento “Análise de dados abertos com R”, vinculado ao Open Data Day. Este grupo trabalhou com dados abertos educacionais.
A monitora do grupo foi Ana Carolina Moreno, jornalista e produtora de dados da TV Globo. Especializada há mais de dez anos na cobertura de dados educacionais, ela apresentou ao grupo um código em R de análise de dados do Censo da Educação Básica usado para a produção de uma série de reportagens especiais sobre o impacto da pandemia na educação infantil, que foi ao ar em novembro de 2022. Os dados utilizados podem ser obtidosno site do Inep.
Seis pessoas se interessaram por explorar dados abertos educacionais: Aline Durans, Cristiane Lacerda, Hayane Sena De Jesus, Katia Mine, Larissa Souza, e Natasha Meneguelli. Além disso, Geovana Lopes, do R-Ladies São Paulo, participou como monitora.
Primeiramente, foi feita uma introdução mostrando quais são e onde encontrar os dados abertos educacionais, além das mudanças recentes, com a retirada de bases de dados que antes eram públicas, com a justificativa de adequação à Lei Geral de Proteção de Dados (LGPD). A apresentação utilizada está disponível neste link.
Antes de partirmos para a análise de fato dos dados, o código que gerou as tabelas foi apresentado ao grupo. Como parte das pessoas ainda tinha um contato inicial com o R e o RStudio, e como houve interesse em entender o código apresentado, acabamos priorizando uma explicação introdutória da linguagem de programação R.
Acompanhamos as participantes desde a instalação das aplicações e o primeiro olhar geral sobre o que é a linguagem e como ela é bastante adequada para pessoas que querem fazer análise estatística em cima de bases de dados já existentes.
O código já escrito (link) serviu de base para mostrar às participantes algumas funções (read_csv()
, write_csv()
, select()
, filter()
, rename()
, mutate()
, left_join()
, reduce()
e case_when()
), além de explicações sobre a sintaxe básica do R, como quando usar os parênteses, e os diferentes operadores: o de atribuição, o pipe e os operações lógicos para fazer filtros ou manipular valores nas colunas.
Dada a escassez de tempo, esse grupo não chegou a ver todo o código, até a geração de gráficos e a análise de fato dos dados. Mas as participantes consideraram que as explicações introdutórias sobre R foram mais produtivas para ajudá-las a dar o primeiro passo no aprendizado da linguagem.
Finalmente, destaca-se que, apesar de os dados do Inep serem bem organizados, eles não estão isentos de obstáculos e dificuldades de análises. Para evitar incorrer em conclusões equivocadas, a dica é consultar técnicos e especialistas dos bancos de dados para checar possíveis erros de interpretação e até direcionamentos, no caso de obstáculos do processo analítico. Essas pessoas também conseguem explicar até que ponto as bases de dados disponíveis conseguem responder às perguntas que temos.
Para finalizar este post, deixamos um relato de uma das pessoas participantes sobre a experiência da atividade:
Para pessoas que tem interesse em saber mais sobre dados abertos educacionais, indicamos este vídeo:Participar deste grupo foi uma experiência de aprendizagem incrível. Carol é uma excelente tradutora da linguagem R. Nos fez entender, acompanhar a lógica e ver que sim: é possível aprender R! Para além disto, é necessário e importante termos contato e analisar os dados abertos. Desde então duas reflexões rodeiam meus pensamentos: primeira, não é só desenvolver uma habilidade, trabalhar com dados exige responsabilidade com a transparência das informações. Segunda: Mais pessoas precisam ter contato com o R. A comunidade R Ladies é acolhedora, respeitadora e muito responsável com o processo de transferência de conhecimento. Foi um dia de muita aprendizagem, acolhida e entusiasmo!
Até a próxima!