quarta-feira, 24 de abril de 2013

A caixa preta da avaliação

A edição de março da revista Educação traz a entrevista que realizei com Gregory Cizek, professor da Faculdade de Educação da Universidade da Carolina do Norte em Chapel Hill e especialista em avaliação educacional, sobre os indicadores de validade e confiabilidade das provas padronizadas aplicadas nos Estados Unidos. O primeiro contato que tive com o trabalho de Cizek aconteceu ainda no Brasil com o artigo “Definições e distinções sobre validade: Interpretação de resultados e justificativas para uso de testes”, publicado (em inglês) na revista acadêmica Psychological Methods no ano passado. O texto trata do desenvolvimento de indicadores de validade como “a tarefa mais fundamental para o desenvolvimento e a avaliação de provas”. À época, a pergunta era evidente: como um conceito tão importante estava praticamente fora do debate educacional do Brasil, país que implementou inúmeras avaliações em larga escala desde o início dos anos 90?

Antes de discutir a resposta, é importante lembrar o que significam os conceitos de validade e confiabilidade. Os estudos de validade têm o objetivo de averiguar se as inferências feitas a partir do resultado de uma determinada prova são sólidas, confiáveis e legítimas. Partindo do exemplo usado por Cizek na entrevista, vamos supor que um determinado parâmetro curricular estabeleça que os alunos devem aprender a fazer experimentos em química. Um professor decide, então, aplicar uma prova escrita com o objetivo de aferir se os estudantes sabem ou não conduzir essas experiências. O teste  simula diversas misturas de soluções químicas e pede ao estudante que selecione uma das cinco alternativas como resposta certa para o resultado do experimento. O docente estabelece 100 como a nota que representa domínio total das experiências. É preciso coletar evidências que permitam dizer que a nota 100 realmente significa o que se espera que ela signifique, ou seja, domínio total dos experimentos. É razoável pensar que este teste mede se os alunos sabem fazer experimentos em química? A simulação de um experimento no papel e a condução de um experimento na prática são equivalentes? Os estudos de validade buscam respostas para esses tipos de perguntas.

Uma boa definição para os indicadores de confiabilidade pode ser encontrada no livro de Patrick Meyer, que recomendo abaixo. Para o autor, eles representam “o grau em que os resultados dos testes são consistentes com os resultados de outros testes produzidos a partir de processo semelhante”. Ou seja, esses indicadores expressam “a consistência dos resultados obtidos nas provas” quando elas são repetidas em diversos grupos de indivíduos. Como explica Cizek na entrevista, estão associados a uma medida de erro randômico.

Não há estudos de validade disponíveis no site do Inep para as provas aplicadas no âmbito federal. Conversei com diversos pesquisadores sobre o assunto e um deles me indicou uma pesquisa da Universidade de Brasília que investiga o grau de validade e de fidedignidade (ou confiabilidade) dos resultados da Prova Brasil e da Avaliação Nacional da Educação Básica (Aneb) por meio da Teoria da Resposta ao Item (TRI). Recentemente, o Inep publicou um edital público convocando pesquisadores a apresentar projetos de pesquisa sobre validade. O objetivo, diz a assessoria de imprensa do Inep, é despertar “o interesse dos pesquisadores por projetos ligados às avaliações que são realizadas”. Ainda não se tem notícia sobre o resultado do edital.

Quando o assunto é confiabilidade, o quadro é um pouco melhor. Os microdados do Saeb* de 1997 trazem o erro padrão da proficiência média por unidades da federação e regiões. Já o estudo Saeb 2005 – Primeiros Resultados traz o erro padrão da média de desempenho por unidades da federação e regiões de 1995 a 2005. Os microdados da edição de 2011 da Prova Brasil trazem o erro padrão da nota por município (o dado não está disponível para 2007 e 2009). No caso do Enem, não há nenhuma medida de erro disponível. É importante lembrar que os dados apresentados pelo Inep representam apenas um dos jeitos de se reportar confiabilidade. Sigo aguardando uma resposta oficial para as seguintes perguntas: há estudos de validade conduzidos pelo órgão para as provas? Em caso positivo, onde podem ser encontrados? Qual o resultado do edital mencionado acima? Ele representa, aliás, a primeira iniciativa do Inep em relação à validade dos resultados dos testes? Há outros indicadores de confiabilidade para as provas aplicadas pelo Inep?

Nos Estados Unidos, esse tipo de informação é considerado peça fundamental no processo de testagem. Um exemplo: um livro é editado periodicamente por três associações de profissionais em educação, psicologia e avaliação (AERA, APA e NCME) com os objetivos de “promover o uso correto e ético das provas” e “oferecer uma base para a avaliação da qualidade dos testes”. Intitulado Standards for Educational and Psychological Testing (Padrões para Testes Educacionais e Psicológicos), o volume foi publicado pela primeira vez em 1966. Para se ter uma ideia da importância dada pelo meio acadêmico norte-americano aos indicadores, a norma 1.3 da última edição do livro (1999) diz: “se a validade de alguma interpretação não foi investigada, ou se a interpretação é inconsistente em relação à evidência disponível, esse fato deve ser público e deve existir um esforço de alertar os usuários dessa prova para que interpretações indevidas não sejam feitas”. Uma versão revisada do livro deve sair ainda em 2013.

Exemplificando ainda mais, duas entidades privadas dividem as responsabilidades sobre o exame norte-americano de seleção para a universidade, conhecido por SAT: o ETS e o College Board. O College Board publica estudos de validade e confiabilidade periodicamente em seu site. No caso do National Assessment of Educational Progress (NAEP, sigla para a avaliação educacional conduzida pelo governo federal norte-americano), os indicadores também estão disponíveis. O site da prova explica: “como os resultados do NAEP têm um impacto no entendimento do público sobre o desempenho acadêmico dos estudantes, algumas precauções devem ser tomadas para que sejam asseguradas sua validade e confiabilidade”. Na verdade, a exigência sobre os indicadores parte do próprio Congresso norte-americano, que, segundo o site do NAEP, “decidiu que deve existir uma avaliação contínua da prova como um todo”. Em resposta à demanda, o National Center for Education Statistics (NCES, órgão que desenvolve e administra a prova) estabeleceu diversos grupos de estudo sobre o assunto, que produziram uma série de documentos a respeito dos indicadores.

Há, portanto, um esforço por parte de pesquisadores, do poder público e de administradores/desenvolvedores de teste para que os dados sejam públicos no país. E mesmo assim, o problema de interpretação persiste.  Ao final da entrevista, Cizek afirmou que a população norte-americana não consegue “absorver” esse tipo de informação.  “Precisa existir colaboração e comunicação entre o governo (legisladores, ministro, secretários de educação etc.), os especialistas em testes e o público para que haja clareza”, disse. 
Saiba mais
  • Understanding Measurement: Reliability, de Patrick Meyer (Editora Oxford University Press, 2010)
  • Standards for Educational and Psychological Testing, publicado por AERA, APA, e NCME (1999)
*Reproduzo as “categorias” de microdados presentes no site do Inep. Na verdade, o Sistema de Avaliação da Educação Básica (Saeb) é composto por duas avaliações complementares: a Avaliação Nacional do Rendimento Escolar (Anresc, ou a Prova Brasil) e a Avaliação Nacional da Educação Básica (Aneb).

Nenhum comentário:

Postar um comentário