quinta-feira, 29 de maio de 2008

Análise Quantitativa de Dados - Caso Prático

Esta semana tem sido ocupada com a análise e resolução individual de um Caso Prático, utilizando como recurso uma das Dissertações de Mestrado já analisadas anteriormente nesta Unidade Curricular, tendo por objectivo a compreensão da aplicação das técnicas quantitativas de análise de dados.

A Dissertação em questão intitula-se "Setúbal, as TIC e o ensino de Inglês: atitudes dos professores" e é da autoria de Conceição Brito (Universidade de Aveiro, 18 Dez 2006).

Temos vindo a seguir, a par e passo, o "caminho" trilhado pelo investigador ao longo do seu estudo ou processo de investigação. Após a recolha de dados, há que organizá-los, preparando-os para ser analisados, interpretados e sobre eles elaborar conclusões que contribuirão para avançar no estudo/investigação, independentemente de o método ou abordagem científica utilizada ser do tipo dedutivo (investigação com vista à confirmação de hipóteses) ou do tipo indutivo (investigação exploratória com vista à obtenção de resposta para as questões investigativas colocadas).

Assim, após a criação de um ficheiro de dados estatísticos, que tem por função a organização dos dados obtidos, o investigador passa à análise exploratória desses mesmos dados, recorrendo, para isso, a técnicas de estatística descritiva. Normalmente, dessa análise resulta, para o investigador, a necessidade de recorrer a algumas técnicas de estatística inferencial, com o objectivo de explorar possíveis hipóteses de relações entre as respostas, mesmo que essas relações não tenham sido consideradas, a priori, como hipóteses de investigação, tal como acontece em investigações exploratórias.

A resolução deste Caso Prático, para além de permitir aprofundar o estudo relativo à análise de dados (uma das fase de qualquer estudo/processo de investigação), tem constituído um grande desafio pois sendo as perguntas colocadas de resposta aparentemente fácil e óbvia, acaba por verificar-se, quando se aprofunda a resolução, que afinal a perspectiva a utilizar requer alguma "mestria".

A grande dificuldade com que nos temos confrontado diz respeito ao facto de o próprio questionário utilizado na Dissertação em análise, utilizar questões que permitem alguma interpretação dúbia por parte dos respondentes, algo que, de acordo com a metodologia quantitativa, deveria e poderia ter sido evitado.

Este aspecto é particularmente relevante quando o caso prático nos solicita que, utilizando técnicas quantitativas de análise de dados, relacionemos duas variáveis perfeitamente identificadas (correspondentes a dois grupos de perguntas do questionário), variáveis essas que, pelos atributos de que se revestem e pela escala métrica utilizada nas respectivas respostas, são variáveis qualitativas nominais. Os dados (quantitativos) correspondem ao número de respondentes que escolheu cada uma das opções nas várias respostas.

Veja-se então a 1ª. Pergunta do Caso Prático:

Pergunta 1)

Pretendia saber se havia alguma relação entre as finalidades da utilização do computador (concretamente perguntas 16 a 21) e a frequência diária ou quase diária de utilização do computador (pergunta 28). Qual o teste estatístico que faria?


Este é o primeiro grande desafio: a utilização de técnicas quantitativas de análise de dados no relacionamento entre duas variáveis que, não só, são qualitativas, mas que, além disso, utilizam uma escala métrica nominal. Quando somos questionados sobre o tipo de teste estatístico a utilizar para verificar se existe alguma relação entre as duas variáveis em apreço, não restam grandes dúvidas que o teste estatístico a utilizar será do tipo "não-paramétrico", em virtude de não estarem observadas todas as condições necessárias à aplicação de técnicas paramétricas (a começar logo pelo tipo de escala métrica que, neste caso, é uma escala nominal).

Após ter chegado a esta conclusão, deparámo-nos com o segundo desafio: o facto de estarmos a comparar uma variável "finalidades da utilização do computador" com outra variável "frequência de utilização do computador", cujos atributos (respostas possíveis) seguem critérios diferentes numa e noutra variáveis.

Assim, enquanto a primeira variável ("finalidades da utilização do computador") permite respostas cumulativas (às seis respostas possíveis - correspondentes às perguntas 16 a 21 do questionário), a segunda variável admite apenas uma resposta exclusiva, entre as 6 possíveis (se bem que, para efeitos de análise, nos interessem apenas as respostas "Todos os dias" e "Quase todos os dias").

O terceiro grande desafio prende-se com o facto de algumas das questões (16 a 21) dizerem respeito a atributos que poderão ser inclusivos em termos relativos, o que poderá ter gerado algum grau de aleatoriedade nas respostas. Por exemplo, ler e enviar e-mail, conversar em chat, debater temas em fórum e aceder a plataformas de e-Learning, na prática está tudo incluído em Internet. Ficaríamos assim reduzidos a dois grandes atributos desta variável "Finalidades da utilização do computador" (utilização/acesso da Internet e utilização de processador de texto) e, também, a dois atributos da variável "Frequência de utilização do computador" (Todos os dias e Quase todos os dias, e as restantes frequências).

Face a tudo o que foi dito, parecem não restar dúvidas que o teste estatístico a aplicar para apurar do relacionamento entre estas duas variáveis qualitativas nominais, seria o Coeficiente de Contingência (CC), normalmente utilizado para verificar a hipótese de associação entre variáveis nominais.

O Coeficiente de Contingência tem uma particularidade: para o seu cálculo, há que aplicar também o teste estatístico Chi Quadrado, o qual, apesar de ser também utilizado para verificar a hipótese de diferenças entre grupos (amostras), está implícito no cálculo do Coeficiente de Contingência, já que, neste caso, o que está em causa é a análise da relação entre duas variáveis qualitativas.

O Coeficiente de Contingência (CC) quantifica o relacionamento entre duas (ou mais) variáveis nominais (tal como acontece no nosso Caso Prático) e o seu cálculo é dado através da seguinte fórmula - CC = SQRT [( (χ²) : (χ² + n)] - onde n é o total de medições (240 neste Caso Prático) e χ² é o Chi quadrado (correspondente à diferença entre os valores observados e os valores esperados).

O Chi quadrado permite a avaliação da hipótese de associação, mas não "mede" a sua força, algo que é um problema inerente a todos os testes não-paramétricos, problema de difícil superação com variáveis qualitativas nominais.

Apesar de não ser solicitado o cálculo, neste caso particular, face às particularidades da resposta às questões 16 a 21 (com a possibilidade de indicar mais que uma resposta), haveria que proceder a um ajustamento desses valores, de forma a que a soma do número de respostas, tal como já acontece na resposta à questão 28 ("frequência de utilização do computador"), seja de 240.

Para o fazer haveria que criar um pressuposto de manutenção de proporcionalidade, algo que parece perfeitamente plausível face à densidade na distribuição das respostas às questões 16 a 21. Essa constante de proporcionalidade pode ser obtida somando o total de respostas às questões 16 a 21 (750 respostas), dividindo pelo total de respondentes (240). De acordo com este critério obter-se-ia o valor de 750/240=3,125.

Veja-se então quais seriam os valores ajustados (nº. respostas => nº. ajustado):

"Finalidades da utilização do computador"

Questão 16 - Utilizo o computador para escrever texto: 231 => 73,92
Questão 17 - Utilizo o computador para pesquisar na Internet: 216 => 69,12
Questão 18 - Utilizo o computador para ler e enviar correio (e-mail): 181 => 57,92
Questão 19 - Utilizo o computador para conversar (chat): 54 => 17,28
Questão 20 - Utilizo o computador para debater temas (fórum): 27 => 8,64
Questão 21 - Utilizo o computador em ambientes virtuais de aprendizagem /
plataformas de e-Learning: 41 => 13,12


"Frequência de utilização do computador"

Questão 28 - Todos os dias: 74
Questão 28 - Quase todos os dias: 95

Questão 28 - Algumas vezes por semana: 50
Questão 28 - Algumas vezes por mês: 14
Questão 28 - Algumas vezes por ano: 2
Questão 28 - Não responde: 5

No nosso Caso Prático, estariam em análise os dados (respostas) antes assinalados a itálico (respostas às Questões 16 a 21 com as respostas "Todos os dias" e "Quase todos os dias" à Questão 28, num total de 169 respostas).

Para a execução dos testes estatísticos mencionados, teríamos de, tal como o investigador, estar na posse das respostas dos inquiridos, de forma a poder construir a matriz de organização dos dados que possibilitaria, não só, saber como cada um respondeu a cada uma das questões, mas também como se relacionam as respectivas respostas.

2 comentários:

A.Q. disse...

Olá Mário,
Passei por aqui à procura de "luz". Este teu post clareou um pouco a minha noite...
Um abraço

Mário Santos disse...

Re: a.q. [Sábado, Maio 31, 2008 11:56:00 PM]

Ainda bem Albino...

Saudações,

Mário