quinta-feira, 29 de maio de 2008

Análise Quantitativa de Dados - Caso Prático

Esta semana tem sido ocupada com a análise e resolução individual de um Caso Prático, utilizando como recurso uma das Dissertações de Mestrado já analisadas anteriormente nesta Unidade Curricular, tendo por objectivo a compreensão da aplicação das técnicas quantitativas de análise de dados.

A Dissertação em questão intitula-se "Setúbal, as TIC e o ensino de Inglês: atitudes dos professores" e é da autoria de Conceição Brito (Universidade de Aveiro, 18 Dez 2006).

Temos vindo a seguir, a par e passo, o "caminho" trilhado pelo investigador ao longo do seu estudo ou processo de investigação. Após a recolha de dados, há que organizá-los, preparando-os para ser analisados, interpretados e sobre eles elaborar conclusões que contribuirão para avançar no estudo/investigação, independentemente de o método ou abordagem científica utilizada ser do tipo dedutivo (investigação com vista à confirmação de hipóteses) ou do tipo indutivo (investigação exploratória com vista à obtenção de resposta para as questões investigativas colocadas).

Assim, após a criação de um ficheiro de dados estatísticos, que tem por função a organização dos dados obtidos, o investigador passa à análise exploratória desses mesmos dados, recorrendo, para isso, a técnicas de estatística descritiva. Normalmente, dessa análise resulta, para o investigador, a necessidade de recorrer a algumas técnicas de estatística inferencial, com o objectivo de explorar possíveis hipóteses de relações entre as respostas, mesmo que essas relações não tenham sido consideradas, a priori, como hipóteses de investigação, tal como acontece em investigações exploratórias.

A resolução deste Caso Prático, para além de permitir aprofundar o estudo relativo à análise de dados (uma das fase de qualquer estudo/processo de investigação), tem constituído um grande desafio pois sendo as perguntas colocadas de resposta aparentemente fácil e óbvia, acaba por verificar-se, quando se aprofunda a resolução, que afinal a perspectiva a utilizar requer alguma "mestria".

A grande dificuldade com que nos temos confrontado diz respeito ao facto de o próprio questionário utilizado na Dissertação em análise, utilizar questões que permitem alguma interpretação dúbia por parte dos respondentes, algo que, de acordo com a metodologia quantitativa, deveria e poderia ter sido evitado.

Este aspecto é particularmente relevante quando o caso prático nos solicita que, utilizando técnicas quantitativas de análise de dados, relacionemos duas variáveis perfeitamente identificadas (correspondentes a dois grupos de perguntas do questionário), variáveis essas que, pelos atributos de que se revestem e pela escala métrica utilizada nas respectivas respostas, são variáveis qualitativas nominais. Os dados (quantitativos) correspondem ao número de respondentes que escolheu cada uma das opções nas várias respostas.

Veja-se então a 1ª. Pergunta do Caso Prático:

Pergunta 1)

Pretendia saber se havia alguma relação entre as finalidades da utilização do computador (concretamente perguntas 16 a 21) e a frequência diária ou quase diária de utilização do computador (pergunta 28). Qual o teste estatístico que faria?


Este é o primeiro grande desafio: a utilização de técnicas quantitativas de análise de dados no relacionamento entre duas variáveis que, não só, são qualitativas, mas que, além disso, utilizam uma escala métrica nominal. Quando somos questionados sobre o tipo de teste estatístico a utilizar para verificar se existe alguma relação entre as duas variáveis em apreço, não restam grandes dúvidas que o teste estatístico a utilizar será do tipo "não-paramétrico", em virtude de não estarem observadas todas as condições necessárias à aplicação de técnicas paramétricas (a começar logo pelo tipo de escala métrica que, neste caso, é uma escala nominal).

Após ter chegado a esta conclusão, deparámo-nos com o segundo desafio: o facto de estarmos a comparar uma variável "finalidades da utilização do computador" com outra variável "frequência de utilização do computador", cujos atributos (respostas possíveis) seguem critérios diferentes numa e noutra variáveis.

Assim, enquanto a primeira variável ("finalidades da utilização do computador") permite respostas cumulativas (às seis respostas possíveis - correspondentes às perguntas 16 a 21 do questionário), a segunda variável admite apenas uma resposta exclusiva, entre as 6 possíveis (se bem que, para efeitos de análise, nos interessem apenas as respostas "Todos os dias" e "Quase todos os dias").

O terceiro grande desafio prende-se com o facto de algumas das questões (16 a 21) dizerem respeito a atributos que poderão ser inclusivos em termos relativos, o que poderá ter gerado algum grau de aleatoriedade nas respostas. Por exemplo, ler e enviar e-mail, conversar em chat, debater temas em fórum e aceder a plataformas de e-Learning, na prática está tudo incluído em Internet. Ficaríamos assim reduzidos a dois grandes atributos desta variável "Finalidades da utilização do computador" (utilização/acesso da Internet e utilização de processador de texto) e, também, a dois atributos da variável "Frequência de utilização do computador" (Todos os dias e Quase todos os dias, e as restantes frequências).

Face a tudo o que foi dito, parecem não restar dúvidas que o teste estatístico a aplicar para apurar do relacionamento entre estas duas variáveis qualitativas nominais, seria o Coeficiente de Contingência (CC), normalmente utilizado para verificar a hipótese de associação entre variáveis nominais.

O Coeficiente de Contingência tem uma particularidade: para o seu cálculo, há que aplicar também o teste estatístico Chi Quadrado, o qual, apesar de ser também utilizado para verificar a hipótese de diferenças entre grupos (amostras), está implícito no cálculo do Coeficiente de Contingência, já que, neste caso, o que está em causa é a análise da relação entre duas variáveis qualitativas.

O Coeficiente de Contingência (CC) quantifica o relacionamento entre duas (ou mais) variáveis nominais (tal como acontece no nosso Caso Prático) e o seu cálculo é dado através da seguinte fórmula - CC = SQRT [( (χ²) : (χ² + n)] - onde n é o total de medições (240 neste Caso Prático) e χ² é o Chi quadrado (correspondente à diferença entre os valores observados e os valores esperados).

O Chi quadrado permite a avaliação da hipótese de associação, mas não "mede" a sua força, algo que é um problema inerente a todos os testes não-paramétricos, problema de difícil superação com variáveis qualitativas nominais.

Apesar de não ser solicitado o cálculo, neste caso particular, face às particularidades da resposta às questões 16 a 21 (com a possibilidade de indicar mais que uma resposta), haveria que proceder a um ajustamento desses valores, de forma a que a soma do número de respostas, tal como já acontece na resposta à questão 28 ("frequência de utilização do computador"), seja de 240.

Para o fazer haveria que criar um pressuposto de manutenção de proporcionalidade, algo que parece perfeitamente plausível face à densidade na distribuição das respostas às questões 16 a 21. Essa constante de proporcionalidade pode ser obtida somando o total de respostas às questões 16 a 21 (750 respostas), dividindo pelo total de respondentes (240). De acordo com este critério obter-se-ia o valor de 750/240=3,125.

Veja-se então quais seriam os valores ajustados (nº. respostas => nº. ajustado):

"Finalidades da utilização do computador"

Questão 16 - Utilizo o computador para escrever texto: 231 => 73,92
Questão 17 - Utilizo o computador para pesquisar na Internet: 216 => 69,12
Questão 18 - Utilizo o computador para ler e enviar correio (e-mail): 181 => 57,92
Questão 19 - Utilizo o computador para conversar (chat): 54 => 17,28
Questão 20 - Utilizo o computador para debater temas (fórum): 27 => 8,64
Questão 21 - Utilizo o computador em ambientes virtuais de aprendizagem /
plataformas de e-Learning: 41 => 13,12


"Frequência de utilização do computador"

Questão 28 - Todos os dias: 74
Questão 28 - Quase todos os dias: 95

Questão 28 - Algumas vezes por semana: 50
Questão 28 - Algumas vezes por mês: 14
Questão 28 - Algumas vezes por ano: 2
Questão 28 - Não responde: 5

No nosso Caso Prático, estariam em análise os dados (respostas) antes assinalados a itálico (respostas às Questões 16 a 21 com as respostas "Todos os dias" e "Quase todos os dias" à Questão 28, num total de 169 respostas).

Para a execução dos testes estatísticos mencionados, teríamos de, tal como o investigador, estar na posse das respostas dos inquiridos, de forma a poder construir a matriz de organização dos dados que possibilitaria, não só, saber como cada um respondeu a cada uma das questões, mas também como se relacionam as respectivas respostas.

segunda-feira, 26 de maio de 2008

Balanço da semana: 18 Mai 2008 - 25 Mai 2008

Nesta Unidade Curricular, a semana foi dedicada, em exclusivo, ao estudo individual sobre a análise de dados num processo de investigação.

Utilizando os recursos colocados à disposição na Unidade Curricular, procedeu-se à exploração geral e à identificação de técnicas de análise de dados, quer na vertente "análise quantitativa de dados", quer na vertente "análise qualitativa de dados", sintetizadas nos dois posts anteriores.

A percepção das principais características de cada um dos tipos de análise de dados, das suas principais diferenças, dos aspectos relativos à sua utilização, entre outros, é fundamental para a decisão de utilização de um, outro ou de ambos os tipos de análise de dados, face aos objectivos de uma investigação.

Durante a semana que agora se vai iniciar, será efectuada a análise e resolução individual de um problema, visando a exploração de uma das dissertações, já analisadas, no que se refere às técnicas quantitativas de análise de dados.

domingo, 25 de maio de 2008

Análise Qualitativa de Dados

Ao contrário do que se passa com a análise quantitativa de dados, a análise qualitativa não parte de unidades fixas pré-determinadas. Para além desta característica, também a interdependência entre dados empíricos e processos intelectuais de teorização é um dos elementos caracterizadores da análise qualitativa de dados.

São 4 (quatro) as etapas da análise qualitativa:
  1. Determinação da unidades de análise;
  2. Categorização / codificação;
  3. Formulação de hipóteses / problemas;
  4. Leitura interpretativa dos resultados.

O processo analítico utilizado em análise qualitativa passa pela seguinte sequência: recolha, redução e exposição de informação, conclusão e verificação.

Os processos intelectuais de Teorização passam, normalmente, pela sequência análise exploratória (desenvolvimento e aplicação de categorias ao material empírico), descrição (análise dos segmentos de cada categoria a fim de estabelecer padrões nos materiais empíricos recolhidos), interpretação (estabelecer ligações e relações entre categorias de dados) e teorização (arbitrar procedimentos que assegurem a plausibilidade de relações).

Análise Quantitativa de Dados

No processo de investigação, passada a fase de recolha de dados há que analisar esses mesmos dados, com vista à obtenção de resultados que possam contribuir para os objectivos da investigação.

A análise desses dados, tal como se referiu no post anterior pode ser quantitativa ou qualitativa. Neste post iremos focar-nos sobre a análise quantitativa de dados.

Em análise quantitativa, os dados podem ser do tipo estatístico (dados representados sob a forma numérica, dizendo respeito a uma amostra concreta) ou paramétrico (dados generalizáveis, por estatística inferencial, à população que inclui a amostra).

A análise quantitativa de dados pode incidir sobre dados de natureza quantitativa ou qualitativa. Isto corresponde a analisar variáveis de natureza quantitativa (características mensuráveis, passíveis de ser expressas em valores numéricos, reportados a uma unidade de medida ou a uma relação de ordem) ou qualitativa (atributos ou categorias descrevendo sujeitos e situações, podendo ser de natureza dicotómica ou politómica).

A atribuição de valores às variáveis ou características em análise, faz-se recorrendo a uma escala de medida, que poderá ser nominal (para atributos qualitativos), ordinal (traduzindo gradientes de intensidade, relativamente a variáveis de natureza qualitativa), intervalar (adequadas a variáveis quantitativas, mas sem zero absoluto) ou de razão/proporcional (adequadas a variáveis quantitativas, mas com zero absoluto).

Em análise quantitativa de dados, o tipo de dados condiciona os testes estatísticos a adoptar. Neste aspecto particular, amostras de reduzida dimensão tornam alguns desses testes desadequados ou mesmo de impossível aplicação.

Tendo em conta o que se referiu relativamente à escala de medida, apenas as escalas intervalar e de razão/proporcional, por serem adequadas a variáveis quantitativas, permitem operações matemáticas no interior da escala (adição e subtracção na escala intervalar; adição, subtracção, multiplicação e divisão na escala de razão/proporcional).

Tal como vimos relativamente ao tipo de dados passíveis de análise quantitativa, esta pode recorrer à estatística descritiva e/ou à estatística inferencial.

Recorre-se à estatística descritiva para descrever (de modo numérico e/ou gráfico) e organizar os dados. Por outro lado, recorre-se à estatística inferencial para procurar relações entre os dados analisados e/ou verificar hipóteses previamente colocadas, ou ainda a estimar parâmetros da população a partir dos dados da amostra.

A estatística inferencial pode socorrer-se de técnicas paramétricas (exigindo determinadas condições, como, por exemplo, escala intervalar, curva de distribuição normal, amostra não inferior a 30 elementos e uma dispersão em subgrupos com variância semelhante) ou não paramétricas (não exigindo condições especiais), sendo que as primeiras, pelo facto de exigirem determinadas condições, são mais fiáveis, dotando, por isso, os testes de maior potência.

Na prática, as técnicas de estatística descritiva podem criar as condições para que o investigador recorra às técnicas de estatística inferencial.

Na sequência da análise exploratória dos dados, com recurso a técnicas de estatística descritiva, poderão surgir condições para, no processo de investigação, se utilizarem técnicas de estatística inferencial, com o objectivo de explorar as possíveis hipóteses de relações entre os dados obtidos, mesmo que essas relações não tenham sido consideradas a priori como hipóteses de investigação (como acontece no caso de investigações exploratórias, que, normalmente, utilizam abordagens do tipo indutivo).