segunda-feira, 2 de dezembro de 2019

E-90: REVISÃO - Ficha_revisão (Estatística Descritiva, Correlação, Regressão, Amostragem)


1. REVISÃO DE CONCEITOS (ESTATÍSTICA DESCRITIVA) E OUTRAS NOÇÕES BÁSICAS
                                                                                                                                  Inês de Meneses 4925
1.1 - Diga o que entende por:
a) Moda
É o valor ou a classe com maior frequência
b) Classe modal
É o valor ou a classe com maior frequência
c) Distribuição amodal
Não possui moda, sem valores repetidos
d) Distribuição unimodal
Possui um único número repetido
e) Distribuição bimodal
Possui dois valores modais
f) Distribuição multimodal
Possui mais do que dois valores modais.
g) Mediana
É uma medida estatística que divide a distribuição em duas partes de igual efetivo.
h) Classe mediana
É aquela em que a frequência relativa acumulada atinge os 50%
i) Quantis
É uma família de medidas estatísticas que dividem a distribuição de valores em partes de igual efetivo.
j) Quartis
São valores dados a partir do conjunto de observações ordenado em ordem crescente, que dividem a distribuição em quatro partes iguais (cada parte tem 25% dos dados)
l) Decis
Dividem os dados em décimas partes (cada parte tem 10% dos dados)
m) Percentis
Dividem os dados em centésimas partes (cada parte tem 1% dos dados)


1.2 - Defina as seguintes medidas de dispersão absoluta (amplitudes e desvios)
a) Amplitude total  
É a diferença entre os valores extremos de uma distribuição
b) Intervalo de Kelley
É a diferença entre o nono e o primeiro decil
c) Amplitude interquartil
É a diferença entre o terceiro e o primeiro quartil
d) Desvio médio
É a medida aritmética dos módulos dos desvios de cada valor à média do conjunto dos valores
e) Variância
É a média aritmética do quadrado dos desvios
f) Desvio padrão
É a raiz quadrada da variância


1.3 - Defina as seguintes medidas de dispersão relativa
a) Coeficiente de variação (CV)
Fornece a variação dos dados obtidos em relação à média
b) Coeficiente Interquartil (CIQ)
Avalia o grau da dispersão de dados em torno da medida de centralidade


1.4 - Defina as seguintes medidas de forma (assimetria e curtose)
a) Coeficiente de assimetria
Indica de que lado, em relação a um valor central, são maiores as diferenças
b) Coeficiente de curtose
Carateriza uma distribuição como em cume ou plana, se comparada à distribuição normal


1.5 - Defina (medidas de concentração)
Coeficiente de Gini
É um dado estatístico utilizado para avaliar a distribuição das riquezas de um determinado lugar
Curva de Lorenz
 Consiste, ilustrar a desigualdade existente na distribuição de um rendimento, numa determinada economia ou sociedade


1.6 - Diga o que entende por

a) Marca da classe
Soma-se os extremos da respetiva classe e divide-se por dois
b) Amplitude da classe
É a diferença entre o extremo superior e o extremo inferior do intervalo
c) Efetivo da classe
Número de elementos da classe


1.7 - Identifique 4 métodos de divisão em classes
a) método 1
Com base no diagrama de dispersão
b) método 2
Com base nos quantis
c) método 3
Com base na média e no desvio-padrão
d) método 4
Com base em classes de igual amplitude


2. ANÁLISE DE CORRELAÇÃO

2.1 - Interprete o significado do coeficiente de correlação de Pearson nos exercícios que realizou  (E47 a E53).
E47
O r=1.0 significa que a correlação entre as 2 variáveis é positiva e forte (perfeita, por ser r=1). Quando os valores de uma variável aumentam os da outra variável também aumentam.
E48
O r= -1.0 significa que a correlação entre as 2 variáveis é negativa perfeita.
E49
O r=0,89 significa que a correlação entre as 2 variáveis é positiva e forte. Quando aumenta a população ativa no setor A, há um aumento elevado do peso do setor no PIB.
E50
O r=0,80 significa que a correlação entre as 2 variáveis é forte. Assim, os países com maior número de computadores por 500 habitantes são aqueles que têm uma maior despesa em educação.
E51
O r=0,87 significa que a correlação entre as 2 variáveis é forte. Quanto maior for o PIB, maior será o número de espetadores de cinema.
E52
O r=0,23 significa que a correlação entre as 2 variáveis é muito fraca. O caudal do rio é pouco influenciado pela precipitação.
E53
O r=0,96 significa que a correlação entre as 2 variáveis é positiva e forte. Quanto maior for a percentagem de população ativa na agricultura, maior será a percentagem da agricultura relativamente ao PNB.


2.2 - Interprete o significado do coeficiente de correlação de Spearman nos exercícios que realizou (E54 a E57).
E54
O r=0,79 significa que a correlação entre as 2 variáveis é positiva e forte. A ordem dos valores das 2 variáveis não é igual, mas é semelhante. Ou seja, existe uma correspondência forte entre as preferências de José e Maria.
E55
O r=0,66 significa que a correlação entre as 2 variáveis é média. Existe uma correspondência média entre as 2 variáveis.
E56
O r=0,96 significa que a correlação entre as 2 variáveis é positiva forte. Assim, a percentagem de ocupação do solo por castanheiros está relacionada com a proporção de superfície superior a 500m.
E57
O r=0,01 significa que a correlação entre as 2 variáveis é positiva. Existe uma correspondência entre as 2 variáveis.


2.3 - No E51 ao E57 os dados são de uma amostra. Pode rejeitar a Hipótese Nula (H0) para uma probabilidade de 95%? Justifique a sua resposta.  Diga se o coeficiente de correlação é significativo para uma probabilidade de 95%.
E51
Rejeita a H0 porque a probabilidade de ela ser verdadeira é inferior ao nível de significação que o investigador definiu (N.S.= 0,05; Sig. =0,01 <0,05). O coeficiente de correlação é significativo para uma probabilidade de 95%.
E52
Aceita a Ho porque a probabilidade de ela ser verdadeira é superior ao nível de significação que o investigador definiu (N.S.= 0,05; Sig. =0,42 <0,05).
E53
Rejeita a Ho porque a probabilidade de ela ser verdadeira é inferior ao nível de significação que o investigador definiu (N.S.= 0,05; Sig. =0,00 <0,05).
E54
Rejeita a Ho porque a probabilidade de ela ser verdadeira é inferior ao nível de significação que o investigador definiu (N.S.= 0,05; Sig. =0,01 <0,05).
E55
Rejeita a Ho porque a probabilidade de ela ser verdadeira é superior ao nível de significação que o investigador definiu (N.S.= 0,05; Sig. =0,016 <0,05).
E56
Rejeita a Ho porque a probabilidade de ela ser verdadeira é inferior ao nível de significação que o investigador definiu (N.S.= 0,05; Sig. =0,00 <0,05).
E57
Rejeita a Ho porque a probabilidade de ela ser verdadeira é inferior ao nível de significação que o investigador definiu (N.S.= 0,05; Sig. =0,003 <0,05).


3. ANÁLISE DE REGRESSÃO LINEAR & NÃO LINEAR

3.1 - Indique a equação da função (linear ou não linear) nos exercícios de análise de regressão que realizou (E58 a E67).
E58 ou E61
y = 0,6519x - 2,594
E59 ou E62
y= 0,1609x + 7,2823
E60 ou E63
y= - 1,1198x + 11,427
E64 ou E65
y = 8848,2x-1,938
E66 ou E67
y= 806,66e0,4219x
3.2 - Indique o valor do coeficiente de determinação (r2) nos exercícios de análise de regressão que realizou (E58 a E67).
E58 ou E61
R2=0,82(0,8191) ou 82% (81,9%)
E59 ou E62
R2= 0,8126 ou 81%
E60 ou E63
R2= 0,8835 ou 88%
E64 ou E65
R2= 0,9864 ou 99%
E66 ou E67
R2= 0,9568 ou 96%
3.3 - Interprete o significado do coeficiente de determinação (r2) nos exercícios de análise de regressão que realizou (E58 a E67).
E58 ou E61
O r2= 0,82 (82%9 significa que a variável x (humidade relativa) explica 82% da variação de Y (nº de choupos). Há uma forte dependência de Y( nº de choupos) em relação a X ( humidade relativa)
E59 ou E62
O r2= 0,81. A altitude explica 81% da precipitação.
E60 ou E63
O r2= 0,88. Significa que a variável de x explica 88% da variável de y. Há uma forte dependência em relação a x.
E64 ou E65
O r2= 0,99. 99% das visitas ao museu são explicadas pela distância à residência.
E66 ou E67
O r2= 0,96. 96% da variação do número de habitantes explica-se pela variação dos anos.
3.4 - Indique o valor estimado de Y (para a 1ª unidade de análise) nos exercícios de análise de regressão que realizou (E58 a E67).
E58 ou E61
28,04
E59 ou E62
8,26
E60 ou E63
6,94
E64 ou E65
20
E66 ou E67
1
3.5 - Indique o resíduo (para a 1ª unidade de análise) nos exercícios de análise de regressão que realizou (E58 a E67).
E58 ou E61
-7,04
E59 ou E62
0,23
E60 ou E63
0,05
E64 ou E65
0,98
3.6 - Indique o intervalo de confiança (para a 1ª unidade de análise) nos exercícios de análise de regressão que realizou  (E58 a E67).
E61
(14,12 ;41,97)
E62
(6,42; 10,06)
E63
(4,78; 9,10)
E65
(210,3 ; 727,7)
E67
(569,5 ;2656,0)
4. AMOSTRAGEM

4.1 - Descreva/caraterize cada um dos métodos de amostragem probabilísticos (ou não dirigidos) que estudou.


1. Método de amostragem aleatória simples
Método de amostragem em que cada elemento é selecionado ao acaso.
2. Método de amostragem sistemática
Os elementos são tomados a intervalos regulares (p.e., de 10 em 10 elementos numa lista de dados).
3. Método de amostragem estratificada (aleatória ou sistemática)
Permite-nos obter uma amostra intencional, conhecendo-se à partida certas características da população.
4. Método de amostragem por clusters
 É um método de amostragem aleatória em que cada unidade é o grupo ou cluster.
5. Método de amostragem multi-etapas
A população é dividida em grupos e estes são selecionados aleatoriamente.
6. Método de amostragem multi-fásica
A amostra é sempre a mesma.


4.2 - Descreva/caraterize cada um dos métodos de amostragem não probabilísticos (ou dirigidos) que estudou.


1. Método de amostragem por conveniência
Seleciona-se a amostra em função da disponibilidade e em função da maior ou menor acessibilidade dos elementos que constituem a população ou universo estatístico.
2. Método de amostragem intencional
A escolha dos elementos que vão constituir a amostra baseia-se na opinião de uma ou mais pessoas que conhecem bem as características específicas da população ou universo estatístico (p.e., certas minorias, toxicodependentes, etc.)
3. Método de amostragem snowball
Utiliza-se quando a população é pequena e muito específica. Em regra, a população em causa é diminuta e está muito dispersa. Utiliza-se quando se pretende conhecer características raras na população total.
4. Método de amostragem sequencial
Neste método a realização da fase seguinte só é decidida depois de analisados os resultados da fase anterior. Os indivíduos selecionados vão sendo inquiridos e os dados são analisados só depois se decidindo se continua o inquérito ou não.
5. Método de amostragem por quotas
Estabelece-se uma quota para cada estrato que seja proporcional à sua representação na população e assegura-se que um número mínimo de elementos faça parte da amostra, para cada estrato especificado. Pretende-se que a amostra seja semelhante à população em certas características pré-definidas.


4.3 - Identifique uma vantagem e uma limitação em cada um destes 2 tipos de MA.
1. M.A. probabilísticos ou não dirigidos
i)permitem demostrar a representatividade da amostra
 ii) permitem medir explicitamente (em termos probabilísticos) o grau de incerteza com que se extrapola para a população/ universo, isto é, o erro cometido por se usar uma amostra em vez da população
2. M.A. não probabilísticos ou dirigidos
Garantir que todos os indivíduos da população tenham uma probabilidade não-nula de serem selecionados
Não permite saber a precisão.

4.4 - Estimar parâmetros da população. Interprete os resultados que obteve no E73.


1. Qual a média da idade dos indivíduos na população/universo estatístico, para uma probabilidade de 95%?
(19,84; 22,16)
2. Qual a média do peso dos indivíduos na população/universo estatístico, para uma probabilidade de 95%?
(58,80; 61,60)
3. Qual a média da altura nos indivíduos na população/universo estatístico, para uma probabilidade de 95%?
(1,7949; 1,8198)


4.5 - Testes Estatísticos.  Interprete o significado do teste estatístico nos exercícios que realizou (E74 a E88).
   a) Qual foi a sua decisão em relação à Hipótese Nula (H0)?
    b) Justifique a sua resposta.
E74
a) Não foi rejeitada a H0     b) Porque a probabilidade de a H0 ser verdadeira (0,20) é superior ao NS(0,05) que o investigador definiu
E75
a) Não foi rejeitada a H0     b) Porque a probabilidade de a H0 ser verdadeira (0,53) é superior ao NS(0,05) que o investigador definiu
E76
a) Foi rejeitada a H0            b) Porque a probabilidade de h0 ser verdadeira (0,0) é inferior NS (0,5)
E77
a) Foi rejeitada a Ho           b) Porque a probabilidade de H0 ser verdadeira (0,1) é inferior NS (0,5)
E78
a) Foi rejeitada a H0                b) Porque a probabilidade de H0 ser verdadeira (0,0) é inferior NS (0,5)
E79
a) Foi rejeitada a H0                 b) Porque a probabilidade de H0 ser verdadeira (0,0) é inferior NS (0,5)
E80
a) Foi rejeitada a H0              b) Porque a probabilidade de H0 ser verdadeira (0,0) é inferior NS (0,5)
E81
a) Foi rejeitada a H0                b) Porque a probabilidade de H0 ser verdadeira (0,01) é inferior NS (0,5)
E82
a) Foi rejeitada H0                    b) Porque a probabilidade de H0 ser verdadeira (0,0) é inferior NS (0,5)
E83
a) Foi rejeitada a H0                 b) Porque a probabilidade de H0 ser verdadeira (0,0) é inferior NS (0,5)
E84
a) Foi rejeitada a H0           b) Porque a probabilidade de H0 ser verdadeira (0,0) é inferior NS (0,5)
E85
a) Foi rejeitada a H0            b) Porque a probabilidade de H0 ser verdadeira (0,167) é inferior NS (0,5)
E86
a) Foi rejeitada a H0        b) Porque a probabilidade de H0 ser verdadeira (0,001) é inferior NS (0,5)
E87
a) Foi rejeitada a H0        b) Porque a probabilidade de H0 ser verdadeira (0,001) é inferior NS (0,5)
E88
a) Foi rejeitada a H0      b) Porque a probabilidade de H0 ser verdadeira (0,000) é inferior NS (0,5)

E-90: REVISÃO - Ficha_revisão (Estatística Descritiva, Correlação, Regressão, Amostragem)

1. REVISÃO DE CONCEITOS (ESTATÍSTICA DESCRITIVA) E OUTRAS NOÇÕES BÁSICAS                                                 ...