Estatística Multivariada
Prof. José Francisco
[email protected]
Intervalos de confiança simultâneos
Intervalos simultâneos Considere o caso especial em que X~Np(,) onde 1 2 3 p
11 22 33 pp
As variáveis são independentes
Para cada média pode ser especificado um intervalo t com 1- de confiança, por exemplo, 95%:
xi t n1 2
sii sii i xi t n1 2 n n
n = tamanho da amostra aleatória xi = média amostral da i-ésima variável sii = variância amostral da i-ésima variável
i=1,p
Intervalos simultâneos Considerando cada intervalo individualmente
Pintervalo conter i Pi - ésimo intervalo ser verdadeiro sii sii P xi t n1 2 i xi t n1 2 1 n n
i=1,p
Considerando os intervalos simultaneamente
P todos os intervalos contenham i
P todos os intervalos sejam verdadeiros
1 1 1 1 Neste caso foi assumido que as variáveis são independentes, por isso o produto de probabilidades
p
1
No caso de p=6 variáveis, para =0,05 (5%) tem-se que (1- )6 = 0,74 < 0,95, ou seja, o grau de confiança simultâneo é menor que 95%
Intervalos simultâneos A partir de uma região com (1-)x100% de confiança podem ser obtidos intervalos para as médias 1,2,...,p e suas infinitas combinações lineares aT = a11+a22+...+app. Estes intervalos são denominados por intervalos simultâneos ou intervalos T2: a X T
pn 1 a T Sa F p,n p aT aT X n p n
pn 1 a T Sa F p,n p n p n
T2 n = tamanho da amostra aleatória p = número de variáveis a = vetor de constantes que definem uma combinação linear de médias X = vetor de médias amostrais S = matriz de covariância amostral
Estes intervalos são mais largos que os intervalos t, de tal forma que quando considerados simultaneamente a probabilidade de que todos os intervalos contenham as respectivas médias seja (1-)x100%, igual ao grau da região de confiança.
Intervalos simultâneos
0.62
0.64
Os intervalos simultâneos são projeções da região de confiança.
0.60
Região de confiança de 95%
A probabilidade que os dois intervalos T2 contenham as respectivas médias é superior a 95%
0.58
V1
Intervalo de confiança simultâneo de 95% para 2
Note que os intervalos simultâneos para 1 e 2 definem uma região retangular maior que a região com 95% de confiança, logo a região retangular, definida pelos dois intervalos T2, tem um grau de confiança maior que 95%.
Isso só foi possível pois os intervalos T2 são maiores que o intervalo t
0.52
0.54
0.56
0.58
0.60
Intervalo de confiança simultâneo de 95% para 1 V1
Intervalos de Bonferroni Freqüentemente estamos interessados em fazer inferência sobre um reduzido conjunto de médias ou de combinações lineares de médias.
Não estamos interessados em todas as infinitas combinações lineares das médias. Neste caso podemos desenvolver intervalos simultâneos mais curtos (mais precisos) que os intervalos T2.
Este método alternativo é conhecido como intervalo de Bonferroni e baseia-se na desigualdade de mesmo nome.
Carlo Emilio Bonferroni 1892 - 1960
Intervalos de Bonferroni Considere que o objetivo seja inferir sobre m combinações lineares das médias:
a1T a111 a1 p p a 2T a 211 a 2 p p a mT a m11 a mp p Seja ICi o intervalo com 1-i de confiança para a i-ésima combinação (i=1,m)
P ICi conter a vardeira combinação aiT P ICi ser verdadeiro 1 i
Intervalos de Bonferroni Considerando todos os intervalos simultaneamente:
P todos os ICi sejam verdadeiros 1 P pelo menos um ICi ser falso m
P todos os ICi sejam verdadeiros 1 P ICi ser falso i 1 m
P todos os ICi sejam verdadeiros 1 1 P ICi ser verdadeiro i 1 m
P todos os ICi sejam verdadeiros 1 1 1 - i i 1 m
P todos os ICi sejam verdadeiros 1 i i 1
Estas desigualdade é um caso especial da desigualdade de Bonferroni
Intervalos de Bonferroni Vamos desenvolver os intervalos simultâneos para o conjunto restrito de p médias i , i=1,p. Estes intervalos são construídos com base no intervalo t:
xi t n1 i 2
sii sii i xi t n1 i 2 n n
i=1,p
Na ausência de algum conhecimento sobre a importância de cada média, faz-se:
i
p
Implica no mesmo nível de confiança para todos os intervalos
P todos os ICi sejam verdadeiros P todo ICi conhtenha a verdadeira i p P todo ICi contenha a respectiva i 1 i 1 1 p i 1 p p termos
Intervalos de Bonferroni P todo ICi contenha a respectiva i 1
Então, os seguinte intervalos de confiança têm um grau de confiança simultâneo maior ou igual a 1-:
s11 s11 x1 t n1 1 x1 t n1 2p n 2p n s22 s22 x2 t n1 2 x2 t n1 2p n 2p n ...
s pp s pp x p t n1 p x p t n1 2p n 2p n
Intervalos de Bonferroni Comparando intervalos simultâneos T2 e Bonferroni para as médias i , i=1,p
Intervalo simultâneo com correção de Bonferroni para as médias i , i=1,p
sii sii xi t n1 i xi t n1 2p n 2p n
Intervalo simultâneo T2 para as médias i , i=1,p
xi
sii pn 1 F p,n p i xi n p n
sii pn 1 F p,n p n p n
Exemplo (Johnson & Wichern, 2002) O departamento de controle de qualidade de uma fábrica de fornos de microondas realiza medições do nível de radiação emitida por estes aparelhos para verificar se os fornos fabricados atendem as especificações do projeto e as normas de segurança. Desenhe a região com 95% de confiança para o vetor média. Para atender esta finalidade, uma amostra de 42 fornos de microondas é selecionada e ensaios em laboratório são conduzidos para medir o nível de radiação emitida com a porta fechada e com a porta aberta. A seguir são apresentados as amostras coletadas. Forno com a porta fechada (y1) = arquivo T4-1.dat 0.15 0.09 0.18 0.10 0.05 0.12 0.08 0.05 0.08 0.10 0.07 0.02 0.01 0.10 0.10 0.10 0.02 0.10 0.01 0.40 0.10 0.05 0.03 0.05 0.15 0.10 0.15 0.09 0.08 0.18 0.10 0.20 0.11 0.30 0.02 0.20 0.20 0.30 0.30 0.40 0.30 0.05
Forno com a porta aberta (y2) = arquivo T4-5.dat 0.30 0.09 0.30 0.10 0.10 0.12 0.09 0.10 0.09 0.10 0.07 0.05 0.01 0.45 0.12 0.20 0.04 0.10 0.01 0.60 0.12 0.10 0.05 0.05 0.15 0.30 0.15 0.09 0.09 0.28 0.10 0.10 0.10 0.30 0.12 0.25 0.20 0.40 0.33 0.32 0.12 0.12
Construa os intervalos simultâneos T2 e com correção de Bonferroni para as médias 1 e 2 com 95% de confiança.
Exemplo
0
5
Frequency
y1=read.table("T4-1.dat") hist(y1[,1])
10
15
Histogram of y1[, 1]
Distribuições assimétricas. Violação da hipótese de normalidade. Variáveis devem ser transformadas
0.0
0.1
0.2
0.3
0.4
y1[, 1]
10 5 0
Frequency
y2=read.table("T4-5.dat") hist(y2[,1])
15
20
Histogram of y2[, 1]
0.0
0.1
0.2
0.3 y2[, 1]
0.4
0.5
0.6
Exemplo Histogram of x1
6 4 0
2
x1=y1^(1/4) hist(x1)
Frequency
8
10
Transformação das variáveis
0.3
Distribuições simétricas. Hipótese de normalidade satisfeita.
0.4
0.5
0.6
0.7
0.8
x1
10 5 0
Frequency
x2=y2^(1/4) hist(x2)
15
20
Histogram of x2
0.3
0.4
0.5
0.6 x2
0.7
0.8
0.9
Exemplo Matriz de dados X=cbind(x1,x2)
Vetor de médias amostrais
xbarra=apply(X,2,mean) xbarra V1 V1 0.5642575 0.6029812
Matriz de covariâncias amostrais
S=var(X) S V1 V1 V1 0.01435023 0.01171547 V1 0.01171547 0.01454530
Caso bivariado p =2
Exemplo Intervalos simultâneos T2 para 1 e 2
x1
pn 1 s Fp,n p 5% 11 1 x1 n p n
pn 1 s Fp,n p 5% 11 n p n
241 0,0144 241 0,0144 0,564 3,23 1 0,564 3,23 40 42 40 42
0,516 1 0,612
x2
pn 1 s22 Fp,n p 5% 2 x2 n p n
pn 1 s22 Fp,n p 5% n p n
241 0,0146 241 0,0146 0,603 3,23 2 0,603 3,23 40 42 40 42
0,555 2 0,651
Exemplo Intervalos simultâneos com correção de Bonferroni para 1 e 2
5% s11 5% s11 x1 t n1 1 x1 t n1 2p n 2p n 0,0144 0,0144 0,564 2,327 1 0,564 2,327 42 42
0,521 1 0,607
s22 s22 x2 t n1 2 x2 t n1 2p n 2p n 0,0146 0,0146 0,603 2,327 2 0,603 2,327 42 42
0,560 2 0,646
Exemplo Intervalos simultâneos T2 para 1 e 2
0,516 1 0,612 0,555 2 0,651 Intervalos simultâneos com correção de Bonferroni para 1 e 2
0,521 1 0,607 0,560 2 0,646 Intervalos simultâneos com correção de Bonferroni para 1 e 2 menores que os intervalos T2
Exemplo 5.5 na página 226 do livro Johnson, R.A.; Wichern, D.W. Applied Multivariate Statistical Analysis, fifth edition, Prentice Hall, 2002.
Sejam X1, X2 e X3 as notas (scores) obtidas por n=87 estudantes nos exames CLEP(College Level Examination Program) e CQT (College Qualification Test): X1 = ciências sociais e história (CLEP) X2 = proficiência verbal (CQT) X3 = ciências (CQT)
Leitura do arquivo texto exemplo5.txt com a matriz de dados
X