Una generalización de la estadística de Cook

July 4, 2017 | Autor: J. Jimenez Moscoso | Categoría: Outliers in statistical data, Multiple Linear Regression, Cook distance

Share Embed

Laporkan tautan ini

Descripción

Revista Colombiana de Estad´ıstica Volumen 24 (2001) No 2, p´ aginas 111 a 120

´ DE LA UNA GENERALIZACION ESTAD´ISTICA DE COOK ´ A. JIMENEZ ´ JOSE M.*

Resumen En este art´ıculo se presenta una generalizaci´ on de la estad´ıstica de Cook la cual permite identificar las observaciones m´ as influyentes en la estimaci´ on v´ıa m´ınimos cuadrados de los par´ ametros del modelo de regresi´ on lineal m´ ultiple. Palabras claves: Modelos Lineales, M´ınimos cuadrados, Observaciones Influyentes, Estad´ıstica de Cook, Estad´ıstica Qk , Estad´ıstica DF-Beta

Abstract This paper presents a generalization of the Cook’s statistics useful in the identification of influential observations in the least squares estimation of the multiple regression parameters. Keywords: Linear Models, Least squares, Influential Observations, Cook’s Statistics, Qk Statistics, DF-Beta Statistics

* Profesor asistente, Universidad Nacional de Colombia, Departamento de matem´ aticas; e-mail: [email protected]

111

112

1.

Jos´e A. Jim´enez M.

Introducci´ on

En Cook (1977) se introduce una estad´ıstica para indicar la influencia de una observaci´on con respecto a un modelo particular. Para una u ´nica observaci´on, Cook tambi´en mostr´o que la estad´ıstica proporcionaba informaci´on sobre si era tambi´en un outlier. Para el modelo de regresi´on lineal m´ ultiple ~ + ~² ~ = Xβ Y

(1)

~ un vector de respuestas de tama˜ siendo Y no n × 1, X una matriz de constantes ~ el vector de par´ametros de conocidas de tama˜ no n × r de rango completo, β tama˜ no r × 1 y ~² un vector de errores de tama˜ no n × 1. Mediante el m´etodo de estimaci´on m´ınimos cuadrados ordinarios (MCO) se obtiene para el modelo dado en (1) los siguientes estimadores: ~ βb = (X 0 X)−1 X 0 Y ~ = HY ~ Yb = X βˆ = X(X 0 X)−1 X 0 Y ~ − Yˆ = Y ~ − HY ~ = (I − H)Y ~ b ²=Y h i0 ~ (I − H)Y ~ =Y ~ 0 (I − H)Y ~ SCE = b ² 0b ² = (I − H)Y

(2)

con H = X(X 0 X)−1 X 0 . Bajo el supuesto de normalidad en los residuales, se ~ mediante establece una regi´on de (1 − α)100 % de confianza para β, ³ ´0 ³ ´ β~ − βb (X 0 X) β~ − βb ≤ F(r,n−r,α) (3) rs2 donde s2 = SCE/(n − r) es el estimador insesgado de σ 2 y F(r,n−r,α) es el percentil α-superior de una distribuci´on F con r y n − r grados de libertad. b Esta desigualdad define una regi´on elipsoidal centrada en β. En el resultado estad´ıstico propuesto por Cook, la influencia de una observaci´on es medida por el cambio en el centro de la regi´on elipsoidal dada en (3) cuando la i-´esima observaci´on es eliminada. Para ello, define la siguiente medida (distancia): ³ ´0 ³ ´ βb − βb(i) (X 0 X) βb − βb(i) Di = (4) rs2 ~ despu´es de donde βb(i) es el estimador v´ıa m´ınimos cuadrados (EMC) de β eliminar la i-´esima observaci´on del modelo (1). En Cook (1980) se sugiere que

Una Generalizaci´ on de la Estad´ıstica de Cook

113

cada Di sea comparada con el percentil de una F con r y n − r grados de libertad; en otras palabras, grandes valores de Di indican que la observaci´on es influencial. En este art´ıculo se presenta una generalizaci´on de esta estad´ıstica que se denotar´a por D(Y~1 ) la cual permitir´a detectar si las observaciones del bloque ~1 son influyentes en la estimaci´on de los par´ametros del modelo de regresi´on Y lineal m´ ultiple, se demostrar´a que D(Y~1 ) no se distribuye F(r,n−r) y por lo tanto, se utilizar´a como criterio de decisi´on, que cuando D(Y~1 ) > 0,5, las observaciones ~1 sean consideradas influyentes. del bloque Y

2. Deducci´ on de la Estad´ıstica de Cook En Jim´enez (1999) se plantea el modelo · ∗¸ · ¸ · ∗¸ ~ Y X1 ~ ∗ ~² 1 = β + 1∗ ∗ ~ ~²2 X Y 2

(5)

2

~∗ = Y ~ + ~γ con ~γ ∈ Rn un vector arbitrario; bajo este supuesto por siendo Y ~ y de las MCO se obtienen los estimadores del modelo (5), en funci´on de ~γ , Y expresiones dadas en (2). Los nuevos estimadores est´an dados por βb∗ =βb + (X 0 X)−1 X 0~γ Yˆ ∗ =Yˆ + H~γ ²ˆ∗ =ˆ ² + (I − H)~γ ∗ SCE =SCE + 2~γ 0 ²ˆ + ~γ 0 (I − H)~γ ~1 ) propuesta en Considerando la generalizaci´on de la estad´ıstica DF Beta(Y Jim´enez y Rinc´on (2000), dada por ~1 ) = βb − βb∗ = −(X 0 X)−1 X 0~γ DF Beta(Y ~ Y 1

(6)

se puede expresar la estad´ıstica de Cook dada en (4) de la siguiente manera: ³ ´0 ³ ´ βb − βbY∗~ (X 0 X) βb − βbY∗~ 1 1 D(Y~1 ) = rs2 ¡ ¢0 ¡ ¢ −(X 0 X)−1 X 0~γ (X 0 X) −(X 0 X)−1 X 0~γ = rs2 ~γ 0 X(X 0 X)−1 (X 0 X)(X 0 X)−1 X 0~γ = (7) rs2

114

Jos´e A. Jim´enez M.

como asumimos que X es una matriz de rango completo, se tiene que (X 0 X)−1 (X 0 X)(X 0 X)−1 = (X 0 X)−1

(8)

Por otra parte, para minimizar la suma de cuadrados de los residuales del modelo (5), se muestra en Jim´enez (2001) que esto se logra cuando ∂Qk ~ =0 ∂~γ lo cual equivale a la expresi´on b ² + (I − H)b γ = ~0 · ¸ γˆ1 donde b ² es el EMC de ~² del modelo (1) y asumiendo γˆ = ~ obtiene que 0 ~1 + X1 (X20 X2 )−1 X20 Y ~2 γˆ1 = − Y si se reescribe γ b se llega a · ¸ · γ b1 −Ik γ b= − → = 0 0

X1 (X20 X2 )−1 X20 0

¸ "− →# Y1 − → Y2

(9)

− → con k la dimensi´on del bloque Y1 ; utilizar este valor de γ b corresponde a estimar ~1 . los par´ametros del modelo (1) despu´es de eliminar el bloque Y al reemplazarse (8) y (9) en (7), se obtiene D(Y~1 ) =

γ b 0 Hb γ rs2

esta nueva expresi´on de la estad´ıstica de Cook tiene la ventaja de que esta en t´erminos del γ b. El anterior resultado se puede resumir en el siguiente teorema.

Teorema 1. Si un modelo de regresi´on lineal m´ ultiple se particiona como: · ¸ · ¸ · ¸ ~1 Y X1 ~ ~²1 = β + ~2 X2 ~²2 Y

(10)

115

Una Generalizaci´ on de la Estad´ıstica de Cook

entonces el cambio en la EMC de los par´ametros del modelo (10) al eliminar el ~1 , se calcula mediante la expresi´on: bloque Y 0

D(Y~1 )

γ b Hb γ = rs2

(11)

· ¸ SCE γ b1 ~1 + X1 (X 0 X2 )−1 X 0 Y ~ donde s = y γ b = ~ con γ b1 = −Y 2 2 2. 0 n−r 2

3. Distribuci´ on de probabilidad de la Estad´ıstica de Cook Si se reemplaza (9) en el numerador de la expresi´on (11) se obtiene − → γ b Hb γ =Y 0

·

0

− → =Y 0

·

−Ik X2 (X20 X2 )−1 X10 H11 −M21 H11

¸· 0 H11 0 H21

−H11 M12 M21 H11 M12

H12 H22 ¸ − → Y

¸·

−Ik 0

¸ → X1 (X20 X2 )−1 X20 − Y 0 (12)

donde Mij = Xi (X20 X2 )−1 Xj0 y Hij = Xi (X 0 X)−1 Xj0 , es una submatriz de la matriz H; por otra parte, como HX = X, se puede verificar f´acilmente que H11 X1 =X1 − H12 X2 H21 X1 =X2 − H22 X2

(13) (14)

reemplazando (13) en las submatrices que aparecen en (12) se tiene que H11 M12 =H11 X1 (X20 X2 )−1 X20 = [X1 − H12 X2 ] (X20 X2 )−1 X20 =X1 (X20 X2 )−1 X20 − H12

(15)

al sustituir (15) y (13) en la u ´ltima submatriz de (12) se obtiene M21 H11 M12 =X2 (X20 X2 )−1 X10 H11 X1 (X20 X2 )−1 X20 £ ¤0 = H11 X1 (X20 X2 )−1 X20 X1 (X20 X2 )−1 X20 £ ¤0 = X1 (X20 X2 )−1 X20 − H12 X1 (X20 X2 )−1 X20 =H22 + X2 (X20 X2 )−1 (X10 X1 )(X20 X2 )−1 X20 − X2 (X20 X2 )−1 X20 =H22 + M21 M12 − M22 (16)

116

Jos´e A. Jim´enez M.

reemplazando (15) y (16) en (12) se llega a · ¸ → −0 − → H11 H12 − M12 0 γ b Hb γ =Y Y H21 − M21 H22 + M21 M12 − M22 · ¸ · ¸ → − 0 H11 H12 − → − →0 0 − → M12 =Y Y −Y Y H21 H22 M21 M22 − M21 M12 → − − → − → − → = Y 0H Y − Y 0M Y

(17)

para establecer la distribuci´on de γ b 0 Hb γ se enuncian sin demostraci´on los teoremas 2 y 3, citados en Searle (1971).

Teorema 2. ~ es un vector aleatorio de tama˜ Si Y no n × 1, distribuido N (~ µ, V ); entonces h i h i ~ 0 AY ~ =tr(AV ) + µ ~ 0 AY ~ =2tr(AV )2 + 4~ E Y ~ 0 A~ µ y V ar Y µ0 AV A~ µ

Teorema 3. ~ ∼ N (~ ~ 0 AY ~ ∼ χ2 0 , con grados de libertad ν = ρ(A) Si Y µ, V ), entonces Y (ν,λ) y par´ametro de no centralidad λ = 21 µ ~ 0 A~ µ, si y s´olo si AV es idempotente. Puesto que, bajo el supuesto de normalidad en los residuales se tiene que − → → − Y ∼ N (X β , σ 2 In ) como la expresi´on dada en (17) es la diferencia de dos formas cuadr´aticas se establecer´a para cada una por aparte la distribuci´on asociada. − → − → Para Y 0 H Y , utilizando el teorema 2 se obtiene que "− "− →0 → −# →0 → −# Y HY Y HY E =r + 2η V ar = 2r + 8η σ2 σ2 − → − → 1 ~0 0 ~ donde η = β (X X)β, y por el teorema 3 se concluye que Y 0 H Y tiene 2σ 2 distribuci´on Ji-cuadrado no-central, es decir − →0 → − ν = r = rango(H) Y HY 20 1 ~0 0 ~ ∼ χ con (ν,λ) λ= β (X X)β σ2 2σ 2

117

Una Generalizaci´ on de la Estad´ıstica de Cook

1 Hσ 2 In es idempotente. σ2 − → − → Para la expresi´on Y 0 M Y , se tiene que "→ ½ ¾ −0 − →# © £ 0 ¤ª Y MY 1 ~0 0 −1 0 ~ E = r − tr (X2 X2 ) (X1 X1 ) + 2 β (X X) β σ2 2σ 2 "→ ½ ¾ −0 − →# n ¤2 o £ 0 Y MY 1 ~0 0 −1 0 ~ V ar X ) X ) + 8 β =2 r + tr (X (X (X X) β 2 1 2 1 σ2 2σ 2

ya que

0

puesto que la media y la varianza de la distribuci´on χ2(ν,λ) son ν + 2λ y 2ν + − → → − 8λ respectivamente, se deduce que Y 0 M Y no tiene distribuci´on Ji-cuadrado no-central; y utilizando el teorema 3, se llega a la misma conclusi´on ya que 1 M σ 2 In no es una matriz idempotente. σ2 Luego, γ b 0 Hb γ χ2(r) σ2 y por consiguiente, la comparaci´on que hace Cook con la F(r,n−r,α) no es v´alida, ya que ~γ 0 H~γ D(Y~1 ) = F(r,n−r) rs2 en esta u ´ltima expresi´on se debe tener en cuenta que (n − r)

s2 ∼ χ2(n−r) σ2

4. Ejemplo Para el conjunto de 21 observaciones (x, y) dados por Mickey, Dunn, and Clark (1967) tabla 1, se presentan los siguientes resultados 1. La estimaci´on del modelo de regresi´on lineal, con las 21 observaciones 2. Los valores hii , las estimaciones de los γi y la distancia de Cook al eliminar el i-´esimo dato. 3. La estimaci´on del modelo de regresi´on lineal, despu´es de eliminar la observaci´on influyente determinada mediante distancia de Cook

118

Jos´e A. Jim´enez M.

Tabla 1. Datos de Mickey, Dunn, and Clark (1967) Obs 1 2 3 4 5 6 7

1.

Fuente de variaci´on Regresi´on Residuos Total

x 15 26 10 9 15 20 18

y 95 71 83 91 102 87 93

Grados libertad 1 19 20

Obs 8 9 10 11 12 13 14

Suma de cuadrados 1604.0809 2308.5858 3912.6667

Coeficientes 109.8738 -1.1270

Intercepto Variable X

x 11 8 20 7 9 10 11

y 100 104 94 113 96 83 84

Cuadrados Medios 1604.0809 121.5045

Error t´ıpico 5.0678 0.3102

Obs 15 16 17 18 19 20 21

x 11 10 12 42 17 11 10

F 13.2018

y 102 100 105 57 121 86 100

Valor cr´ıtico de F 0.00177

Estad´ıstico t 21.6808 -3.6334

Coeficiente de determinaci´on R2 = 0, 409971261 Error t´ıpico σ b = 11,0229086 2. Puesto que s2 = 121,504515, se tiene que Obs Elim 1 2 3 4 5 6 7 8 9 10 11

hii

γ bi

Di (100∗Di )

0.0479 0.1545 0.0628 0.0705 0.0479 0.0726 0.0580 0.0567 0.0799 0.0726 0.0908

-2.1332 11.3214 16.6498 9.3936 -9.4856 0.3602 -3.6220 -2.6746 -3.4148 -7.1879 -12.1145

0.09 8.15 7.17 2.56 1.77 0.00 0.31 0.17 0.38 1.54 5.48

Obs Elim 12 13 14 15 16 17 18 19 20 21

hii

γ bi

Di (100∗Di )

0.0705 0.0628 0.0567 0.0567 0.0628 0.0521 0.6516 0.0531 0.0567 0.0628

4.0141 16.6498 14.2866 -4.7948 -1.4896 -9.1255 15.9026 -31.9816 12.1664 -1.4896

0.47 7.17 4.76 0.54 0.06 1.79 67.81 22.33 3.45 0.06

119

Una Generalizaci´ on de la Estad´ıstica de Cook

En los resultados anteriores se verifica que los valores de la distancia de Cook, corresponden a la expresi´on Di =

hii 2

µ

γ bi s

¶2

Seg´ un los c´alculos realizados, la observaci´on que puede ser considerada como influyente sobre la estimaci´on de los par´ametros es la observaci´on 18, pues n´otese que es la u ´nica que cumple que Di > 0,5. 3. Cuando se elimina la observaci´on 18 y ajustamos los datos a un nuevo modelo, se obtiene la siguiente tabla de an´alisis de varianza Fuente de variaci´on Regresi´on Residuos Total

Grados libertad 1 18 19

Intercepto Variable X

Suma de cuadrados 280.5195 2220.4805 2501

Coeficientes 105.62987 -0.77922

Cuadrados Medios 280.5195 123.3600

Error t´ıpico 7.1619276 0.516733

F 2.27399

Valor cr´ıtico de F 0.1489

Estad´ıstico t 14.7488045 -1.5079754

Coeficiente de determinaci´on R2 = 0, 112162 Cambio en la suma de los residuales Qk = 88, 10525836 La distancia de Cook nos indic´o que la pareja (42, 57) era la que m´as afectaba la EMC de los par´ametros pero al eliminarla el modelo obtenido fue m´as deficiente que el inicial.

5. Conclusiones En este art´ıculo se obtuvo la generalizaci´on de una de las medidas m´as utilizadas para el estudio de las observaciones influenciales. La generalizaci´on aqu´ı presentada detecta la influencia de un grupo de observaciones sobre el ~ de manera cambio en el centro de la regi´on elipsoidal de confianza para β, an´aloga a como lo hace la distancia de Cook.

120

Jos´e A. Jim´enez M.

Referencias [1] COOK, R.D. (1977) Detection of Influential Observations in Linear Regression. Technometrics, vol. 19, pag. 15-18. [2] COOK, R.D., and WEISBERG, S. (1980) Characterizations of an Empirical Influence Function for Detecting Influential Cases in Regression. Technometrics, vol. 22, pag. 495-508. ´ [3] JIMENEZ, J.A. (1999) Propuesta Metodol´ ogica para Imputar Valores no Influyentes en Modelos de Regresi´ on Lineal M´ ultiple con Informaci´ on Incompleta. Universidad Nacional de Colombia, Tesis de Maestr´ıa ´ ´ L.F. (2000) Una generalizaci´ [4] JIMENEZ, J.A. y RINCON, on de la Estad´ıstica DF-Beta. En: Revista Colombiana de Estad´ıstica, vol. 23, N o 1 ´ [5] JIMENEZ, J.A. (2001) Una Maximizaci´ on de la Estad´ıstica Qk . En: Revista Colombiana de Estad´ıstica, vol. 24, No. 1 [6] MICKEY, M. R., DUNN, O. J., and CLARK, V. (1967) Note on the use of stepwise regression in detecting outliers. Computers and Biomedical Research, 1, pag 105-111 [7] SEARLE, S. R. (1971) Linear Models. John Wiley & Sons, New York

Lihat lebih banyak...

Una generalización de la estadística de Cook

Descripción

Comentarios