Revista Colombiana de Estad´ıstica Volumen 24 (2001) No 2, p´ aginas 111 a 120
´ DE LA UNA GENERALIZACION ESTAD´ISTICA DE COOK ´ A. JIMENEZ ´ JOSE M.*
Resumen En este art´ıculo se presenta una generalizaci´ on de la estad´ıstica de Cook la cual permite identificar las observaciones m´ as influyentes en la estimaci´ on v´ıa m´ınimos cuadrados de los par´ ametros del modelo de regresi´ on lineal m´ ultiple. Palabras claves: Modelos Lineales, M´ınimos cuadrados, Observaciones Influyentes, Estad´ıstica de Cook, Estad´ıstica Qk , Estad´ıstica DF-Beta
Abstract This paper presents a generalization of the Cook’s statistics useful in the identification of influential observations in the least squares estimation of the multiple regression parameters. Keywords: Linear Models, Least squares, Influential Observations, Cook’s Statistics, Qk Statistics, DF-Beta Statistics
* Profesor asistente, Universidad Nacional de Colombia, Departamento de matem´ aticas; e-mail:
[email protected]
111
112
1.
Jos´e A. Jim´enez M.
Introducci´ on
En Cook (1977) se introduce una estad´ıstica para indicar la influencia de una observaci´on con respecto a un modelo particular. Para una u ´nica observaci´on, Cook tambi´en mostr´o que la estad´ıstica proporcionaba informaci´on sobre si era tambi´en un outlier. Para el modelo de regresi´on lineal m´ ultiple ~ + ~² ~ = Xβ Y
(1)
~ un vector de respuestas de tama˜ siendo Y no n × 1, X una matriz de constantes ~ el vector de par´ametros de conocidas de tama˜ no n × r de rango completo, β tama˜ no r × 1 y ~² un vector de errores de tama˜ no n × 1. Mediante el m´etodo de estimaci´on m´ınimos cuadrados ordinarios (MCO) se obtiene para el modelo dado en (1) los siguientes estimadores: ~ βb = (X 0 X)−1 X 0 Y ~ = HY ~ Yb = X βˆ = X(X 0 X)−1 X 0 Y ~ − Yˆ = Y ~ − HY ~ = (I − H)Y ~ b ²=Y h i0 ~ (I − H)Y ~ =Y ~ 0 (I − H)Y ~ SCE = b ² 0b ² = (I − H)Y
(2)
con H = X(X 0 X)−1 X 0 . Bajo el supuesto de normalidad en los residuales, se ~ mediante establece una regi´on de (1 − α)100 % de confianza para β, ³ ´0 ³ ´ β~ − βb (X 0 X) β~ − βb ≤ F(r,n−r,α) (3) rs2 donde s2 = SCE/(n − r) es el estimador insesgado de σ 2 y F(r,n−r,α) es el percentil α-superior de una distribuci´on F con r y n − r grados de libertad. b Esta desigualdad define una regi´on elipsoidal centrada en β. En el resultado estad´ıstico propuesto por Cook, la influencia de una observaci´on es medida por el cambio en el centro de la regi´on elipsoidal dada en (3) cuando la i-´esima observaci´on es eliminada. Para ello, define la siguiente medida (distancia): ³ ´0 ³ ´ βb − βb(i) (X 0 X) βb − βb(i) Di = (4) rs2 ~ despu´es de donde βb(i) es el estimador v´ıa m´ınimos cuadrados (EMC) de β eliminar la i-´esima observaci´on del modelo (1). En Cook (1980) se sugiere que
Una Generalizaci´ on de la Estad´ıstica de Cook
113
cada Di sea comparada con el percentil de una F con r y n − r grados de libertad; en otras palabras, grandes valores de Di indican que la observaci´on es influencial. En este art´ıculo se presenta una generalizaci´on de esta estad´ıstica que se denotar´a por D(Y~1 ) la cual permitir´a detectar si las observaciones del bloque ~1 son influyentes en la estimaci´on de los par´ametros del modelo de regresi´on Y lineal m´ ultiple, se demostrar´a que D(Y~1 ) no se distribuye F(r,n−r) y por lo tanto, se utilizar´a como criterio de decisi´on, que cuando D(Y~1 ) > 0,5, las observaciones ~1 sean consideradas influyentes. del bloque Y
2. Deducci´ on de la Estad´ıstica de Cook En Jim´enez (1999) se plantea el modelo · ∗¸ · ¸ · ∗¸ ~ Y X1 ~ ∗ ~² 1 = β + 1∗ ∗ ~ ~²2 X Y 2
(5)
2
~∗ = Y ~ + ~γ con ~γ ∈ Rn un vector arbitrario; bajo este supuesto por siendo Y ~ y de las MCO se obtienen los estimadores del modelo (5), en funci´on de ~γ , Y expresiones dadas en (2). Los nuevos estimadores est´an dados por βb∗ =βb + (X 0 X)−1 X 0~γ Yˆ ∗ =Yˆ + H~γ ²ˆ∗ =ˆ ² + (I − H)~γ ∗ SCE =SCE + 2~γ 0 ²ˆ + ~γ 0 (I − H)~γ ~1 ) propuesta en Considerando la generalizaci´on de la estad´ıstica DF Beta(Y Jim´enez y Rinc´on (2000), dada por ~1 ) = βb − βb∗ = −(X 0 X)−1 X 0~γ DF Beta(Y ~ Y 1
(6)
se puede expresar la estad´ıstica de Cook dada en (4) de la siguiente manera: ³ ´0 ³ ´ βb − βbY∗~ (X 0 X) βb − βbY∗~ 1 1 D(Y~1 ) = rs2 ¡ ¢0 ¡ ¢ −(X 0 X)−1 X 0~γ (X 0 X) −(X 0 X)−1 X 0~γ = rs2 ~γ 0 X(X 0 X)−1 (X 0 X)(X 0 X)−1 X 0~γ = (7) rs2
114
Jos´e A. Jim´enez M.
como asumimos que X es una matriz de rango completo, se tiene que (X 0 X)−1 (X 0 X)(X 0 X)−1 = (X 0 X)−1
(8)
Por otra parte, para minimizar la suma de cuadrados de los residuales del modelo (5), se muestra en Jim´enez (2001) que esto se logra cuando ∂Qk ~ =0 ∂~γ lo cual equivale a la expresi´on b ² + (I − H)b γ = ~0 · ¸ γˆ1 donde b ² es el EMC de ~² del modelo (1) y asumiendo γˆ = ~ obtiene que 0 ~1 + X1 (X20 X2 )−1 X20 Y ~2 γˆ1 = − Y si se reescribe γ b se llega a · ¸ · γ b1 −Ik γ b= − → = 0 0
X1 (X20 X2 )−1 X20 0
¸ "− →# Y1 − → Y2
(9)
− → con k la dimensi´on del bloque Y1 ; utilizar este valor de γ b corresponde a estimar ~1 . los par´ametros del modelo (1) despu´es de eliminar el bloque Y al reemplazarse (8) y (9) en (7), se obtiene D(Y~1 ) =
γ b 0 Hb γ rs2
esta nueva expresi´on de la estad´ıstica de Cook tiene la ventaja de que esta en t´erminos del γ b. El anterior resultado se puede resumir en el siguiente teorema.
Teorema 1. Si un modelo de regresi´on lineal m´ ultiple se particiona como: · ¸ · ¸ · ¸ ~1 Y X1 ~ ~²1 = β + ~2 X2 ~²2 Y
(10)
115
Una Generalizaci´ on de la Estad´ıstica de Cook
entonces el cambio en la EMC de los par´ametros del modelo (10) al eliminar el ~1 , se calcula mediante la expresi´on: bloque Y 0
D(Y~1 )
γ b Hb γ = rs2
(11)
· ¸ SCE γ b1 ~1 + X1 (X 0 X2 )−1 X 0 Y ~ donde s = y γ b = ~ con γ b1 = −Y 2 2 2. 0 n−r 2
3. Distribuci´ on de probabilidad de la Estad´ıstica de Cook Si se reemplaza (9) en el numerador de la expresi´on (11) se obtiene − → γ b Hb γ =Y 0
·
0
− → =Y 0
·
−Ik X2 (X20 X2 )−1 X10 H11 −M21 H11
¸· 0 H11 0 H21
−H11 M12 M21 H11 M12
H12 H22 ¸ − → Y
¸·
−Ik 0
¸ → X1 (X20 X2 )−1 X20 − Y 0 (12)
donde Mij = Xi (X20 X2 )−1 Xj0 y Hij = Xi (X 0 X)−1 Xj0 , es una submatriz de la matriz H; por otra parte, como HX = X, se puede verificar f´acilmente que H11 X1 =X1 − H12 X2 H21 X1 =X2 − H22 X2
(13) (14)
reemplazando (13) en las submatrices que aparecen en (12) se tiene que H11 M12 =H11 X1 (X20 X2 )−1 X20 = [X1 − H12 X2 ] (X20 X2 )−1 X20 =X1 (X20 X2 )−1 X20 − H12
(15)
al sustituir (15) y (13) en la u ´ltima submatriz de (12) se obtiene M21 H11 M12 =X2 (X20 X2 )−1 X10 H11 X1 (X20 X2 )−1 X20 £ ¤0 = H11 X1 (X20 X2 )−1 X20 X1 (X20 X2 )−1 X20 £ ¤0 = X1 (X20 X2 )−1 X20 − H12 X1 (X20 X2 )−1 X20 =H22 + X2 (X20 X2 )−1 (X10 X1 )(X20 X2 )−1 X20 − X2 (X20 X2 )−1 X20 =H22 + M21 M12 − M22 (16)
116
Jos´e A. Jim´enez M.
reemplazando (15) y (16) en (12) se llega a · ¸ → −0 − → H11 H12 − M12 0 γ b Hb γ =Y Y H21 − M21 H22 + M21 M12 − M22 · ¸ · ¸ → − 0 H11 H12 − → − →0 0 − → M12 =Y Y −Y Y H21 H22 M21 M22 − M21 M12 → − − → − → − → = Y 0H Y − Y 0M Y
(17)
para establecer la distribuci´on de γ b 0 Hb γ se enuncian sin demostraci´on los teoremas 2 y 3, citados en Searle (1971).
Teorema 2. ~ es un vector aleatorio de tama˜ Si Y no n × 1, distribuido N (~ µ, V ); entonces h i h i ~ 0 AY ~ =tr(AV ) + µ ~ 0 AY ~ =2tr(AV )2 + 4~ E Y ~ 0 A~ µ y V ar Y µ0 AV A~ µ
Teorema 3. ~ ∼ N (~ ~ 0 AY ~ ∼ χ2 0 , con grados de libertad ν = ρ(A) Si Y µ, V ), entonces Y (ν,λ) y par´ametro de no centralidad λ = 21 µ ~ 0 A~ µ, si y s´olo si AV es idempotente. Puesto que, bajo el supuesto de normalidad en los residuales se tiene que − → → − Y ∼ N (X β , σ 2 In ) como la expresi´on dada en (17) es la diferencia de dos formas cuadr´aticas se establecer´a para cada una por aparte la distribuci´on asociada. − → − → Para Y 0 H Y , utilizando el teorema 2 se obtiene que "− "− →0 → −# →0 → −# Y HY Y HY E =r + 2η V ar = 2r + 8η σ2 σ2 − → − → 1 ~0 0 ~ donde η = β (X X)β, y por el teorema 3 se concluye que Y 0 H Y tiene 2σ 2 distribuci´on Ji-cuadrado no-central, es decir − →0 → − ν = r = rango(H) Y HY 20 1 ~0 0 ~ ∼ χ con (ν,λ) λ= β (X X)β σ2 2σ 2
117
Una Generalizaci´ on de la Estad´ıstica de Cook
1 Hσ 2 In es idempotente. σ2 − → − → Para la expresi´on Y 0 M Y , se tiene que "→ ½ ¾ −0 − →# © £ 0 ¤ª Y MY 1 ~0 0 −1 0 ~ E = r − tr (X2 X2 ) (X1 X1 ) + 2 β (X X) β σ2 2σ 2 "→ ½ ¾ −0 − →# n ¤2 o £ 0 Y MY 1 ~0 0 −1 0 ~ V ar X ) X ) + 8 β =2 r + tr (X (X (X X) β 2 1 2 1 σ2 2σ 2
ya que
0
puesto que la media y la varianza de la distribuci´on χ2(ν,λ) son ν + 2λ y 2ν + − → → − 8λ respectivamente, se deduce que Y 0 M Y no tiene distribuci´on Ji-cuadrado no-central; y utilizando el teorema 3, se llega a la misma conclusi´on ya que 1 M σ 2 In no es una matriz idempotente. σ2 Luego, γ b 0 Hb γ χ2(r) σ2 y por consiguiente, la comparaci´on que hace Cook con la F(r,n−r,α) no es v´alida, ya que ~γ 0 H~γ D(Y~1 ) = F(r,n−r) rs2 en esta u ´ltima expresi´on se debe tener en cuenta que (n − r)
s2 ∼ χ2(n−r) σ2
4. Ejemplo Para el conjunto de 21 observaciones (x, y) dados por Mickey, Dunn, and Clark (1967) tabla 1, se presentan los siguientes resultados 1. La estimaci´on del modelo de regresi´on lineal, con las 21 observaciones 2. Los valores hii , las estimaciones de los γi y la distancia de Cook al eliminar el i-´esimo dato. 3. La estimaci´on del modelo de regresi´on lineal, despu´es de eliminar la observaci´on influyente determinada mediante distancia de Cook
118
Jos´e A. Jim´enez M.
Tabla 1. Datos de Mickey, Dunn, and Clark (1967) Obs 1 2 3 4 5 6 7
1.
Fuente de variaci´on Regresi´on Residuos Total
x 15 26 10 9 15 20 18
y 95 71 83 91 102 87 93
Grados libertad 1 19 20
Obs 8 9 10 11 12 13 14
Suma de cuadrados 1604.0809 2308.5858 3912.6667
Coeficientes 109.8738 -1.1270
Intercepto Variable X
x 11 8 20 7 9 10 11
y 100 104 94 113 96 83 84
Cuadrados Medios 1604.0809 121.5045
Error t´ıpico 5.0678 0.3102
Obs 15 16 17 18 19 20 21
x 11 10 12 42 17 11 10
F 13.2018
y 102 100 105 57 121 86 100
Valor cr´ıtico de F 0.00177
Estad´ıstico t 21.6808 -3.6334
Coeficiente de determinaci´on R2 = 0, 409971261 Error t´ıpico σ b = 11,0229086 2. Puesto que s2 = 121,504515, se tiene que Obs Elim 1 2 3 4 5 6 7 8 9 10 11
hii
γ bi
Di (100∗Di )
0.0479 0.1545 0.0628 0.0705 0.0479 0.0726 0.0580 0.0567 0.0799 0.0726 0.0908
-2.1332 11.3214 16.6498 9.3936 -9.4856 0.3602 -3.6220 -2.6746 -3.4148 -7.1879 -12.1145
0.09 8.15 7.17 2.56 1.77 0.00 0.31 0.17 0.38 1.54 5.48
Obs Elim 12 13 14 15 16 17 18 19 20 21
hii
γ bi
Di (100∗Di )
0.0705 0.0628 0.0567 0.0567 0.0628 0.0521 0.6516 0.0531 0.0567 0.0628
4.0141 16.6498 14.2866 -4.7948 -1.4896 -9.1255 15.9026 -31.9816 12.1664 -1.4896
0.47 7.17 4.76 0.54 0.06 1.79 67.81 22.33 3.45 0.06
119
Una Generalizaci´ on de la Estad´ıstica de Cook
En los resultados anteriores se verifica que los valores de la distancia de Cook, corresponden a la expresi´on Di =
hii 2
µ
γ bi s
¶2
Seg´ un los c´alculos realizados, la observaci´on que puede ser considerada como influyente sobre la estimaci´on de los par´ametros es la observaci´on 18, pues n´otese que es la u ´nica que cumple que Di > 0,5. 3. Cuando se elimina la observaci´on 18 y ajustamos los datos a un nuevo modelo, se obtiene la siguiente tabla de an´alisis de varianza Fuente de variaci´on Regresi´on Residuos Total
Grados libertad 1 18 19
Intercepto Variable X
Suma de cuadrados 280.5195 2220.4805 2501
Coeficientes 105.62987 -0.77922
Cuadrados Medios 280.5195 123.3600
Error t´ıpico 7.1619276 0.516733
F 2.27399
Valor cr´ıtico de F 0.1489
Estad´ıstico t 14.7488045 -1.5079754
Coeficiente de determinaci´on R2 = 0, 112162 Cambio en la suma de los residuales Qk = 88, 10525836 La distancia de Cook nos indic´o que la pareja (42, 57) era la que m´as afectaba la EMC de los par´ametros pero al eliminarla el modelo obtenido fue m´as deficiente que el inicial.
5. Conclusiones En este art´ıculo se obtuvo la generalizaci´on de una de las medidas m´as utilizadas para el estudio de las observaciones influenciales. La generalizaci´on aqu´ı presentada detecta la influencia de un grupo de observaciones sobre el ~ de manera cambio en el centro de la regi´on elipsoidal de confianza para β, an´aloga a como lo hace la distancia de Cook.
120
Jos´e A. Jim´enez M.
Referencias [1] COOK, R.D. (1977) Detection of Influential Observations in Linear Regression. Technometrics, vol. 19, pag. 15-18. [2] COOK, R.D., and WEISBERG, S. (1980) Characterizations of an Empirical Influence Function for Detecting Influential Cases in Regression. Technometrics, vol. 22, pag. 495-508. ´ [3] JIMENEZ, J.A. (1999) Propuesta Metodol´ ogica para Imputar Valores no Influyentes en Modelos de Regresi´ on Lineal M´ ultiple con Informaci´ on Incompleta. Universidad Nacional de Colombia, Tesis de Maestr´ıa ´ ´ L.F. (2000) Una generalizaci´ [4] JIMENEZ, J.A. y RINCON, on de la Estad´ıstica DF-Beta. En: Revista Colombiana de Estad´ıstica, vol. 23, N o 1 ´ [5] JIMENEZ, J.A. (2001) Una Maximizaci´ on de la Estad´ıstica Qk . En: Revista Colombiana de Estad´ıstica, vol. 24, No. 1 [6] MICKEY, M. R., DUNN, O. J., and CLARK, V. (1967) Note on the use of stepwise regression in detecting outliers. Computers and Biomedical Research, 1, pag 105-111 [7] SEARLE, S. R. (1971) Linear Models. John Wiley & Sons, New York