Curso de Inferencia y Decisión

June 8, 2017 | Autor: Wilmer Martinez | Categoría: Estadistica
Share Embed


Descripción

Curso de Inferencia y Decisi´on Guadalupe G´omez y Pedro Delicado Departament d’Estad´ıstica i Investigaci´o Operativa Universitat Polit`ecnica de Catalunya

Enero de 2006

´Indice abreviado Cap´ıtulo 1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Cap´ıtulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25 Cap´ıtulo 3. Estimaci´ on puntual 1: Construcci´ on de estimadores . 45 Cap´ıtulo 4. Estimaci´ on puntual 2: Evaluaci´ on de estimadores . . . . 87 Cap´ıtulo 5. Contrastes de hip´ otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 Cap´ıtulo 6. Estimaci´ on por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 183 Cap´ıtulo 7. Introducci´ on a la Teor´ıa de la Decisi´ on . . . . . . . . . . . . . 215 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

i

´Indice general ´ Indice abreviado

I

´ Indice general

II

Pr´ ologo

VII

1. Introducci´ on

1

1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . .

3

1.2.2. Distribuci´on de una variable aleatoria. Funciones de distribuci´on, de probabilidad y de densidad . . . . . . . . . .

4

1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . .

5

1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . .

6

1.2.5. Modelo param´etrico . . . . . . . . . . . . . . . . . . . . .

7

1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . .

8

1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . .

12

1.3.1. Familias de localizaci´on y escala . . . . . . . . . . . . . .

12

1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . .

13

1.4. Muestreo de una distribuci´on normal . . . . . . . . . . . . . . . .

13

1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . .

16

1.5. Leyes de los Grandes N´ umeros y Teorema Central del L´ımite . .

18

1.5.1. Leyes de los grandes n´ umeros . . . . . . . . . . . . . . . .

18

1.5.2. Teorema central del l´ımite . . . . . . . . . . . . . . . . . .

19

1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . .

20

1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .

21

iii

´INDICE GENERAL

iv 2. Principios para reducir los datos

25

2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Estad´ısticos suficientes r-dimensionales

26

. . . . . . . . . .

31

2.1.2. Estad´ısticos suficientes minimales . . . . . . . . . . . . . .

32

2.1.3. Estad´ısticos ancilares . . . . . . . . . . . . . . . . . . . . .

35

2.1.4. Estad´ısticos completos . . . . . . . . . . . . . . . . . . . .

36

2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . .

38

2.3. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3. Estimaci´ on puntual 1: Construcci´ on de estimadores

45

3.1. La funci´on de distribuci´on emp´ırica y el m´etodo de los momentos

45

3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . .

47

3.1.2. Principio de sustituci´on . . . . . . . . . . . . . . . . . . .

50

3.1.3. El m´etodo de los momentos . . . . . . . . . . . . . . . . .

51

3.2. Estimadores de m´axima verosimilitud . . . . . . . . . . . . . . .

53

3.2.1. C´alculo del estimador m´aximo veros´ımil . . . . . . . . . .

56

3.2.2. C´alculo num´erico de los estimadores de m´axima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

3.2.3. Principio de invariancia del estimador m´aximo veros´ımil .

70

3.3. Estimaci´on Bayesiana . . . . . . . . . . . . . . . . . . . . . . . .

71

3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . .

71

3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . .

75

3.3.3. Funciones de p´erdida . . . . . . . . . . . . . . . . . . . . .

79

3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . .

80

3.4. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .

83

4. Estimaci´ on puntual 2: Evaluaci´ on de estimadores

87

4.1. Error cuadr´atico medio . . . . . . . . . . . . . . . . . . . . . . . .

87

4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . .

91

4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . .

94

4.2.1. Teorema de Cram´er-Rao. Informaci´on de Fisher . . . . . .

96

4.2.2. Versi´on multivariante del teorema de Cram´er-Rao. . . . . 105 4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheff´e 108

´INDICE GENERAL

v

4.3. Comportamiento asint´otico . . . . . . . . . . . . . . . . . . . . . 114 4.3.1. Consistencia

. . . . . . . . . . . . . . . . . . . . . . . . . 114

4.3.2. Normalidad asint´otica . . . . . . . . . . . . . . . . . . . . 116 4.3.3. M´etodo delta . . . . . . . . . . . . . . . . . . . . . . . . . 119 4.3.4. Eficiencia relativa asint´otica . . . . . . . . . . . . . . . . . 124 4.4. Teor´ıa asint´otica para el estimador m´aximo veros´ımil . . . . . . . 125 4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 136 5. Contrastes de hip´ otesis

141

5.1. Definiciones b´asicas. Contraste de hip´otesis simples . . . . . . . . 141 5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 142 5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 144 5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 148 5.2. Contrastes uniformemente m´as potentes . . . . . . . . . . . . . . 149 5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 150 5.2.2. Raz´on de verosimilitud mon´otona. Teorema de Karlin-Rubin152 5.3. Contrastes insesgados. Contrastes localmente m´as potentes . . . 155 5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 157 5.5. Test de la raz´on de verosimilitudes . . . . . . . . . . . . . . . . . 158 5.5.1. Relaci´on con el Lema de Neyman-Pearson.

. . . . . . . . 159

5.5.2. Propiedades de los contrastes de raz´on de verosimilitudes 160 5.6. Contrastes relacionados con el de m´axima verosimilitud . . . . . 163 5.6.1. Test del score.

. . . . . . . . . . . . . . . . . . . . . . . . 163

5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 164 5.6.3. Contrastes en presencia de par´ametros secundarios. . . . . 166 5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 170 5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 171 5.7.2. Contraste de dos hip´otesis simples. . . . . . . . . . . . . . 172 5.7.3. Contraste de dos hip´otesis compuestas.

. . . . . . . . . . 173

5.7.4. Contraste de hip´otesis nula simple frente a alternativa compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.8. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 177

´INDICE GENERAL

vi 6. Estimaci´ on por intervalos

183

6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 183 6.2. M´etodos para construir intervalos de confianza . . . . . . . . . . 185 6.2.1. Inversi´on de un contraste de hip´otesis . . . . . . . . . . . 185 6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 189 6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 193 6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 195 6.3. Evaluaci´on de estimadores por intervalos . . . . . . . . . . . . . . 196 6.3.1. Intervalos de longitud m´ınima . . . . . . . . . . . . . . . . 197 6.3.2. Relaci´on con contrastes de hip´otesis y optimalidad . . . . 200 6.4. Intervalos de confianza asint´oticos . . . . . . . . . . . . . . . . . 202 6.4.1. Intervalos basados en el estimador de m´axima verosimilitud203 6.4.2. Intervalos basados en la funci´on score. . . . . . . . . . . . 205 6.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 210 7. Introducci´ on a la Teor´ıa de la Decisi´ on

215

7.1. Elementos b´asicos en un problema de decisi´on . . . . . . . . . . . 215 7.1.1. Comparaci´on de reglas de decisi´on. . . . . . . . . . . . . . 217 7.2. Teor´ıa de la decisi´on e inferencia estad´ıstica . . . . . . . . . . . . 218 7.2.1. Estimaci´on puntual. . . . . . . . . . . . . . . . . . . . . . 218 7.2.2. Contrastes de hip´otesis. . . . . . . . . . . . . . . . . . . . 221 7.2.3. Estimaci´on por intervalos. . . . . . . . . . . . . . . . . . . 223 7.3. El problema de decisi´on bayesiano . . . . . . . . . . . . . . . . . 225 7.4. Admisibilidad de las reglas de decisi´on . . . . . . . . . . . . . . . 229 7.4.1. Comparaci´on de reglas de decisi´on. . . . . . . . . . . . . . 229 7.4.2. B´ usqueda de reglas admisibles y clases completas. . . . . 230 7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 232 7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 7.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 238 Referencias

243

Pr´ ologo Este documento es el fruto de nuestra experiencia como docentes de la asignatura Inferencia y Decisi´ on (Licenciatura en Ciencias y T´ecnicas Estad´ısticas, Universitat Polit`ecnica de Catalunya) durante los cursos 99-03. Cuando se prepar´o por primera vez la docencia de Inferencia y Decisi´ on se pens´o en seguir lo m´as fielmente posible alg´ un libro de texto que por contenidos y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexistencia de libros en castellano o catal´an dirigidos espec´ıficamente para alumnos de Inferencia y Decisi´ on, se opt´o por usar como texto de referencia el libro de Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasiones la necesidad de completarlo con otros libros. Ante esta situaci´on (ausencia de textos en castellano y cierta insatisfacci´on con el libro elegido) consideramos conveniente escribir este documento. En ´el se recogen y ampl´ıan los apuntes preparados para las clases te´oricas y las listas de problemas resueltas en las clases pr´ acticas. El objetivo principal de la asignatura Inferencia y Decisi´ on es proporcionar una s´olida base te´orica de los fundamentos de la Inferencia Estad´ıstica y de la Teor´ıa de la Decisi´on. Confiamos en que este Curso de Inferencia y Decisi´ on contribuya a lograrlo.

vii

Cap´ıtulo 1

Introducci´ on Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, cap´ıtulo 3, 5.1, 5.2, 5.4.

En este curso de Inferencia y Decisi´on se desarrollan ideas y herramientas matem´aticas que la estad´ıstica utiliza para analizar datos. Se estudiar´an t´ecnicas para estimar par´ametros, contrastar hip´otesis y tomar decisiones. Es importante no perder de vista que en la aplicaci´on de la estad´ıstica se necesita mucho m´as que el conocimiento matem´atico. La recogida y la interpretaci´on de los datos es un arte. Requiere sentido com´ un y puede llegar a plantear cuestiones filos´oficas.

Ejemplo 1 Se desea estimar la proporci´on de estudiantes universitarios que no se duchan desde hace dos d´ıas o m´as. Supongamos que podemos entrevistar a 20 estudiantes. ¿Qu´e se entiende por estudiante? ¿C´omo se puede asegurar que la muestra sea aleatoria? ¿Querr´an contestar a la pregunta? Problema de falta de respuesta (missing data). ¿Dir´an la verdad? Problema de error de medida (measurement error). Si resulta que entre los 20 estudiantes no hay ninguna mujer, ¿estaremos satisfechos con el estimador que obtengamos? Supongamos que pˆ = 5/20. ¿Qu´e valores son plausibles para p? En este caso el problema se plantea en t´erminos de la variable aleatoria X = n´ umero de personas que no se ducharon ayer ni hoy ∼ B(20, p) 1

´ CAP´ITULO 1. INTRODUCCION

2

´ n en un contexto de inferencia param´etrica. y es un ejemplo de estimacio .

.

Ejemplo 2 Estudio de la aspirina. Con el fin de determinar si la aspirina tiene alg´ un efecto preventivo en los ataques card´ıacos se desarroll´o un estudio controlado entre m´edicos (aproximadamente 22.000) entre 40 y 84 a˜ nos que tomaron bien una aspirina (325 mg.) bien un placebo durante cinco a˜ nos. Los resultados del estudio fueron los siguientes:

Aspirina Placebo

Sufren ataques card´ıacos 104 189

No sufren ataques card´ıacos 10933 10845

Ataques por cada 1000 personas 9.42 17.13

¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataque ´ n o el contraste de de coraz´on? Se plantea aqu´ı un problema de decisio ´ tesis. una hipo . .

1.1.

Datos y modelos

Los datos que aparecen en los problemas estad´ısticos pueden suponerse provenientes de un experimento, es decir, son valores en un espacio muestral. Experimento: T´ermino de acepci´on muy amplia que incluye cualquier procedimiento que produce datos. Espacio muestral: Conjunto de todos los posibles resultados de un experimento.

Ejemplo 3 Se desea estudiar la proporci´on de enfermos que responde positivamente a una nueva terapia. Se podr´ıa pensar en administrar la medicina a todos los enfermos que lo deseen y utilizar como resultado del estudio las respuestas de los pacientes tratados con la nueva terapia, aunque esta muestra responde a un experimento no controlado y puede ser dif´ıcil obtener resultados extrapolables a toda la poblaci´on. Ser´ıa m´as aconsejable identificar la poblaci´on a la que est´a dirigida la

1.2. VARIABLE ALEATORIA

3

nueva terapia y tratar a un subconjunto aleatorio de tama˜ no n de esa poblaci´on relevante con la nueva medicina. En los dos casos el espacio muestral es una secuencia de responde/no responde. En el primer caso el n´ umero de pacientes es variable y el espacio muestral deber´ıa incluir las secuencias de todas las posibles longitudes (tantas como posibles n´ umeros de pacientes), mientras que en el segundo caso el espacio muestral consistir´a en las secuencias de longitud n. . .

Definimos un modelo para un experimento como una colecci´on de distribuciones de probabilidad sobre el espacio muestral.

Ejemplo 3, p´ agina 2. Continuaci´ on. Sea p la proporci´on de individuos que responden positivamente a la nueva terapia. Hay una probabilidad p de observar una respuesta positiva en cada caso muestreado. Si el tama˜ no de la poblaci´on de referencia es mucho m´as grande que el de la muestra, n, es razonable suponer que las respuestas de los individuos son independientes. Entonces el modelo es P = {P (X1 = x1 , . . . , Xn = xn ) =

n Y

pxi (1 − p)1−xi , 0 < p < 1}.

i=1

Se trata de un modelo param´etrico de dimensi´on finita. El espacio param´etrico es {p : 0 < p < 1} ⊂ IR. Los problemas de inferencia en este modelo consistir´an en hacer afirmaciones (en forma de estimaci´on puntual, estimaci´on por intervalos o contrastes de hip´otesis) sobre cu´an veros´ımiles son los posibles valores del par´ametro p. . .

1.2. 1.2.1.

Variable aleatoria Variables y vectores aleatorios

Consideramos un experimento aleatorio cuyos resultados pertenecen al espacio muestral Ω. Modelizamos este proceso suponiendo que existe una terna (Ω, A, P), donde Ω es el espacio muestral, P(Ω) es el conjunto de partes de Ω, A ⊆ P(Ω) es una σ-´algebra, y P : A −→ [0, 1] es una medida de probabilidad que refleja las caracter´ısticas aleatorias del experimento realizado. A esa terna se le llama espacio de probabilidad. Los resultados de un experimento aleatorio no son analizados en bruto, sino que se les da una representaci´ on num´erica que facilita su tratamiento. Esto se

´ CAP´ITULO 1. INTRODUCCION

4

hace mediante la definici´on de variables aleatorias. Dado un espacio de probabilidad (Ω, A, P) y el espacio medible (IR, B), donde B es la σ-´algebra de Borel definida sobre la recta real IR, una variable aleatoria es una funci´on X : Ω −→ IR medible, es decir, X −1 (B) ∈ A para todo B ∈ B. Si el espacio muestral Ω es finito o numerable, diremos que es un espacio discreto y las variables aleatorias asociadas al experimento normalmente estar´an definidas como X : Ω −→ Z. Si Ω es no numerable, entonces diremos que es un espacio continuo y X : Ω −→ IR. A partir de un mismo experimento se pueden definir diferentes variables aleatorias. Por ejemplo, si lanzamos dos monedas simult´aneamente, el espacio muestral asociado a este experimento es Ω = {CC, C+, +C, ++}. Se pueden definir diversas variables aleatorias: X1 = n´ umero de caras, X2 = n´ umero de cruces, X3 = cuadrado del n´ umero de caras = X12 , etc. Usualmente los datos est´an modelizados por un vector de variables aleatorias X = (X1 , . . . , Xn ), donde las Xi toman valores en Z o en IR. A X le llamaree e mos vector aleatorio o tambi´en variable aleatoria multidimensional.

1.2.2.

Distribuci´ on de una variable aleatoria. Funciones de distribuci´ on, de probabilidad y de densidad

La realizaci´on de un experimento aleatorio da lugar a un resultado ω ∈ Ω que es aleatorio. Por lo tanto X(ω) es un valor de IR tambi´en aleatorio. Es decir, la variable aleatoria X induce una medida de probabilidad en IR. A esa medida ´ n de X o ley de X. Una de las formas de probabilidad se le llama distribucio ´ n de de caracterizar la distribuci´on de una variable aleatoria es dar su funcio ´ n FX , que est´a definida as´ı: distribucio FX (x) = P(X ≤ x) = P({ω ∈ Ω : X(ω) ≤ x}) = P(X −1 (−∞, x]). En el caso de que X sea una variable aleatoria discreta, es decir, en el caso de que X s´olo tome una cantidad finita o numerable de valores de IR, su ´ n de probabilidad distribuci´on tambi´en puede caracterizarse por su funcio ´ n de masa de probabilidad) fX , definida como (o funcio fX : IR −→ [0, 1], fX (x) = P(X = x). Esa funci´on s´olo es no nula en un conjunto finito o numerable. Supondremos en adelante, sin p´erdida de generalidad, que ese conjunto est´a contenido en Z. A

1.2. VARIABLE ALEATORIA

5

partir de la funci´on de masa de probabilidad se puede calcular la probabilidad de que la variable aleatoria X tome valores en cualquier elemento A de B: X P(X ∈ A) = fX (x). x∈A

La funci´on de distribuci´on y la funci´on de masa de probabilidad se relacionan de la siguiente forma: X FX (x) = fX (u), fX (x) = FX (x) − FX (x− ), u≤x

donde FX (x− ) = l´ımh−→0+ F (x − h). Una clase relevante de variables aleatorias no discretas son las que poseen ´ n de densidad, es decir, aquellas cuya distribuci´on de probabilidad funcio puede caracterizarse por una funci´on fX (x) ≥ 0 que cumple que Z P(X ∈ A) = fX (x)dx, para todo A ∈ B. x∈A

La relaci´on entre FX y fX es la siguiente: Z x d FX (x) FX (x) = fX (u)du, fX (x) = dx −∞ salvo quiz´as en un n´ umero finito de puntos x ∈ IR. Las variables aleatorias que poseen funci´on de densidad se llaman variables aleatorias absolutamente continuas. Abusando del lenguaje, aqu´ı nos referiremos a ellas como variables aleatorias continuas.

1.2.3.

Esperanza y varianza

Si se desea describir totalmente la distribuci´on de probabilidad de una variable aleatoria X acabamos de ver que podemos dar su funci´on de distribuci´on o su funci´on de masa o de densidad, seg´ un el caso. Una descripci´on parcial puede efectuarse calculando algunas caracter´ısticas de la variable aleatoria X, como por ejemplo medidas de posici´on o de dispersi´on. Estudiaremos algunas de ellas. Se define la esperanza de una variable aleatoria X como la integral de Lebesgue de X: Z E(X) = X(w)dP(w). Ω

En el caso de variables aleatorias discretas la esperanza puede calcularse como X X X kfX (k). kP (X = k) = E(X) = X(ω)P(ω) = w∈Ω k∈Z k∈Z Por otro lado, la esperanza de una variable aleatoria continua se puede calcular as´ı: Z E(X) = xfX (x)dx. IR

´ CAP´ITULO 1. INTRODUCCION

6

La esperanza de una variable aleatoria X es una medida de posici´on de X: es el centro de gravedad de la distribuci´on de probabilidad de X. Si h es una funci´on medible h : IR −→ IR, entonces Y = h(X) es tambi´en variable aleatoria y su esperanza se puede calcular a partir de la distribuci´on de X: Z E(h(X)) = h(X(ω))dP(ω) Ω

que en el caso de que X sea discreta puede reescribirse como X E(h(X)) = h(k)fX (k). k∈Z Si X es una variable aleatoria continua entonces Z E(h(X)) = h(x)fX (x)dx. IR Si existe µ = E(X) y es finita puede definirse una medida de dispersi´on de la variable aleatoria X a partir de una transformaci´on h de X. Es lo que se denomina varianza de X y se define as´ı: V (X) = E((X − µ)2 ) = E(X 2 ) − µ2 = E(X 2 ) − (E(X)2 ).

1.2.4.

Muestra aleatoria simple

Sea X = (X1 , . . . , Xn ) un vector aleatorio. Se dice que sus componentes e (X1 , . . . , Xn ) son independientes si P (X1 ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · · · P (Xn ≤ xn ) para cualesquiera valores x1 , . . . , xn . Si adem´as la distribuci´on de las n variables aleatorias Xi es la misma, se dice que X1 , . . . , Xn son variables aleatorias ´nticamente distribuidas, o bien que son v.a.i.i.d o independientes e ide simplemente i.i.d. Si X = (X1 , . . . , Xn ) y X1 , . . . , Xn son i.i.d. con funci´on de densidad (en su e caso, de masa) fX , la distribuci´on conjunta de X viene dada por la funci´on de e densidad (en su caso, de masa) conjunta f

n Y ( x ) = f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ) = fX (xi ). X e i=1 e

A un vector X = (X1 , . . . , Xn ) de v.a.i.i.d. con distribuci´on igual a la de e la variable aleatoria X se le denomina tambi´en muestra aleatoria simple de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se desea estudiar la caracter´ıstica X de los individuos de una poblaci´on de tama˜ no infinito. Definimos el experimento consistente en elegir aleatoriamente un individuo de la poblaci´on y llamamos X al valor de la caracter´ıstica de inter´es en

1.2. VARIABLE ALEATORIA

7

ese individuo. X es una variable aleatoria. Si definimos un nuevo experimento consistente en elegir una muestra aleatoria de n individuos y se anota Xi , el valor de la caracter´ıstica en el individuo i-´esimo, entonces X = (X1 , . . . , Xn ) e es una colecci´on de n v.a.i.i.d. con distribuci´on igual a la de la variable aleatoria X, es decir, X1 , . . . , Xn es una m.a.s. de X.

1.2.5.

Modelo param´ etrico

Usualmente la ley de probabilidad de una variable aleatoria se supone perteneciente a un modelo matem´atico que depende s´olo de un n´ umero finito de par´ametros: fX ∈ {f (x|θ) : θ ∈ Θ ⊆ IRk }. Escribiremos alternativamente f (x; θ), f (x|θ) o fθ (x). El conjunto de distribu´trica de distribuciociones dadas por fθ (x), θ ∈ Θ se llama familia parame nes. Θ es el conjunto de par´ametros. La correspondiente distribuci´on conjunta de una muestra aleatoria simple de X viene dada por la funci´on de densidad (o funci´on de masa de probabilidad, seg´ un el caso) n Y f ( x |θ) = fθ (xi ). X e i=1 e ´ n de verosimilitud de la muestra X . A esta funci´on la llamaremos funcio e Utilizaremos este t´ermino para referirnos indistintamente a la funci´on de densidad conjunta (si las variables aleatorias son continuas) o a la funci´on de masa conjunta (si son discretas).

Ejemplo 4 Si X ∼ N (µ, σ 2 ), fX (x|µ, σ 2 ) = √

1 2πσ 2

1

2

e− 2σ2 (x−µ) .

La distribuci´on de X es conocida salvo por dos par´ametros, µ y σ 2 . En este caso k = 2, θ = (µ, σ 2 )2 y Θ = IR × IR+ ⊂ IR2 . La distribuci´on conjunta de n v.a.i.i.d. con la misma distribuci´on es f

Pn 1 1 1 − ||x−1n µ||2 − 12 (xi −µ)2 2σ i=1 e e (2πσ2 )n ( x |µ, σ 2 ) = = 2 n 2 n X e (2πσ ) (2πσ ) e

donde 1n = (1, . . . , 1)t ∈ IRn . .

.

´ CAP´ITULO 1. INTRODUCCION

8

1.2.6.

Sumas de variables aleatorias

Cuando se obtiene una muestra aleatoria simple X1 , . . . , Xn normalmente se calculan a partir de ellas cantidades que resumen los valores observados. Cualquiera de estos res´ umenes se puede expresar como una funci´on T (x1 , . . . , xn ) definida en el espacio X n ⊆ IRn donde est´an las im´agenes del vector (X1 , . . . , Xn ). Esta funci´on T puede devolver valores de IR, IR2 o, en general, IRk .

Ejemplo 5

T (X1 , . . . , Xn ) = T (X1 , . . . , Xn )

n X

Xi , X, X + 3, m´ın{X1 , . . . , Xn }

i=1 n X

= (

i=1

Xi ,

n X (Xi − X)2 ) i=1

T (X1 , . . . , Xn )

= (m´ın{X1 , . . . , Xn },

T (X1 , . . . , Xn )

=

n X i=1

Xi ,

n X

(Xi − X)2 )

i=1

(X1 , . . . , Xn )

.

.

Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn se llaman estad´ısticos. Dependen de los valores observados, pero no de los par´ametros desconocidos que determinan la distribuci´on de Xi . Cuando un estad´ıstico T es utilizado con el prop´osito de estimar un par´ametro θ diremos que T es un estimador de θ.

Ejemplo 6 T (X1 , . . . , Xn ) = X es un estimador de µ = E(X). .

.

En inferencia estad´ıstica interesa saber qu´e estad´ısticos son suficientes para recoger toda la informaci´on que la muestra aporta sobre la distribuci´on de la variable aleatoria X muestreada. La respuesta depende de la distribuci´on de X. Dado que X = (X1 , . . . , Xn ) es una variable aleatoria, se tiene que Y = e T (X1 , . . . , Xn ) ser´a tambi´en una variable aleatoria. La ley de probabilidad de Y ´ n en el muestreo de Y (o distribuci´on muestral). se denomina distribucio Los siguientes resultados dan informaci´on sobre algunas caracter´ısticas de estad´ısticos definidos a partir de sumas de variables aleatorias.

1.2. VARIABLE ALEATORIA

9

Pn Teorema 1 Sean x1 , . . . , xn n n´ umeros reales, sea x = n1 i=1 xi su media Pn aritm´etica y sea S 2 = i=1 (xi − x)2 /(n − 1) su varianza muestral. Pn − a)2 = i=1 (xi − x)2 . Pn Pn (b) (n − 1)S 2 = i=1 (xi − x)2 = i=1 x2i − nx2 .

(a) m´ına

Pn

i=1 (xi

Demostraci´ on: (a)

n n X X (xi − a)2 = (xi − x + x − a)2 = i=1 n X

i=1

(xi − x)2 +

n X

i=1

i=1

n X

n X

i=1

(observar que

(xi − x)2 +

(x − a)2 + 2

n X (xi − x)(x − a) = i=1

(x − a)2 + 2(x − a)

i=1

Pn

i=1 (xi

n X

(xi − x) =

i=1

− x) = 0)

n n n X X X (xi − x)2 + (x − a)2 ≥ (xi − x)2 . i=1

i=1

i=1

Por lo tanto el m´ınimo se alcanza si a = x. (b) Trivial. 2 Lema 1 Sea X1 , . . . , Xn una muestra aleatoria simple de X y sea g(x) una funci´ on tal que E(g(X)) y V (g(X)) existen. Entonces, Pn (a) E( i=1 g(Xi )) = nE(g(X)), Pn (b) V ( i=1 g(Xi )) = nV (g(X)), Demostraci´ on: (a) Trivial, por propiedades b´asicas del operador esperanza. (b) Trivial, observando que las variables aleatorias g(Xi ) son independientes y aplicando propiedades b´asicas del operador varianza. 2 Teorema 2 Sea X1 , . . . , Xn una muestra aleatoria simple de una poblaci´ on X con esperanza µ y varianza σ 2 < ∞. Sean n

X=

n

1X 1 X Xi , S 2 = (Xi − X)2 , n i=1 n − 1 i=1

la media y la varianza muestrales, respectivamente. Entonces,

´ CAP´ITULO 1. INTRODUCCION

10 (a) E(X) = µ, (b) V (X) = σ 2 /n, (c) E(S 2 ) = σ 2 .

Demostraci´ on: (a), (b) Triviales, por el lema anterior y las propiedades b´asicas de la esperanza y la varianza. (c) (n − 1)S 2 =

n X

2

2

Xi2 − nX =⇒ (n − 1)E(S 2 ) = nE(X 2 ) − nE(X ) =

i=1

1 n(V (X) + E(X)2 ) − n(V (X) + E(X)2 ) = nσ 2 + nµ2 − n σ 2 − nµ2 = n (n − 1)σ 2 =⇒ E(S 2 ) = σ 2 . 2 El siguiente resultado expresa la funci´on generatriz de momentos (f.g.m.) de la media muestral en funci´on de la f.g.m. de la variable aleatoria muestreada. Es muy u ´til cuando esta u ´ltima f.g.m. es conocida, porque permite determinar completamente la distribuci´on de la media muestral. Teorema 3 Sea X1 , . . . , Xn una muestra aleatoria simple de una poblaci´ on X con funci´ on generatriz de momentos MX (t). La funci´ on generatriz de momentos de X es n MX (t) = (MX (t/n)) . Demostraci´ on: La f.g.m. de X se define como MX (t) = E(etX ) para los valores de t para los que esa esperanza existe. As´ı, Ã n ! ³ ´ ³ t Pn ´ Y t Xi tX X i n i=1 MX (t) = E e en = =E e =E i=1

(independencia de las v.a. Xi ) n Y

³ E e

t n Xi

´ =

n Y

MXi (t/n) =

i=1

i=1

(las Xi son id´enticamente distribuidas) n Y

n

MX (t/n) = (MX (t/n)) .

i=1

2

1.2. VARIABLE ALEATORIA

11

Ejemplo 7 X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ). Entonces, MX (t) = exp(µt + As´ı,

σ 2 t2 ). 2

¶n µ σ 2 t2 µt σ 2 (t/n)2 MX (t) = exp( + ) = exp(µt + ) n 2 2n

y, por tanto, X ∼ N (µ, σ 2 /n). .

.

Ejemplo 8 X1 , . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces, fX (x) =

xα−1 e−x/β , x > 0, E(X) = αβ, V (X) = αβ 2 , Γ(α)β α µ MX (t) =

As´ı,

µµ MX (t) =

1 1 − βt

1 1 − βt/n

¶α , t< µ

¶α ¶n =

1 . β

1 1 − (β/n)t

¶αn

y, por lo tanto, X ∼ γ(nα, β/n). Un caso particular de distribuci´on gamma es la distribuci´on exponencial. Si X es exponencial de media µ, entonces X ∼ γ(1, µ). As´ı que la media de exponenciales de media µ ser´a una γ(n, µ/n) que tendr´a E(X) = n

.

µ µ2 µ2 = µ, V (X)n 2 = . n n n .

Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien porque la f.g.m resultante no se corresponde con ninguna distribuci´on conocida, siempre es posible intentar alguna de las dos estrategias siguientes para tratar de determinar la distribuci´on de la media muestral. En primer lugar, se puede trabajar con la funci´on caracter´ıstica que siempre existe. En segundo lugar se puede tratar de calcular directamente la funci´on de densidad de la suma como la convoluci´on de las n funciones de densidad (ver el ejemplo de la distribuci´on de Cauchy, Casella-Berger, p´aginas 210-211).

´ CAP´ITULO 1. INTRODUCCION

12

1.3. 1.3.1.

Dos familias de distribuciones importantes Familias de localizaci´ on y escala

Sea Z una variable aleatoria con distribuci´on conocida. A la colecci´on de distribuciones de probabilidad de las variables aleatorias X que se pueden definir de la forma X = µ + σZ, µ, σ ∈ IR σ > 0 ´ n y escala construida a partir de la se la denomina familia de localizacio distribuci´on de Z. En particular, si Z es variable aleatoria absolutamente continua con funci´on de densidad f (x), la familia de funciones de densidad µ ¶ ¾ ½ 1 x−µ f (x|µ, σ) = f : µ ∈ IR, σ > 0 σ σ ´ n y escala de f (x). forman la familia de localizacio El par´ametro de escala dilata la distribuci´on si σ > 1 y la contrae si σ < 1. El par´ametro de posici´on µ traslada la densidad |µ| unidades a la derecha (si µ > 0) o a la izquierda (si µ < 0). Proposici´ on 1 (a) Z ∼ f (x) ⇐⇒ X = σZ + µ ∼ f (x|µ, σ). (b) X ∼ f (x|µ, σ) ⇐⇒ X−µ ∼ f (x). σ Demostraci´ on: Trivial, aplicando la f´ormula de la funci´on de densidad de la transformaci´on biyectiva de una variable aleatoria univariante. 2

Ejemplo 9 Las siguientes son algunas de las familias de distribuciones usuales que son de localizaci´on y escala y se parametrizan habitualmente como tales: normal, doble exponencial, Cauchy. La distribuci´on uniforme U (a, b) tambi´en es una familia de localizaci´on y escala. En este caso µ = (a + b)/2 y σ = b − a podr´ıan servir como par´ametros de posici´on y escala. . .

Corolario 1 Sea Z1 , . . . , Zn una m.a.s. de Z ∼ f (x) y sea X1 , . . . , Xn una ¡ ¢ . m.a.s. de X ∼ f (x|µ, σ). Si la ley de Z es g(z) entonces la ley de X es σ1 g x−µ σ Demostraci´ on: Observar que Xi ∼ σZi + µ, luego X ∼ σZ + µ. Aplicando la proposici´on anterior se tiene el resultado. 2

´ NORMAL 1.4. MUESTREO DE UNA DISTRIBUCION

1.3.2.

13

Familias exponenciales

X pertenece a la familia exponencial si su funci´on de densidad o funci´on de masa de probabilidad depende de un par´ametro θ ∈ Θ ⊆ IRp y puede escribirse as´ı:   k X f (x|θ) = h(x)c(θ) exp  wj (θ)tj (x) j=1

para ciertas funciones h, c, wj y tj . Si p = k y wj (θ) = θj , j = 1, . . . , p, entonces diremos que la familia exponencial est´a parametrizada de forma natural. En ese ´trico natural de esa familia es el conjunto caso, el espacio parame   Z ∞ k X Θ = {θ ∈ IRk : h(x) exp  θj tj (x) dx < ∞}. −∞

j=1

Si X1 , . . . , Xn es muestra aleatoria simple de X, en la familia exponencial, entonces   Ã n ! k n Y X X n f (x1 , . . . , xn |θ) = h(xi ) (c(θ)) exp  wj (θ) tj (xi ) . i=1

j=1

i=1

Pn Observar que si definimos Tj (X1 , . . . , Xn ) = i=1 tj (Xi ), j = 1, . . . , p, entonces la distribuci´on de (T1 , . . . , Tk ) viene dada por   k X n fT (u1 , . . . , uk |θ) = H(u1 , . . . , uk ) (c(θ)) exp  wj (θ)uj  , j=1

es decir, T tambi´en pertenece a la familia exponencial.

Ejemplo 10 Ejemplos de familias exponenciales son ´estos: binomial, geom´etrica, Poisson, binomial negativa, exponencial, normal, gamma, beta. . .

1.4.

Muestreo de una distribuci´ on normal

En el resto del tema supondremos que X1 , . . . , Xn es una m.a.s. de una N (µ, σ 2 ). Teorema 4 (Teorema de Fisher) dependientes.

(a) X y Sn2 son variables aleatorias in-

´ CAP´ITULO 1. INTRODUCCION

14 (b) X ∼ N (µ, σ 2 /n). (c) (n − 1)Sn2 /σ 2 ∼ χ2n−1 .

Demostraci´ on: Suponemos, sin p´erdida de generalidad, que µ = 0 y σ = 1, puesto que la familia normal es una familia de posici´on y escala. (b) Se ha demostrado en el ejemplo 7. (a) Obs´ervese que (n −

1)Sn2

=

n X

2

2

(Xi − X) = (X1 − X) +

i=1

(como

Pn

i=1 (Xi

n X

(Xi − X)2 =

i=2

− X) = 0) Ã

!2 n n X X (Xi − X) + (Xi − X)2 i=2

i=2

de donde se deduce que Sn2 es funci´on de (X2 − X, . . . , Xn − X). Probaremos ahora que (X2 − X, . . . , Xn − X) y X son independientes, lo cu´al implicar´a que (a) es cierto. Hacemos el cambio de variable Pn Pn Pn  y1 = x x1 = nx − i=2 xi = x − i=2 (xi − x) = y1 − i=2 yi    x2 = y2 + y1 y2 = x2 − x  =⇒ . .. ..   .   xn = yn + y1 yn = xn − x El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable aleatoria transformada es fY (y1 . . . , yn ) = fX (y1 −

n X

yi , y2 + y1 , . . . , yn + y1 )n =

i=2

(

) n n X 1 1X (∗) 2 2 n exp − (y1 − yi ) − (yi + y1 ) = 2 2 i=2 i=2 ( Ã n !) ¾ ½ n X 1 X 2 n 1 2 2 √ exp − ny1 exp − y +( yi ) . 2 2 i=2 i ( 2π)n i=2

µ

1 √ 2π

¶n

Por lo tanto Y1 es independiente de (Y2 , . . . , Yn ) y de aqu´ı se sigue que X es independiente de Sn2 . (∗) Falta por justificar el paso marcado con un (∗): (y1 −

n X i=2

yi )2 +

n X i=2

(yi + y1 )2 =

´ NORMAL 1.4. MUESTREO DE UNA DISTRIBUCION

15

n n n n X X X X y12 + ( yi )2 − 2y1 yi + yi2 + (n − 1)y12 + 2y1 yi = i=2

i=2

i=2 n X

ny12 + (

i=2

yi )2 +

i=2

n X

yi2 .

i=2

(c) La demostraci´on de este apartado se seguir´a mejor despu´es del apartado siguiente en el que se tratan las distribuciones de probabilidad asociadas a la normal. Denotaremos por X n y por Sn2 , respectivamente, la media muestral y la varianza muestral calculadas a partir de una muestra de tama˜ no n. En primer lugar probaremos que se verifica la siguiente f´ormula recursiva: 2 (n − 1)Sn2 = (n − 2)Sn−1 +

n−1 (Xn − X n−1 )2 . n

En efecto, (n − 1)Sn2 =

n X

(Xi − X n )2 =

n−1 X

i=1

(Xi − X n−1 + X n−1 − X n )2 + (Xn − X n )2 =

i=1

2 (n − 2)Sn−1 + (n − 1)(X n−1 − X n )2 + (Xn − X n )2 = (∗)

(teniendo en cuenta que (n − 1)X n−1 = nX n − Xn =⇒ (n − 1)(X n−1 − Xn ) = n(X n −Xn ) y que (n−1)(X n−1 −X n ) = (X n −Xn ) = ((n−1)/n)(X n−1 −Xn )) 2 (∗) = (n − 2)Sn−1 + (n − 1)

1 (n − 1)2 2 (X − X ) + (X n−1 − Xn )2 = n−1 n n2 n2

2 (n − 2)Sn−1 +

n−1 (Xn − X n−1 )2 . n

2 probaremos por inducci´on que Una vez probada la relaci´on entre Sn2 y Sn−1 2 2 2 (n − 1)Sn /σ ∼ χn−1 .

Para n = 2, la f´ormula recursiva nos da S22 =

1 (X2 − X1 )2 . 2

√ Como X1 y X2 son N (0, 1) independientes, entonces (X2 − X1 )/ 2 ∼ N (0, 1) y de ah´ı que √ S22 = ((X2 − X1 )/ 2)2 ∼ χ21 , con lo que queda probado el resultado para n = 2. Supongamos que el resultado es cierto para n = k, es decir, (k − 1)Sk2 /σ 2 ∼ χ2k−1 .

´ CAP´ITULO 1. INTRODUCCION

16

Probemos que es tambi´en cierto para n = k + 1. Observar que k 2 kSk+1 = (k − 1)Sk2 + (Xk+1 − X k )2 . | {z } k + 1 ∼χ2k−1

As´ı, el resultado quedar´a demostrado si se prueba que (k/(k+1))(Xk+1 −X k )2 es una χ21 , puesto que esta variable es independiente de Sk2 , al ser X k independiente de Sk2 (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones. Por esta misma raz´on, Xk+1 ∼ N (0, 1) es tambi´en independiente de X k ∼ N (0, 1/k). As´ı que µ Xk+1 − X k ∼ N

k+1 0, k

Ãr

¶ =⇒

!2 k (Xk+1 − X k ) ∼ χ21 k+1

que es precisamente lo que quer´ıamos probar.

2

Existen demostraciones alternativas de este teorema basadas en la funci´on generatriz de momentos o en la funci´on caracter´ıstica.

1.4.1.

Distribuciones asociadas a la normal

En esta secci´on se recuerdan las definiciones de las leyes χ2 , t de Student y F de Fisher-Snedecor. Tambi´en se enuncian algunas de sus propiedades. Las demostraciones pueden encontrarse en la secci´on 5.4 de Casella-Berger. La ley χ2ν ´ n χ2 con ν grados de libertad y se denota Diremos que X tiene distribucio 2 X ∼ χν si su funci´on de densidad es fν (x) =

1 x(ν/2)−1 e−x/2 , 0 < x < ∞, Γ(ν/2)2ν/2

es decir, X ∼ γ(ν/2, 2). Lema 2

(a) Si X ∼ N (µ, σ 2 ) entonces (X − µ)2 ∼ χ21 . σ2

(b) Si X1 , . . . , Xn son variables aleatorias independientes y Xi ∼ χ2νi entonces Y =

n X i=1

donde ν =

Pn i=1

νi .

Xi ∼ χ2ν ,

´ NORMAL 1.4. MUESTREO DE UNA DISTRIBUCION

17

(c) Sean X1 , . . . , Xn variables aleatorias independientes e id´enticamente distribuidas seg´ un una N (0, 1). La variable aleatoria Y =

n X

Xi2 ∼ χ2n .

i=1

(Nota: esta propiedad se usa a veces como definici´ on de la distribuci´ on χ2 ). La ley tp ´ n t de Student con p grados de Diremos que X sigue una distribucio libertad y lo denotaremos X ∼ tp , si su funci´on de densidad es fp (x) =

1 Γ((p + 1)/2) 1 , −∞ < x < ∞. √ Γ(p/2) πp (1 + t2 /p)(p+1)/2

Si p = 1 se trata de la distribuci´on de Cauchy. Lema 3

(a) Z ∼ N (0, 1), Y ∼ χ2p , Z e Y independientes, entonces, Z ∼ tp . X=p Y /p

(Nota: esta propiedad se usa a veces como definici´ on de la distribuci´ on t de Student.) (a) Sean X1 , . . . , Xn una m.a.s. de una N (µ, σ 2 ). Entonces X −µ √ ∼ tn−1 . S/ n La distribuci´on t de Student no tiene f.g.m. porque no tiene momentos de todos los ´ordenes. Si X ∼ tp entonces s´olo existen los momentos de orden estrictamente inferior a p: existe E(X α ) para α < p. Si X ∼ tp , entonces E(X) = 0 si p > 1 y V (X) = p/(p − 2) si p > 2. La ley Fp,q ´ n F con p y q grados de libertad y Diremos que X sigue una distribucio lo denotaremos X ∼ Fp,q , si su funci´on de densidad es ¡ ¢ µ ¶p/2 Γ p+q p x(p/2)−1 fp,q (x) = ¡ p ¢ 2 ¡ q ¢ , 0 < x < ∞. ³ ´ p+q q Γ 2 Γ 2 2 p 1 + qx Lema 4

(a) Si U ∼ χ2p , V ∼ χ2q y U y V son independientes, entonces X=

U/p ∼ Fp,q . V /q

(Nota: esta propiedad se usa a veces como definici´ on de la distribuci´ on F .)

´ CAP´ITULO 1. INTRODUCCION

18

2 (b) Sean X1 , . . . , Xn m.a.s. de N (µX , σX ), Y1 , . . . , Ym m.a.s. de N (µY , σY2 ), dos muestras independientes. Entonces 2 2 SX /σX ∼ Fn−1,m−1 . SY2 /σY2

(c) Si X ∼ Fp,q , entonces X −1 ∼ Fq,p . (d) Si X ∼ tp ,entonces X 2 ∼ F1,p . (e) Si X ∼ Fp,q , entonces ³p q ´ p X ∼ Beta , . q 1 + pq X 2 2 (f ) Si X ∼ Fn−1,m−1 , entonces µ E(X) = E

χ2n−1 /(n − 1) χ2m−1 /(m − 1) µ

n−1 n−1

¶µ



µ =E

m−1 m−3

¶ =

χ2n−1 n−1



µ E

m−1 χ2m−1

¶ =

m−1 . m−3

(g) Si las distribuciones de partida tienen simetr´ıa esf´erica, entonces el cociente de las varianzas muestrales sigue una F (Casella-Berger, p. 227).

1.5.

Leyes de los Grandes N´ umeros y Teorema Central del L´ımite

En esta secci´on se enuncian dos resultados fundamentales en inferencia estad´ıstica: la Ley Fuerte de los Grandes N´ umeros y el Teorema Central del L´ımite. Dada una sucesi´on de variables aleatorias definidas sobre el mismo espacio ´ meros a los resultados sobre muestral, se llaman leyes de los grandes nu convergencia de las sucesiones de sus medias aritm´eticas a una constante. Se conoce como problema del l´ımite central el estudio de la convergencia d´ebil de la sucesi´on de medias muestrales centradas y tipificadas a una distribuci´on no degenerada.

1.5.1.

Leyes de los grandes n´ umeros

´bil de los grandes nu ´meSe enuncia a continuaci´on una versi´on de ley de ros que establece la convergencia en media cuadr´atica (y por tanto, en probabilidad) de la media aritm´etica de una sucesi´on de variables aleatorias incorreladas.

´ 1.5. LEYES DE LOS GRANDES NUMEROS Y TEOREMA CENTRAL DEL L´IMITE19 Teorema 5 (Ley d´ ebil de los grandes n´ umeros) Sea {Xn }n∈IN una sucesi´ on de variables aleatorias incorreladas con momentos de segundo orden acoPn tados por una constante C, independiente de n. Sea Sn = i=1 Xi . Entonces ï ¯ ! ¯ Sn − E(Sn ) ¯2 C ¯ E ¯¯ ≤ ¯ n n y, como consecuencia

Sn − E(Sn ) =0 n en el sentido de la convergencia en media cuadr´ atica. l´ım

n−→∞

La demostraci´on de este resultado puede verse, por ejemplo, en Sanz (1999). Como caso particular del teorema anterior, se puede probar la convergencia en probabilidad de la frecuencia relativa de un suceso a su probabilidad (ver Sanz 1999). Este resultado se conoce como ley d´ebil de Bernoulli. Los resultados que garantizan la convergencia casi segura de la media mues´meros. Se enuncia tral se conocen como leyes fuertes de los grandes nu a continuaci´on una ley fuerte para variables con segundos momentos finitos e incorreladas. Teorema 6 (Ley fuerte de los grandes n´ umeros) Bajo las hip´ otesis del teorema 5 se tiene que Sn − E(Sn ) l´ım =0 n−→∞ n en el sentido de la convergencia casi segura. En Sanz (1999) puede encontrarse la demostraci´on de este resultado. En ese mismo texto se recoge una versi´on m´as general de la ley fuerte de los grandes ´meros de Kolmon´ umeros, conocida como ley fuerte de los grandes nu gorov: en el caso i.i.d. basta con que haya eseranza finita para que se d´e la convergencia casi segura de la media muestral a la esperanza.

1.5.2.

Teorema central del l´ımite

´vyEn esta secci´on se presenta el teorema central del l´ımite de Le Lindeberg, v´alido para sucesiones de variables aleatorias independientes e id´enticamente distribuidas con momento de segundo orden finito. Teorema 7 (Teorema central del l´ımite) Sea {Xn }n∈IN una sucesi´ on de variables aleatorias independientes e id´enticamente distribuidas con momento de segundo orden finito. Sea µ la esperanza com´ un y σ 2 la varianza com´ un, que Pn supondremos estrictamente positiva. Sea Sn = i=1 Xi . Se tiene que Sn − nµ √ −→D Z, σ n donde Z ∼ N (0, 1) y −→D indica convergencia en distribuci´ on.

´ CAP´ITULO 1. INTRODUCCION

20

Este resultado puede demostrarse utilizando funciones generadoras de moementos o funciones caracter´ısticas, como se hace en Casella-Berger. En Sanz (1999) se da una demostraci´on (m´as laboriosa) que no requiere el uso de estas transformaciones. En Casella-Berger puede encontrarse una versi´on m´as fuerte del teorema central del l´ımite. El Teorema de De Moivre-Laplace, que establece la convergencia d´ebil de la binomial tipificada a la normal est´andar, es una aplicaci´on directa del teorema central del l´ımite de L´evy-Lindeberg. Ejemplos del uso habitual de la aproximaci´on de la binomial por la normal son la estimaci´on del error de aproximar la frecuencia relativa por la probabilidad y el c´alculo de tama˜ nos muestrales en encuestas.

1.5.3.

Versiones multivariantes

Se enuncian a continuaci´on versiones multivariantes de la ley de los griandes n´ umeros y del teorema central del l´ımite. Teorema 8 Sea { X n }n∈IN una sucesi´ on de variables aleatorias p-dimensionales e independientes e id´enticamente distribuidas. Sea X el vector p-diemensional e n media aritm´etica de las n primeras variables: n

1X X = X i. n i=1 e e n Se tiene lo siguiente: 1. Si existe E( X i ) = µ, entonces X converge a µ casi seguramente. e e n 2. Si, adem´ as, X i tiene matriz de varianza y covarianzas finita Σ, entonces e √ n( X − µ) −→D Np (0, Σ). e n La demostraci´on de este resultado puede encontrarse, por ejemplo, en Arnold (1990). Como corolario se puede probar la convergencia de la distribuci´on multinomial (centrada y tipificada) a una normal multivariante (ver Arnold 1990).

1.6. LISTA DE PROBLEMAS

1.6.

21

Lista de problemas

Variables aleatorias. Muestras 1. (Casella-Berger, 5.2) Sean X1 , X2 . . . v.a.i.i.d. cada una de ellas con densidad f (x). Supongamos que cada Xi mide la cantidad anual de precipitaciones en un determinado emplazamiento. Da la distribuci´on del n´ umero de a˜ nos que transcurren hasta que las lluvias del primer a˜ no, X1 , son superadas por primera vez. 2. (Casella-Berger, 5.5) Sean X1 , . . . , Xn v.a.i.i.d. con densidad fX (x). Sea X su media muestral. Prueba que fX (x) = nfX1 +···+Xn (nx). 3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1 , . . . , Xn una muestra aleatoria simple de X, a partir de la que se calcula la media y la varianza muestral de la forma usual: n

X=

n

1X 1 X Xi , S 2 = (Xi − X)2 . n i=1 n − 1 i=1

a) Prueba que

n

S2 =

n

XX 1 (Xi − Xj )2 . 2n(n − 1) i=1 j=1

Supongamos que E(X 4 ) < ∞. Sean θ1 = E(X) y θj = E((X − θ1 )j ), j = 2, 3, 4. b) Prueba que 1 V (S ) = n 2

µ ¶ n−3 2 θ4 − θ . n−1 2

c) Da la expresi´on de Cov(X, S 2 ) en t´erminos de θ1 , . . . , θ4 . ¿Bajo qu´e condiciones son X y S 2 incorreladas? d ) Si la distribuci´on de X es sim´etrica respecto de θ1 , ¿es posible que la covarianza de esos estad´ısticos sea no nula? e) Si la distribuci´on de X no es sim´etrica respecto de θ1 , ¿es posible que la covarianza de esos estad´ısticos sea nula? 4. (Casella-Berger, 5.16) Llamemos X n y Sn2 a la media y la varianza muestrales calculadas a partir de n observaciones X1 , . . . , Xn . Supongamos que se observa un nuevo valor Xn+1 . Demuestra las siguientes f´ormulas recursivas. a) X n+1 =

1 (Xn+1 + nX n ). n+1

´ CAP´ITULO 1. INTRODUCCION

22 b)

2 nSn+1 = (n − 1)Sn2 +

n (Xn+1 − X n )2 . n+1

5. (Casella-Berger, 5.18) Sean X 1 y X 2 las medias muestrales calculadas a partir de dos muestras independientes de tama˜ no n de una poblaci´on con varianza σ 2 . Halla el menor valor de n que garantiza que ³ σ´ P |X 1 − X 2 | < 5 es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev como el Teorema Central del L´ımite. Comenta los resultados obtenidos. 6. (Casella-Berger, 5.29) Sean Xi ∼ N (i, i2 ), i = 1, 2, 3, tres variables aleatorias independientes. Construye a partir de estas variables aleatorias otras que tengan las siguientes distribuciones. a) χ23 . b) t2 . c) F1,2 . 7. (Casella-Berger, 5.36) Sean Ui , i = 1, 2, . . . , variables aleatorias independientes con distribuci´on U (0, 1). Sea X una variable aleatoria con distribuci´on 1 P (X = x) = , x = 1, 2, 3, . . . (e − 1)x! Da la distribuci´on de Z = m´ın{U1 , . . . , UX }. ´ n: Observar que Z|X = x es el primer estad´ıstico de orden de Indicacio una muestra de tama˜ no x de una U (0, 1). 8. (Casella-Berger, 5.37) Sea X1 , . . . , Xn una muestra aleatoria simple de una poblaci´on con densidad fX (x) =

1 I(0,θ) (x). θ

Sean X(1) , . . . , X(n) los estad´ısticos orden. Prueba que X(1) /X(n) y X(n) son independientes. 9. Demuestra los lemas 2, 3 y 4.

Familias exponenciales 10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias exponenciales y describe el espacio param´etrico natural de cada una de ellas. a) Familia normal con alguno de los par´ametros µ o σ conocidos.

1.6. LISTA DE PROBLEMAS

23

b) Familia gamma con alguno de los par´ametros α o β conocidos. c) Familia beta con alguno de los par´ametros α o β conocidos. d ) Familia Poisson. e) Binomial negativa con el par´ametro r conocido y 0 < p < 1. 11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en t´erminos de su espacio param´etrico natural con densidad k X f (x; η ) = h(x)c( η ) exp{ ηi ti (x)}. e e i=1

Prueba que

∂ log(c( η )). (t (X)) = − η i ∂ηi e e ´ n: Usa el hecho de que para una familia exponencial se tiene Indicacio que Z ∞ Z ∞ j ∂j ∂ f (x)dx = f (x)dx. j j η η ∂ηi −∞ −∞ ∂ηi e e 12. Considera la familia de distribuciones normales con media θ y varianza θ2 , donde θ puede tomar cualquier valor real. Prueba que esta familia es una familia exponencial y determina el espacio param´etrico natural. E

13. Sean X1 , . . . , Xn v.a.i.i.d. con distribuci´on perteneciente a una familia exponencial expresada en t´erminos del espacio param´etrico natural. Prueba que la distribuci´on conjunta de las n variables tambi´en pertenece a la familia exponencial. 14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1 , . . . , Xn v.a. independientes tales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribuciones conjuntas de las n variables es una familia exponencial. 15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1 , . . . , Xn v.a. independientes tales que Xi ∼ N (iθ, 1), θ ∈ R. Prueba que la familia de distribuciones conjuntas de las n variables es una familia exponencial. 16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1 , . . . , Xn v.a. independientes tales que Xi ∼ Exp(1/(iθ)), E(Xi ) = iθ, θ > 0. Prueba que la familia de distribuciones conjuntas de las n variables es una familia exponencial.

Familias de localizaci´ on y escala 17. (Casella-Berger, 3.31) Considera la funci´on de densidad f (x) = Dibuja el gr´afico de

63 6 (x − x8 ), −1 < x < 1. 4

µ ¶ 1 x−µ f σ σ para los siguientes valores de µ y σ en el mismo sistema de ejes cartesianos.

´ CAP´ITULO 1. INTRODUCCION

24 a) µ = 0, σ = 1. b) µ = 3, σ = 1. c) µ = 3, σ = 2.

18. (Casella-Berger, 3.32) Muestra que si f (x) es una funci´on de densidad sim´etrica alrededor de 0, entonces la mediana de la densidad µ ¶ 1 x−µ f σ σ es µ. 19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f (z). Se define zα como un n´ umero que satisface que Z ∞ α = P (Z > zα ) = f (z)dz. zα

Sea X una variable aleatoria con densidad en la familia de localizaci´on y escala de f µ ¶ x−µ 1 f σ σ y sea xα = µ + σzα . Prueba que P (X > xα ) = α. (Nota: As´ı, los valores de xα se calculan f´acilmente para cualquier miembro de la familia de localizaci´on y escala si se dispone de una tabla de valores zα .) 20. (Casella-Berger, 3.34) Considera la distribuci´on de Cauchy, con densidad f (x) =

1 , x ∈ IR, π(1 + x2 )

y la familia de localizaci´on y escala definida a partir de ella: X tiene distribuci´on de Cauchy con par´ametros µ y σ si su densidad es f (x; µ, σ) =

σ , x ∈ IR. π(σ 2 + (x − µ)2 )

No existen la esperanza ni la varianza de estas distribuciones, luego µ y σ 2 no son la media y la varianza. No obstante, tienen un importante significado. a) Prueba que µ es la mediana de X. b) Prueba que µ − σ y µ + σ son los cuartiles primero y tercero, respectivamente, de X. 21. (Casella-Berger, 3.35) Sea f (x) una funci´on de densidad con media µ y varianza σ 2 . Indica c´omo crear una familia de localizaci´on y escala basada en f (x) tal que la densidad est´andar de la familia, f ∗ (x), tenga esperanza 0 y varianza 1.

Cap´ıtulo 2

Principios para reducir los datos Referencias: Casella-Berger, cap´ıtulo 6. En algunos puntos se han seguido tambi´en Crist´ obal (1992) (cap´ıtulo 7), Schervish (1995) (cap´ıtulo 2) y Garc´ıa-Nogales (1998) (cap´ıtulo 3).

El uso de cualquier estad´ıstico T ( X ) implica una reducci´on de los datos e muestrales. Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple (un vector e aleatorio) y sean x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) muestras observadas (reae e lizaciones de X ). Si decidimos usar el estad´ıstico T ( X ) en vez de toda la muese e tra, ser´an tratadas igual dos muestras observadas cualesquiera x , y , siempre e e que T ( x ) = T ( y ). Es decir, al usar el estad´ıstico T , en lugar de toda la muese e tra, se pierde informaci´ on. Se plantea as´ı el problema de buscar estad´ısticos T tales que la informaci´on que se pierde al usarlos sea irrelevante para los fines que nos hayamos marcado. Dado el espacio muestral X , la imagen de Ω mediante el vector aleatorio X , reducir los datos en t´erminos de un estad´ıstico T es equivalente a dar e una partici´on de X . En efecto, sea T = {t : t = T (x), para alg´ un x ∈ X }, la imagen de X mediante el estad´ıstico T . Entonces {At = T −1 (t) : t ∈ T } es una partici´on de X inducida por T . Al observar x y limitarnos a registrar el valor e de T ( x ), podremos saber que hemos observado un elemento de A , pero T( x ) e e desconoceremos cu´al de ellos.

Ejemplo 11 Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0 si sale cruz. El espacio muestral es X = { x = (x1 , . . . , xn ) : xi ∈ {0, 1}}. e 25

26

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Se define T ( x ) = e

Pn i=1

xi . Entonces T = {0, 1, 2, . . . , n}.

El estad´ıstico T ha creado una partici´on en X de forma que todas aquellas secuencias de resultados con igual n´ umero de unos est´an en la misma clase: At = { x = (x1 , . . . , xn ) ∈ T : e

n X

xi = t}.

i=1

No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo. .

.

En este tema estudiaremos dos principios para reducir los datos que garantizan que en el proceso de reducci´on no se pierde informaci´on relevante sobre los aspectos en estudio de la variable aleatoria de inter´es. Estos principios son el principio de suficiencia y el principio de verosimilitud. A ellos puede a˜ nadirse el principio de invariancia, que no trataremos aqu´ı (puede consultarse la secci´on 6.3 del Casella-Berger como material de lectura). En adelante supondremos que la variable aleatoria X en estudio tiene distribuci´on perteneciente a una familia param´etrica: X ∼ {f (x|θ), θ ∈ Θ ⊆ IRk }. Se supondr´a adem´as que se toma una muestra aleatoria simple de X y que a partir de ella se calculan estad´ısticos.

2.1.

Principio de suficiencia

Un estad´ıstico T es suficiente para un par´ametro θ si captura toda la informaci´on que sobre θ contiene la muestra. Cualquier informaci´on adicional (es decir, aparte del valor del estad´ıstico T ) que la muestra pueda aportar, no proporciona informaci´on relevante sobre θ. Estas consideraciones se concretan en el siguiente principio: Principio de suficiencia: Si T es un estad´ıstico suficiente para θ, cualquier inferencia sobre θ ha de depender de la muestra X = (X1 , . . . , Xn ) s´ olo a trav´es del valor T ( X ). Es decir, e e si x e y son tales que T ( x ) = T ( y ), entonces la inferencia que se haga sobre e e e e θ ser´ a la misma tanto si se observa x como si se observa y . e e Formalmente, diremos que un estad´ıstico T es suficiente para θ si la distribuci´on condicionada de X dado el valor T ( X ), no depende de θ. e e Veamos, en el caso discreto, que la informaci´on que sobre un par´ametro aporta un estad´ıstico suficiente es toda la informaci´on que aportar´ıa la muestra

2.1. PRINCIPIO DE SUFICIENCIA

27

completa. En primer lugar, si t es uno de los posibles valores de T ( X ), es decir, e si Pθ (T ( X ) = t) > 0, entonces e ( Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t Pθ ( X = x |T ( X ) = t) = e e e e e 0 si T ( x ) 6= t e e e e As´ı que s´olo son de inter´es las probabilidades condicionadas Pθ ( X = x |T ( X ) = e e e T ( x )). Si T es suficiente estas probabilidades no dependen de θ, luego, e Pθ ( X = x |T ( X ) = T ( x )) = P ( X = x |T ( X ) = T ( x )) e e e e e e e e para todo θ. En este sentido entendemos que T captura toda la informaci´on sobre θ. Supongamos que dos cient´ıficos se interesan por la variable aleatoria X cuya distribuci´on depende del par´ametro desconocido θ. Supongamos adem´as que el primer cient´ıfico observa toda una muestra x de X, mientras que el segundo e s´ olo puede estudiar el fen´omeno a trav´es de una revista que publica el valor del estad´ıstico suficiente T ( x ). La cuesti´on relevante entonces es saber si ambos e cient´ıficos tienen o no la misma informaci´on sobre θ. Veamos que as´ı es. Como P ( X = x |T ( X ) = T ( x )) no depende de θ, esta distribuci´on cone e e e dicional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos cient´ıficos conocen P ( X = y |T ( X ) = T ( x )), para todo y ∈ A = {y : T ( y ) = T ( x )}. T( x ) e e e e e e e Si el segundo cient´ıfico quisiera, podr´ıa generar un vector aleatorio Y siguiendo e esa distribuci´on y se satisfar´ıa que P ( Y = y |T ( X ) = T ( x )) = P ( X = y |T ( X ) = T ( x )), para todo y ∈ A T( x ) e e e e e e e e e Por lo tanto X e Y tendr´ıan la misma distribuci´on condicionada a que T ( X ) = e T ( x ). Adem´as, ambas variables tienen la misma distribuci´on incondicional: e Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) = e e e e e e (porque { X = x } ⊆ {T ( X ) = T ( x )}) e e e e Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) = e e e e e e Pθ ( Y = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) = e e e e e e Pθ ( Y = x , T ( X ) = T ( x )) = e e e e (teniendo en cuenta que { Y = x } ⊆ {T ( X ) = T ( x )}) e e e e Pθ ( Y = x ) e e

28

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Por lo tanto el segundo cient´ıfico ha podido observar una variable aleatoria Y que tiene la misma distribuci´on que la variable aleatoria X que observ´o el e e primer cient´ıfico, y ambos cient´ıficos obtienen el mismo valor del estad´ıstico T a partir de sus respectivas observaciones. Por lo tanto, ambos cient´ıficos tienen la misma informaci´on. Teorema 9 Si f ( x |θ) es la verosimilitud de un vector aleatorio X y q(t|θ) es e e la verosimilitud (funci´ on de densidad o de masa) de un estad´ıstico T ( X ), se e tiene la siguiente equivalencia. T ( X ) es un estad´ıstico suficiente para θ si y e s´ olo si para cada x del espacio muestral X el cociente e f ( x |θ) e q(T ( x )|θ) e no depende de θ. Demostraci´ on: Haremos la prueba para el caso discreto. El caso continuo no presenta dificultades adicionales. Veamos primero que si f ( x |θ)/q(T ( x )|θ) no depende de θ entonces T es e e suficiente. Como ya se vio anteriormente, ( Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t Pθ ( X = x |T ( X ) = t) = e e e e e 0 si T ( x ) 6= t e e e e Luego si T ( x ) 6= t la funci´on de masa de probabilidad condicionada vale 0 y, e no depende de θ. En el otro caso, Pθ ( X = x , T ( X ) = T ( x )) e e e e = Pθ (T ( X ) = T ( x )) e e Pθ ( X = x ) f ( x |θ) e e e = Pθ (T ( X ) = T ( x )) q(T ( x )|θ) e e e que tampoco depende de θ, de donde se sigue que T es suficiente. Pθ ( X = x |T ( X ) = T ( x )) = e e e e

Para probar el rec´ıproco, basta con leer la igualdad anterior en orden inverso, f ( x |θ) e = Pθ ( X = x |T ( X ) = T ( x )), e e e e q(T ( x )|θ) e que no depende de θ si T es suficiente.

2

Ejemplo 12 Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. El e estad´ıstico T ( X ) = X1 + · · · + Xn ∼ B(n, θ) es suficiente para θ: e Qn f ( x |θ) θxi (1 − θ)1−xi ¢ e = = ¡i=1 n t n−t q(T ( x )|θ) t θ (1 − θ) e

2.1. PRINCIPIO DE SUFICIENCIA (donde se ha definido t =

Pn i=1

29

xi )

θt (1 − θ)n−t 1 ¡n¢ = ¡n¢ t (1 − θ)n−t θ t t que no depende de θ. .

.

Ejemplo 13 Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ N (µ, σ 2 ), σ 2 conocido. e El estad´ıstico T (X) = X ∼ N (µ, σ 2 /n) es suficiente para µ: © ª Pn f ( x |θ) (2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − µ)2 © ª = e = n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2 q(T ( x )|θ) e © ¡Pn ¢ª 2 −n/2 2 2 (2πσ ) exp − 2σ1 2 i=1 (xi − x) + n(x − µ) © ª = n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2 © ª Pn (2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − x)2 = n1/2 (2πσ 2 )−1/2 ( ) n 1 X 2 −(n−1)/2 −1/2 2 (xi − x) , (2πσ ) n exp − 2 2σ i=1 que no depende de µ. .

.

El teorema 9 es u ´til para comprobar si un estad´ıstico es suficiente, pero no lo es para buscar estad´ısticos suficientes. El siguiente teorema s´ı podr´a usarse para este cometido: permite encontrar estad´ısticos suficientes mediante la inspecci´on de la funci´on de densidad o la funci´on de masa de probabilidad, seg´ un el caso. Teorema 10 (Teorema de Factorizaci´ on) Sea f ( x |θ) la verosimilitud de e X = (X1 , . . . , Xn ). El estad´ıstico T ( X ) es suficiente para θ si y s´ olo si existen e e funciones g(t|θ) y h( x ) tales que para cualquier x ∈ X y cualquier θ ∈ Θ la e e funci´ on f ( x |θ) puede factorizarse as´ı: e f ( x |θ) = g(T ( x )|θ)h( x ). e e e Demostraci´ on: (En el caso discreto). Supongamos primero que T es suficiente. Tomemos g(t|θ) = Pθ (T ( X ) = t) y h( x ) = Pθ ( X = x |T ( X ) = T ( x )), que e e e e e e no depende de θ al ser T suficiente. Con esta elecci´on, f ( x |θ) = Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) = e e e e e e e

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

30

Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = t) = g(T ( x )|θ)h( x ). e e e e e e e Veamos ahora el rec´ıproco. Supongamos que f ( x |θ) = g(T ( x )|θ)h( x ) y que e e e q(t|θ) es la funci´on de masa de probabilidad de T ( X ). Entonces, e f ( x |θ) f ( x |θ) e e =P = q(t|θ) f (y|θ) y∈A T( x ) e g(T ( x )|θ)h( x ) g(T ( x )|θ)h( x ) h( x ) e e e e e =P =P , g(T ( y )|θ)h( y ) g(T ( x )|θ)h( y ) h( y ) y∈A y∈A y∈A e e e e e T( x ) T( x ) T( x ) e e e que es independiente de θ. Luego T es suficiente para θ. 2 P

(Nota: la demostraci´on para el caso continuo puede verse, por ejemplo, en Lehmann 1986 o en Crist´obal (1992), p. 173.) Seg´ un el Teorema 10, para encontrar un estad´ıstico suficiente se factoriza la funci´on de densidad (o la de masa) en dos partes: una, h( x ), que no contenga al e par´ametro θ, y la otra que dependa de la muestra s´olo a trav´es de una funci´on suya T ( x ). El estad´ıstico suficiente ser´a entonces T ( X ). e e Ejemplo 14 Sea X ∼ U {1, 2, . . . , θ} y X1 , . . . , Xn una m.a.s. de X. La funci´on de masa de probabilidad de X es 1 f (x|θ) = I{1,2,...,θ} (x) θ donde IA (x) es la funci´on indicatriz del conjunto A, que vale 1 si x ∈ A y 0 en caso contrario. La verosimilitud de la muestra es

1 θn

.

Ã

f (x1 , . . . , xn |θ) =

n 1 Y I{1,2,...,θ} (xi ) = θn i=1



!

à n !à n ! Y 1 Y IIN−{0} (xi ) I(−∞,θ] (xi ) = n IIN−{0} (xi ) I[xi ,∞) (θ) = θ i=1 i=1 i=1 i=1 à n ! Y 1 I ax{xi :1≤i≤n},∞) (θ) IIN−{0} (xi ) n (m´ |θ {z } i=1 {z } | g(t|θ), donde t=m´ axi xi h( x ) e n Y

n Y

.

2.1. PRINCIPIO DE SUFICIENCIA

31

Ejemplo 15 Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Entonces la verosimilitud de una muestra es ( ) n n n o 1 X 2 −n/2 2 f ( x |µ) = (2πσ ) exp − 2 (xi − x) exp − 2 (x − µ)2 2σ i=1 2σ{z e | } | {z } g(t|µ), donde t=x h( x ) e Por lo tanto T ( X ) = X es estad´ıstico suficiente para µ. e P n Obs´ervese que i=1 Xi = nX tambi´en es estad´ıstico suficiente: podr´ıa defiª © nirse h( x ) como antes y g(t|µ) = exp −(n/(2σ 2 ))(t/n − µ)2 . e . .

En general, si T ( X ) es estad´ıstico suficiente para θ y τ : T −→ S es una e transformaci´on biyectiva del espacio donde toma valores T , se tiene que S( X ) = e τ (T ( X )) tambi´en es estad´ıstico suficiente para θ: e f ( x |θ) = g(T ( x )|θ)h( x ) = g(τ −1 (S( x ))|θ)h( x ) = g ∗ (S( x )|θ)h( x ), e e e e e e e de donde se deduce que S( X ) tambi´en es estad´ıstico suficiente. La funci´on e g ∗ (s|θ) es g ∗ (s|θ) = g(τ −1 (s)|θ).

2.1.1.

Estad´ısticos suficientes r-dimensionales

Hasta ahora hemos visto u ´nicamente estad´ısticos suficientes con valores reales, es decir, unidimensionales. Sin embargo, en la aplicaci´on del teorema de factorizaci´on puede ocurrir que la funci´on g(t|θ) dependa de la muestra a trav´es de m´as de una funci´on suya. En ese caso la colecci´on de esas funciones, digamos T ( X ) = (T1 ( X ), . . . , Tr ( X )), es un estad´ıstico suficiente r-dimensional. Las e e e definiciones y resultados referentes a la suficiencia ya vistos para el caso unidimensional tambi´en se aplican al caso r-dimensional. Usualmente, si el par´ametro θ es de dimensi´on mayor que 1, entonces tambi´en lo ser´a el estad´ıstico suficiente.

Ejemplo 16 X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos par´ametros desconocidos: θ = (µ, σ 2 ). As´ı, ) ( n o n n 1 X 2 2 2 −n/2 f ( x |µ, σ ) = (2πσ ) exp − 2 (xi − x) exp − 2 (x − µ)2 . 2σ i=1 2σ e Pn Sean T1 ( x ) = x y T2 ( x ) = S 2 = ( i=1 (xi − x)2 )/(n − 1). Entonces, e e ¾ ½ o n n (n − 1) 2 2 2 −n/2 = T ( x ) exp − (T ( x ) − µ) f ( x |µ, σ ) = (2πσ ) exp − 2 1 2σ 2 2σ 2 e e e

32

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

g(T1 ( x ), T2 ( x )|µ, σ 2 ) e e y tomando h( x ) = 1 se tiene la factorizaci´on de f ( x |µ, σ 2 ) que implica que e e T ( X ) = (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estad´ıstico suficiente para (µ, σ 2 ) en e e e la distribuci´on normal. Es un estad´ıstico bivariante. Obs´ervese que el hecho de que un estad´ıstico sea o no suficiente para un par´ametro depende del modelo que siguen las variables aleatorias implicadas. En el caso de muestrear una normal, podemos anotar u ´nicamente la media y la varianza muestral y estar seguros de que tenemos toda la informaci´on relevante sobre los par´ametros desconocidos (µ, σ 2 ). Sin embargo, si no estamos seguros de la normalidad de los datos no deber´ıamos conformarnos con conocer u ´nicamente la media y la varianza muestral. . .

2.1.2.

Estad´ısticos suficientes minimales

La factorizaci´on de la funci´on de verosimilitud no es u ´nica y como consecuencia de ello, tampoco es u ´nico el estad´ıstico suficiente para un par´ametro. Ya vimos que cualquier transformaci´on biyectiva de un estad´ıstico suficiente da lugar a otro estad´ıstico suficiente. Pero a´ un hay muchos m´as estad´ısticos suficientes. Por ejemplo, la muestra completa X tambi´en es estad´ıstico suficiente e para el par´ametro: f ( x |θ) = g( x |θ)h( x ), e e e donde h( x ) = 1, T ( x ) = x y g( x |θ) = f ( x |θ). e e e e e Un estad´ıstico suficiente T ( X ) se llama minimal si para cualquier otro e estad´ıstico S( X ) se tiene que T ( X ) es funci´on de S( X ). Es decir, si ocurre e e e que S( x ) = S( y ) entonces forzosamente se tiene que T ( x ) = T ( y ). Otra e e e esto es la siguiente: sea {A : t ∈ T } la partici´ forma de expresar on dele espacio t muestral inducida por el estad´ıstico T y sea {Bs : s ∈ S} la partici´on inducida por S; para casa s ∈ S existe un t ∈ T tal que Bs ⊆ At . La partici´on inducida por cualquier estad´ıstico suficiente es m´as fina que la inducida por el estad´ıstico suficiente minimal.

Ejemplo 17 X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos par´ametros desconocidos. Hemos visto en el ejemplo 16 que (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estad´ıstico suficiente e e para (µ, σ 2 ). Suponemos ahora que σ 2 es conocido. Vimos en el ejemplo 13 que T1 ( X ) = e X es estad´ıstico suficiente para µ. Pero tambi´en es cierto que (T1 ( X ), T2 ( X )) = e e (X, S 2 ) es suficiente para µ. Claramente T1 ( X ) consigue una mejor reducci´on e

2.1. PRINCIPIO DE SUFICIENCIA

33

de los datos que (T1 ( X ), T2 ( X )). Podemos escribir T1 ( X ) como funci´on de e e e (T1 ( X ), T2 ( X )): T1 ( X ) = τ (T1 ( X ), T2 ( X )) donde τ (a, b) = a. e e e e e Dado que tanto T1 ( X ) como (T1 ( X ), T2 ( X )) son suficientes para µ, ame e e bos contienen la misma informaci´on sobre µ. Por lo tanto, la varianza muestral S 2 = T2 ( X ) no aporta ninguna informaci´on sobre la media µ cuando σ 2 es e conocida. . .

El siguiente teorema proporciona un m´etodo para encontrar el estad´ıstico suficiente minimal. Teorema 11 Sea f

( x |θ) la funci´ on de verosimilitud conjunta de X (disX e e e creta o continua). Supongamos que existe una funci´ on T ( x ) tal que para cuale quier par de elementos del espacio muestral x , y , el cociente e e f

( x |θ) X e e f ( y |θ) X e e

es constante como funci´ on de θ, si y s´ olo si T ( x ) = T ( y ). Entonces T ( x ) es e e e estad´ıstico suficiente minimal para θ. Demostraci´ on: Casella-Berger, p. 255

2

Ejemplo 18 Sea X = (X1 , . . . , Xn ) m.a.s. de X ∼ N (µ, σ 2 ), ambos par´ametros dese conocidos. Sean x e y dos muestras observadas y sean (x, Sx2 ), (y, Sy2 ) las e e y varianzas muestrales. Recordando la factorizaci´on correspondientes medias de f ( x |µ, σ 2 ) que vimos en el ejemplo 16, se tiene que e n o © n ª f ( x |θ) 2 2 (2πσ 2 )−n/2 exp − (n−1) X e 2σ 2 Sx exp − 2σ 2 (x − µ) o n e = © ª = 2 )−n/2 exp − (n−1) S 2 exp − n (y − µ)2 f ( y |θ) (2πσ 2 2 y 2σ 2σ X e e ½ ¾ ¢ 1 ¡ 2 2 2 2 exp = −n(x − µ) + n(y − µ) − (n − 1)(S − S ) x y 2σ 2 ½ ¾ ¢ 1 ¡ 2 2 2 2 exp −n(x − y ) + 2nµ(x − µ) − (n − 1)(Sx − Sy ) 2σ 2 Esta expresi´on es constante como funci´on de (µ, σ 2 ) si y s´olo si −n(x2 − y 2 ) + 2nµ(x − y) − (n − 1)(Sx2 − Sy2 ) = 0,

34

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

y recordando que Sx2 =

Pn i=1

2nµ(x − y) −

x2i − nx2 eso ocurrir´a si y s´olo si n X i=1

x2i +

n X

yi2 = 0, para todo µ,

i=1

pero un polinomio de grado 1 en µ (el lado izquierdo de la igualdad anterior) es igual a 0 para todo µ si y s´olo si sus dos coeficientes son nulos, es decir, si y s´olo si n n X X x=y y x2i = yi2 , i=1

i=1

lo que equivale a decir, que x = y y Sx2 = Sy2 . Concluimos pues que (X, S 2 ) es estad´ıstico minimal suficiente para (µ, σ 2 ) cuando muestreamos de una normal. . .

Ejemplo 19 Sea X1 , . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. As´ı, n Y f ( x |θ) = I[θ,θ+1] (xi ) = I[m´axi xi −1,m´ıni xi ] (θ). e i=1

Por el teorema de factorizaci´on, (T1 ( X ), T2 ( X )) = (m´ıni Xi , m´axi Xi ) es un e e estad´ıstico suficiente para θ. Para dos muestras x e y, el numerador y el denominador de f ( x |θ)/f (y|θ) e e ser´an positivos para los mismo valores de θ si y s´olo si m´ıni xi = m´ıni yi y m´axi xi = m´axi yi . En ese caso adem´as el cociente valdr´a 1, independientemente del valor de θ. As´ı que el cociente no depender´a de θ si y s´olo si m´ıni xi = m´ıni yi y m´axi xi = m´axi yi , luego (m´ıni Xi , m´axi Xi ) es un estad´ıstico suficiente minimal. . .

Obs´ervese que el estad´ıstico minimal no es u ´nico: cualquier transformaci´on biyectiva suya tambi´en es estad´ıstico minimal suficiente. Se puede probar que siempre existen estad´ısticos suficientes minimales. Ver, por ejemplo, el problema 15 del cap´ıtulo 2 de Schervish (1995), o el teorema 7.2.7, p. 189, de Crist´obal (1992).

2.1. PRINCIPIO DE SUFICIENCIA

2.1.3.

35

Estad´ısticos ancilares

Se define un estad´ıstico ancilar como aquel cuya distribuci´on no depende del par´ametro θ. Los estad´ısticos ancilares son los que resumen la parte de informaci´on de la muestra que no recogen los estad´ısticos minimales suficientes. A primera vista, parece que no deben aportar informaci´on relevante en la estimaci´on del par´ametro de inter´es θ. Sin embargo, hay ocasiones en que en combinaci´on con otros estad´ısticos s´ı son u ´tiles en la estimaci´on de θ (ver Casella-Berger, ejemplo 6.1.11).

Ejemplo 20 Sean X n observaciones i.i.d. de una distribuci´on uniforme en el intervalo (θ, θ+ e 1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estad´ısticos de orden de la muestra. El estad´ıstico Rango, definido como R = X(n) − X(1) , sigue una distribuci´on Beta(n − 1, 2), sea cual sea el valor de θ, por lo que R es un estad´ıstico ancilar. Esta propiedad se puede generalizar al rango de cualquier familia de localizaci´on: Sean X observaciones i.i.d. de una familia de localizaci´on con funci´on de distrie buci´on F (x−θ), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estad´ısticos de orden de la muestra. Entonces la distribuci´on del rango, definido como R = X(n) −X(1) , no depende de θ por lo que es un estad´ıstico ancilar. . .

Ejemplo 21 Sean X1 y X2 observaciones independientes de una distribuci´on discreta tal que: Pθ (X = θ) = Pθ (X = θ + 1) = Pθ (X = θ + 2) =

1 3

donde θ, el par´ametro desconocido, es un entero cualquiera. Sean X(1) ≤ X(2) los estad´ısticos de orden de la muestra. Puede demostrarse que (R, M ), con R = X(2) − X(1) y M = (X(1) + X(2) )/2, es un estad´ıstico minimal suficiente. Dado que es una familia de localizaci´on R es ancilar. Sea un punto muestral (r, m), con m entero. Si consideramos s´olo m, para que el punto tenga probabilidad positiva es preciso que θ tome uno de tres valores posibles: θ = m, θ = m − 1 o θ = m − 2. Si s´olo s´e que M = m, los 3 valores de θ son posibles. Sup´ongase que sabemos adem´as que R = 2. Entonces forzosamente X(1) = m − 1 y X(2) = m + 1 y, por lo tanto, θ = m − 1. El saber el valor del estad´ıstico ancilar ha aumentado nuestro conocimiento sobre θ, a pesar de que s´olo con el valor de R no habr´ıamos tenido ninguna

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

36

informaci´on sobre θ. .

2.1.4.

.

Estad´ısticos completos

Sea fT (t|θ) la funci´on de densidad (o de masa de probabilidad) de un estad´ıstico T . Diremos que la familia de distribuciones {fT (t|θ) : θ ∈ Θ} es completa si se da la implicaci´on siguiente: Eθ (g(T )) = 0 para todo θ =⇒ Pθ (g(T ) = 0) = 1 para todo θ. En ese caso diremos que T es un estad´ıstico completo.

Ejemplo 22 La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p), 0 < p < 1. Sea g una funci´on tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces, µ ¶ ¶t µ ¶µ n X n t n p n−t n 0 = E(g(T )) = g(t) p (1 − p) = (1 − p) . g(t) t 1−p t t=0 t=0 n X

Tenemos entonces que un polinomio de grado n en (p/(1 − p)) ∈ (0, ∞) es id´enticamente cero. Esto s´olo es posible si todos sus coeficientes son nulos: µ ¶ n g(t) = 0, para todo t ∈ 0, 1, . . . , n t de donde se deduce que g(t) = 0 para todo t ∈ 0, 1, . . . , n, luego Pp (g(T ) = 0) = 1, para todo p, y la familia de distribuciones de T es completa. .

.

La definici´on de completitud refuerza la de suficiencia en el sentido de que si un estad´ıstico es suficiente y completo entonces, por una parte, es suficiente minimal (el rec´ıproco no es cierto) y, por otra, ese estad´ıstico es independiente de cualquier estad´ıstico ancilar. Es decir, en el caso de que exista un estad´ıstico suficiente y completo s´ı es cierta la idea intuitiva de que los estad´ıstico ancilares no pueden aportar nada relevante a la estimaci´on del par´ametro. Esto no ocurre si s´olo se tienen estad´ısticos suficientes y minimales. Los siguientes resultados reflejan formalmente estas ideas. Teorema 12 Si T es un estad´ıstico suficiente y completo para θ, entonces T es suficiente minimal.

2.1. PRINCIPIO DE SUFICIENCIA

37

Demostraci´ on: (Extra´ıda de Crist´obal 1992, p. 200.) Sea S un estad´ıstico suficiente para θ. Entonces, por la ley de la esperanza iterada, Eθ (T − E(T /S)) = Eθ (T ) − Eθ (T ) = 0, para todo θ ∈ Θ. Por ser T completo, se tiene que Pθ (T − E(T /S) = 0) = 1 =⇒ T = E(T /S) casi seguro, luego T es funci´on de cualquier estad´ıstico suficiente S y, por tanto, es minimal. 2 El rec´ıproco no es cierto, como pone de manifiesto el siguiente ejemplo (Crist´obal 1992, p. 200). Ejemplo 23 2 Sean X ∼ N (µ, σX ) e Y ∼ N (µ, σY2 ) variables aleatorias independientes. Del 2 teorema 11 se sigue que el estad´ıstico (X, Y , SX , SY2 ) es suficiente minimal para + + 2 2 θ = (µ, σX , σY ) ∈ IR × IR × IR . Sin embargo no es completo, porque Eθ (X − Y ) = 0 para todo θ y sin embargo Pθ (X = Y ) = 0, para cualquier θ. .

.

Teorema 13 (Basu) Si T es un estad´ıstico suficiente y completo, y S es un estad´ıstico ancilar, entonces T y S son independientes. Demostraci´ on: Ver Casella-Berger, p. 262, o Crist´obal (1992), p. 201.

2

Acabaremos esta secci´on dando un resultado que permite encontrar estad´ısticos suficientes y completos para las distribuciones que pertenecen a la familia exponencial, bajo condiciones bastante generales. Teorema 14 Sea X variable aleatoria cuya distribuci´ on pertenece a la familia exponencial y viene dada por la funci´ on de densidad (o de masa, seg´ un el caso)   k X  f (x|θ) = h(x)c(θ) exp θj tj (x) , θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk , j=1

parametrizada de forma natural. Si el espacio param´etrico natural Θ contiene un abierto no vac´ıo de IRk , entonces el estad´ıstico n X T ( X ) = (T1 ( X ), . . . , Tk ( X )), donde Tj ( X ) = tj (Xi ), e e e e i=1 es estad´ıstico suficiente completo (y por lo tanto, minimal).

38

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Demostraci´ on: La prueba de este resultado requiere t´ecnicas de funciones anal´ıticas complejas. Ver, por ejemplo, la demostraci´on del teorema 2.74 de Schervish 1995, o las de los teoremas 3.9 de Garc´ıa-Nogales 1998 o 7.3.7 de Crist´obal 1992. 2

2.2.

Principio de verosimilitud

Sea una muestra aleatoria simple X = (X1 , . . . , Xn ) de una variable aleae ´ n de verotoria X y supongamos que se ha observado x . Llamamos funcio e similitud de la muestra a la funci´on de densidad conjunta o a la funci´on de masa de probabilidad conjunta, seg´ un sea X continua o discreta, entendida ´esta como funci´on del par´ametro: −→ IR+ −→ L(θ| x ) = f ( x |θ) e e La funci´on de verosimilitud as´ı definida puede entenderse como un estad´ıstico, es decir, como una funci´on L de la muestra que no depende del par´ametro: a cada posible muestra observada x , la funci´on de verosimilitud le asocia un e elemento del conjunto (IR+ )Θ de todas las funciones de Θ en IR+ , precisamente L(·| x ), la funci´on de verosimilitud de esa muestra: e L(·| x ) : e

Θ θ

L:

X x e

−→ (IR+ )Θ −→ L(·| x ) e

As´ı, L( X ) es una funci´on aleatoria de Θ en IR. Por lo tanto, la funci´on de veroe similitud es una forma m´as de resumir la informaci´on que la muestra contiene acerca del par´ametro. La raz´on de escribir resumir en cursiva es que pasar de X e (de dimensi´on n) a L( X ) (de dimensi´on igual al cardinal de Θ, normalmente e infinito) no siempre se puede entender como un resumen de la informaci´on. En esta secci´on se desarrollan argumentos que prueban lo siguiente: si se acepta el principio de suficiencia, entonces la inferencia se debe basar en la funci´on de verosimilitud. Esta u ´ltima afirmaci´on (la inferencia sobre el par´ ametro se debe basar u ´nica y exclusivamente en la funci´ on de verosimilitud) se expresa formalmente en el principio de verosimilitud, que especifica c´omo debe usarse la verosimilitud en la reducci´on de la informaci´on muestral. Principio de verosimilitud: Si x e y son dos puntos muestrales tales que e e L(θ| x ) = C( x , y )L(θ| y ), para todo θ, e e e e donde C( x , y ) es una funci´ on que puede depender de x e y pero no de θ, e e e e entonces la inferencia que se haga sobre θ ser´ a la misma tanto si se observa x e como si se observa y . e

2.2. PRINCIPIO DE VEROSIMILITUD

39

Obs´ervese que la verosimilitud de una muestra x en el caso discreto es la e colecci´on de las probabilidades de haber observado x bajo los diferentes valores e de θ. As´ı, el cociente de dos valores de la verosimilitud L(θ1 | x ) e L(θ2 | x ) e indica cuantas veces m´as probable es observar x bajo θ1 que bajo θ2 . En el e caso continuo esto es aproximadamente v´alido, si hablamos de la probabilidad de observar valores en un entorno de x en lugar de la probabilidad de observar e x: e Pθ1 ( X ∈ B( x , ε)) VolumenB( x , ε)f ( x |θ1 ) f ( x |θ1 ) e e e e e ≈ = . Pθ2 ( X ∈ B( x , ε)) VolumenB( x , ε)f ( x |θ2 ) f ( x |θ2 ) e e e e e Si, por ejemplo, f ( x |θ1 )/f ( x |θ2 ) = 2 podemos decir que θ1 es mucho m´as e e plausible (mucho m´as verosimil) que θ2 . As´ı, la verosimilitud indica c´omo de plausible es un valor del par´ametro θ1 en t´erminos relativos (comparada esa plausibilidad con la de otro valor de θ2 ). En este sentido el enunciado del principio de verosimilitud es esencialmente equivalente a decir que la inferencia sobre el par´ametro se debe basar u ´nica y exclusivamente en la funci´on de verosimilitud: si dos valores muestrales dan lugar a verosimilitudes proporcionales (aunque quiz´as no exactamente iguales), los cocientes de verosimilitudes ser´an iguales si se observa una u otra, L(θ1 | x ) C( x , y )L(θ1 | y ) L(θ1 | y ) e = e e e = e , L(θ2 | x ) C( x , y )L(θ2 | y ) L(θ2 | y ) e e e e e y por lo tanto, los valores de θ m´as veros´ımiles ser´an los mismos si se observa x o y . Como consecuencia, x e y deben dar lugar a las mismas inferencias e e e como afirma el principio sobre θ, dee verosimilitud. El siguiente teorema afirma que el principio de suficiencia y el de verosimilitud son equivalentes. Teorema 15 El principio de suficiencia y el principio de verosimilitud son equivalentes. Demostraci´ on: Suficiencia =⇒ Verosimilitud. Veamos que la funci´on de verosimilitud, vista como estad´ıstico L( X ), es un e estad´ıstico suficiente. En efecto, f ( x |θ) = g(L( x )|θ)h( x ), e e e donde h( x ) = 1 y la funci´on g(L( x )|θ) es la que devuelve el valor de L( x ) e e e en el punto θ. Por el teorema de factorizaci´on L( X ) es estad´ıstico suficiente. e Por el principio de suficiencia, cualquier inferencia sobre θ ha de depender de

40

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

la muestra X = (X1 , . . . , Xn ) s´olo a trav´es del valor L( X ), lo cu´al implica el e e principio de verosimilitud. Verosimilitud =⇒ Suficiencia. Consideremos un estad´ıstico suficiente T ( X ) y dos valores muestrales x e y e e e tales que T ( x ) = T ( y ). Veamos que la inferencia sobre θ que se derive de x e e e e y ha de ser la misma (esta es otra forma de leer el principio de suficiencia). Ene efecto, se tiene que L( x |θ) = g(T ( x )|θ)h( x ) = g(T ( y )|θ)h( x ) = e e e e e h( x ) g(T ( y )|θ)h( y ) e = C( x , y )L( y |θ) e e e e h( y ) e e de donde se deduce por aplicaci´on del principio de verosimilitud que la inferencia que se haga sobre θ ser´a la misma tanto si se observa x como si se observa y . e e 2 En Casella-Berger, secci´on 6.2, puede encontrarse un desarrollo m´as detallado sobre las implicaciones que existen entre estos y otros principios de reducci´on de los datos. Las conclusiones a las que all´ı se llega implican que el principio de verosimilitud es cierto tambi´en para inferencias hechas sobre un mismo par´ametro a partir de experimentos distintos: si se observan resultados tales que las correspondientes verosimilitudes son proporcionales, la inferencia ser´a la misma.

2.3. LISTA DE PROBLEMAS

2.3.

41

Lista de problemas

Suficiencia 1. (Casella-Berger, 6.1) Sea X una observaci´on de una N (0, σ 2 ). ¿Es |X| un estad´ıstico suficiente? 2. (Casella-Berger, 6.3) Sea X ∼ (1/σ)f ((x − µ)/σ), donde f (t) es la densidad de una exp(1). Sea X1 , . . . , Xn una m.a.s. de X. Da un estad´ıstico bidimensional suficiente para (µ, σ). 3. (Casella-Berger, 6.5) Sean X1 , . . . , Xn variables aleatorias independendientes con densidades fi (x) =

1 I(−i(θ−1),i(θ+1)) (x), i = 1, . . . , n, 2iθ

donde θ > 0. a) Encontrar un estad´ıstico suficiente para θ de dimensi´on 2. b) Dar un estad´ıstico suficiente para θ de dimensi´on 1. 4. (Casella-Berger, 6.6) Sea X1 , . . . , Xn una m.a.s. de una γ(α, β). Da un estad´ıstico bidimensional suficiente para (α, β). 5. (Casella-Berger, 6.7) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X con funci´on de densidad o de probabilidad f (x; θ). Prueba que los estad´ısticos de orden X(1) , . . . , X(n) son suficientes para θ. 6. (Casella-Berger, 6.9) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X. Encontrar estad´ısticos minimales suficientes para el par´ametro de localizaci´on θ (−∞ < θ < ∞) en los siguientes casos. a) Exponencial: f (x; θ) = e−(x−θ) , x > θ. b) Log´ıstica: f (x; θ) = e−(x−θ) /(1 + e−(x−θ) )2 . c) Cauchy: f (x; θ) = 1/(π(1 + (x − θ)2 )). d ) Doble exponencial (o Laplace): f (x; θ) = (1/2)e−|x−θ| . 7. (Examen parcial 2001) Se considera el siguiente modelo de regresi´on: Yi = α + βxi + εi , i = 1, . . . , n, donde x1 , . . . , xn son cantidades conocidas y ε1 , . . . , εn son v.a.i.i.d. seg´ un una N (0, σ 2 ). a) ¿Qu´e distribuci´on tiene Yi ? Escribe su funci´on de densidad fYi (y). b) Escribe la funci´on de verosimilitud L(y1 , . . . , yn ; α, β, σ 2 ). c) Da un estad´ıstico tridimensional suficiente para (α, β, σ 2 ).

42

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS d ) Prueba que la distribuci´on conjunta de (Y1 , . . . , Yn ) pertenece a la familia exponencial.

Completitud 8. (Casella-Berger, 6.10) Sea X1 , . . . , Xn m.a.s. de una U [θ, θ+1]. En el ejemplo 19 se establece que el estad´ıstico T ( X ) = (X(1) , X(n) ) es estad´ıstico e minimal suficiente para θ. Prueba ahora que no es completo. 9. (Casella-Berger, 6.15) Sea X1 , . . . , Xn una m.a.s. de una N (θ, aθ2 ), donde a > 0 es una constante conocida. Probar que T = (X, S 2 ) es estad´ıstico suficiente para θ pero no es completo. 10. (Casella-Berger, 6.16) Sean X1 , . . . , Xn v.a.i.i.d. con distribuci´on geom´etrica: Pθ (X = x) = θ(1 − θ)x−1 , x = 1, 2, . . . , 0 < θ < 1. Pn a) Probar que T = i=1 Xi es suficiente para θ y encontrar la distribuci´on de T . b) Prueba que T es completo sin usar el resultado general para familias exponenciales. 11. (Examen junio 2000; Casella-Berger, 6.17, 6.23) Sean X1 , . . . , Xn v.a.i.i.d. seg´ un una ley Poisson(λ), λ ≥ 0. Pn a) Probar que el estad´ıstico T = i=1 Xi es suficiente pera λ. b) Sin hacer uso del resultado general sobre completitud en familias exPn ponenciales, probar que la familia de distribuciones de T = i=1 Xi es completa. c) Consideremos la siguiente familia de distribuciones: P = {Pλ (X = x) : Pλ (X = x) = λx e−λ /x!; x = 0, 1, 2, . . . ; λ = 0 o λ = 1} (Nota: 00 = 1, 0! = 1.) Esta familia es una familia de distribuciones de Poisson con λ restringido a ser 0 o 1. Probar que la familia P no es completa. d ) Indicar si la siguiente afirmaci´on es cierta o falsa y decir por qu´e: Si la familia de distribuciones P1 = {f (x; θ) : θ ∈ Θ1 } es completa y Θ2 ⊂ Θ1 , entonces la familia de distribuciones P2 = {f (x; θ) : θ ∈ Θ2 } es completa. 12. (Casella-Berger, 6.18) La variable aleatoria X toma los valores 0, 1 y 2 con probabilidades dadas por una de las siguientes distribuciones:

Distribuci´on 1 Distribuci´on 2

P (X = 0) p p

P (X = 1) 3p p2

P (X = 2) 1 − 4p 1 − p − p2

0 < p < 1/4 0 < p < 1/2

2.3. LISTA DE PROBLEMAS

43

En cada caso, determina si la familia de distribuciones de X es completa. 13. Considera las variables aleatorias descritas en el problema 14 de la lista 1.6. Encuentra el estad´ıstico minimal suficiente para θ. ¿Es completo? 14. Considera las variables aleatorias descritas en el problema 15 de la lista 1.6. Encuentra el estad´ıstico minimal suficiente para θ. ¿Es completo? 15. Considera las variables aleatorias descritas en el problema 16 de la lista 1.6. Encuentra el estad´ıstico minimal suficiente para θ. ¿Es completo?

44

CAP´ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Cap´ıtulo 3

Estimaci´ on puntual 1: Construcci´ on de estimadores Referencias: Casella-Berger, secciones 7.1 y 7.2, referencia general. DeGroot (1988), secciones de la 6.1 a la 6.4., para inferencia bayesiana. Garthwaite, Jollife y Jones (1995), secci´ on 3.4, presenta m´etodos de estimadoci´ on no incluidos aqu´ı.

3.1.

La funci´ on de distribuci´ on emp´ırica y el m´ etodo de los momentos

Sea la variable aleatoria X con funci´on de distribuci´on F . Consideramos una muestra aleatoria simple de tama˜ no n de X, es decir, X1 , . . . , Xn v.a.i.i.d. con distribuci´on dada por F . Sea x1 , . . . , xn una realizaci´on de esa m.a.s. ´ n de distribucio ´ n emp´ırica a la funci´on Se llama funcio n

Fn (x) =

1 1X #{xi ≤ x : i = 1 . . . n} = I(−∞,x] (xi ), n n i=1

que a cada n´ umero real x le asigna la proporci´on de valores observados que son menores o iguales que x. Es inmediato comprobar que la funci´on Fn as´ı definida es una funci´on de distribuci´on: 1. Fn (x) ∈ [0, 1] para todo x ∈ IR. 2. Fn es continua por la derecha. 45

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 46CAP´ITULO 3. ESTIMACION 3. Fn es no decreciente. 4. l´ımx−→−∞ Fn (x) = 0. 5. l´ımx−→∞ Fn (x) = 1. Concretamente, Fn es la funci´on de distribuci´on de una variable aleatoria discreta (que podemos llamar Xe ) que pone masa 1/n en cada uno de los n puntos xi observados: xi pi = P(Xe = xi )

x1 1/n

x2 1/n

··· ···

xn 1/n

´ n emp´ırica asociada al conjunto A la distribuci´on de Xe se le llama distribucio de valores {x1 , . . . , xn }. Obs´ervese que si fijamos el valor de x y dejamos variar la muestra, lo que obtenemos es una variable aleatoria. En efecto, se tiene entonces que n

Fn (x) =

1X I(−∞,x] (Xi ), n i=1

donde

½ I(−∞,x] (Xi ) =

1, 0,

si Xi ≤ x si Xi > x

y, por lo tanto, cada t´ermino I(−∞,x] (Xi ) es una variable aleatoria de Bernoulli con probabilidad de ´exito p = P(I(−∞,x] (Xi ) = 1) = P(Xi ≤ x) = F (x). De ah´ı se deduce que Fn es una variable aleatoria y que nFn (x) tiene distribuci´on binomial con par´ametros n y p = F (x). De lo anterior se sigue que la funci´on de distribuci´on emp´ırica es un proceso estoc´astico: si consideramos un espacio probabil´ıstico (Ω, A, P ) donde est´an definidas las sucesiones de variables aleatorias {Xn }n≥1 a partir de las cuales definiremos la funci´on de distribuci´on emp´ırica, tenemos que Fn :

(Ω, A, P ) × (IR, B) −→ [0, 1] (ω, x) −→ Fn (x)(ω) =

1 n

Pn

i=1 I(−∞,x] (Xi (ω))

Fijado x, Fn (x)(·) : (Ω, A, P ) −→ [0, 1] es una variable aleatoria. Fijado ω, Fn (·)(ω) : IR −→ [0, 1] es una funci´on de distribuci´on (en la notaci´on usual se omite la dependencia de ω ∈ Ω). Por lo tanto, la funci´on de distribuci´on emp´ırica es una fucni´ on de distribuci´ on aleatoria.

´ DE DISTRIBUCION ´ EMP´IRICA Y EL METODO ´ 3.1. LA FUNCION DE LOS MOMENTOS47

3.1.1.

Teorema de Glivenko-Cantelli

El siguiente teorema recoge algunas de las propiedades de la funci´on de distribuci´on emp´ırica. Teorema 16 Sea {Xn }n≥1 , sucesi´ on de variables aleatorias independientes e id´enticamente distribuidas definidas en el espacio de probabilidad (Ω, A, P ) con funci´ on de distribuci´ on com´ un F . Se denota por Fn la funci´ on de distribuci´ on emp´ırica obtenida de las n primeras variables aleatorias X1 , . . . , Xn . Sea x ∈ IR. Se verifica lo siguiente: (a) P(Fn (x) =

j n)

=

¡n¢ j n−j , j = 0, . . . , n. j F (x) (1 − F (x))

(b) E(Fn (x)) = F (x), Var (Fn (x)) = (1/n)F (x)(1 − F (x)). (c) Fn (x) −→ F (x) casi seguro. (d)

√ n(F (x) − F (x)) p n −→D Z, F (x)(1 − F (x)) donde Z es una variable aleatoria con distribuci´ on normal est´ andar y la convergencia es convergencia en distribuci´ on.

Demostraci´ on: Los apartados (a) y (b) son consecuencia inmediata del hecho de que nFn (x) ∼ B(n, p = F (x)). Por otro lado, si definimos Yi = I(−∞,x] (Xi ), se tiene que Fn (x) = Y¯n , la media aritm´etica de las variables aleatorias Y1 , . . . , Yn . As´ı, el apartado (c) es una aplicaci´on inmediata de la ley fuerte de los grandes n´ umeros y el apartado (d) es consecuencia del teorema central de l´ımite. 2 El siguiente teorema refuerza el resultado (c) anterior, puesto que afirma que la convergencia de Fn (x) a F (x) se da uniformemente. Teorema 17 (Teorema de Glivenko-Cantelli) Sea {Xn }n≥1 una sucesi´ on de variables aleatorias independientes e id´enticamente distribuidas definidas en el espacio de probabilidad (Ω, A, P ) con funci´ on de distribuci´ on com´ un F . Se denota por Fn la funci´ on de distribuci´ on emp´ırica obtenida de las n primeras variables aleatorias X1 , . . . , Xn . Entonces, sup |Fn (x) − F (x)| −→ 0 casi seguro.

x∈IR

Demostraci´ on: Presentamos aqu´ı la demostraci´on que hacen V´elez y Garc´ıa (1993), p. 36. (otras demostraciones pueden encontrarse en Garc´ıa-Nogales 1998, p. 88, y en Crist´obal 1992, p. 66). En el teorema 16 se prob´o que, por la ley fuerte de los grandes n´ umeros, Fn (x) −→ F (x) casi seguro, es decir, para cada x ∈ IR existe Ax ∈ A tal que P(Ax ) = 1 y l´ımn Fn (x)(ω) = F (x) si ω ∈ Ax . Se ha denotado por Fn (x)(ω) a la funci´on de distribuci´on emp´ırica obtenida

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 48CAP´ITULO 3. ESTIMACION al observar X1 (ω), . . . , Xn (ω), siendo ω un elemento del espacio Ω. De la ley fuerte de los grandes n´ umeros tambi´en se sigue (tomando ahora I(−∞,x) en vez de I(−∞,x] ) que para cada x ∈ IR, existe Bx ∈ A tal que P(Bx ) = 1 y l´ımn Fn (x− )(ω) = F (x− ) si ω ∈ Bx , donde g(x− ) denota el l´ımite por la izquierda de una funci´on g en x. Para cada n´ umero natural k, y cada j = 1, . . . , k, se consideran los puntos ¾ ½ j xjk = m´ın x ∈ IR : F (x− ) ≤ ≤ F (x) k y los sucesos de A siguientes: Ajk = Axjk = {w ∈ Ω : Fn (xjk ) −→ F (xjk )} − Bjk = Bxjk = {w ∈ Ω : Fn (x− jk ) −→ F (xjk )}

Dk =

k \

(Ajk ∩ Bjk ), D =

j=1

∞ \

Dk .

k=1

Dk es el suceso definido por la condici´on de que la funci´on de distribuci´on emp´ırica converja a la te´orica para todos los puntos xjk (y tambi´en para los l´ımites por la izquierda), para un k fijo. D es el suceso en que esto ocurre simult´aneamente para todo k. Seg´ un la ley fuerte de los grandes n´ umeros, P(Ajk ) = P(Bjk ) = 1 para todo j y todo k, luego P(Dk ) = 1 para todo k y, por tanto, P(D) = 1. Obs´ervese que si x ∈ [xjk , x(j+1)k ), por ser F y Fn funciones de distribuci´on se tiene que − F (xjk ) ≤ F (x) ≤ F (x− (j+1)k ), y Fn (xjk ) ≤ Fn (x) ≤ Fn (x(j+1)k ).

Como adem´as F (x− (j+1)k ) − F (xjk ) ≤ 1/k, − − Fn (x) − F (x) ≤ Fn (x− (j+1)k ) − F (xjk ) ≤ Fn (x(j+1)k ) − F (x(j+1)k ) +

y Fn (x) − F (x) ≥ Fn (xjk ) − F (x− (j+1)k ) ≥ Fn (xjk ) − F (xjk ) −

1 k

1 k

(k)

con lo cual, si δn es la mayor entre todas las diferencias |Fn (xjk ) − F (xjk )| y − |Fn (x− jk ) − F (xjk )| (para n y k fijos), se tiene que Fn (x) − F (x) ≤ δn(k) +

1 1 y Fn (x) − F (x) ≥ −δn(k) − k k

As´ı, para cualquier k ∈ IN, 1 sup |Fn (x) − F (x)| ≤ δn(k) + . k x∈IR Obs´ervese que si se verifica el suceso D, para cualquier k ∈ IN y cualquier ε > 0, (k) se tiene que δn < ε a partir de un cierto n, de forma que 1 sup |Fn (x) − F (x)| < ε + k x∈IR

´ DE DISTRIBUCION ´ EMP´IRICA Y EL METODO ´ 3.1. LA FUNCION DE LOS MOMENTOS49 a partir de cierto n. Por lo tanto, sup |Fn (x) − F (x)| −→n 0

x∈IR

siempre que se verifique D. Como P(D) = 1, se sigue que sup |Fn (x) − F (x)| −→n 0 casi seguro.

x∈IR

2 Obs´ervese que seg´ un el apartado (c) del teorema 16, las distribuciones emp´ıricas asociadas a muestras de tama˜ no n convergen d´ebilmente a la distribuci´on de probabilidad te´orica identificada por F , para casi todas las muestras de tama˜ no ´ infinito que se extraigan de F . Esta es una de las consecuencias m´as importantes del citado teorema:

la distribuci´on emp´ırica converge d´ebilmente con probabilidad 1 a la poblacional cuando el tama˜ no de la muestra tiende a infinito: Fn −→D F, casi seguro.

Esto garantiza la posibilidad de realizar inferencia estad´ıstica: los aspectos probabil´ısticos de una caracter´ıstica X, medida en una poblaci´on, se resumen de forma estilizada en una distribuci´on de probabilidad F , la cual puede ser aproximada mediante las distribuciones emp´ıricas Fn obtenidas por muestreo de la poblaci´on en estudio. El teorema de Glivenko-Cantelli afirma que esas aproximaciones son uniformes en x. Por esta raz´on el teorema de Glivenko-Cantelli se llama a veces Teorema Fundamental de la Estad´ıstica Matem´ atica: da una fundamentaci´on de la inferencia estad´ıstica, cuyo objetivo principal consiste en extraer informaci´on sobre F a partir de las observaciones muestrales.

Ejemplo 24 En la figura siguiente se muestra la funci´on de distribuci´on de una variable aleatoria N (0, 1) y la funci´on de distribuci´on emp´ırica de dos muestras de esa variable aleatoria una de tama˜ no n = 10 (la m´as alejada de la te´orica) y la otra de tama˜ no n = 100. Se aprecia que cuando n crece la proximidad entre la funci´on de distribuci´on emp´ırica y la te´orica es cada vez mayor.

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 50CAP´ITULO 3. ESTIMACION F.d. de la N(0,1) y f.d.e. de dos muestras suyas con n=10 y n=100 1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0 −3

−2

−1

0

.

3.1.2.

1

2

.

Principio de sustituci´ on

En esta secci´on presentamos una consecuencia importante de la convergencia de Fn a F , la definici´on de estimadores mediante el principio de sustituci´on. La convergencia de Fn a F permite construir versiones factibles de caracter´ısticas poblacionales desconocidas. Supongamos que estudiamos una caracter´ıstica X en una poblaci´on y que el resultado de la observaci´on de X puede ser modelizado como una variable aleatoria con distribuci´on desconocida, digamos F . Muchas de las preguntas relevantes acerca de la caracter´ıstica X podr´ıan ser contestadas si su funci´on de distribuci´on F fuese conocida (por ejemplo el valor esperado, el n´ umero de modas de la distribuci´on o la probabilidad de que X sea negativa). Para fijar ideas podemos pensar que nos interesa conocer cantidades num´ericas (par´ ametros) que dependen u ´nicamente de la funci´on de distribuci´on desconocida F : θ = ψ(F ).

´ DE DISTRIBUCION ´ EMP´IRICA Y EL METODO ´ 3.1. LA FUNCION DE LOS MOMENTOS51 El teorema de Glivenko-Cantelli nos dice que Fn se acerca a F , a medida que el tama˜ no muestral crece. As´ı, podemos esperar que tambi´en se verifique que θˆn = ψ(Fn ) −→ θ = ψ(F ), es decir, esperamos que las cantidades num´ericas calculadas para la distribuci´on emp´ırica (estimadores) se aproximen a las cantidades desconocidas a medida que el tama˜ no muestral crezca. Se puede probar que este resultado es cierto bajo hip´otesis de regularidad bastante generales de las funciones ψ que asignan n´ umeros a funciones de distribuci´on. Esta forma de obtener estimadores de par´ametros poblacionales desconocidos ´ n (plug-in principle en ingl´es). Es un se denomina principio de sustitucio procedimiento muy general de obtenci´on de estimadores.

Ejemplo 25 Sea X ∼ U (0, θ). Se toma una m.a.s. de X de tama˜ no n para estimar θ. Un estimador razonable de θ es el m´aximo de las observaciones, que es estad´ıstico minimal suficiente para θ: θˆ2 = m´ax Xi . i

´ Este es un estimador de θ basado en el principio de sustituci´on. En efecto, θ = sup{x ∈ IR : F (x) < 1}, y θˆ2 = m´ax Xi = sup{x ∈ IR : Fn (x) < 1}. i

.

3.1.3.

.

El m´ etodo de los momentos

Una aplicaci´on del principio de sustituci´on es la definici´on de los estimadores basados en momentos. El momento no centrado de orden k de una variable aleatoria X con distribuci´on F se define como Z k µk = EF (X ) = xk dF (x). Si Xe es una variable aleatoria con funci´on de distribuci´on igual a Fn , la funci´on de distribuci´on emp´ırica de una m.a.s. de tama˜ no n de X, se tiene que sus momentos no centrados (a los que llamaremos mk,n ) son de la forma Z mk,n =

EFn (Xek )

=

n

xk dFn (x) =

1X k X , n i=1 i

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 52CAP´ITULO 3. ESTIMACION y se denominan momentos muestrales no centrados de orden k. Por ejemplo, µ1 es la esperanza poblacional y m1,n la media muestral. La siguiente proposici´on garantiza que los momentos muestrales convergen a los poblacionales. Proposici´ on 2 Sea X variable aleatoria con E(X 2k ) < ∞. Entonces se verifica que mk,n −→ µk casi seguro. Adem´ as, √ n(mk,n − µk ) p −→D Z, µ2k − µ2k con Z ∼ N (0, 1). Se tiene adem´ as la convergencia de la distribuci´ on conjunta de los k primeros momentos muestrales: ¤ √ £ n (m1,n , . . . , mk,n )t − (µ1 , . . . , µk )t −→D Nk ( 0 , Σ), e donde Σ es una matriz (k × k) con elemento (i, j) gen´erico σij = µi+j − µi µj . Demostraci´ on: La demostraci´on es inmediata. Se basa en la aplicaci´on de la ley fuerte de los grandes n´ umeros y el teorema central del l´ımite, dado que si definimos Yi = Xik entonces mk,n = Y¯n . La u ´ltima parte se sigue del teorema central del l´ımite multivariante. 2 Muchas caracter´ısticas poblacionales de inter´es se pueden expresar como funci´on de los momentos no centrados de ´ordenes 1, . . . , k: θ = h(µ1 , . . . , µk ). Por ejemplo, la varianza de X se expresa como σ 2 = h(µ1 , µ2 ) = µ2 − µ21 . El estimador de θ basado en el principio de sustituci´on se conoce como estimador de los momentos de θ y ser´a θˆn = h(m1,n , . . . , mk,n ). Obs´ervese que el estimador de los momentos de θ puede no ser u ´nico, porque diferentes funciones h pueden conducir al mismo valor θ. La siguiente proposici´on establece el comportamiento asint´otico del estimador de los momentos de θ. Proposici´ on 3 Consideremos la variable aleatoria X con E(X 2k ) < ∞. Sea θ = h(µ1 , . . . , µk ). Si h es continua en (µ1 , . . . , µk ), entonces θˆn = h(m1,n , . . . , mk,n ) converge a θ casi seguro. Adem´ as, si h es derivable en (µ1 , . . . , µk ), entonces la distribuci´ on l´ımite de θˆn es normal: √ 2 n(θˆn − θ) −→D N (0, σh,θ ).

´ 3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD

53

Demostraci´ on: La demostraci´on de la convergencia casi segura se sigue directamente de la de continuidad de h y de la convergencia casi segura de los momentos muestrales a los poblacionales. La demostraci´on de la normalidad asint´otica queda pospuesta hasta que se haya introducido en la secci´on 4.3 el m´etodo delta. 2

Ejemplo 25, p´ agina 51. Continuaci´ on. Se toma una m.a.s. de X de tama˜ no n de una U (0, θ) para estimar θ. El estimador de momentos θˆM de θ viene dado por la sigiente relaci´on: E(X) =

θˆM θ =⇒ m1,n = =⇒ θˆM = 2m1,n = 2X. 2 2 .

.

Ejemplo 26 Otros esimadores basados en el m´etodo de los momentos son los siguientes: 1. Para una variable aleatoria X con varianza finita, Vd (X) = (n − 1)Sn2 /n. ˆ = 1/X. 2. Si X ∼ Exp(λ) con E(X) = 1/λ, entonces λ 3. Si X ∼ B(n, p) entonces pˆ = X y Vd (X) = pˆ(1 − pˆ). ˆ 1 = X es estimador 4. Si X ∼ Poisson(λ) entonces E(X) = λ. Por lo tanto λ 2 de momentos. Adem´as, λ = V (X) = µ2 − µ1 . Por tanto, 2 ˆ 2 = m2,n − m2 = (n − 1)Sn λ 1,n n

es tambi´en un estimador basado en momentos. Es preferible λ1 porque en su definici´on s´olo interviene el momento de orden 1.

.

3.2.

.

Estimadores de m´ axima verosimilitud

Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de una variable aleae toria X con funci´on de densidad (o de masa de probabilidad) f ( x |θ), con e θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk . Sea X el espacio muestral, es decir, el conjunto

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 54CAP´ITULO 3. ESTIMACION ´ n de verosimide todos los posibles valores de X . Hemos definido la funcio e litud para x = (x1 , . . . , xn ) ∈ X como e L(·| x ) : e

Θ θ

−→ IR+ Qn −→ L(θ| x ) = f ( x |θ) = i=1 f (xi |θ) e e

´xima verosimilitud θˆ de θ Para cada muestra x ∈ X , el estimador de ma e es el valor de Θ que hace m´axima la verosimilitud L(·| x ): e ˆ x ) = m´ax L(θ| x ). L(θ| θ∈Θ e e Intuitivamente θˆ es el valor del par´ametro que hace m´as veros´ımil la muestra observada. Veremos m´as adelante que los estimadores de m´axima verosimilitud son muy buenos estimadores y que en general tienen propiedades de optimalidad. Adem´as, en muchas ocasiones el estimador m´aximo veros´ımil es el que el sentido com´ un nos llevar´ıa a proponer.

Ejemplo 27 X ∼ exp(λ) =⇒ f (x|λ) = λe−λx I[0,∞) (x), λ > 0. Se toma una muestra de tama˜ no n = 1 y se observa x = 3. Estudiamos la funci´on de verosimilitud L(λ|3) = λe−3λ y buscamos su m´aximo para λ > 0. Buscamos los valores de λ que anulan la derivada de L(λ|3): L0 (λ|3) = e−3λ (1 − 3λ); L0 (λ|3) = 0 =⇒ λ =

1 3

Como L(λ|3) ≥ 0 y l´ım L(λ|3) = l´ım L(λ|3) = 0

λ−→0

λ−→∞

se sigue que el punto cr´ıtico de L(λ|3) es un m´aximo. As´ı, ˆ = 1. λ 3 .

.

Ejemplo 28 Nos regalan una bolsa de lacasitos. Nos dicen que la proporci´on de caramelos de cada color es la misma pero no nos dicen de cu´antos colores distintos pueden ser los caramelos. Se trata de estimar por m´axima verosimilitud k, el n´ umero de colores, a partir de la observaci´on de n caramelos.

´ 3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD

55

Supongamos que escogemos 3 caramelos y observamos verde, blanco y verde. Anotamos x1 = V BV . Si k es el n´ umero de colores, la probabilidad de observar dos colores distintos en los tres caramelos es P(x1 |k) = L(k|x1 ) = P(el segundo diferente al primero)P(el tercero es como el primero) = k−1 k−11 = . k k k2 Esta funci´on de k toma los valores siguientes, y tal como puede apreciarse es decreciente: k (k − 1)/k 2

2 1 = 0,25 4

3 2 = 0,2222 9

4 3 = 0,1875 16

··· (decrece en k)

As´ı, el estimador m´aximo veros´ımil de k es ˆ BV ) = 2. k(V Sacamos otro caramelo y vemos que es de color naranja. Anotamos x2 = V BV N . La verosimilitud de la muestra es ahora L(k|x2 ) = P(x2 |k) =

k−11k−2 (k − 1)(k − 2) = k k k k3

cuyos primeros valores son los siguientes:

k L(k|x2 )

3 2 = ,0741 27

4 3 = ,0938 32

5 12 = ,096 125

6 5 = ,0926 54

7 30 = ,0875 343

Para k ≥ 6 la funci´on L(k|x2 ) es decreciente en k. Por tanto el estimador m´aximo veros´ımil de k es ˆ BV N ) = 5. k(V Obs´ervese que, pese a haber observado s´olo cuatro caramelos y a haber visto u ´nicamente tres colores distintos, el estimador m´aximo veros´ımil indica que hay dos colores que a´ un no hemos visto. . .

El problema de hallar el estimador m´aximo veros´ımil es un problema de optimizaci´on. Por lo tanto, todas las t´ecnicas anal´ıticas y num´ericas de optimizaci´on que conocemos pueden resultarnos u ´tiles para estimar por m´axima verosimilitud. Tambi´en hay que tener la misma precauci´on con lo resultados obtenidos: hay que comprobar las condiciones de segundo orden para asegurarnos de que un punto cr´ıtico es efectivamente un m´aximo, puede haber m´as de un m´aximo

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 56CAP´ITULO 3. ESTIMACION global, puede haber varios m´aximos locales, el ´optimo puede estar en la frontera del espacio param´etrico, podemos tener una funci´on objetivo (la verosimilitud) que sea pr´acticamente plana cerca del m´aximo y esto dificulta la b´ usqueda por m´etodos num´ericos. Como norma general, si la dimensi´on del espacio param´etrico es 1 o 2, es conveniente hacer un gr´afico de la funci´on de verosimilitud frente a los diferentes valores de los par´ametros. Esto puede ayudar a detectar algunos de los problemas que mencionamos antes.

3.2.1.

C´ alculo del estimador m´ aximo veros´ımil

Si la funci´on de verosimilitud L( θ | x ) es derivable en θi , las soluciones de e e las ecuaciones de primer orden, ∂ L( θ |x) = 0, j = 1, . . . , k, ∂θj e son candidatas a ser el estimador m´aximo veros´ımil. Los ceros de las primeras derivadas no son necesariamente m´aximos de la funci´on de verosimilitud: pueden ser m´aximos locales o globales, m´ınimos locales o globales o puntos de inflexi´on. Para asegurar que la soluci´on encontrada es un m´aximo (local o global) hay que comprobar que las segundas derivadas sean definidas negativas. Por otra parte, este procedimientos s´olo permite localizar extremos en el interior del espacio param´etrico Θ. Podr´ıa ser que L(θ| x ) alcanzase su valor e m´aximo en la frontera de Θ. Ejemplo 29 X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IR:

Pn 2 1 L(µ| x ) = (2π)−n/2 e− 2 i=1 (xi −µ) e Calculamos la primera derivada de L respecto a µ: n X d L(µ| x ) = − (xi − µ)L(µ| x ); dµ e e i=1

luego

n

X d L(µ| x ) = 0 =⇒ (xi − µ) = 0 =⇒ µ ˆ = x. dµ e i=1

As´ı pues, µ ˆ = x es un candidato a ser el estimador m´aximo veros´ımil. Tenemos que comprobar que es un m´aximo global de L(µ| x ). e En primer lugar, constatamos que x es el u ´nico punto cr´ıtico del interior del espacio param´etrico Θ = IR. En segundo lugar, calculamos la derivada segunda: "Ã ! # n X d2 2 −n + ( (xi − µ)) L(µ| x ) L(µ| x )|µ=x = = −nL(x| x ) < 0. dµ2 e e e i=1 µ=x

´ 3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD

57

As´ı pues, x es un m´aximo y es el u ´nico extremo del interior del espacio param´etrico. Por u ´ltimo, analizamos el comportamiento de L(µ| x ) en la frontera: en este e caso ±∞. Vemos que l´ım L(µ| x ) = 0. x−→±∞ e Concluimos entonces que µ ˆ = x es el estimador m´aximo veros´ımil. La u ´ltima comprobaci´on (comportamiento de L(µ| x ) en ±∞) no es estrictamente necesae ria, porque si en +∞ o −∞ hubiese un m´aximo, forzosamente tendr´ıa que haber un m´ınimo relativo en el interior de Θ = IR (dado que x es m´aximo relativo) y eso no ocurre. . .

En ocasiones es posible buscar el m´aximo de L(θ, x ) directamente, usando e propiedades espec´ıficas de esa funci´on de verosimilitud concreta. Esto puede ser u ´til si las ecuaciones obtenidas al igualar a cero las derivadas de L resultan complicadas. No hay una metodolog´ıa general que seguir y, por tanto, este procedimiento alternativo requiere m´as habilidad que el basado en el c´alculo de derivadas. Por ejemplo, se puede probar que hay una cota superior de la verosimilitud y que ´esta se alcanza en un valor del par´ametro. Ello implica que ese valor es el estimador m´aximo veros´ımil.

Ejemplo 29, p´ agina 56. Continuaci´ on. La verosimilitud es decreciente en Pn 2 el estimador m´aximo veros´ımil es equivalente a i=1 (xi − µ) , luego encontrar Pn encontrar el m´ınimo de i=1 (xi − µ)2 . Obs´ervese que, por el Teorema 1, n X i=1

(xi − µ)2 =

n X

(xi − x)2 + (x − µ)2 ≥

i=1

Pn

n X

(xi − x)2 .

i=1 2

Adem´as, la cota inferior i=1 (xi −x) se alcanza si hacemos µ = x. Se concluye Pn que x es m´ınimo absoluto de i=1 (xi −µ)2 y, por tanto, es tambi´en el estimador m´aximo veros´ımil. . . Muy a menudo es m´as sencillo trabajar con el logaritmo de la verosimilitud que hacerlo con la propia funci´on. Dado que el logaritmo es una funci´on estrictamente creciente, los extremos de la funci´on de verosimilitud se alcanzan en los mismos puntos (y tienen las mismas caracter´ısticas) en los que se alcancen los extremos de su logaritmo. Denotaremos por l (θ| x ) al logaritmo de la funci´on de verosimilitud: e l (θ| x ) = log L(θ| x ). e e

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 58CAP´ITULO 3. ESTIMACION Ejemplo 30 X1 , . . . , X n muestra aleatoria simple de X ∼ Bern(p), p ∈ Θ = [0, 1]. e Pn Pn L(p| x ) = p i=1 xi (1 − p)n− i=1 xi =⇒ e n n X X l (p| x ) = ( xi ) log p + (n − xi ) log(1 − p) =⇒ e i=1 i=1 Pn Pn n − i=1 xi d i=1 xi l (p| x ) = − . dp p 1−p e Pn Distinguiremos tres casos, seg´ un sea el valor de i=1 xi . Si suponemos que Pn 0 < i=1 xi < n

Pn n n X X xi d l (p| x ) = 0 =⇒ (1 − p)( xi ) = (n − xi )p =⇒ pˆ = i=1 = x ∈ (0, 1). dp n e i=1 i=1 Pn xi pˆ = i=1 = x es el u ´nico extremo en el interior de Θ, es decir, en (0, 1). Con n la segunda derivada comprobamos que se trata de un m´aximo: Pn · Pn ¸ n − i=1 xi d2 i=1 xi l (p| x )| = − − = p=pˆ dp2 p2 (1 − p)2 e p=pˆ −

nˆ p n(1 − pˆ) 1 − = −n < 0. pˆ2 (1 − pˆ)2 pˆ(1 − pˆ)

Concluimos que el u ´nico valor posible del estimador m´aximo veros´ımil en (0, 1) es pˆ, donde la verosimilitud valdr´ıa µ L(ˆ p| x ) = e

pˆ 1 − pˆ

¶npˆ (1 − pˆ)n > 0.

Estudiamos el valor de L(p| x ) en la frontera, es decir, en p = 0 y p = 1: e L(0| x ) = L(1| x ) = 0 < L(ˆ p| x ). e e e Concluimos que pˆ es el estimador m´aximo veros´ımil de p, en el caso de que Pn 0 < i=1 xi < n. Pn En segundo lugar, si i=1 xi = 0, L(p| x ) = (1 − p)n , e funci´on decreciente en p, luego el estimador m´aximo veros´ımil de p es 0 = x = pˆ. Pn Por u ´ltimo, si i=1 xi = n, L(p| x ) = pn , e funci´on creciente en p, luego el estimador m´aximo veros´ımil de p es 1 = x = pˆ.

´ 3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD

59

En resumen, el estimador m´aximo veros´ımil de p es Pn xi pˆ = i=1 . n .

.

Es importante asegurarse que el estimador m´aximo veros´ımil propuesto pertenece al espacio param´etrico.

Ejemplo 31 X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ≥ 0. Ya hemos visto en el ejemplo 29 que si Θ = IR entonces el estimador m´aximo veros´ımil de µ es µ ˆ = x. Por lo tanto ´este tambi´en ser´a el estimador m´aximo veros´ımil en el presente problema si x ≥ 0. En el caso de que x < 0 es inmediato probar que L(µ| x ) es funci´on decreciente en µ si µ > x. Por lo tanto, en este e caso el estimador m´aximo veros´ımil de µ es 0. Resumiendo, el estimador m´aximo veros´ımil de µ cuando θ = [0, ∞) es ½ µ ˆ=

.

0 x

si si

x l (µ, σ 2 | x ) para todo σ 2 . e e

´ 3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD

63

Ahora s´olo hay que probar que l (x, σ 2 | x ) alcanza su m´aximo como funci´on unie variante de σ 2 en σ ˆ 2 . De esta forma hemos reducido el problema bidimensional a uno unidimensional. En segundo lugar, podemos probar que (x, σ ˆ 2 ) es m´aximo de l mediante el c´alculo de las primeras y segundas derivadas parciales. Hay que comprobar que el punto anula las primeras derivadas y que la matriz hessiana es definida negativa, es decir, se ha de verificar lo siguiente: 1.

¯ ¯ ∂ ¯ l ((θ1 , θ2 )| x )¯ ∂θj e ¯

2.

= 0, j = 1, 2. θ1 =x,θ2 =ˆ σ2

¯ ¯ ∂2 ¯ l ((θ , θ )| x ) ¯ 1 2 ∂θj2 e ¯

< 0, θ1 =x,θ2 =ˆ σ2

al menos para j = 1 o j = 2. 3. J

(2)

¯ ¯ ¯ =¯ ¯

∂2 l ((θ1 , θ2 )| x ) ∂θ12 e ∂2 l ((θ1 , θ2 )| x ) ∂θ1 ∂θ22

e

∂2 ∂θ1 ∂θ2 l ((θ1 , θ2 )| x ) e ∂2 l ((θ1 , θ2 )| x ) ∂θ22

e

¯ ¯ ¯ ¯ ¯

>0 θ1 =x,θ2

=ˆ σ2

El primer punto ya se comprob´o anteriormente, pues (x, σ ˆ 2 ) fueron encontrados precisamente como los valores que anulaban las primeras derivadas. Calculemos las segundas derivadas: ∂2 n l ((µ, σ 2 )| x ) = − 2 ∂µ2 σ e n ∂2 n 1 X 2 (xi − µ)2 l ((µ, σ )| x ) = − ∂(σ 2 )2 2σ 4 σ 6 i=1 e n ∂2 1 X l ((µ, σ 2 )| x ) = − 4 (xi − µ). ∂µ∂(σ) σ i=1 e

Observad que cuando se particularizan estas derivadas segundas en θˆ se obtiene lo siguiente: n ∂2 l ((µ, σ 2 )| x )|x,ˆσ2 = − 2 < 0 ∂µ2 σ ˆ e 1 n ∂2 n l ((µ, σ 2 )| x )|x,ˆσ2 = − 6 nˆ σ2 = − 4 < 0 ∂(σ 2 )2 2ˆ σ4 σ ˆ 2ˆ σ e ∂2 l ((µ, σ 2 )| x )|x,ˆσ2 = 0 ∂µ∂(σ) e

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 64CAP´ITULO 3. ESTIMACION As´ı, se verifica tambi´en el segundo punto de la lista anterior. Veamos el tercero, sobre el signo del determinante de la matriz hessiana: ¯ ¯ ¯ − n2 n2 0 ¯¯ > 0 para todo σ 2 J (2) = ¯¯ σ n ¯= − 2σ4 0 2σ 6 Se concluye que (x, σ ˆ 2 ) es el m´aximo de la funci´on de verosimilitud. Para ser estrictos, a´ un se deber´ıa probar que (x, σ ˆ 2 ) es el u ´nico punto cr´ıtico del interior del espacio param´etrico (esto es inmediato, porque es la u ´nica soluci´on de las condiciones de primer orden) y que el m´aximo no se alcanza en la frontera (cuando µ = ±∞, σ 2 = 0 o σ 2 = ∞). Esto u ´ltimo obligar´ıa a la existencia de otros puntos cr´ıticos en el interior del espacio param´etrico, lo cual es absurdo. En general se intenta probar la condici´on de m´aximo sin recurrir al c´alculo de las segundas derivadas. . .

Estimador m´aximo verosimil con datos censurados El siguiente es un ejemplo de estimaci´on m´aximo veros´ımil que se aparta del marco cl´asico de observaciones i.i.d.

Ejemplo 35 Sean X1 , . . . , Xn muestra aleatoria simple de X ∼ exp(λ). En este contexto el ˆ = 1/x. estimador m´aximo veros´ımil de λ es λ Supongamos que no observamos todas las variables, sino s´olo las m primeras, y que de las restantes (n − m) s´olo sabemos que toman valores mayores que T : Xj > T , j = m + 1, . . . , n. Se dice entonces que esos valores han sido censurados. En este caso, la verosimilitud es m n Y Y L(λ| x ) = f (xi |λ) (1 − F (T |λ)) = e i=1 i=m+1 m Y i=1

λe−λxi

n Y

e−λT = λm e−λ

Pm i=1

xi −λT (n−m)

e

i=,+1 m X l (λ| x ) = m log λ − λ xi − λT (n − m). e i=1

Derivando e igualando a 0: m

d m X l (λ| x ) = − xi − T (n − m) = 0 =⇒ dλ λ e i=1 m . x + (n − m)T i=1 i

ˆ = Pm λ

=⇒

´ 3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD

65

Comprobamos que es m´aximo: d2 m l (λ| x ) = − 2 < 0 para todo λ. 2 dλ λ e ˆ es el estimador m´aximo veros´ımil de λ en el caso de datos Concluimos que λ censurados. La variable aleatoria exp(λ) suele modelizar tiempos de vida (o tiempos de funcionamiento hasta fallar) de individuos o mecanismos. En ese caso λ es la tasa de fallo, la cantidad de fallos por unidad de tiempo. Obs´ervese que tanto en el caso usual sin censura como en el caso con censura el inverso del estimador m´aximo veros´ımil de λ es el cociente de la suma total de los tiempos de vida (o en funcionamiento) entre el n´ umero de muertes (o fallos) observadas. . .

3.2.2.

C´ alculo num´ erico de los estimadores de m´ axima verosimilitud

Como ya se dijo anteriormente, en la pr´actica el c´alculo del estimador m´aximo veros´ımil se reduce a resolver un problema de optimizaci´on de una funci´on (en general no lineal) de k variables, posiblemente sujeto a restricciones. Recordaremos en esta secci´on algunas t´ecnicas num´ericas para llevar a cabo esa optimizaci´on. Lo expuesto aqu´ı est´a basado en Bertsekas (1999). Buscaremos el m´aximo del logaritmo de la verosimilitud, dado que esta funci´on es en general m´as f´acil de tratar num´ericamente que la verosimilitud. Los algoritmos presentados no contemplan la posibilidad de tener restricciones sobre los par´ametros. Si los par´ametros est´an sujetos a restricciones del tipo cotas simples (por ejemplo, α > 0 en una distribuci´on gamma) una transformaci´on logar´ıtmica del par´ametro transforma el problema en otro sin restricciones en los par´ametros (por ejemplo, en la distribuci´on gamma se reparametriza mediante α∗ = log(α) y as´ı el nuevo par´ametro α∗ puede tomar cualquier valor real). El problema es siempre m´axθ∈IRk l (θ| x ). Como la muestra x est´a fija en e e todo el proceso, escribiremos l (θ) en lugar de l (θ| x ). Llamaremos θ∗ al m´aximo e de l (θ).

M´etodo de Newton-Raphson Se trata (al igual que los m´etodos siguientes) de un procedimiento iterativo que proporciona una sucesi´on {θn }n≥1 que converge al ´optimo θ∗ . Consideremos una estimaci´on inicial θ0 de θ∗ que puede haber sido obtenida, por ejemplo, por el m´etodo de los momentos. El m´etodo de Newton-Raphson aproxima la funci´on l (θ) en un entorno de θ0 por la funci´on cuadr´atica que en ese punto θ0 tiene en com´ un con l (θ) el valor de la funci´on y los valores de

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 66CAP´ITULO 3. ESTIMACION las dos primeras derivadas. Llamemos l˜0 (θ) a esa funci´on cuadr´atica. De hecho, l˜0 (θ) es el desarrollo en serie de Taylor de orden 2 de l (θ) alrededor de θ0 .

Ejemplo 36 Si k = 1, l˜0 (θ) = a + bθ + cθ2 . Los valores de a, b y c se obtienen al resolver el sistema  ˜  l 0 (θ0 ) = l (θ0 ) l˜ 0 (θ ) = l 0 (θ0 )  ˜0 00 0 l 0 (θ0 ) = l 00 (θ0 ) El resultado es el mismo si se hace directamente el desarrollo de Taylor de l : 1 l˜0 (θ) = l (θ0 ) + (θ − θ0 )l 0 (θ0 ) + (θ − θ0 )2 l 00 (θ0 ). 2 .

.

El primer punto en la sucesi´on, θ1 , es el punto donde se alcanza el m´aximo de la funci´on cuadr´atica aproximadora. El proceso se itera y as´ı se construye la sucesi´on {θn }n≥1 que, bajo condiciones generales (por ejemplo, si la funci´on de verosimilitud es c´oncava), converge al ´optimo θ∗ : θ0

−→

l˜0 (θ) l˜1 (θ) l˜2 (θ) .. . l˜m−1 (θ) .. .

−→ θ1 . −→ θ2 . −→ θ3 . .. .. . . . −→ θm . .. .. . . ↓ θ∗

Veamos que este algoritmo puede resumirse anal´ıticamente dando la f´ormula que permite calcular cada punto de la sucesi´on en funci´on del punto anterior. Como hemos dicho, l˜m (θ) es el desarrollo en serie de Taylor de orden 2 de l (θ) alrededor de θm : 1 l˜m (θ) = l (θm ) + ∇l (θm )t (θ − θm ) + (θ − θm )t Hl (θm )(θ − θm ) 2

´ 3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD

67

donde ∇l (θm ) ∈ IRk es el vector gradiente de l en θm , que tiene por componente j-´esima la derivada parcial de l respecto a la coordenada j-´esima de θ calculada en el punto θm , y Hl (θm ) es la matriz hessiana de l en θm , una matriz k×k cuyo elemento (i, j) es la segunda derivada de l respecto a las cordenadas i-´esima y j-´esima, calculadas en el punto θm . La maximizaci´on de l˜m es factible anal´ıticamente. Su gradiente es ∇l˜m (θ) = ∇l (θm ) + Hl (θm )(θ − θm ). Igual´andolo a 0 se obtiene el punto θm+1 : −1

∇l (θm ) + Hl (θm )(θ − θm ) = 0 =⇒ θm+1 = θm − (Hl (θm ))

∇l (θm ).

Este punto θm+1 es m´aximo de l (θm ) si Hl (θm ) es definida negativa, ya que H l˜m (θ) = Hl (θm ). Pero si θm est´a suficientemente cerca de θ∗ y l (θ) es una funci´on suave (segundas derivadas continuas) entonces Hl (θm ) ser´a definida negativa por serlo Hl (θ∗ ). As´ı, θm+1 = θm − (Hl (θm ))

−1

∇l (θm )

es la f´ormula recursiva que nos da θm+1 en funci´on de θm , m ≥ 0. Aplicaremos la recursi´on hasta convergencia, es decir, hasta que ||θm+1 − θm || < ε, para un ε prefijado. Una condici´on suficiente, aunque no necesaria, para que el algoritmo converja es que l sea c´oncava.

M´etodo de los scores de Fisher Se trata de una modificaci´on del m´etodo de Newton-Raphson. En la iteraci´on θm+1 = θm − (Hl (θm ))

−1

∇l (θm )

se sustituye el hessiano por su valor esperado. No olvidemos que l (y por lo tanto, su gradiente y su matriz hessiana) depende de θ y tambi´en de la muestra x observada. Podemos entonces tomar esperanzas: e D = Eθm (Hl (θm | X )), e que es la matriz de informaci´on de Fisher cambiada de signo. La principal ventaja te´orica que se deriva de esta sustituci´on es que se garantiza la convergencia del algoritmo. En efecto, bajo condiciones de regularidad (que permiten intercambiar los signos de la derivada y de la integral; en la secci´on 4.2 se volver´a sobre esto) se puede probar que Eθ (∇l (θ)) = 0, y Vθ (∇l (θ)) = Eθ (∇l (θ)∇l (θ)t ) = −E(Hl (θ| X )) e

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 68CAP´ITULO 3. ESTIMACION de donde se deduce que D = Eθm (Hl (θm | X )) es definida negativa, lo cual e garantiza la convergencia del algoritmo. No obstante, es posible que la convergencia del algoritmo modificado sea m´as lenta que la del algoritmo de Newton-Raphson puro, en caso de que ambos converjan. Una ventaja pr´actica de este algoritmo es que en el c´alculo de D s´olo intervienen derivadas de primer orden (el gradiente del logaritmo de la verosimilitud) mientras que en el algoritmo original se necesita calcuar la matriz hessiana. Por contra, ahora hay que calcular una esperanza. En este sentido, ser´a preferible uno u otro algoritmo seg´ un sea la dificultad de calcular ! Ã ∂l ∂l dij = −E ∂θi ∂θj y hij =

∂ 2l . ∂θi ∂θj

Al vector gradiente, ∇l (θ), tambi´en se le llama vector de scores, lo cual justifica el nombre del algoritmo.

Ejemplo 37 Veamos que en el caso de familias exponenciales parametrizadas de forma natural ambos algoritmos son, de hecho, el mismo porque la matriz hessiana no depende de la muestra observada. La verosimilitud de una muestra es   Ã n ! k Y X h(xi ) c(θ)n exp  θj Tj ( x ) , L(θ| x ) = e e i=1 j=1 donde Tj ( x ) = e

Pn

i=1 tj (xi ),

y su logaritmo,

k X l (θ| x ) = K + n log c(θ) + θj Tj ( x ), e e j=1

donde K es cierta constante. As´ı, ∂ l (θ) ∂ log c(θ) =n + Tj ( x ) ∂θj ∂θj e y

∂ 2 l (θ) ∂ 2 log c(θ) =n ∂θi ∂θj ∂θi ∂θj

que es constante en la muestra, por lo que es igual a su valor esperado. Se sigue que Hl = E(Hl ) = D. . .

´ 3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD

69

M´etodo de Nelder-Mead Es un m´etodo de b´ usqueda directa que no requiere ni primeras ni segundas derivadas de la funci´on objetivo, s´olo es necesario poder evaluar la funci´on que queremos maximizar. En cada iteraci´on del algoritmo se parte de un conjunto de (k + 1) puntos de IRk , θ1 , . . . , θk+1 , θj ∈ IRk , tales que su envoltura convexa tenga interior no vac´ıo: esos puntos forman un simplex en IRk . El resultado de cada iteraci´on es otro simplex. Se espera que el volumen del simplex vaya decreciendo de iteraci´on en iteraci´on y que el valor de la funci´on objetivo crezca al pasar de los puntos de un simplex a los del siguiente. La iteraci´on t´ıpica del algoritmo de Nelder-Mead es como sigue: Paso 0 Se parte de θ1 , . . . , θk+1 . Se definen θm´ın = arg m´ın l (θi ), θm´ax = arg m´ax l (θi ), i=1...k

i=1...k

Ãk+1 ! 1 X ˆ θi − θm´ın θ= k i=1

El punto θˆ es el punto medio de la cara opuesta a θm´ın . Paso 1 Definir θref = θˆ + (θˆ − θm´ın ). Si l (θref ) > l (θm´ax ) =⇒ Paso 2. (θref es mejor que los otros puntos del simplex). Si l (θm´ax ) > l (θref ) > m´ın{l (θi ) : θi 6= θm´ın } =⇒ Paso 3. Si l (θref ) < m´ın{l (θi ) : θi 6= θm´ın } =⇒ Paso 4. Paso 2 Intentar expansi´on.

Sustituir θm´ın simplex.

ˆ θexp = θref + (θref − θ) ½ θexp si l (θexp ) > l (θref ) θnew = θref en otro caso por θnew en el simplex. Volver al Paso 0 con el nuevo

Paso 3 Usar el punto reflejado. θnew = θref Sustituir θm´ın por θnew en el simplex. Volver al Paso 0 con el nuevo simplex. Paso 4 Contraer el simplex. ( θnew =

1 ˆ 2 (θm´ın + θ) si l (θm´ın ) ≥ l (θref ) 1 ˆ 2 (θref + θ) si l (θm´ın ) < l (θref )

Sustituir θm´ın por θnew en el simplex. Volver al Paso 0 con el nuevo simplex.

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 70CAP´ITULO 3. ESTIMACION En la pr´actica funciona bien si la dimensi´on del espacio param´etrico es peque˜ na (k ≤ 10), como suele ser el caso en problemas de estimaci´on por m´axima versimilitud. No hay resultados te´oricos sobre la convergencia de este algoritmo. Si l (θ) es estr´ıctamente c´oncava, el algoritmo mejora la verosimilitud en cada iteraci´on. Esto se entiende en el sentido de que ocurre alguna de estas dos cosas: en cada iteraci´on, o bien l (θm´ın ) crece estrictamente, o bien, la cantidad de v´ertices del simplex θi en los que l (θi ) = l (θm´ın ) decrece en al menos una unidad.

3.2.3.

Principio de invariancia del estimador m´ aximo veros´ımil

Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ f (x|θ) y sea θˆ el estimador m´aximo veros´ımil de θ. Si estamos interesados en estimar una funci´on τ (θ) del ˆ Este ´ par´ametro, podemos hacerlo mediante τ (θ). es el resultado que garantiza el siguiente teorema y se conoce como principio de invariancia. Teorema 18 (Principio de invariancia) Si θˆ es el estimador m´ aximo veros´ımil de θ, entonces para cualquier funci´ on τ (θ) el estimador m´ aximo veros´ımil ˆ de τ (θ) es τ (θ). Demostraci´ on: Supondremos primero que τ es biyectiva. Definimos η = τ (θ) ⇐⇒ θ = τ −1 (η) y reparametrizamos la verosimilitud usando el nuevo par´ametro η en vez de θ: n Y L∗ (η| x ) = f (xi |τ −1 (η)) = L(τ −1 (η)| x ) =⇒ e e i=1

L∗ (ˆ η | x ) = sup L∗ (η| x ) = sup L(τ −1 (η)| x ) = η η e e e ˆ x ) = L∗ (τ (θ)| ˆ x ). sup L(θ| x ) = L(θ| e e e θ ˆ luego el estiPor lo tanto el m´aximo de L∗ (η| x ) se alcanza cuando ηˆ = τ (θ), e ˆ mador m´aximo veros´ımil de η = τ (θ) es τ (θ). Consideramos ahora el caso en que τ no es biyectiva. En este caso no es posible definir la verosimilitud L∗ (η| x ) como L(τ −1 (η)| x ) porque τ −1 (η) no e e est´a definido un´ıvocamente. Se define L∗ (η| x ), la verosimilitud inducida e por τ , como L∗ (η| x ) = sup L(θ| x ). e e {θ:τ (θ)=η} Con esta definici´on se verifica que el estimador m´aximo veros´ımil de τ (θ), τd (θ), ˆ es τ (θ). Efectivamente, sea ηˆ el estimador m´aximo veros´ımil de η = τ (θ), es

´ BAYESIANA 3.3. ESTIMACION

71

decir, el valor que verifica L∗ (ˆ η | x ) = sup L∗ (η| x ). η e e Por definici´on de L∗ , L∗ (ˆ η | x ) = sup L∗ (η| x ) = sup sup L(θ| x ) = η η {θ:τ (θ)=η} e e e ˆ x) = ˆ x ), sup L(θ| x ) = L(θ| sup L(θ| x ) = L∗ (τ (θ)| e e e e θ ˆ {θ:τ (θ)=τ (θ)} es decir, ˆ x ), L∗ (ˆ η | x ) = L∗ (τ (θ)| e e ˆ luego el m´aximo de la verosimilitud en η se alcanza si η = τ (θ).

2

Ejemplo 38 Si X ∼ N (µ, σ 2 ), el estimador m´aximo veros´ımil de µ2 es x2 . Si X ∼ B(n, p), el estimador m´aximo p p veros´ımil de p es pˆ = X/n y el estimador m´aximo veros´ımil de p(1 − p) es pˆ(1 − pˆ). . .

3.3. 3.3.1.

Estimaci´ on Bayesiana Distribuciones a priori y a posteriori

Consideremos un problema de inferencia estad´ıstica en el que las observaciones se toman de una variable aleatoria X que sigue una distribuci´on con funci´on de densidad (o funci´on de masa de probabilidad) f (x|θ), con θ ∈ Θ. En ocasiones se dispone de informaci´on sobre el par´ametro θ antes de recoger los datos. Esta informaci´on puede ser de tipo hist´orico (si se han realizado experimentos similares con anterioridad) o bien de tipo subjetivo (el investigador puede creer que ciertos valores de θ ∈ Θ son m´as plausibles que otros). Una forma de recoger la informaci´on previa sobre θ es definir una distribuci´on ´ n a priori de θ, de forma que de probabilidad sobre Θ, que se llama distribucio las regiones de Θ m´as probables a priori sean aquellas que contienen los valores de θ m´as plausibles seg´ un la informaci´on previa existente, antes de observar ning´ un valor de X. El concepto de distribuci´on a priori es muy controvertido. Algunos estad´ısticos defienden que en cualquier problema estad´ıstico se puede definir siempre una ley a priori para θ. Esta distribuci´on representa la informaci´on (hist´orica o subjetiva) del experimentador y se debe trabajar con ella siguiendo las reglas

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 72CAP´ITULO 3. ESTIMACION de la probabilidad. Por tanto, el par´ametro θ es considerado una variable aleatoria como cualquier otra, con la u ´nica peculiaridad de que no es observable. Lo que s´ı se observa es la variable aleatoria X condicionada al valor concreto (no observable) que toma θ. As´ı pues, el estudio de las observaciones de X aporta informaci´on sobre el valor de θ, informaci´on que debe combinarse con la distribuci´on a priori del par´ametro para modificarla. El resultado de esa actualizaci´on de la informaci´on se plasma de nuevo en una distribuci´on de probabilidad sobre ´ n a posteriori de θ, una vez observada la variable aleatoria Θ: la distribucio ´ X. Estos son los planteamientos b´asicos que conforman el enfoque bayesiano de la estad´ıstica. Otros estad´ısticos creen que en ocasiones no es apropiado hablar de una distribuci´on de probabilidad sobre Θ porque θ es una cantidad fija desconocida para el investigador. Otro de los aspectos de la inferencia bayesiana que a menudo recibe cr´ıticas es el grado de subjetividad a que est´a expuesto por el hecho de que es el experimentador quien define la distribuci´on a priori. En cualquier caso, en lo que hay coincidencia es en que si hay informaci´on sobre θ ´esta tiene que ser utilizada en la inferencia. Existen distribuciones a priori no informativas (por ejemplo con densidad o funci´on de masa plana en todo Θ) que se construyen sin usar informaci´on a priori y permiten hacer inferencia bayesiana objetiva. Para definirlas a veces es necesario recurrir a distribuciones a priori impropias (distribuyen una probabilidad infinita sobre Θ). Pese a su car´acter impropio permiten hacer inferencias correctas. Supondremos aqu´ı que existe informaci´on previa sobre θ y que ´esta se expresa mediante una distribuci´on a priori sobre Θ, cuya funci´on de densidad o funci´on de masa de probabilidad denotaremos por π(θ). Se toma una muestra aleatoria simple X1 , . . . , Xn de X ∼ f (x|θ). El objetivo es actualizar la distribuci´on a priori π(θ) con la ayuda de las observaciones x y teniendo en cuenta la forma e de f (x|θ), que indica c´omo se distribuye x, condicionada por valores de θ. Por el momento, supondremos que tanto X|θ como θ tienen funci´on de densidad. ´ n muestral (o La ley conjunta de X1 , . . . , Xn se denomina distribucio verosimilitud de la muestra) dado el valor del par´ametro: n Y f ( x |θ) = f (xi |θ). e i=1

La densidad conjunta de X y θ es e f ( x , θ) = f ( x |θ)π(θ). e e Como consecuencia, la marginal de X es e Z m( x ) = f ( x |θ)π(θ)dθ. e e θ

´ BAYESIANA 3.3. ESTIMACION

73

´ n a posteriori de θ como la ley condicional de θ Se define la distribucio dadas las observaciones x de X , cuya densidad se puede calcular por simple e e aplicaci´on del Teorema de Bayes: π(θ| x ) = e

f ( x |θ)π(θ) e , θ ∈ Θ. m( x ) e

En inferencia bayesiana se usa esta distribuci´on para realizar inferencias sobre θ. Por ejemplo, un estimador puntual de θ podr´ıa ser E(θ| x ). e La distribuci´on a posteriori nos informa sobre la verosimilitud relativa de que el verdadero valor de θ est´e en las distintas regiones del espacio param´etrico Θ despu´es de haber observado X1 , . . . , Xn . Obs´ervese que π(θ| x ) es proporcional al producto de la verosimilitud por la e a priori: π(θ| x ) ∝ f ( x |θ)π(θ). e e Esta relaci´on es suficiente para calcular π(θ| x ) dado que la restricci´on de que e su integral sea 1 permite calcular la constante 1/m( x ). e Ejemplo 39 Sea X el tiempo de vida en horas de un nuevo modelo de l´ampara fluorescente. Se supone que X ∼ exp(λ), con µ = E(X) = 1/λ. La informaci´on hist´orica acumulada sobre tiempos de vida de l´amparas similares indica que µ tiene media aproximadamente 5000 horas. De hecho, la distribuci´on que se propone como a priori para λ es igual a λ ∼ γ(α0 , β0 ), con E(λ) = α0 β0 = 1/5000 y V (λ) = α0 β02 = 0,0001, de donde se sigue que α0 β0 = 0,0002 y α0 β02 = 0,0001 =⇒ α0 = 4, β0 = 1/20000. As´ı, λ ∼ γ(4, 1/20000) y su funci´on de densidad es π(λ) =

200004 3 −20000λ λ e , λ > 0. (4 − 1)!

Se hace una prueba de vida en la que se ponen a funcionar 25 l´amparas del nuevo modelo hasta que se funden. Los resultados son ´estos: X1 = x1 , . . . , X25 = x25 ,

25 X

xi = 150000.

i=1

As´ı, la verosimilitud es f (x1 , . . . , x25 |λ) = λ25 e−λ

P25 i=1

xi

,

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 74CAP´ITULO 3. ESTIMACION y la densidad a posteriori de λ es f (x1 , . . . , x25 |λ)π(λ) π(λ|x1 , . . . , x25 ) = R ∞ . f (x1 , . . . , x25 |λ)π(λ)dλ o El numerador es f (x1 , . . . , x25 |λ)π(λ) = λ25 exp{−λ

25 X

xi }

i=1

200004 3 −20000λ λ e = 3!

25 X 200004 28 λ exp{−λ( xi + 20000)}, 6 i=1

y el denominador Z m(x1 , . . . , x25 ) = o



25 X 200004 28 λ exp{−λ( xi + 20000)}dλ. 6 i=1

P25 Si hacemos α = 29 y β = 1/( i=1 xi + 20000), podemos observar que esa integral es, salvo constantes, la integral de la funci´on de densidad de una variable aleatoria γ(α, β). Concretamente, 200004 28! m(x1 , . . . , x25 ) = P25 6 ( i=1 xi + 20000)29

Z o



fγ(α,β) (λ)dλ =

200004 28! . P 29 6 ( 25 i=1 xi + 20000) As´ı,

P25

π(λ|x1 , . . . , x25 ) =

xi +20000) 200004 28 −λ( i=1 λ e 6 28! 200004 P 25 6 ( xi +20000)29

=

i=1

(

P25 i=1

xi + 20000)29 28 −λ(P25 xi +20000) i=1 λ e 28!

de donde se deduce que 25 X λ|x1 , . . . , x25 ∼ γ(29, 1/( xi + 20000)). i=1

Por lo tanto, un estimador de λ podr´ıa ser ˆ = E(λ|x1 , . . . , x25 ) = P λ 25 i=1

29 xi + 20000

=

29 , 150000 + 20000

y, como consequencia, una estimaci´on de la vida media de las nuevas l´amparas es P25 xi + 20000 1 150000 + 20000 µ ˆ = = i=1 = = 5862 horas. ˆ 29 29 λ

´ BAYESIANA 3.3. ESTIMACION

75

Si us´asemos x como estimador de µ, obtendr´ıamos un valor de x=

150000 = 6000 horas. 25

Por lo tanto, la informaci´on a priori indica que no se debe ser tan optimista como se desprende del valor x = 6000: a pesar de que el nuevo dise˜ no de l´ampara tiene una vida media superior a las anteriores (la estimaci´on de µ es ahora de 5862 horas, superior a las 5000 horas iniciales) la informaci´on a priori rebaja la vida media desde las 6000 horas observadas hasta las 5862. . .

Observaciones secuenciales En muchos experimentos (en particular, en muchos ensayos cl´ınicos) las observaciones X1 , . . . , Xn se obtienen de forma secuencial. Esta secuenciaci´on permite actualizar progresivamente la informaci´on que se tiene sobre el par´ametro θ. En un principio la informaci´on a priori sobre θ es π(θ). Se observa X1 = x1 . Entonces π(θ|x1 ) ∝ f (x1 |θ)π(θ) recoge a partir de ese instante la informaci´on acumulada sobre θ. Por lo tanto π(θ|x1 ) act´ ua como distribuci´on a priori antes de obtener la segunda observaci´on. Cuando se observa X2 = x2 , π(θ|x1 , x2 ) ∝ f (x2 |θ)π(θ|x1 ) ∝ f (x2 |θ)f (x1 |θ)π(θ). Tras haber observado X1 = x1 , . . . , Xn = xn , π(θ|x1 , x2 , . . . , xn ) ∝ f (xn |θ)π(θ|x1 , x2 , . . . , xn−1 ) ∝ f (xn |θ) · · · f (x2 |θ)f (x1 |θ)π(θ) = f ( x |θ)π(θ). e Se observa as´ı que la distribuci´on a posteriori tras haber tomado n observaciones de X es la misma tanto si se toman ´estas de forma secuencial como si se toman simult´aneamente.

3.3.2.

Distribuciones conjugadas

Sea F la clase de las funciones de densidad (o de masa de probabilidad) de un modelo param´etrico f (x|θ) indexadas por θ: F = {f (x|θ) : θ ∈ Θ}. Sea una clase Π de distribuciones sobre Θ. Se dice que Π es una familia de distribuciones conjugadas para F si la distribuci´on a posteriori de θ dada la muestra x pertenece a Π para toda muestra x ∈ X , para toda a priori π ∈ Π e e y para toda verosimilitud f ∈ F.

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 76CAP´ITULO 3. ESTIMACION Teorema 19 Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(θ), 0 < θ < 1. Sea θ ∼ Beta(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 = x1 , . . . , Xn = xn es una à ! n n X X Beta α + xi , β + n − xi . i=1

i=1

Nota: Recordar que U (0, 1) ≡ Beta(1, 1). Demostraci´ on:

Γ(α + β) α−1 θ (1 − θ)β−1 Γ(α)Γ(β) Pn Pn =⇒ f ( x |θ) = θ i=1 xi (1 − θ)n− i=1 xi = L(θ| x ) e e

π(θ) = f (xi |θ) = θxi (1 − θ)1−xi As´ı,

Pn Γ(α + β) α−1 θ (1 − θ)β−1 = (1 − θ)n− i=1 xi Γ(α)Γ(β) Pn Γ(α + β) Pn xi +α−1 θ i=1 (1 − θ)n− i=1 xi +β−1 , Γ(α)Γ(β)

f ( x , θ) = θ e

y

Z

Pn

i=1

xi

Pn Γ(α + β) Pn xi +α−1 θ i=1 (1 − θ)n− i=1 xi +β−1 dθ = Γ(α)Γ(β) 0 Pn Pn Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β) × Γ(α)Γ(β) Γ(α + β + n) Pn Pn Γ(α + β + n) Pn Pn θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1 dθ = Γ(α + i=1 xi )Γ(n − i=1 xi + β) {z } ∞

m( x ) = e

Z |

0



=1

Pn Pn Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β) Γ(α)Γ(β) Γ(α + β + n) Calculamos ahora la densidad a posteriori: Γ(α)Γ(β) Γ(α + β + n) P P π(θ| x ) = × Γ(α + β) Γ(α + ni=1 xi )Γ(n − ni=1 xi + β) e Pn Γ(α + β) Pn xi +α−1 θ i=1 (1 − θ)n− i=1 xi +β−1 = Γ(α)Γ(β) Pn Pn Γ(α + β + n) Pn Pn θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1 Γ(α + i=1 xi )Γ(n − i=1 xi + β) Pn Pn y por lo tanto, θ| x tiene distribuci´on Beta(α + i=1 xi , β + n − i=1 xi ). 2 e Teorema 20 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ), 0 < θ. Sea θ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 = x1 , . . . , Xn = xn es una à ! n X −1 −1 γ α+ xi , (β + n) . i=1

´ BAYESIANA 3.3. ESTIMACION

77

Demostraci´ on: Para ciertas constantes K1 , K2 y K3 , se tiene que Pn π(θ) = K1 θα−1 e−θ/β , L(θ| x ) = K2 e−nθ θ i=1 xi =⇒ e Pn Pn −1 π(θ| x ) = K3 e−nθ θ i=1 xi θα−1 e−θ/β = K3 θα+ i=1 xi −1 e−(β +n)θ e ¢ ¡ Pn que corresponde con la densidad de una γ α + i=1 xi , (β −1 + n)−1 .

2

Los valores de las constantes usadas en la demostraci´on son Pn (α + i=1 xi − 1)! 1 1 Pn Q K1 = , K = , K = , 2 3 n (α − 1)!β α i i=1 xi ! (n + (1/β))α+ i=1 xi aunque no es necesario conocerlos para probar el resultado. Teorema 21 Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), −∞ < θ < ∞, σ 2 > 0 conocido. Sea θ ∼ N (µ, ν 2 ). La ley a posteriori de θ dadas las observaciones X1 = x1 , . . . , Xn = xn es una N (µ1 , ν12 ) con µ1 =

σ 2 µ + nν 2 x σ2 nν 2 = 2 µ+ 2 x, 2 2 2 σ + nν σ + nν σ + nν 2 ν12 =

σ2 ν 2 . σ 2 + nν 2

Demostraci´ on: Ver DeGroot (1988), secci´on 6.3.

2

Obs´ervese que si σ 2 −→ ∞ entonces µ1 = µ, y que si nν 2 −→ ∞ entonces µ1 = x. Por su parte, la precisi´on de la distribuci´on a posteriori es la suma de la precisi´on a priori y la precisi´on de X: 1 1 n = 2 + 2. 2 ν1 ν σ

Ejemplo 40 Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, 1) y sea π(θ) ∼ N (0, τ −2 ), para τ conocido. Not´emos que en la notaci´on del teorema 21, tenemos µ = 0 y ν 2 = τ −2 . Calcularemos la distribuci´on a posteriori de θ y analizaremos para qu´e valores de τ ser´ıa esta distribuci´on menos informativa. Del teorema 21 se desprende que µ Pn ¶ 1 i=1 xi θ| x ∼ N , . n + τ2 n + τ2 e Esta distribuci´on ser´a tanto menos informativa cuanta mayor varianza tenga, es decir, cuanto menor sea τ . El caso l´ımite ser´ıa τ = 0, que corresponde a una distribuci´on a priori impropia (normal con varianza infinita) no informativa

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 78CAP´ITULO 3. ESTIMACION (π(θ) es constante en IR). En ese caso obtendr´ıamos el mismo resultado que si realiz´asemos inferencia fiducial (ver Casella-Berger, secci´on 6.2.1). ´ n de la distribuci´on. En Al inverso de la varianza se le denomina precisio 2 este ejemplo, τ es la precisi´on de la distribuci´on a priori. Si ponemos τ = 0 estamos asumiendo que la precisi´on de la informaci´on a priori es nula. Entonces el procedimiento de inferencia no la tiene en cuenta. . .

Teorema 22 Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ), θ = (E(X))−1 > 0. Sea θ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 = x1 , . . . , Xn = xn es una  Ã !−1  n X 1 . γ α + n, + xi β i=1 Demostraci´ on: Ver DeGroot (1988), secci´on 6.3.

2

Ejemplo 28, p´ agina 54. Continuaci´ on. Consideremos de nuevo el problema de estimar el n´ umero de colores diferente que tienen los caramelos de la bolsa. Supongamos que bas´andonos en nuestra experiencia pensamos que el n´ umero de colores es 5 con probabilidad 1/10, 6 con probabilidad 3/10, 7 con probabilidad 3/10 y 8 con probabilidad 3/10. De nuevo suponemos que hemos observado (V BV ). k 5 6 7 8

π(k) 0.1 0.3 0.3 0.3

f (V BV |k) = (k − 1)/k 2 0.160 0.139 0.122 0.109

f (V BV, k) 0.016 0.042 0.037 0.033 P f (V BV, k) = 0,128 k

π(k|V BV ) 0.125 0.328 0.289 0.258

Tomamos otro caramelo y es naranja. Repetimos el an´alisis:

k 5 6 7 8

π(k) 0.125 0.328 0.289 0.258

f (V BV N |k) = (k − 1)(k − 2)/k 3 0.096 0.093 0.087 0.082

f (V BV N, k) 0.012 0.031 0.025 0.021 P f (V BV N, k) = 0,089 k

π(k|V BV N ) 0.135 0.348 0.281 0.236

Se observa que la distribuci´on de probabilidad sobre {5, 6, 7, 8} no se ha modificado mucho desde π(k) hasta π(k|V BV N ). Esto indica que la observaci´on de

´ BAYESIANA 3.3. ESTIMACION

79

s´ olo cuatro caramelos es poco informativa sobre el n´ umero k de colores. Si continu´asemos muestreando, la distribuci´on a posteriori se ir´ıa concentrando cada vez m´as en torno al verdadero valor del par´ametro k. . .

3.3.3.

Funciones de p´ erdida

Acabamos de ver c´omo derivar la distribuci´on a posteriori del par´ametro dados los datos, a partir de la verosimilitud y la distribuci´on a priori. Nos planteamos ahora c´omo usar la distribuci´on a posteriori para construir un estimador puntual del valor del par´ametro, es decir, c´omo resumir toda la distribuci´on a posteriori del par´ametro en un solo punto de Θ. Consideremos por un momento que no hemos observado la muestra y que sobre Θ hay definida una distribuci´on de probabilidad π. En este contexto queremos elegir un punto a ∈ Θ como representante de toda la distribuci´on π sobre Θ. Una propiedad deseable es que ese valor a est´e cerca de los puntos θ ∈ Θ. Para ´n medir c´omo de lejos est´a a del valor θ del par´ametro definiremos una funcio ´rdida o funcio ´ n de coste: de pe C : Θ×A (θ, a)

−→ R+ −→ C(θ, a),

donde A es el conjunto o espacio de acciones a posibles, y C(θ, a) es el coste de dar a como estimaci´on de un valor concreto θ ∈ Θ. Dado que θ es desconocido y puede tomar los valores de Θ seg´ un indica la distribuci´on π, para tener una idea global del coste de a se considera la funci´on de p´erdida esperada: Z Eπ(θ) (C(θ, a)) = C(θ, a)π(θ)dθ. Θ

La elecci´on de la funci´on de p´erdida es a menudo arbitraria. Las tres m´as usuales son ´estas: Funci´ on de p´ erdida cero-uno: ˆ = αI(β,∞) (|θˆ − θ|) C(θ, θ) donde α > 0 y β ≥ 0 son constantes. Funci´ on de p´ erdida del error absoluto: ˆ = α|θˆ − θ| C(θ, θ) donde α > 0 es constante. Funci´ on de p´ erdida cuadr´ atica: ˆ = α(θˆ − θ)2 C(θ, θ) donde α > 0 es constante.

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 80CAP´ITULO 3. ESTIMACION El par´ametro α podr´ıa tomarse igual a 1, sin p´erdida de generalidad. Estas tres funciones son decrecientes en |θˆ − θ| y sim´etricas alrededor de θˆ = θ. Se pueden definir funciones de p´erdida asim´etricas que reflejen, por ejemplo, que las consecuencias de estimar un par´ametro por defecto sean peores que las de estimarlo por exceso. Este ser´ıa el caso de la estimaci´on del grosor de la capa de hielo que recubre un lago sobre el que se desea patinar. Un ejemplo en el que subestimar es preferible es el de la estimaci´on del precio futuro de una acci´on cuando se quiere decidir si se invierte o no en dicha acci´on.

3.3.4.

Estimadores de Bayes

Supongamos que tenemos informaci´on a priori π(θ) sobre θ ∈ Θ y que observamos una muestra aleatoria simple X1 , . . . , Xn de X ∼ f (x|θ). La distribuci´on a posteriori vienen dada por π(θ| x ) ∝ L(θ| x )π(θ). Supongamos que el coste de e e estimar θ por a es C(θ, a). As´ı, el coste esperado de estimar θ mediante a, dado que hemos observado x , ser´a e Z E(C(θ, a)| x ) = C(θ, a)π(θ| x )dθ. e e Θ ´rdida esperada a posteriori. A esta cantidad se le llama pe Se define un estimador de Bayes de θ como aquel valor a = a( x ) ∈ Θ e que minimiza la p´erdida esperada a posteriori, es decir, E(C(θ, a( x ))| x ) = m´ın E(C(θ, a)| x ). a∈Θ e e e A ese valor a( x ) se le suele denotar por θ∗ ( x ). Obs´ervese que este estimador e e de Bayes depende de la muestra a trav´es de la distribuci´on a posteriori. Teorema 23 Si la funci´ on de p´erdida es cuadr´ atica, entonces el estimador de Bayes es la esperanza a posteriori: θ∗ ( x ) = E(θ| x ). e e Demostraci´ on:

h i E(C(θ, a)| x ) = E (θ − a)2 | x = E(θ2 | x ) + a2 − 2aE(θ| x ) e e e e Derivando respecto a a e igualando a 0: −2E(θ| x ) + 2a = 0 =⇒ a = E(θ| x ), e e que es un m´ınimo porque la segunda derivada es 2 > 0.

2

Teorema 24 Si la funci´ on de p´erdida es el error absoluto, entonces el estimador de Bayes es la mediana de la distribuci´ on a posteriori: θ∗ ( x ) = mediana(θ| x ). e e

´ BAYESIANA 3.3. ESTIMACION

81

Demostraci´ on: Ver DeGroot (1988), teorema 1 de la secci´on 4.5.

2

Ejemplo 41 Sea X ∼ Bern(θ). Se observa una muestra aleatoria simple de X: X1 = x1 , . . . , Xn = xn . Suponemos que la distribuci´on a priori de θ es θ ∼ Beta(α, β) =⇒ E(θ) = Tal como vimos en el teorema 19, Ã

n X

α . α+β

n X

θ| x ∼ Beta α + xi , β + n − xi e i=1 i=1

! .

Por tanto, el estimador de Bayes basado en p´erdida cuadr´atica ser´a Pn α + i=1 xi = θˆ1 = E(θ| x ) = α+β+n e α+β n α x+ . α+β+n α+β+nα+β Obs´ervese que θˆ1 es una media ponderada de la media a priori y de la media muestral. El peso de cada cantidad depende de los par´ametros en la distribuci´on a priori y del tama˜ no muestral. A medida que n crece se tiene que θˆ1 tiende hacia x. La estimaci´on de θ basada en la p´erdida del error absoluto requiere la determinaci´on por m´etodos num´ericos de la mediana de la distribuci´on Beta(α + Pn Pn i=1 xi ). i=1 xi , β + n − . .

Ejemplo 42 Se ha observado una m.a.s. de X ∼ N (θ, σ 2 ): X1 = x1 , . . . , Xn = xn . Partimos de una a priori N (µ, ν 2 ) para θ. En el teorema 21 vimos que la distribuci´on a posteriori es θ| x ∼ N (µ1 , ν12 ) con e µ1 =

σ 2 µ + nν 2 x 2 σ2 ν 2 , ν1 = 2 . 2 2 σ + nν σ + nν 2

El estimador de Bayes con p´erdida cuadr´atica es σ 2 µ + nν 2 x θˆ1 ( x ) = E(θ| x ) = = σ 2 + nν 2 e e nν 2 σ2 µ. x + σ 2 + nν 2 σ 2 + nν 2

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 82CAP´ITULO 3. ESTIMACION De nuevo el estimador de Bayes es una media ponderada de la media a priori y de la media muestral. Si ponemos una a priori poco informativa, es decir, con varianza ν 2 grande, se tendr´a que θˆ1 ( x ) ser´a aproximadamente igual a la media e muestral. En este caso la elecci´on de la funci´on de p´erdida del error absoluto conduce al mismo estimador θˆ1 ( x ) porque la mediana y la media a posteriori coinciden e (dado que la distribuci´on a posteriori es sim´etrica). . .

3.4. LISTA DE PROBLEMAS

3.4.

83

Lista de problemas

M´ etodo de los momentos 1. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| . Hallar el estimador de momentos de µ. 2. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 , 0 < θ ≤ x < ∞. a) Da un estad´ıstico suficiente para θ. b) Halla el estimador de momentos de θ. 3. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, λ) = λe−λx+1 , x > 1/λ. Hallar el estimador de momentos de λ. 4. Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, p), k ∈ IN, 0 < p < 1. Encuentra los estimadores de momentos de (k, p). 5. En el ejemplo 26 se mencionan dos estimadores para la varianza de una B(n, p): (n − 1)Sn2 /n y pˆ(1 − pˆ). ¿Qu´e relaci´on hay entre ellos?

M´ axima verosimilitud 6. (Casella-Berger, 7.13) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| . Hallar el estimador m´aximo veros´ımil de µ. 7. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 , 0 < θ ≤ x < ∞. Halla el estimador de m´axima verosimilitud de θ. 8. (Casella-Berger, 7.7) Sea X1 , . . . , Xn una m.a.s. de X, que sigue una de las dos distribuciones siguientes. Si θ = 0 entonces f (x; θ) = I(0,1) (x). Si √ θ = 1 entonces f (x; θ) = 1/(2 x)I(0,1) (x). Encontrar el estimador m´aximo veros´ımil de θ. 9. (Casella-Berger, 7.10) Las variables aleatorias independientes X1 , . . . , Xn tiene funci´on de distribuci´on com´ un  si x < 0  0 F (x; α, β) = P (X ≤ x|α, β) = (x/β)α si 0 ≤ x ≤ β ,  1 si x > β donde α > 0, β > 0. a) Encontrar un estad´ıstico suficiente para (α, β) de dimensi´on 2. b) Dar el estimador m´aximo veros´ımil de (α, β). c) La longitud (en mil´ımetros) de los huevos de gorri´on puede modelizarse con esa distribuci´on. Para los siguientes datos de longitudes de huevos, estima por m´axima verosimilitud α y β:

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 84CAP´ITULO 3. ESTIMACION 22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5, 23.0, 23.0. 10. (Casella-Berger, 4.26, 7.14) Sean X e Y dos variables aleatorias independientes con X ∼ exp(λ) (E(X) = 1/λ), Y ∼ exp(θ) (E(Y ) = 1/θ). X e Y no son directamente observables, sino que se observan Z y W definidas como ½ 1 si Z = X Z = m´ın{X, Y }, W = . 0 si Z = Y Se dice entonces que las variables X e Y est´an censuradas. a) Da la distribuci´on conjunta de Z y W . b) Prueba que Z y W son independientes. c) Se observa una m.a.s. de tama˜ no n de (Z, W ). Calcula los estimadores m´aximo veros´ımiles de λ y θ. 11. Considera las variables aleatorias descritas en los problemas 14, 15 y 16 de la lista 1.6. Encuentra el estimador m´aximo veros´ımil de θ en cada caso. 12. (Ex. parcial 2000, Casella-Berger, 7.19) Un sistema de comunicaciones transmite secuencias de longitud n de d´ıgitos binarios, 0 y 1. Se produce un error en la transmisi´on cada vez que se transmite un 1, pero se recibe un 0, o viceversa. Supongamos que la probabilidad de error de transmisi´on en cada d´ıgito transmitido es p, y que los errores en la transmisi´on de d´ıgitos diferentes se producen de forma independiente. Como medida de seguridad, cada secuencia se transmite dos veces. Llamaremos X a la cantidad de diferencias entre las dos cadenas de d´ıgitos le´ıdas por el receptor. Por ejemplo, si n es 8, el receptor puede encontrarse con las cadenas 00110000 y 00100001, y en este caso X valdr´ıa 2. a) Calcula la probabilidad de que un d´ıgito concreto sea diferente en una y otra cadena. b) Encuentra el estimador de m´axima verosimilitud de p cuando la longitud de las cadenas es n y se observa X. ¿Es u ´nico este estimador de m´axima verosimilitud? c) Da la estimaci´on de p en el ejemplo anterior. d ) ¿C´omo se interpretar´ıa un valor de X m´as grande que n/2? 13. (Ex. parcial 2001) En la planta de maternidad de un hospital se registraron los siguientes nacimientos durante las semanas naturales del mes de febrero de un a˜ no no bisiesto: Semana 1 2 3 4 5

N´ umero de nacimientos 19 32 28 25 10

3.4. LISTA DE PROBLEMAS

85

Como la primera semana de febrero puede empezar en un dia cualquiera de lunes a domingo, de hecho constan 5 semanas, con la primera y la quinta incompletas. Definimos el espacio param´etrico Θ = {1, 2, . . . , 7}, donde el 1 corresponde al lunes, el 2 al martes, etc. Supondremos que un nacimiento tiene la misma probabilidad de ocurrir cualquier d´ıa del mes. Dar el estimador m´aximo veros´ımil del d´ıa de la setmana en que cay´o el primero de febrero de ese a˜ no.

Estimadores bayesianos 14. Sean Xi ∼ Poisson(λi ), i = 1, 2, independientes. ¿Qu´e distribuci´on sigue X1 condicionada a que X1 + X2 = x? 15. Si X ∼ γ(α, β), α > 0, β > 0, entonces se dice que Y = X −1 tiene distribuci´on gamma invertida con par´ametros (α, β), y se denota como IG(α, β). a) Prueba que la densidad de Y es f (y; α, β) =

1 1 −1/(βy) e I(0,∞) (y). Γ(α)β α y α+1

b) Calcula la esperanza y la varianza de Y . 16. (Casella-Berger, 7.24) Si S 2 es la varianza muestral basada en una muestra de tama˜ no n de una poblaci´on normal, sabemos que (n − 1)S 2 /σ 2 se distribuye como una χ2n−1 . Vamos a probar que la distribuci´on a priori conjugada para σ 2 es la gamma invertida. a) Prueba que si la distribuci´on a priori de σ 2 es IG(α, β), entonces la a posteriori es à · ¸−1 ! n − 1 (n − 1)S 2 1 IG α + , + . 2 2 β b) Calcula el estimador de Bayes bajo p´erdida cuadr´atica de σ 2 . 17. (Ex. parcial 2000) Sea X una variable aleatoria con funci´on de densidad f (x|θ) =

1 −x e θ, θ

donde θ es un par´ametro que puede tomar valores en el conjunto Θ = {1, 2, . . . , 20}. Con el objetivo de estimar θ se toma una m.a.s. X1 , . . . , Xn de X con n = 25 y se obtiene un valor de la media muestral igual a 12.5. a) Calcula el estimador de m´axima verosimilitud de θ y ll´amalo θˆ1 .

´ PUNTUAL 1: CONSTRUCCION ´ DE ESTIMADORES 86CAP´ITULO 3. ESTIMACION b) Calcula el estimador Bayes de θ basado en la funci´on de p´erdida C(θ, a) = I{θ6=a} (que vale 0 si θ = a y 1 en caso contrario), cuando la distribuci´on a priori de θ es uniforme en los n´ umeros {1, 2, . . . , 20} y ll´amalo θˆ2 . c) ¿Qu´e relaci´on hay entre θˆ1 y θˆ2 ? ¿C´omo cambiar´ıa esta relaci´on si cambia la funci´on de verosimilitud? ¿Y si consideramos una distribuci´on a priori que no sea plana, es decir, que no sea constante en θ? ¿Y si consideramos otra funci´on de p´erdida? 18. (Ex. parcial 2001) Supongamos que el n´ umero de minutos que una persona tiene que esperar el autob´ us cada ma˜ nana tiene una distribuci´on uniforme en el intervalo (0, θ), donde el valor de θ es desconocido. Suponemos que la funci´on de densidad a priori de θ viene dada por: ½ 192 per θ ≥ 4, θ4 ξ(θ) = 0 altrament. Los tiempos esperados en tres ma˜ nanas sucesivas son de 5, 3, 8 minutos. a) Calcular la funci´on de densidad a posteriori de θ. Especificar el dominio de definici´on de esta funci´on y las constantes que en ella aparecen. b) Si se quiere estimar el valor de θ usando como funci´on de p´erdida el error cuadr´atico, ¿qu´e forma tiene el estimador de Bayes de θ? Calcular el valor estimado de θ a partir de los tres tiempos esperados dados.

Cap´ıtulo 4

Estimaci´ on puntual 2: Evaluaci´ on de estimadores Referencias: Casella-Berger, secciones 7.3 y 7.4, referencia general. Bickel y Doksum (1977), secci´ on 4.4, para eficiencia; Arnold 1990, cap´ıtulo 6, o Schervish 1995, secci´ on 7.1, para las propiedades asint´ oticas generales; (Garthwaite, Jollife y Jones 1995), secciones 3.2 y 3.3, Crist´ obal (1992), secci´ on 8.3; Arnold (1990), secci´ on 7.3; Schervish (1995), secci´ on 7.3; V´elez y Garc´ıa (1993), secci´ on 7.4., para propiedades del estimador de m´ axima verosimilitud

Una vez se han presentado diferentes m´etodos de estimaci´on surge la necesidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos criterios. En este tema estudiaremos medidas de la calidad de un estimador. Lo haremos primero para muestras finitas para pasar despu´es a proponer medidas asint´oticas de calidad.

4.1.

Error cuadr´ atico medio

´ tico medio (ECM) de un estimador W de un Se define el error cuadra par´ametro θ como ¡ ¢ Eθ (W − θ)2 . ´ Esta es una medida intuitiva del comportamiento de un estimador: cuanto menor sea el error cuadr´atico medio mejor ser´a el estad´ıstico W . De hecho, para cualquier funci´on φ creciente con φ(0) = 0, Eθ (φ(|W − θ|)) es una medida razonable de lo alejadas que estar´an, en promedio, las estimaciones de θ que proporcione W. En general, se prefiere el error cuadr´atico medio a otras medidas por ser m´as tratable anal´ıticamente. Adem´as el error cuadr´atico medio puede descomponerse 87

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 88CAP´ITULO 4. ESTIMACION de forma f´acilmente interpretable: ¡ ¢ ¡ ¢ ¡ ¢ Eθ (W − θ)2 = Eθ (W − Eθ (W ))2 + Eθ (Eθ (W ) − θ)2 = 2

Vθ (W ) + (Bθ (W )) . El t´ermino Bθ (W ) = Eθ (W ) − θ se llama sesgo (en ing´es bias) de W cuando se estima θ y es una medida de la desviaci´on sistem´atica que se tiene cuando se estima θ por W . Si un estimador tiene sesgo nulo para cualquier valor del ¡ ¢ par´ametro se dice que es un estimador insesgado. En tal caso, Eθ (W − θ)2 = Vθ (W ). As´ı, el error cuadr´atico medio de un estimador es la suma de su varianza (una medida de su dispersi´on) m´as el cuadrado de su sesgo (medida de la desviaci´on sistem´atica o de la exactitud del estimador). Es una medida conjunta de precisi´on y exactitud del estimador. Por lo tanto, parece sensato buscar estimadores que tengan error cuadr´atico medio peque˜ no, porque de esta manera controlaremos tanto la dispersi´on como la exactitud de las estimaciones.

Ejemplo 43 En el siguiente gr´afico se muestran cuatro situaciones en las que se combinan niveles altos y bajos de variabilidad y de sesgo. El caso (d) corresponde al menor valor del error cuadr´atico medio.

D

E

F

G

´ 4.1. ERROR CUADRATICO MEDIO

89

.

.

Ejemplo 44 X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos par´ametros desconocidos: θ = (µ, σ 2 ). Hemos estudiado, entre otros, los siguientes estimadores de µ y σ 2 : n

n

1X 1 X Xi , S 2 = (Xi − X)2 . n i=1 n − 1 i=1

X=

Tambi´en hemos calculado sus esperanzas: E(X) = µ, E(S 2 ) = σ 2 . Concluimos que X y S 2 son estimadores insesgados de µ y σ 2 , respectivamente. Su error cuadr´atico medio coincide entonces con su varianza: ¡ ¢ σ2 Eθ (X − µ)2 = Vθ (X) = , n ¡ ¢ 2σ 4 . Eθ (S 2 − σ 2 )2 = Vθ (S 2 ) = n−1 .

.

Ejemplo 45 A veces vale la pena permitir un poco de sesgo en un estimador para obtener una reducci´on importante de la varianza y, por lo tanto, del error cuadr´atico ´ medio. Este es uno de esos casos. Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos par´ametros desconocidos: θ = (µ, σ 2 ). Sea n−1 2 σ ˆ2 = S , n el estimador m´aximo veros´ımil de σ 2 . Calculemos su error cuadr´atico medio: µ ¶ n−1 2 1 1 2 E(ˆ σ )= σ = 1− σ 2 =⇒ Bθ (ˆ σ2 ) = − σ2 ; n n n µ 2

V (ˆ σ )=

n−1 n

¶2 V (S 2 ) =

2(n − 1) 4 σ . n2

As´ı, el error cuadr´atico medio de σ ˆ 2 es E(ˆ σ2 − σ2 ) =

2(n − 1) 4 1 2n − 1 4 2 σ + 2 σ4 = σ < σ4 . 2 2 n n n n−1

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 90CAP´ITULO 4. ESTIMACION Se concluye que σ ˆ 2 tiene menor error cuadr´atico medio que S 2 . La comparaci´on de los errores cuadr´aticos medios no nos debe conducir a pensar que hay que usar siempre σ ˆ 2 en vez de S 2 . Aunque es cierto que, en promedio, σ ˆ 2 ofrecer´a estimaciones m´as cercanas a σ 2 que S 2 , tambi´en lo es que en promedio σ 2 estima el par´ametro por defecto. Por otra parte, el criterio del error cuadr´atico medio es discutible cuando se estima una varianza porque el error cuadr´atico medio penaliza las desviaciones del par´ametro de igual forma tanto si son por exceso como si son por defecto. Sin embargo, las desviaciones por defecto no pueden ser arbitrariamente grandes porque el valor cero es una cota natural para los estimadores. . .

Ejemplo 46 Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(p). Queremos comparar el estimador m´aximo veros´ımil de p y el estimador bayesiano derivado de suponer p´erdida cuadr´atica y una beta como distribuci´on a priori de p: Pn Xi + α pˆ = X, pˆB = i=1 . α+β+n Calculamos errores cuadr´aticos medios: ¢ ¡ p(1 − p) Ep (X − p)2 = V (X) = , n µ Pn ¶ µ µ Pn ¶¶2 ¡ ¢ i=1 Xi + α i=1 Xi + α Ep (ˆ pB − p)2 = V + Bp = α+β+n α+β+n µ ¶2 np + α np(1 − p) + − p = (α + β + n)2 α+β+n np(1 − p) + (α(1 − p) + βp)2 . (α + β + n)2 Supongamos que no tenemos una informaci´on a priori suficientemente rica como para determinar los valores de α y β y que, como consecuencia, decidimos elegir los valores α y β tales que el error cuadr´atico medio de pˆB sea constante en p, ¡ ¢ si ello es posible: Ep (ˆ pB − p)2 = K(n). Busquemos esos valores: si p = 0 =⇒

α2 = K(n), (α + β + n)2

si p = 1 =⇒

β2 = K(n), (α + β + n)2

de donde se sigue que α = β y α2 = K(n). (2α + n)2

´ 4.1. ERROR CUADRATICO MEDIO

91

Si hacemos ahora p = 1/2: p=

n 12 + α2 (1 − 12 − 12 )2 1 n/4 =⇒ 2 = = K(n). 2 (2α + n)2 (2α + n)2

Por lo tanto

√ α=β=

n 2

Con esta elecci´on,

√ Pn n i=1 Xi + 2 √ pˆB = n+n y su error cuadr´atico medio es ¡ ¢ 1 √ Ep (ˆ pB − p)2 = K(n) = para todo p ∈ (0, 1). 4(1 + n)2

−4

n= 4

0.06

6

0.05

5

0.04

4

n= 400

x 10

ECM

7

ECM

0.07

0.03

3

0.02

2

0.01

1

0

0

0.2

0.4

0.6

0.8

1

0

0

0.2

0.4

p

K(4) =

0.6

0.8

p

1 1 = 0,028, K(400) = = 0,000567 36 4(21)2

¡ ¢ 1/4 ¢ 1/4 ¡ 1 Ep=1/2 (X − p)2 = = = 0,0625, Ep=1/2 (X − p)2 = = 0,000625 4 16 400 Estas figuras ilustran el comportamiento de pˆ y pˆB : si n es peque˜ no, el estimador de Bayes es preferible a no ser que haya una fuerte evidencia de que p est´ a en los extremos del intervalo [0, 1]. Si n es grande, es mejor el estimador frecuentista a menos que se sospeche fundadamente que p ≈ 0,5. . .

4.1.1.

Eficiencia relativa

Un estimador W de θ se denomina inadmisible si existe otro estimador V de θ tal que ¡ ¢ ¡ ¢ Eθ (V − θ)2 ≤ Eθ (W − θ)2 para todo θ ∈ Θ,

1

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 92CAP´ITULO 4. ESTIMACION y adem´as existe alg´ un θ0 ∈ Θ tal que ¡ ¢ ¡ ¢ Eθ0 (V − θ0 )2 < Eθ0 (W − θ0 )2 . Es decir, un estimador W es inadmisible si existe otro estimador V que es al menos igual de bueno que W para todo posible valor del par´ametro θ y lo supera cuando el valor concreto del par´ametro es θ0 . Se dice tambi´en que V domina a W uniformemente en θ. Un estimador es admisible cuando no es inadmisible, es decir, cuando no existe otro que lo domine uniformemente en θ.

Ejemplo 47

T es inadmisible

S es admisible

1

1

0.9

0.9

0.8

0.8

0.7

0.7 T1

T 0.6 ECM

ECM

0.6 0.5

0.5

0.4

0.4

0.3

0.3

T2

S

0.2

S

0.2

0.1

0.1

0

0

T3 no existe 0

0.2

0.4

θ

0.6

0.8

1

0

0.2

.

0.4

θ

0.6

.

Ejemplo 48 Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), −∞ < µ < ∞. La media X y la mediana muestral Mn son estimadores insesgados de µ. Para n = 21, se tiene que Vµ (X) = 1/n = 0,048 < Vµ (Mn ) ≈ ,075, para todo µ. Por lo tanto, la mediana muestral es inadmisible como estimador de µ en el caso de normalidad. (Nota: Se ha usado la expresi´on asint´ otica para calcular

0.8

1

´ 4.1. ERROR CUADRATICO MEDIO

93

la varianza de la mediana muestral; v´ease, por ejemplo, el teorema 7.25 de Schervish 1995 o el problema 10.10 en Rice 1995. Para la distribuci´on exacta de la mediana muestral, v´ease la secci´on 5.5 de Casella-Berger). Se puede probar (se ver´a en el tema 7, sobre teor´ıa de la decisi´on) que la media muestral es admisible. Esto no implica que no existan otros estimadores con menor error cuadr´atico medio que X en ciertas regiones del espacio param´etrico. Por ejemplo, si definimos W ≡ 3 (el estimador que siempre estima µ como 3, independientemente de la muestra observada), se tiene que ¢ ¡ Eµ (W − µ)2 = (3 − µ)2 . ¢ ¡ Como Eµ (X − µ)2 = 1/n, para todo µ, se tiene que W es preferible a X para los valores de µ que cumplen 1 1 1 ⇐⇒ 3 − √ < µ < 3 + √ . n n n √ √ Fuera del intervalo [3 + (1/ n), 3 − (1/ n)] es preferible X. Por lo tanto, ninguno de estos dos estimadores domina uniformemente al otro. . . (3 − µ)2 <

Si W1 y W2 son dos estimadores insesgados de θ, se define la eficiencia relativa de W1 respecto a W2 como RE(θ, W1 , W2 ) =

Vθ (W2 ) = Vθ (W1 )

1 Vθ (W1 ) 1 Vθ (W2 )

.

As´ı, RE(θ, W1 , W2 ) > 1 si y s´olo si Vθ (W2 ) > Vθ (W1 ), si y s´olo si W1 usa los datos de modo m´as eficiente que W2 .

Ejemplo 49 Se ha calculado la eficiencia relativa de la mediana muestral Mn respecto a la media muestral X para estimar el par´ametro de centralidad µ de cuatro distribuciones sim´etricas (el par´ametro de centralidad es la mediana poblacional y coincide con la esperanza cuando ´esta existe). Se ofrecen los resultados en funci´on del tama˜ no muestral n. Los valores de la varianza de la mediana son aproximados y se han calculado mediante la f´ormula V (Mn ) ≈

Normal est´andar Log´ıstica (β = 1) Doble exponencial (λ = 1) Cauchy est´andar

1 4f 2 (µ)

V (X) 1/n π 2 /(3n) 2/n ∞

.

V (Mn ) π/(2n) 4/n 1/n π 2 /(4n)

RE(θ, Mn , X) 2/π = 0,64 π 2 /12 = 0,82 2 ∞

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 94CAP´ITULO 4. ESTIMACION Se concluye que la media muestral es m´as eficiente que la mediana en las leyes normal y log´ıstica, y lo es menos en la doble exponencial y la Cauchy. . .

4.2.

Mejor estimador insesgado

Acabamos de ver que la comparaci´on de estimadores basada en error cuadr´atico medio puede llevar a conclusiones poco razonables (por ejemplo, no podemos desechar el estimador constante W ≡ 3 porque ´ese es el mejor estimador en el caso de que el par´ametro sea igual a 3) o a la imposibilidad de elegir un u ´nico estimador (el estimador W ≡ 3 es insuperable si θ = 3 pero tambi´en lo es W ≡ 4 cuando θ = 4). Estos problemas surgen del hecho de que estamos comparando todos los estimadores posibles de un par´ametro: hay estimadores cuya definici´on est´a alejada de toda l´ogica pero que en determinadas situaciones muy concretas dan resultados sensatos. Por lo tanto, para que el criterio de comparaci´on de estimadores mediante su error cuadr´atico medio d´e lugar a la recomendaci´on de un u ´nico estimador, preferible a los dem´as, debemos limitar el conjunto de estimadores que se tienen en cuenta. Se debe exigir un m´ınimo de sensatez a un estimador antes de admitirlo para ser comparado con los restantes estimadores. Una forma de restringir la clase de estimadores es exigir que sean insesgados. Veremos que si nos restringimos a esta clase de estimadores s´ı llegaremos a resultados satisfactorios a partir de la comparaci´on de su error cuadr´atico medio, que para estos estimadores coincide con su varianza. Se trata de elegir el estimador insesgado del par´ametro θ que tenga la varianza m´as peque˜ na. Adem´as, se caracterizar´a el mejor estimador insesgado (el de menor varianza). Dada una transformaci´on τ del par´ametro θ, restringimos la clase de estimadores considerados a Cτ = {W : Eθ (W ) = τ (θ)}, la clase de estimadores insesgados de τ (θ). Dado W ∈ Cτ , ¡ ¢ Eθ (W − τ (θ))2 = Vθ (W ) y la comparaci´on de estimadores con el criterio del error cuadr´atico medio se reduce a la comparaci´on de sus varianzas. Diremos que un estimador W ∗ es el mejor estimador insesgado de τ (θ), o el UMVUE (estimador insesgado de τ (θ) uniformemente de m´ınima varianza), si Eθ (W ∗ ) = τ (θ) para todo θ ∈ Θ y si para cualquier otro estimador W , tal que Eθ (W ) = τ (θ) para todo θ ∈ Θ, se tiene que Vθ (W ∗ ) ≤ Vθ (W ), para todo θ ∈ Θ.

4.2. MEJOR ESTIMADOR INSESGADO

95

Ejemplo 50 Sea X1 , . . . , Xn una m.a.s. de X ∼ Poisson(λ). Sabemos que E(Xi ) = V (Xi ) = λ. Por lo tanto, X y S 2 son ambos estimadores insesgados de λ. Determinaremos cu´al de ellos es mejor, en el sentido de tener menor varianza. La varianza de X es V (X) =

V (X) λ = . n n

Para determinar la varianza de S 2 los c´alculos son algo m´as tediosos. En general, si hacemos θ1 = E(X) y θj = E((X − θ1 )j ), para j = 2, 3, 4, se puede probar que (ver problema 3 del Cap´ıtulo 1) µ ¶ 1 n−3 2 2 V (S ) = θ4 − θ . n n−1 2 Concretaremos este resultado para el caso de la distribuci´on de Poisson. Se tiene que θ1 = θ2 = λ. Calculemos θ3 y θ4 . En primer lugar, E(X 3 ) =

∞ X



k 3 e−λ

k=1

k=0

λ

∞ X

(h + 1)2 e−λ

h=0

X λk λk = k 2 e−λ = k! (k − 1)!

λh = λE((X + 1)2 ) = λ(E(X 2 ) + 2E(X) + 1) = h!

λ(λ + λ2 + 2λ + 1) = λ3 + 3λ2 + λ. As´ı, θ3 = E((X − λ)3 ) = E(X 3 − 3X 2 λ + 3Xλ2 − λ3 ) = λ3 + 3λ2 + λ − 3λ(λ + λ2 ) + 3λ3 − λ3 = λ. Calculemos E(X 4 ): E(X 4 ) =

∞ X

k 4 e−λ

k=0

λ

∞ X

(h + 1)3 e−λ

h=0

λk = k!

λh = λE((X + 1)3 ) = λ(E(X 3 ) + 3E(X 2 ) + 3E(X) + 1) = h!

λ(λ3 + 3λ2 + λ + 3(λ + λ2 ) + 3λ + 1) = λ(λ3 + 6λ2 + 7λ + 1) = λ4 + 6λ3 + 7λ2 + λ As´ı, θ4 = E((X − λ)4 ) = E(X 4 ) − 4λE(X 3 ) + 6λ2 E(X 2 ) − 4λ3 E(X) + λ4 = λ4 + 6λ3 + 7λ2 + λ − 4λ(λ3 + 3λ2 + λ) + 6λ2 (λ + λ2 ) − 3λ4 = 3λ2 + λ. Por tanto, 1 V (S ) = n 2

µ ¶ µ ¶ n−3 2 1 n−3 2 2 θ4 − θ = 3λ + λ − λ = n−1 2 n n−1

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 96CAP´ITULO 4. ESTIMACION λ 2λ2 λ + > = V (X) si n ≥ 2. n n−1 n Concluimos que S 2 no puede ser el UMVUE para λ, dado que X es preferible a S2. . .

En el ejemplo anterior s´olo hemos comparado dos estimadores insesgados entre s´ı. Ahora estudiaremos toda una clase de estimadores insesgados, aunque esta familia no incluye a todos los estimadores insesgados.

Ejemplo 50, p´ agina 95. Continuaci´ on. Consideremos la clase de estimado2 res Wa = aX + (1 − a)S , con a ∈ IR. Se tiene que para toda a, Eλ (Wa ) = aλ + (1 − a)λ = λ, luego ´esta es una clase de estimadores insesgados para λ. Si buscamos el mejor de todos estos estimadores podr´ıamos llegar a la conclusi´on de que existe un a∗ tal que Wa∗ es el mejor estimador insesgado de λ entre aquellos que tienen la forma Wa . Las expresiones de Cov(X, S 2 ) halladas en el problema 3 del Cap´ıtulo 1 resultan u ´tiles para el c´alculo de Vλ (Wa ). Esto no proporcionar´a una respuesta global a la pregunta de cu´al de todos los estimadores insesgados de λ es el que menor varianza tiene. . .

4.2.1.

Teorema de Cram´ er-Rao. Informaci´ on de Fisher

El u ´ltimo ejemplo muestra que la b´ usqueda del UMVUE no debe consistir en repasar todos los estimadores insesgados posibles. El siguiente resultado aborda el problema de un modo diferente: establece una cota inferior para la varianza de todos los estimadores insesgados de un par´ametro. As´ı, si encontramos un estimador insesgado cuya varianza iguale esa cota podremos concluir que ese estimador es el UMVUE. Teorema 25 (Teorema de Cram´ er-Rao.) Sea X = (X1 , . . . , Xn ) una vae riable aleatoria n-dimensional con funci´ on de densidad conjunta f ( x |θ), θ ∈ e Θ ⊆ IR. Sea W ( X ) un estimador insesgado para τ (θ), es decir, Eθ (W ( X )) = e e τ (θ) para todo θ, donde τ es una funci´ on de θ que cumple H1: τ (θ) es diferenciable en θ. Se supone adem´ as que la verosimilitud conjunta f ( x |θ) verifica e

4.2. MEJOR ESTIMADOR INSESGADO

97

H2: para cualquier funci´ on h( x ) tal que Eθ |h( X )| < ∞ se tiene que e e · ¸ Z Z Z Z d ∂ · · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x ) f ( x |θ) dx1 . . . dxn . dθ e e e ∂θ e Entonces,

¡ Vθ (W ( X )) ≥ e

·³ Eθ

∂ ∂θ

¢2 d dθ τ (θ)

´2 ¸ . log f ( X |θ) e

A la cantidad del lado derecho de la desigualdad anterior se la denomina Cota ´r-Rao. de Crame Demostraci´ on: Se basa en la desigualdad de Cauchy-Schwarz, que expresada en t´erminos estad´ısticos establece que para cualquier par de variables aleatorias X e Y definidas sobre el mismo espacio muestral, se tiene que 2

(Corr(X, Y )) ≤ 1, o equivalentemente, que dada la variable aleatoria X, V (X) ≥

(Cov(X, Y )) V (Y )

2

para toda variable aleatoria Y . La demostraci´on del teorema es inmediata poniendo W ( X ) en el papel de e la variable aleatoria X anterior, haciendo Y =

∂ log f ( X |θ), ∂θ e

y viendo que se verifican A y B: A.

µ V

B.

"µ ¶ ¶2 # ∂ ∂ log f ( X |θ) = Eθ log f ( X |θ) . ∂θ ∂θ e e

µ ¶ ∂ d Cov W ( X ), log f ( X |θ) = τ (θ). ∂θ dθ e e

Probemos A. Para ello hay que demostrar que · ¸ ∂ Eθ log f ( X |θ) = 0. ∂θ e En efecto,

· Eθ

" ∂ # ¸ ∂ ∂θ f ( X |θ) e log f ( X |θ) = Eθ = ∂θ e f ( X |θ) e

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 98CAP´ITULO 4. ESTIMACION Z

Z

∂ ∂θ f ( x |θ)

e f ( x |θ)dx1 . . . dxn = e f ( x |θ) e Z Z (H2,h( x )=1) ∂ f ( x |θ)dx1 . . . dxn =e ··· ∂θ e Z Z d d · · · f ( x |θ)dx1 . . . dxn = 1 = 0. dθ dθ e{z | } ···

=1

Veamos ahora que tambi´en es cierto B: ¶ ¸ µ · ∂ ∂ log f ( X |θ) = Eθ W ( X ) log f ( X |θ) = Cov W ( X ), e ∂θ e e ∂θ e " # ∂ ∂θ f ( X |θ) e Eθ W ( X ) = e f ( X |θ) e Z Z H2,h( x )=W ( x ) ∂ e= e · · · W ( x ) f ( x |θ)dx1 . . . dxn e ∂θ e Z Z d d · · · W ( x )f ( x |θ)dx1 . . . dxn = τ (θ). dθ dθ e {z e | } =Eθ (W ( X ))=τ (θ) e

2

Nota: El teorema de Cram´er-Rao es igualmente v´alido en el caso discreto. En este caso la hip´otesis H2 afirma que pueden intercambiarse el sumatorio y la diferenciaci´on. Un estimador insesgado para τ (θ) se denomina eficiente si su varianza es la m´ınima posible, es decir, si es igual a la cota de Cram´er-Rao. La eficiencia de un estimador insesgado se define como el cociente entre la cota de Cram´er-Rao y su varianza. Es un valor menor o igual que 1 si se dan las hip´otesis del teorema de Cram´er-Rao. A esa cantidad tambi´en se la llama eficiencia de Bahadur del estimador. La eficiencia relativa entre dos estimadores insesgados es el inverso del cociente de sus varianzas, como ya se defini´o anteriormente. A la derivada parcial del logaritmo de la verosimilitad L(θ| x ) = f ( x |θ) e e ´ n score: respecto al par´ametro se le llama tambi´en funcio ∂ S(θ| x ) = log L(θ| x ). ∂θ e e En la demostraci´on del teorema de Cram´er-Rao se ha probado que Eθ (S(θ| X )) = 0. e Obs´ervese que para obtener el estimador m´aximo veros´ımil de θ lo que se hace es resolver la ecuaci´on S(θ| x ) = 0, e

4.2. MEJOR ESTIMADOR INSESGADO

99

lo que equivale a buscar el valor de θ para el cual el valor de S(θ| x ) coincide e con su valor esperado. Cuando se aplica a las familias exponenciales el resultado general que dice que la esperanza de la funci´on score es cero, se obtiene el siguiente resultado (ver tambi´en el problema 11 del Cap´ıtulo 1): Corolario 2 Sea X una variable aleatoria perteneciente a la familia exponencial parametrizada en forma natural con par´ ametro η ∈ IR: f (x|θ) = h(x)c(η) exp (ηt(x)) para ciertas funciones h, c y t. Entonces Eη (t(X)) = −

d log c(η). dη

Si X1 , . . . , Xn es muestra aleatoria simple de X y se define el estad´ıstico T (X1 , . . . , Xn ) =

n X

t(Xi )

i=1

entonces

d Eη (T ( X )) = −n log c(η). dη e

Demostraci´ on: El resultado sobre T ( X ) es trivial a partir del resultado sobre e t(X). El logaritmo la verosimilitud de x es l (θ|x) = log f (x|θ) = log h(x) + log c(η) + ηt(x) y la funci´on score S(θ|x) =

∂ d l (θ|x) = log c(η) + t(x). ∂η dη

Como Eη (S(θ|X)) = 0, se sigue el resultado del corolario.

2

A la cantidad que aparece en el denominador de la cota de Cram´er-Rao se ´ n de Fisher que sobre θ contiene el le denomina cantidad de informacio vector X : e "µ ¶2 # µ ¶ ∂ ∂ log f ( X |θ) =V log f ( X |θ) = V (S(θ| X )). I (θ) = Eθ X e X e X ∂θ ∂θ e e e e ´ n de Fisher que sobre θ contiene la Se denomina cantidad de informacio variable Xi a "µ ¶2 # ¶ µ ∂ ∂ IXi (θ) = Eθ log fXi (X|θ) log fXi (X|θ) = V (S(θ|Xi )). =V ∂θ ∂θ

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 100CAP´ITULO 4. ESTIMACION Cuando X = (X1 , . . . , Xn ) es una muestra aleatoria simple de X se verifica que e la informaci´on de Fisher contenida en la muestra es la suma de las informaciones contenidas en cada una de las observaciones y, dado que ´estas son id´enticamente distribuidas, se tiene que I (θ) = nIX1 (θ). X e Este resultado es consecuencia del siguiente corolario del teorema de Cram´erRao: Corolario 3 Bajo las hip´ otesis del teorema de Cram´er-Rao, si X = (X1 , . . . , Xn ) e es una muestra aleatoria simple de X con distribuci´ on dada por f (x|θ) entonces "µ "µ ¶2 # ¶2 # ∂ ∂ Eθ log f ( X |θ) = nEθ log fX (X|θ) . X e ∂θ ∂θ e Demostraci´ on: Por independencia, la verosimilitud de X es el producto de e verosimilitudes, luego n n X ∂ ∂ X ∂ log f ( x |θ) = log fX (xi |θ) = log fXi (xi |θ). X e ∂θ ∂θ i=1 ∂θ i=1 e

Por lo tanto, Ã !2  ¶2 # n X ∂ ∂ Eθ = Eθ  log f ( X |θ) log fXi (Xi |θ)  = X e ∂θ ∂θ i=1 e " "µ µ ¶2 # X ¶2 # n X ∂ ∂ ∂ Eθ + Eθ . log fXi (Xi |θ) log fXi (Xi |θ) log fXj (Xj |θ) ∂θ ∂θ ∂θ i=1 "µ

i6=j

Pero el segundo sumatorio es igual a cero debido a la independencia entre Xi y Xj y dado que las funciones score tienen esperanza 0, seg´ un se vio en la demostraci´on del teorema de Cram´er-Rao. Una demostraci´on alternativa de este resultado se basa en la expresi´on de la informaci´on de Fisher como varianza de los scores: Ã n ! µ ¶ X ∂ ∂ V log f ( X |θ) = V log fXi (Xi |θ) X e ∂θ ∂θ i=1 e que por independencia es igual a la suma de las varianzas: µ ¶ ∂ nV log fX (X|θ) . ∂θ 2 El siguiente resultado facilita a veces el c´alculo de la cota de Cram´er-Rao. Lema 5 Si la funci´ on de verosimilitud satisface

4.2. MEJOR ESTIMADOR INSESGADO

101

H3: para cualquier funci´ on h( x ) tal que Eθ |h( X )| < ∞ se tiene que e e · 2 ¸ Z Z Z 2 Z ∂ ∂ · · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x ) f ( x |θ) dx1 . . . dxn . ∂θ2 e e e ∂θ2 e Entonces, "µ IX (θ) = Eθ

¶2 # · 2 ¸ ∂ ∂ log fX (X|θ) = −Eθ log f (X|θ) . X ∂θ ∂θ2

Demostraci´ on: ∂ ∂2 log fX (x|θ) = ∂θ2 ∂θ −1 2 (x|θ) fX

µ

·

¸ 1 ∂ fX (x|θ) = fX (x|θ) ∂θ

¶2 ∂ 1 ∂2 fX (x|θ) + fX (x|θ). ∂θ fX (x|θ) ∂θ2

Por otro lado, · ¸ Z 2 Z 1 ∂2 ∂2 H3 d Eθ f (X|θ) = f (x|θ)dx = = fX (x|θ)dx = 0. X X fX (X|θ) ∂θ2 ∂θ2 dθ2 As´ı pues, · Eθ

" ¸ µ ¶2 # ∂2 ∂ 1 log fX (X|θ) = −Eθ fX (X|θ) = 2 (X|θ) ∂θ2 fX ∂θ "µ −Eθ

¶2 # ∂ = −IX (θ) log fX (X|θ) ∂θ 2

Nota 1. Cuando este lema se aplica a la informaci´on de Fisher contenida en una muestra, se tiene que · 2 ¸ · 2 ¸ ∂ ∂ I (θ) = −Eθ log f ( X |θ) = −nE log f (X|θ) = nIX (θ). X θ X X ∂θ2 ∂θ2 e e Nota 2. Las familias exponenciales satisfacen la hip´otesis H3.

Ejemplo 51 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). As´ı, E(X) = λ. Consideramos τ (λ) = λ, luego τ 0 (λ) = 1. Por lo tanto, Ã !2  · 2 ¸ n Y ∂ ∂ log f (Xi |λ)  = −nEλ log f (X|λ) = Eλ  ∂λ ∂λ2 i=1

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 102CAP´ITULO 4. ESTIMACION · −nEλ

∂2 log ∂λ2

µ

e−λ λX X!

¶¸

·

¸ ∂2 = −nEλ (−λ + X log λ − log X!) = ∂λ2 · ¸ X n −nEλ − 2 = . λ λ

Por lo tanto, para cualquier W , estimador insesgado de λ, se tendr´a que Vλ (W ) ≥

1 λ = . n/λ n

Por otra parte, sabemos que X es estimador insesgado de λ y que Vλ (X) = λ/n. Se deduce de ah´ı que la media muestral es el mejor estimador insesgado (UMVUE) de λ. . .

Ejemplo 52 No siempre es posible intercambiar los signos de la integral y de la derivada. Veamos un ejemplo. Sea X1 , . . . , Xn m.a.s. de X ∼ U (0, θ). As´ı, f (x|θ) = 1/θ, si 0 < x < θ, y de ah´ı, ¸ · ∂ 1 1 ∂ 2 log f (x|θ) = − =⇒ Eθ ( log f (X|θ)) = 2 . ∂θ θ ∂θ θ Si la cota de Cram´er-Rao es aplicable, ´esta dice que para cualquier W , estimador insesgado de θ, se cumple que Vθ (W ) ≥ θ2 /n. Sin embargo, es posible encontrar un estimador insesgado de θ con varianza menor que θ2 /n. En efecto, sea Y = m´axi Xi . Su funci´on de densidad es fY (y|θ) = (n/θn )y n−1 , si 0 < y < θ. Entonces E(Y ) = (n/(n + 1))θ. As´ı, W = Y (n + 1)/n es estimador insesgado de θ. Calculemos su varianza: " µ ¶2 # (n + 1)2 (n + 1)2 n 2 Vθ (W ) = Vθ (Y ) = Eθ (Y ) − θ = n2 n2 n+1 (n + 1)2 n2

"

n 2 θ − n+2

µ

n n+1

¶2

# θ2 =

(n + 1)2 n 2 θ − θ2 = n2 n+2

(n + 1)2 − n(n + 2) 2 1 1 θ = θ2 < θ2 . n(n + 2) n(n + 2) n La contradicci´on proviene de que Z θ Z θ d ∂ h(x)f (x|θ)dx 6= h(x) f (x|θ)dx. dθ 0 ∂θ 0 y por lo tanto el teorema de Cram´er-Rao no es aplicable. .

.

4.2. MEJOR ESTIMADOR INSESGADO

103

En general, el teorema de Cram´er-Rao no es aplicable si el soporte de f (x|θ) depende del par´ametro θ debido a que la derivada y la integral no son intercambiables si los l´ımites de integraci´on dependen de θ. V´ease, por ejemplo en la secci´on 2.4 del Casella-Berger, la f´ormula de Leibnitz que permite calcular derivadas de integrales en las que los l´ımites de integraci´on dependen de la variable respecto a la cu´al se deriva. Ah´ı se dan tambi´en resultados sobre condiciones que permiten intercambiar los signos de integraci´on y derivaci´on. Aunque el teorema de Cram´er-Rao pueda ser aplicado y la cota de Cram´erRao sea efectiva, no hay garant´ıas de que esta cota sea alcanzada por alg´ un estimador insesgado del par´ametro. En los casos en los que no se encuentra un estimador insesgado que alcance la cota de Cram´er-Rao, el problema es decidir si dado un estimador insesgado ´este es ya el mejor posible.

Ejemplo 53 Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X ∼ N (µ, σ 2 ) con e ambos par´ametros desconocidos. Consideramos el problema de estimar σ 2 . La distribuci´on normal satisface las hip´otesis del teorema de Cram´er-Rao. Calculamos la cota de Cram´er-Rao: · ¸ ∂2 IX (σ 2 ) = −E log f (x|θ) = ∂(σ 2 )2 · µ ¶¸ (x−µ)2 ∂2 1 − 2 2σ −E log e = ∂(σ 2 )2 (2πσ 2 )1/2 µ ¶¸ · 1 (x − µ)2 ∂2 2 log K − log σ − = −E ∂(σ 2 )2 2 2σ 2 · µ ¶¸ ∂ 1 (x − µ)2 −E − 2+ = ∂σ 2 2σ 2σ 4 ¸ · (x − µ)2 −1 σ2 1 1 −E − = + 6 = . 4 6 4 2σ σ 2σ σ 2σ 4 Cualquier W ( X ), estimador insesgado de σ 2 , por ejemplo W ( X ) = S 2 = Pn e2 e i=1 (Xi − X) /(n − 1), ha de verificar 1 2σ 4 V (W ( X )) ≥ = . nIX (σ 2 ) n e En particular, S 2 no alcanza la cota de Cram´er-Rao: V (S 2 ) =

2σ 4 2σ 4 > . n−1 n

Surge la pregunta de si existe alg´ un estimador insesgado de σ 2 que alcance la cota de Cram´er-Rao. Si esto no ocurre queda abierta otra pregunta: ¿es S 2 el mejor estimador insesgado de σ 2 ? . .

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 104CAP´ITULO 4. ESTIMACION El siguiente resultado ayuda a contestar la primera de las dos preguntas surgidas en el ejemplo anterior. Corolario 4 Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X con e distribuci´ on dada por f (x|θ), θ ∈ IR, donde f satisface las hip´ otesis del teorema Qn de Cram´er-Rao. Sea L(θ| x ) = i=1 f (xi |θ) la funci´ on de verosimilitud. Sea e W ( X ) = W (X1 , . . . , Xn ) un estimador insesgado de τ (θ). e Entonces W ( X ) alcanza la cota de Cram´er-Rao si y s´ olo si existe una fune ci´ on a(θ) tal que se tiene la igualdad ∂ a(θ)(W ( x ) − τ (θ)) = log L(θ| x ) ∂θ e e para todo θ. que

Adem´ as, esto ocurre si y s´ olo si existen funciones h(θ), k(θ) y u( x ) tales e

L(θ| x ) = u( x )h(θ) exp(W ( x )k(θ)), e e e es decir, si y s´ olo si la distribuci´ on de partida pertenece a la familia exponencial. Demostraci´ on: En la demostraci´on del teorema de Cram´er-Rao se usa el hecho de que µ µ ¶¶2 ∂ Corr W ( X ), log L(θ| x ) ≤ 1, e ∂θ e para probar la desigualdad de Cram´er-Rao que se dar´a con igualdad si y s´olo si la correlaci´on anterior es igual a 1 o -1, lo que equivale a decir que existe una relaci´on lineal perfecta entre las dos variables, es decir, existen constantes a y b (que podr´ıan depender del valor de θ) tales que ∂ log L(θ| x ) = aW ( X ) + b, con probabilidad 1, ∂θ e e luego,

µ 0=E

∂ log L(θ| x ) ∂θ e

¶ = aE(W ( x )) + b = aτ (θ) + b, e

de donde se sigue que b = −aτ (θ). As´ı, ³ ´ ∂ log L(θ| x ) = a W ( x ) − τ (θ) , con probabilidad 1. ∂θ e e Para probar la u ´ltima parte del corolario, resolvemos la ecuaci´on diferencial ∂ log L(θ| x ) = a(θ)(W ( x ) − τ (θ)) = a(θ)W ( x ) + b(θ). ∂θ e e e Existir´an funciones A(θ) y B(θ) tales que A0 (θ) = a(θ) y B 0 (θ) = b(θ) y por lo tanto log L(θ| x ) = A(θ)W ( x )+B(θ)+C( x ) =⇒ L(θ| x ) = exp(A(θ)W ( x )+B(θ)+C( x )), e e e e e e

4.2. MEJOR ESTIMADOR INSESGADO

105

de donde se sigue el resultado buscado para h(θ) = exp(B(θ)), k(θ) = A(θ) y u( x ) = exp(C( x )). 2 e e

Ejemplo 53, p´ agina 103. Continuaci´ on. La funci´on de verosimilitud es Pn 1 −( (xi −µ)2 )/(2σ 2 ) i=1 L(µ, σ 2 | x ) = e 2 n/2 (2πσ ) e y la derivada respecto a σ 2 de su logaritmo es µ Pn ¶ ³ ´ 2 ∂ n 2 2 i=1 (xi − µ) −σ . log L(µ, σ | x ) = ∂σ 2 2σ 4 n e Tomando a(θ) = 2σn4 , se sigue que el estimador insesgado que alcanzar´ıa la cota de Cram´er-Rao ser´ıa n 1X W(X ) = (xi − µ)2 n i=1 e que es calculable si y s´olo si µ es conocido. Por lo tanto, si µ es desconocido la cota de Cram´er-Rao en la estimaci´on de σ 2 no es alcanzable. Como ya dijimos antes, queda abierta la cuesti´on de saber si S 2 es el mejor estimador insesgado de σ 2 . A esto se dar´a respuesta m´as adelante, en la secci´on 4.2.3. . .

4.2.2.

Versi´ on multivariante del teorema de Cram´ er-Rao.

Consideramos ahora el problema de estimaci´on en el caso de que la familia param´etrica de distribuciones venga dada por un par´ametro multidimensional θ = (θ1 , . . . , θk ). En este contexto, la extensi´on natural de la informaci´on e ´ n de Fisher, definida como la matriz de Fisher es la matriz de informacio I( θ ) de dimensi´on k × k cuyo elemento (i, j) es e "Ã !Ã !# ∂ log f ( x | θ ) ∂ log f ( x | θ ) e e e e Iij = E . ∂θi ∂θj Si definimos S( X , θ ) = ∇ log f ( x | θ ), el vector de scores, es decir, el θ e e e e e vector gradiente del logaritmo de la funci´on de verosimilitud (el vector columna de derivadas parciales respecto a θ1 , . . . , θk ) se tiene que la matriz de informaci´on de Fisher es I( θ ) = E[S( X , θ )S( X , θ )t ] = Cov(S( X , θ )). e e e e e e e Tambi´en es cierto que si se verifican las hip´otesis de regularidad H2 y H3, entonces I( θ ) = −E(H log f ( x | θ )) θ e e e e

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 106CAP´ITULO 4. ESTIMACION donde H

log f ( x | θ ) es la matriz hessiana de log f ( x | θ ): la matriz k × k θ e e e e e cuyo elemento (i, j) es ∂2 log f ( x | θ ). ∂θi θj2 e e Consideremos ahora una funci´on univariante de θ : τ = τ ( θ ) = τ (θ1 , . . . , θk ). e e Sea ∇τ ( θ ) el gradiente de τ : e µ ¶t ∂ ∂ ∇τ (θ) = τ( θ ) . τ ( θ ), . . . , ∂θ1 e ∂θk e El siguiente resultado es la versi´on del teorema de Cram´er-Rao aplicable en este contexto. Teorema 26 Sea W ( X ) un estimador insesgado de una transformaci´ on unie variante τ ( θ ) del par´ ametro k-dimensional θ . Si se dan las condiciones de e e regularidad H1 , H2 y H3 , entonces −1

V (W ( X )) ≥ (∇τ (θ))t I( θ ) (∇τ (θ)), e e con igualdad si y s´ olo si existe una funci´ on a( θ ) univariante tal que e t a( θ )(W ( X ) − τ ( θ )) = (∇τ ( θ )) (I( θ ))−1 S( X , θ ). e e e e e e e Demostraci´ on: Ver, por ejemplo, Arnold (1990), secci´on 7.3.2, o V´elez y Garc´ıa (1993), p´aginas 233 y siguientes, para una extensi´on de este teorema en la que se estima una funci´on τ r-dimensional. 2

Ejemplo 54 Sea θˆi un estimador insesgado de θi , i ∈ {1, . . . , k}. Sea τ ( θ ) = θi . Denotaremos e por I ij al elemento (i, j) de (I( θ ))−1 . Seg´ un el teorema anterior, ser´a e V (θˆi ) ≥ I ii . El teorema de Cram´er-Rao univariante nos dec´ıa que V (θˆi ) ≥ Iii−1 . Sabemos que en general se cumple que I ii ≥ Iii−1 , con igualdad si y s´olo si la matriz I( θ ) es diagonal. (V´ease, por ejemplo, V´elez e y Garc´ıa 1993, p. 235). Por lo tanto la versi´on multivariante del teorema de Cram´er-Rao mejora la cota de Cram´er-Rao univariante. Se puede probar tambi´en que si c θ es un estimador insesgado de θ entonces e e ˆ −1 Cov( θ ) − I( θ ) es una matriz definida positiva. e e . .

4.2. MEJOR ESTIMADOR INSESGADO

107

Ejemplo 55 Sea (X1 , X2 , X3 ) ∼ Trinomial(n, θ1 , θ2 , θ3 ). Recordemos que X1 + X2 + X3 = n y que θ1 + θ2 + θ3 = 1, luego hay dos par´ametros efectivos, θ1 y θ2 por ejemplo, pues θ3 = 1 − θ1 − θ2 . La funci´on de verosimilitud es ´esta: L = P (X1 = x1 , X2 = x2 , X3 = x3 |θ1 , θ2 ) =

n! θx1 θx2 (1−θ1 −θ2 )n−x1 −x2 . x1 !x2 !x3 ! 1 2 | {z } K

Su logaritmo es log L = log K + x1 log θ1 + x2 log θ2 + (n − x1 − x2 ) log(1 − θ1 − θ2 ). Calculamos el vector de scores y la matriz hessiana: Sj = Hjj =

∂ xj n − x1 − x2 log L = − , j = 1, 2. ∂θj θj 1 − θ1 − θ2

−xj n − x1 − x2 ∂2 log L = 2 − , j = 1, 2. ∂θj2 θj (1 − θ1 − θ2 )2 n − x1 − x2 ∂2 log L = − . ∂θj (1 − θ1 − θ2 )2

H12 =

As´ı, la matriz de informaci´on de Fisher es à −X ! n−X1 −X2 n−X1 −X2 1 − (1−θ − (1−θ 2 2 θ12 1 −θ2 ) 1 −θ2 ) I(θ1 , θ2 ) = −E(H) = −E = n−X1 −X2 −X2 n−X1 −X2 − (1−θ − (1−θ 2 2 θ22 1 −θ2 ) 1 −θ2 ) à ! n n n + θ1 1−θ1−th2 1−θ1−th2 n n n 1−θ1−th2 θ2 + 1−θ1−th2 As´ı,

à −1

I(θ1 , θ2 )

=

θ1 (1−θ1 ) n θ1 θ2 n

θ1 θ2 n θ2 (1−θ2 ) n

! .

Por el teorema de Cram´er-Rao multivariante, θ1 (1 − θ1 )/n es la cota para la varianza de cualquier estimador insesgado de θ1 . Si tomamos θˆ1 = X1 /n, tendremos un estimador insesgado cuya varianza es V (θˆ1 ) = θ1 (1 − θ2 )/n. Por lo tanto θˆ1 es eficiente. Si hacemos s´olo el estudio univariante de la cota de Cram´er-Rao para esti−1 madores de θ, tendremos que esa cota es I11 : µ ¶−1 1 1 1 θ1 (1 − θ1 − θ2 ) θ1 (1 − θ1 ) −1 I11 = + = ≤ = I 11 . n θ1 1 − θ1 − θ2 (1 − θ2 )n n La cota de Cram´er-Rao multivariante es m´as precisa que la cota de Cram´er-Rao univariante, en el sentido de que es una cota inferior mayor. . .

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 108CAP´ITULO 4. ESTIMACION

4.2.3.

Teorema de Rao-Blackwell. Teorema de LehmannScheff´ e

En esta secci´on veremos qu´e papel juegan los estad´ısticos suficientes en la b´ usqueda del mejor estimador insesgado de un par´ametro. En muchos casos los resultados que veremos aqu´ı permiten escoger un estimador insesgado y garantizar que es el mejor posible aunque su varianza no alcance la cota de Cram´er-Rao. Teorema 27 (Teorema de Rao-Blackwell) Sea X1 , . . . , Xn una m.a.s. de X, con densidad (o masa de probabilidad) f (x|θ). Sea T ( X ) un estad´ıstico e suficiente para θ y sea W ( X ) un estimador insesgado de τ (θ). Definimos e WT = Eθ (W |T ). Entonces, i. WT es funci´ on u ´nicamente de T ( X ) (es decir, no depende de θ y depende e de la muestra X s´ olo a trav´es del valor de T ( X )). e e ii. Eθ (WT ) = τ (θ). iii. Vθ (WT ) ≤ Vθ (W ) para todo θ ∈ Θ. Demostraci´ on: i. Como T es suficiente para θ la distribuci´on de X condicionada a T no e depende del par´ametro θ. Por lo tanto, la distribuci´on condicionada de W ( X ) dado T ( X ) tampoco depende de θ. Por otra parte, E(W |T ) es e e funci´on de T . ii. Por la ley de la esperanza iterada, Eθ (WT ) = Eθ (E(W |T )) = Eθ (W ) = τ (θ). iii. Por la ley de la esperanza iterada, Vθ (W ) = Vθ (E(W |T ))+Eθ (Vθ (W |T )) = Vθ (WT )+Eθ (Vθ (W |T )) ≥ Vθ (WT ). 2 La consecuencia fundamental de este teorema es que en la b´ usqueda del estimador UMVUE, basta con restringirnos a aquellos estimadores insesgados que son funci´on de un estad´ıstico suficiente: si trabajamos con un estad´ıstico insesgado que no es funci´on de uno suficiente, tomando esperanzas condicionadas podemos conseguir otro que es al menos tan bueno como el anterior y es funci´on del estad´ıstico suficiente. Este proceso se llama a veces Rao-Blackwellizaci´ on.

4.2. MEJOR ESTIMADOR INSESGADO

109

Ejemplo 56 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) = e−λ . Pn Sabemos que T ( X ) = ıstico suficiente para λ. Observemos i=1 Xi es estad´ e −λ adem´as que P (X1 = 0) = e y por tanto el estimador W ( X ) = I{X1 = 0} es e un estimador insesgado de θ. Procedemos por Rao-Blackwell definiendo Pn n X P (X1 = 0, i=1 Xi = t) ˆ Pn θ = E(W ( X )|T ( X ) = t) = P (X1 = 0| = Xi = t) = P ( i=1 Xi = t) e e i=1 Pn Pn P (X1 = 0, i=2 Xi = t) P (X1 = 0)P ( i=2 Xi = t) Pn Pn = = P ( i=1 Xi = t) P ( i=1 Xi = t) Pn (recordar que i=1 Xi ∼ Poisson(nλ)) µ

t

e−λ e−(n−1)λ [(n−1)λ] t! e−nλ [nλ] t! Por lo tanto

µ θˆ =

t

n−1 n

=

¶Pn

i=1

n−1 n

¶t .

Xi

es un estimador insesgado de θ mejor que W ( X ) = I{X1 =0} . e .

.

El siguiente resultado es consecuencia del teorema de Rao-Blackwell y garantiza la unicidad del estimador UMVUE en caso de que ´este exista. Teorema 28 Si W es el mejor estimador insesgado de τ (θ) (es el UMVUE) y su varianza es finita, entonces W es u ´nico. Demostraci´ on: Supongamos que existe otro estimador W0 insesgado que tiene tambi´en varianza m´ınima. Entonces ha de ser igual a la de W : Vθ (W ) = Vθ (W0 ), para todo θ (observar que esta varianza m´ınima no tiene por qu´e coincidir con la cota de Cram´er-Rao). Definimos W ∗ = (W +W0 )/2, que es tambi´en estimador insesgado de τ (θ). Calculemos su varianza: 1 1 1 V (W ) + V (W0 ) + Cov(W, W0 ) ≤ 4 4 2 ¶ µ 1 1 1p 1 1 1 V (W ) + V (W0 ) + + + V (W ) = V (W ). V (W )V (W0 ) = 4 4 2 4 4 2 V (W ∗ ) =

La desigualdad no puede ser estricta, porque hemos supuesto que W es UMVUE. Pero la igualdad se da si y s´olo si Corr(W, W0 ) = 1, o lo que es lo mismo, si y s´ olo si W0 = a(θ)W + b(θ), para algunas funciones a(θ) y b(θ). En ese caso, E(W0 ) = a(θ)τ (θ) + b(θ) = τ (θ)

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 110CAP´ITULO 4. ESTIMACION Por otra parte, V (W ) =

p

V (W )V (W0 ) = Cov(W, W0 ) =

Cov(W, a(θ)W + b(θ)) = Cov(W, a(θ)W ) = a(θ)V (W ), de donde se sigue que a(θ) = 1 (por ser las varianzas finitas) y, por tanto, que b(θ) = 0, luego W = W0 . 2 Nos planteamos ahora estudiar cu´ando es posible mejorar un estimador que ya es insesgado. Ello nos ayudar´a a saber si un estimador insesgado es el mejor: como m´ınimo debemos estar seguros de que no puede ser mejorado. Sea U un estad´ıstico tal que Eθ (U ) = 0 para todo θ. Diremos que U es un estimador insesgado de 0, o que U es un ruido blanco. Consideremos adem´as W un estimador insesgado de τ (θ). Definimos ahora WU = W + aU , que es tambi´en un estimador insesgado de τ (θ). Calculemos su varianza: Vθ (WU ) = Vθ (W + aU ) = Vθ (W ) + a2 Vθ (U ) + 2aCovθ (W, U ). Intentaremos elegir a de forma que WU sea mejor que W al menos para alg´ un valor del par´ametro. Si para θ = θ0 , Covθ0 (W, U ) < 0 podemos elegir 0 0 y estimadores consistentes para el para para cada θ ∈ Θ, se tiene que l´ım Pθ (|Wn − θ| < ε) = 1,

n−→∞

o equivalentemente, si l´ım Wn = θ en probabilidad para todo θ ∈ Θ.

n−→∞

Obs´ervese que en esta definici´on las distribuciones de probabilidad de las sucesiones de variables aleatorias {Wn }n var´ıan con θ.

´ 4.3. COMPORTAMIENTO ASINTOTICO

115

La propiedad de consistencia es un requerimiento m´ınimo que debe verificar cualquier sucesi´on de estimadores, puesto que equivale a pedir que el par´ametro pueda estimarse con una precisi´on prefijada a base de aumentar el tama˜ no muestral tanto como sea necesario. El siguiente resultado establece una condici´on suficiente para que una sucesi´on de estimadores sea consistente. Denotamos por B(W ) el sesgo de un estimador W de θ: B(W ) = E(W ) − θ. Teorema 31 Si la sucesi´ on Wn de estimadores de θ verifica que a) l´ımn−→∞ Vθ (Wn ) = 0 para todo θ, b) l´ımn−→∞ Bθ (Wn ) = 0 para todo θ, entonces Wn es una sucesi´ on de estimadores consistentes de θ. Demostraci´ on: Obs´ervese que Eθ ((Wn − θ)2 ) = Vθ (Wn ) + Bθ2 (Wn ). Por otra parte, usando la desigualdad de Chebyshev se tiene que para todo ε > 0 y todo θ ∈ Θ, Pθ (|Wn − θ| ≥ ε) = Pθ ((Wn − θ)2 ≥ ε2 ) ≤

Eθ ((Wn − θ)2 ) = ε2

1 (Vθ (Wn ) + Bθ2 (Wn )) −→n 0, ε2 lo que equivale a decir que l´ım Pθ (|Wn − θ| < ε) = 1.

n−→∞

2 Los siguientes resultados se derivan de propiedades de la convergencia en probabilidad de variables aleatorias y son u ´tiles para determinar la consistencia de transformaciones de estimadores consistentes. Teorema 32 Sea {Wn }n una sucesi´ on consistente para θ. 1. Si {an }n y {bn }n son sucesiones de n´ umeros reales tales que l´ımn an = 1 y l´ımn bn = 0, entonces, {an Wn + bn }n es consistente para θ. 2. Si g es una funci´ on continua definida en Θ, entonces {g(Wn )}n es una sucesi´ on consistente para g(θ). 3. Si {Vn }n es una sucesi´ on de estimadores consistentes para δ y g(θ, δ) es una funci´ on continua para todo (θ, δ), entonces {g(Wn , Vn )}n es una sucesi´ on consistente para g(θ, δ).

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 116CAP´ITULO 4. ESTIMACION Demostraci´ on: Los dos primeros apartados se deducen del tercero. La prueba de ´este, basada en las definiciones de convergencia en probabilidad y de continuidad de una funci´on, puede verse, por ejemplo, en Arnold (1990) (teorema 6-8). 2

Ejemplo 58 Sean Xj ∼ B(nj , pj ), j = 1, 2, dos variables aleatorias independientes. Se define el odds ratio (podr´ıa traducirse como tasa de ventajas, aunque no existe una traducci´on un´animemente aceptada) ψ = ψ(p1 , p2 ) =

p2 1−p2 p1 1−p1

=

p2 1 − p1 . 1 − p2 p1

Podemos estimar pj mediante pˆj = Xj /nj , que por la ley d´ebil de los grandes n´ umeros es estimador consistente de pj , j = 1, 2. Usando entonces el estimador basado en el principio de sustituci´on, tenemos el siguiente estimador de ψ: X2 /n2 (1 − X1 /n1 ) X2 (n1 − X1 ) ψˆ = ψ(ˆ p1 , pˆ2 ) = = . (1 − X2 /n2 )X1 /n1 (n2 − X2 )X1 Si n1 y n2 tienden simult´aneamente a ∞ (es decir, si l´ım nj /(n1 + n2 ) = aj > 0, ˆ j = 1, 2), el tercer apartado del teorema anterior garantiza la consistencia de ψ: ψˆ = ψ(ˆ p1 , pˆ2 ) −→ ψ(p1 , p2 ) = ψ en probabilidad, es decir, ψˆ es estimador consistente de ψ. .

4.3.2.

.

Normalidad asint´ otica

El estudio de la distribuci´on de un estimador para un tama˜ no muestral n finito es a menudo complejo y en ocasiones involucra c´alculos pr´acticamente imposibles de llevar a cabo. Por otra parte, la comparaci´on de medias y varianzas de estimadores para n finito puede ser poco adecuada (por ejemplo, el estimador de pj /(1−pj ) visto en el ejemplo 58 no estar´a definido con probabilidad positiva, puesto que P (Xj = nj ) > 0). En muchas ocasiones s´olo es posible realizar estudios del comportamiento asint´otico (cuando n tiende a infinito) de los estimadores. Ya hemos estudiado una propiedad asint´otica: la consistencia. Veremos ahora que es posible medir la velocidad de convergencia de estimadores consistentes y as´ı seleccionar los que convergen al verdadero valor del par´ametro m´as r´apidamente.

Ejemplo 59 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), Θ = {λ : 0 < λ < ∞}. En este

´ 4.3. COMPORTAMIENTO ASINTOTICO

117

ˆn = modelo, el estimador de momentos de λ coincide con el m´aximo veros´ımil: λ ˆ X n . La distribuci´on exacta de λ es conocida: es la de una Poisson(nλ) dividida por n. Sin embargo ´esta es poco manejable y resulta mucho m´as u ´til aproximarla por una distribuci´on m´as sencilla a la que se acerca asint´oticamente. La versi´on del teorema central del l´ımite para variables aleatorias independientes e id´enticamente distribuidas puede aplicarse porque V (X) = λ < ∞. As´ı, √ ˆ n(λn − λ) √ −→ N (0, 1) d´ebilmente, λ es decir, para todo λ ∈ Θ y para todo w ∈ IR, µ√ ¶ n(w − λ) ˆ √ Pλ (λ ≤ w) ≈ φ λ donde φ es la funci´on de distribuci´on de la normal est´andar. La aproximaci´on es tanto mejor cuanto mayores son n o λ. ˆ n es consistente pues, por las leyes de los grandes n´ Obs´ervese que λ umeros, ˆ n = X n −→P E(X) = λ. As´ı, λ ˆ n − λ −→ 0 en probabilidad y tambi´en en λ distribuci´on. Esta convergencia a la distribuci´on degenerada en 0 no nos informa ˆ n se acerca a λ ni de c´omo lo hace (¿se distribuyen las de la velocidad a la que λ ˆ n sim´etricamente alrededor de λ?, por ejemplo). observaciones de λ √ ˆ El hecho de que V ( n(λ n − λ)) = λ para todo n indica que la velocidad a ˆ n se acerca a λ es la misma con la que 1/√n se acerca a 0: multiplicar la que λ √ ˆ n − λ), es la estandarizaci´on por n es la forma de estabilizar las diferencias (λ adecuada. El resultado derivado del teorema central del l´ımite, la distribuci´on asint´oti√ ˆ ca de n(λ omo es la aproximaci´on n − λ) es N (0, λ), responde a la pregunta de c´ ˆ n a λ: los valores del estimador se distribuyen alrededor del verdadero valor del λ par´ametro igual que los valores de una variable aleatoria N (0, λ) se distribuyen alrededor de 0. . .

Ejemplo 60 En la estimaci´on del par´ametro θ de una U (0, θ), los siguientes son estimadores consistentes: Tn = 2X n , Wn = m´axi=1...n Xi . De ellos, el primero converge a θ m´as lentamente que el segundo: por el teorema central del l´ımite √ Tn0 = n(Tn − θ) converge d´ebilmente a una distribuci´on no degenerada (con√ cretamente a una N (0, θ2 /3)), mientras que Wn0 = n(Wn − θ) converge en probabilidad a la distribuci´on degenerada en 0 (la varianza de Wn0 y su sesgo como estimador de 0 tienden a 0, luego el teorema 31 garantiza que Wn0 es estimador consistente de 0). Podemos decir entonces que Tn converge a θ a la √ misma velocidad que 1/ n converge a 0, mientras que Wn converge a θ a mayor

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 118CAP´ITULO 4. ESTIMACION velocidad. .

.

A menudo ser´a posible tambi´en comparar estimadores que convergen a la misma velocidad mediante lo que llamaremos varianza asint´ otica.

Ejemplo 60, p´ agina 117. Continuaci´ on. El estad´ıstico basado en la mediana, Sn = 2 · mediana{X1 , . . . , Xn }, tambi´en es estimador consistente de θ y adem´as se puede probar (ver, por ejemplo, Arnold 1990, toerma 6-6) que √ Sn0 = n(Sn − θ) −→ N (0, θ2 ) d´ebilmente. √ Por lo tanto, Tn y Sn convergen a θ a la misma velocidad (como 1/ n va a 0), pero la varianza de la distribuci´on a la que converge Tn0 (la versi´on centrada y normalizada de Tn ) es menor que la varianza de la distribuci´on l´ımite de Sn0 . Se dir´a entonces que Tn tiene menor varianza asint´otica que Sn y, por lo tanto, ser´a Tn ser´a preferible a Sn . . . En la pr´actica la gran mayor´ıa de los estimadores usuales, convenientemente centrados y normalizados, tienen distribuci´on asint´otica normal. Se dice que ´ tica y se denota presentan normalidad asinto θˆn ∼ AN(θ, vn ) cuando

1 √ (θˆn − θ) −→D N (0, 1). vn

´ tica de θˆn . El teorema central A la cantidad vn se la llama varianza asinto del l´ımite es el responsable de la normalidad asint´otica de muchos estimadores. La normalidad asint´otica no s´olo aparece en estimadores univariantes, sino tambi´en en estimadores multivariantes, como muestra el siguiente ejemplo.

Ejemplo 61 Sean {(Xn , Yn )t }n∈IN una sucesi´on de variables aleatorias bivariantes independientes y distribuidas como la variable aleatoria bivariante (X, Y )t , la cual se supone con momentos de segundo orden finitos. Se desea estimar (µX , µY )t = (E(X), E(Y ))t . Utilizaremos como estimador (X n , Y n )t , el par formado por las medias muestrales de los primeros n pares de variables aleatorias (Xi , Yi )t , i = 1, . . . , n. La distribuci´on de una variable aleatoria bivariante est´a caracterizada por las distribuciones de las combinaciones lineales arbitrarias de sus componentes

´ 4.3. COMPORTAMIENTO ASINTOTICO

119

(esto se debe a que el c´alculo de la funci´on generatriz de momentos bivariante de (X, Y )t en el punto (s, t)t equivale a calcular la funci´on generatriz de momentos de sX + tY en el punto 1). Del mismo modo, para encontrar la distribuci´on asint´otica de una sucesi´on de variables aleatorias bivariantes s´olo es necesario encontrar la distribuci´on asint´otica de combinaciones lineales arbitrarias de sus componentes. As´ı se reduce el problema bivariante a problemas univariantes. Calculemos la distribuci´on asint´otica de µµ ¶ µ ¶¶ √ Xn µX n − . Yn µY Sean a, b n´ umeros reales arbitrarios. Las variables aleatorias aXi + bYi , i = 1, . . . , n son una muestra aleatoria simple de la variable aleatoria aX + bY , y por el teorema central del l´ımite à n ! √ 1X n (aXi + bYi ) − E(aX + bY ) −→D N (0, V (aX + bY )), n i=1 que puede reescribirse as´ı: ´ ³ √ √ a n(X n − µX) + b n((Y )n − µY ) −→D N (0, a2 V (X) + b2 V (Y ) + 2abCov(X, Y )) Consideremos la variable aleatoria normal bivariante µ ¶ µµ ¶ µ ¶¶ U 0 V (X) Cov(X, Y ) ∼ N2 , . Cov(X, Y ) V (Y ) V 0 √ La distribuci´on de aU + bV es la misma que la distribuci´on l´ımite de a n(X n − √ µX) + b n(Y n − µY ), de donde se sigue que √ √ a n(X n − µX) + b n(Y n − µY ) −→D aU + bV, y como a y b son arbitrarios se sigue que √

µµ n

normal bivariante. .

4.3.3.

Xn Yn



µ ¶¶ µ ¶ µX U − −→D , µY V .

M´ etodo delta

En muchos casos, s´olo ser´a de inter´es el comportamiento del estimador alrededor del verdadero valor del par´ametro. Si adem´as el estimador es una funci´on

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 120CAP´ITULO 4. ESTIMACION suave de un estad´ıstico cuyo comportamiento asint´otico es conocido, esa funci´on podr´a linealizarse en un entorno del verdadero valor del par´ametro, lo cu´al facilitar´a enormemente el estudio asint´otico del estimador.

Ejemplo 59, p´ agina 116. Continuaci´ on. Queremos estimar θ = P (X = 0) = e−λ . Por el principio de invariancia, el estimador m´aximo veros´ımil de θ es θˆn = e−X n , dado que X n es el estimador m´aximo veros´ımil de λ. El teorema 32 garantiza la consistencia de θˆn , porque X n es consistente para λ y g(λ) = e−λ es una funci´on continua. Estamos interesados ahora en encontrar la distribuci´on asint´otica de √

n(θˆn − θ) =



n(e−X n − e−λ ).

La herramienta en la que nos basaremos para hallar esa distribuci´on asint´otica ´todo delta. es el me . . ´todo delta univariante y, m´as adePresentaremos en primer lugar el me lante, se generalizar´a al caso multivariante. En ambos casos, el fundamento te´orico que sustenta el m´etodo delta es el desarrollo en serie de Taylor de una funci´on. Sea f una funci´on con derivada en el punto a ∈ IR. El desarrollo de primer orden en serie de Taylor de f alrededor del punto a es f (x) ≈ f (a) + f 0 (a)(x − a), es decir, la recta tangente a f (x) en x = a. Si existe f 00 (a), el desarrollo de orden 2 en serie de Taylor de f alrededor de a es 1 f (x) ≈ f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 , 2 aproximaci´on cuadr´atica de f (x). El siguiente teorema justifica la aproximaci´on de una funci´on mediante sus desarrollos de Taylor. Teorema 33 (F´ ormula de Taylor) Si f (x) es una funci´ on con r + 1 derivadas en un intervalo I de IR, para cada par de puntos x, a en I, se tiene que 1 f (x) = f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 + . . . + 2 1 (r) 1 f (a)(x − a)r + f (r+1) (α(x, a))(x − a)r+1 , r! (r + 1)! donde α(x, a) es un punto de I situado entre x y a, luego |α(x, a) − a| ≤ |x − a|.

´ 4.3. COMPORTAMIENTO ASINTOTICO Demostraci´ on: V´ease, por ejemplo, Spivak (1970), teorema 19.4.

121 2

El uso que haremos de este teorema ser´a para desarrollos de primer y segundo orden. El siguiente resultado ser´a u ´til a la hora de establecer la distribuci´on asint´otica de algunos estimadores. En particular, se usa en la demostraci´on del m´etodo delta. Teorema 34 (Teorema de Slutzky) Sean {Xn }n e {Yn }n sucesiones de variables aleatorias, sea X variable aleatoria y sea a una constante. Si Xn −→D X e Yn −→P a, entonces Xn + Yn −→D X + a, Xn Yn −→D aX, si g(x, y) es una funci´ on de IR2 en IR continua en (x, a) para todo x del soporte de X, entonces g(Xn , Yn ) −→D g(x, y). Demostraci´ on: Los apartados 1 y 2 se deducen de 3. La prueba de 3 se sigue del teorema de la aplicaci´on continua para variables aleatorias definidas en espacios m´etricos (ver, por ejemplo, Schervish 1995, teorema B.88). En ese contexto, la definici´on de convergencia en distribuci´on (ver, por ejemplo, Schervish 1995, definiciones B.80 y B.81) difiere formalmente de la que habitualmente se usa cuando se tratan variables aleatorias definidas en IR. En Bickel y Doksum (1977), teorema A.14.9, puede verse una demostraci´on de los apartados 1 y 2 en la que se usa la definici´on de convergencia en distribuci´on basada en la convergencia de las funciones de distribuci´on. 2

Pasamos ahora a enunciar y probar el resultado conocido como m´etodo delta. Teorema 35 (M´ etodo delta) Sea {an }n una sucesi´ on de n´ umeros reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea θˆn una sucesi´ on de estimadores de θ tales que an (θˆn − θ) −→D N (0, σθ2 ) y sea g(x) una funci´ on con primera derivada continua en un intervalo que contiene a θ. Entonces an (g(θˆn ) − g(θ)) −→D N (0, (g 0 (θ))2 σθ2 ). Demostraci´ on: Por el desarrollo de Taylor de primer orden, g(θˆn ) = g(θ)+g 0 (α(θ, θˆn ))(θˆn −θ) =⇒ an (g(θˆn )−g(θ)) = g 0 (α(θ, θˆn ))an (θˆn −θ),

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 122CAP´ITULO 4. ESTIMACION donde |α(θ, θˆn ) − θ| ≤ |θˆn − θ|. Obs´ervese que θˆn −→P θ. En efecto, 1 θˆn − θ = an (θˆn − θ) −→D 0 · N (0, σθ2 ) ≡ 0 =⇒ an θˆn − θ −→P 0 =⇒ α(θ, θˆn ) −→P θ. Se ha usado el teorema de Slutzky para las sucesiones Yn = 1/an −→P 0 y Xn = an (θˆn − θ). Ahora, aplicando el teorema 32, por ser g 0 continua en θ se tiene que g 0 (α(θ, θˆn )) −→P g 0 (θ). Aplicando de nuevo el teorema de Slutzky se obtiene el resultado deseado: g 0 (α(θ, θˆn )) 0 an (g(θˆn ) − g(θ)) = g (θ)an (θˆn − θ) −→D g 0 (θ) | {z } −→P 1

g 0 (θ)N (0, σθ2 ) =D N (0, (g 0 (θ))2 σθ2 ). 2 La sucesi´on an que habitualmente aparece es an =



n.

Ejemplo 59, p´ agina 116. Continuaci´ on. Estimamos θ = P (X = 0) = e−λ √ ˆ −X n ˆ mediante θn = e . Por otra parte, n(λn − λ) −→D N (0, λ). Adem´as g(λ) = e−λ es derivable con derivada continua: g 0 (λ) = −e−λ . Aplicamos el m´etodo delta para determinar la distribuci´on asint´otica de θˆn : √ √ n(θˆn − θ) = n(e−X n − e−λ ) −→D N (0, e−2λ λ). .

.

´todo delta multivariante, aplicable cuando el esVeremos ahora el me pacio param´etrico es multidimensional y se desea estimar una funci´on real del par´ametro. Sea f : IRk −→ IR una funci´on con segundas derivadas parciales en el punto a = (a1 , a2 , . . . , ak ). La versi´on multivariante del teorema de Taylor garantie za que esa funci´on puede aproximarse por su desarrollo en serie de Taylor de segundo orden alrededor de a : e 2 k X ∂f( a ) 1 ∂ f( a ) e (xi − ai ) + e (xi − ai )(xj − aj ) f (x1 , . . . , xk ) ≈ f ( a ) + ∂xi 2 ∂xi xj e i=1

si x = (x1 , . . . , xk )t est´a en un entorno de a . La aproximaci´on anterior se puede e e escribir en forma vectorial y matricial: f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ) + ( x − a )t Hf ( a )( x − a ), e e e e e e e e e e

´ 4.3. COMPORTAMIENTO ASINTOTICO

123

donde ∇f ( a ) es el gradiente de f en a , el vector de derivadas parciales e e à !t ∂f( a ) ∂f( a ) e ,..., e ∇f ( a ) = , ∂x1 ∂xk e y Hf ( a ) es la matriz hessiana de f en a : e e à 2 ! ∂ f( a ) e Hf ( a ) = ∂xi xj e 1≤i≤k, 1≤j≤k La aproximaci´on de primer orden se expresa as´ı, f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ), e e e e e y es u ´til para probar el siguiente resultado. Teorema 36 (M´ etodo delta multivariante) Sea {an }n una sucesi´ on de n´ umeˆ ˆ ˆ ros reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea θ = (θn1 , . . . , θnk ) en una sucesi´ on de estimadores de θ tales que e ˆ an ( θ − θ ) −→D Nk ( 0 , V ), en e e y sea g( x ) una funci´ on con primeras derivadas parciales continuas en una bola e abierta que contiene a θ. Entonces an (g( ˆθ ) − g( θ )) −→D Nk ( 0 , (∇g(θ))t V (∇g(θ))). e e en Demostraci´ on: Ver, por ejemplo, Arnold (1990), teorema 6-16. Lo m´as usual es que la sucesi´on an sea an =



2

n.

Ejemplo 58, p´ agina 116. Continuaci´ on. Buscaremos la distribuci´on asint´otica del estimador del odds-ratio ψ = ψ(p1 , p2 ) = (p2 /(1 − p2 ))((1 − p1 )/p1 ): µ ¶ X1 X2 X2 (n1 − X1 ) ˆ ψn = ψ , = . n1 n2 (n2 − X2 )X1 En primer lugar, de lo visto en el ejemplo 61 se sigue que õ ¶ à p (1−p ) ¶ µ 1 1 √ X2 0 X1 γ1 − p1 , − p2 −→D N2 , n n1 n2 0 0

0 p2 (1−p2 ) γ2

!! ,

donde γj = l´ım(nj /(n1 + n2 )) > 0, j = 1, 2. El gradiente de la funci´on ψ(x, y) = (y(1 − x))/(x(1 − y)) tiene por componentes −y ∂ ψ(x, y) 1−x ∂ ψ(x, y) = , = . ∂x (1 − y)x2 ∂y (1 − y)2 x

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 124CAP´ITULO 4. ESTIMACION As´ı,



n(ψˆn − ψ) −→D N (0, σ 2 ),

donde la varianza σ 2 es µ ¶Ã −p2 1 − p1 2 σ = , (1 − p2 )p21 (1 − p2 )2 p1

p1 (1−p1 ) γ1

0

0 p2 (1−p2 ) γ2



−p2 (1−p2 )p21 1−p1 (1−p2 )2 p1

! =

µ

¶2 µ ¶2 −p2 p1 (1 − p1 ) 1 − p1 p2 (1 − p2 ) + = 2 2 (1 − p2 )p1 γ1 (1 − p2 ) p1 γ2 µ ¶2 µ ¶ p2 (1 − p1 ) 1 1 + = (1 − p2 )p1 p1 (1 − p1 )γ1 p2 (1 − p2 )γ2 µ ¶ 1 1 ψ2 + . p1 (1 − p1 )γ1 p2 (1 − p2 )γ2 Por lo tanto, la varianza asint´otica de ψˆn es µ ¶ σ2 1 1 2 ≈ψ + . n p1 (1 − p1 )n1 p2 (1 − p2 )n2 .

.

4.3.4.

Eficiencia relativa asint´ otica

Sea Tn ( X ) = Tn (X1 , . . . , Xn ) una sucesi´on de estimadores de una funci´on e τ (θ) que verifica lo siguiente: √ n(Tn ( X ) − τ (θ)) −→D N (b(θ), σ 2 (θ)). e Si b(θ) = 0 diremos que Tn ( X ) es asint´oticamente insesgado (en econometr´ıa √ e se dice que Tn es n-consistente). En caso contrario, diremos que Tn ( X ) es e asint´oticamente sesgado. Ejemplo 62 Sea X1 , . . . , Xn , . . . son variables aleatorias independientes e id´enticamente dis√ tribuidas con esperanza µ y varianza 1, y sea Tn ( X ) = X n + a/ n para una e constante a 6= 0. Se tiene que √ √ n(Tn ( X ) − µ) = n(X n − µ) + a −→D N (a, 1), e luego Tn es asint´oticamente sesgado: la diferencia entre la esperanza del esti√ mador y el par´ametro estimado, multiplicada por n, no tiende a 0. Obs´ervese que, no obstante, Tn es un estimador consistente de µ: √ Tn ( X ) = X n + a/ n −→P µ + 0 = µ. e .

.

´ ´ 4.4. TEOR´IA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROS´IMIL125 Sean dos sucesiones Tn ( X ) y Sn ( X ) de estimadores de τ (θ) asint´oticamente e e normales: ´ √ ³ n Tn ( X ) − τ (θ) −→D N (0, σT2 (θ)), e ´ √ ³ n Sn ( X ) − τ (θ) −→D N (0, σS2 (θ)). e ´ tica de Sn respecto a Tn como Se define la eficiencia relativa asinto ARE(θ, Sn , Tn ) =

1/σS2 (θ) σT2 (θ) = . 1/σT2 (θ) σS2 (θ)

El valor de la eficiencia relativa asint´otica puede interpretarse como el cociente de los tama˜ nos de muestra necesarios para obtener la misma precisi´on asint´otica (o la misma varianza asint´otica) mediante los dos estimadores en la estimaci´on de τ (θ). En efecto, si elegimos tama˜ no muestral m para T y n para S, las varianzas asint´oticas son, respectivamente, σT2 (θ)/m y σS2 (θ)/n. Si forzamos a que ambas sean iguales, se tiene que σT2 (θ) σ 2 (θ) m σ 2 (θ) = S ⇐⇒ = T2 = ARE(θ, Sn , Tn ). m n n σS (θ) Es decir, si ARE(θ, Sn , Tn ) = 0,5 entonces S es menos eficiente que T asint´oticamente: para tener la misma precisi´on con el estimador S hace falta una muestra el doble de grande que si utiliz´asemos T (ARE = 0,5 = m/n =⇒ n = 2m).

4.4.

Teor´ıa asint´ otica para el estimador m´ aximo veros´ımil

Sea X una variable aleatoria con funci´on de densidad (o de masa) f (x|θ), Qn θ ∈ Θ. Sea L(θ| x n ) = i=1 f (xi |θ) la funci´on de verosimilitud de una muestra e de tama˜ no n de X: X1 , . . . , Xn . Teorema 37 Supongamos que se verifican las siguientes condiciones: C1: El par´ ametro θ es identificable, en el sentido de que distintos valores de θ dan lugar a distintas distribuciones de probabilidad para X. C2: El conjunto {x : f (x|θ) > 0} es el mismo para todo θ ∈ Θ. C3: La cantidad

· e(θ0 , θ) = Eθ0 log

existe para todo par θ, θ0 en Θ. Entonces, para todo θ 6= θ0 se verifica que

µ

f (X|θ) f (X|θ0 )

¶¸

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 126CAP´ITULO 4. ESTIMACION a)

" Eθ0 log

Ã

L(θ| X n ) e L(θ0 | X n ) e

!# < 0.

b) l´ım Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1. e e

n−→∞

Demostraci´ on: Probemos a). Si f (x|θ) es una funci´on de densidad, se tiene que ¸ Z · f (x|θ) f (X|θ) = f (x|θ0 )dx = 1. Eθ0 f (X|θ0 ) f (x|θ0 ) An´alogo resultado se obtiene si f (x|θ) es funci´on de masa. Como log u < u − 1, para todo u ∈ IR − {1}, se tiene que µ ¶ µ ¶ f (x|θ) f (x|θ) log < −1 f (x|θ0 ) f (x|θ0 ) salvo si f (x|θ) = f (x|θ0 ). Por la hip´otesis C1 eso no puede ocurrir en un conjunto de x’s de medida 1, luego " à !# · µ ¶¸ · ¸ L(θ| X n ) f (x|θ) f (x|θ) e Eθ0 log = nEθ0 log < nEθ0 − 1 = 0, f (x|θ0 ) f (x|θ0 ) L(θ0 | X n ) e y a) queda probado. Veamos ahora b). Por la ley d´ebil de los grandes n´ umeros, ! à µ ¶ n L(θ| X n ) 1X 1 f (Xi |θ) e = log log −→n e(θ0 , θ) en probabilidad. n n i=1 f (Xi |θ0 ) L(θ0 | X n ) e Por a), el l´ımite e(θ0 , θ) es estrictamente menor que 0. Por tanto, si se toma ε, con 0 < ε < −e(θ0 , θ), se tiene que ¯ ( à ! ) (¯ à ! ) ¯ ¯1 L(θ| X n ) L(θ| X n ) 1 ¯ ¯ e e Pθ0 log > 0 < Pθ0 ¯ log − e(θ0 , θ)¯ > ε −→n 0, ¯n ¯ n L(θ0 | X n ) L(θ0 | X n ) e e porque si x > 0, e < 0 y ε < −e, entonces |x − e| = x − e > −e > ε. Pero ( ) L(θ| X n ) e Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1 − Pθ0 >1 = e e L(θ0 | X n ) e ! ) ( à L(θ| X n ) 1 e > 0 −→n 1, 1 − Pθ0 log n L(θ0 | X n ) e lo que completa la prueba. 2 Observar que el apartado b) del teorema puede interpretarse as´ı: la verosimilitud es m´axima en el verdadero valor θ0 del par´ametro, si la muestra es suficientemente grande.

´ ´ 4.4. TEOR´IA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROS´IMIL127 Teorema 38 Supongamos que adem´ as de C1, C2 y C3, se verifican tambi´en C4: Θ es un conjunto abierto. C5: ∂f (x|θ)/∂θ es continua en θ. Entonces, con probabilidad que tiende a 1 cuando n tiende a infinito, existe una sucesi´ on {θˆn }n de ra´ıces de la ecuaci´ on del score ∂ log L(θ| X n ) = 0 ∂θ e (la que se resuelve para hallar el estimador de m´ axima verosimilitud de θ) que converge al verdadero valor del par´ ametro θ0 en probabilidad. Demostraci´ on: Por C4, existe ε > 0 tal que (θ0 − ε, θ0 + ε) ⊂ Θ. Se definen los conjuntos Sn = { x n ∈ X : L(θ0 | x n ) > L(θ0 − ε| x n ) y L(θ0 | x n ) > L(θ0 + ε| x n )}. e e e e e Por el teorema 37, Pθ0 ( X n ∈ Sn ) −→n 1. e La condici´on C5 implica la continuidad de L(θ| x n ) y de su derivada parcial e respecto a θ. As´ı, para todo x n ∈ Sn , debe existir θ˜n = θ˜n ( x n ) ∈ (θ0 −ε, θ0 +ε), e e m´aximo local de L(θ| x n ). Ese m´aximo local ha de satisfacer e ¯ ¯ ∂ log L(θ| X n )¯¯ = 0. ∂θ e ˜ θ=θn

Puede haber m´as de un m´aximo local en (θ0 − ε, θ0 + ε) y, por lo tanto, m´as de una soluci´on de la ecuaci´on del score (tambi´en puede haber m´ınimos locales entre las soluciones). Llamemos θˆn = θˆn ( x n ) a la soluci´on m´as cercana a θ0 que e sea m´aximo local. Entonces |θˆn − θ0 | < ε y esto es cierto para todo x n ∈ Sn . e Por lo tanto Pθ0 {Xn : |θˆn ( X n ) − θ0 | < ε} ≥ Pθ0 {Xn ∈ Sn } −→ 1 e de donde se sigue que θˆn −→P θ. 2 El teorema 38 demuestra que siempre existe una ra´ız de la ecuaci´on de score (que adem´as es m´aximo local) que es consistente. Sin embargo, cuando la ra´ız no es u ´nica (cuando no es el u ´nico m´aximo local) la determinaci´on de θˆn depende del verdadero valor θ0 , lo cu´al hace que θˆn no sea un estimador del par´ametro. El teorema 38 es realmente interesante cuando la ecuaci´on del score tiene ra´ız u ´nica, porque en este caso esa ra´ız es el estimador m´aximo veros´ımil de θ y el

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 128CAP´ITULO 4. ESTIMACION teorema garantiza su consistencia. Si la funci´on de verosimilitud es estrictamente c´oncava, entonces se tiene la unicidad, y como consecuencia la consistencia del estimador m´aximo veros´ımil. El siguiente teorema establece la normalidad asint´otica de las sucesiones consistentes de ra´ıces de la ecuaci´on del score, cuya existencia garantiza el teorema 38. Teorema 39 Supongamos que adem´ as de verificarse C1, C2, C3, C4 y C5, se verifican tambi´en las hip´ otesis H1 y H2 del teorema de Cram´er-Rao (teorema 25) y la siguiente hip´ otesis: 3

∂ C6: Existe ∂θ a acotado por una funci´ on 3 log fθ (x), cuyo valor absoluto est´ K(x) tal que Eθ [K(X)] ≤ k.

Sea {θˆn }n una sucesi´ on consistente de ra´ıces de la ecuaci´ on del score: θˆn −→P θ0 , si θ0 es el verdadero valor del par´ ametro. Entonces µ ¶ √ 1 n(θˆn − θ0 ) −→D N 0, , I(θ0 ) donde I(θ0 ) = l´ım

n−→∞

1 I (θ0 ) = IX (θ0 ). n Xn e

Demostraci´ on: Hacemos el desarrollo de Taylor de segundo orden de la funci´on score ∂ S(θ| X n ) = log L(θ| X n ) ∂θ e e en torno a θ0 y la evaluamos en θˆn : 0 = S(θˆn | X n ) = S(θ0 | X n )+ e e ∂ 1 ∂2 (θˆn − θ0 ) S(θ0 | X n ) + (θˆn − θ0 )2 2 S(θ∗ (θˆn , θ0 )| X n ) ∂θ 2 ∂θ e e √ ∗ ˆ ˆ donde |θ (θn , θ0 ) − θ0 | ≤ |θn − θ0 |. Dividiendo la expresi´on anterior por n se obtiene la siguiente: 1 0 = √ S(θ0 | X n )+ n e ¸ · 2 √ 1 ∂ 1 ∂ ∗ ˆ ˆ ˆ S(θ0 | X n ) + S(θ (θn , θ0 )| X n )(θn − θ0 ) . n(θn − θ0 ) n ∂θ 2n ∂θ2 e e Por otra parte, el teorema central del l´ımite implica que ¯ n 1 1 X ∂ log f (Xi |θ) ¯¯ √ S(θ0 | X n ) = √ −→D N (0, IX (θ0 )), ¯ ∂θ n n i=1 e θ=θ0 puesto que ∂ log f (Xi |θ)/∂θ son variables aleatorias independientes e id´enticamente distribuidas con esperanza 0 y varianza IX (θ0 ) < ∞.

´ ´ 4.4. TEOR´IA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROS´IMIL129 Adem´as, por la ley d´ebil de los grandes n´ umeros, −

¯ n 1 ∂ 1 X ∂ 2 log f (Xi |θ) ¯¯ S(θ0 | X n ) = − −→P ¯ n ∂θ n i=1 ∂θ2 e θ=θ0 "

# ¯ ∂ 2 log f (X|θ) ¯¯ IX (θ0 ) = E − . ¯ ∂θ2 θ=θ0 Usando de nuevo la ley de los grandes n´ umeros, se tiene que ¯ n ¯ 1 X ¯¯ ∂ 3 log f (Xi |θ) ¯¯ 1 ∂2 ∗ ˆ | S(θ (θn , θ0 )| X n )| ≤ ¯ ∗≤ n ∂θ2 n i=1 ¯ ∂θ3 e θ=θ n

1X K(Xi ) −→P E(K(X)) ≤ k, n i=1 ∂2 ∗ ˆ a acotado en probabilidad por de donde se sigue que n1 | ∂θ 2 S(θ (θn , θ0 )| X n )| est´ e k: para todo ε > 0, la probabilidad de que esa cantidad sea menor que k + ε tiende a 1. En definitiva, y dado que θˆn −→P θ0 , se tiene que

1 ∂2 S(θ∗ (θˆn , θ0 )| X n )(θˆn − θ0 ) −→P 0. 2n ∂θ2 e Combinado los resultados anteriores, podemos escribir √ n(θˆn − θ0 ) = 

−1

 1 ∂  1 ∂2 − S(θ | X ) S(θ∗ (θˆn , θ0 )| X n )(θˆn − θ0 ) − 0 n  n ∂θ  2 | {z e } |2n ∂θ {z e } −→P 0

−→P IX (θ0 )

1 √ S(θ0 | X n ) n e | {z } −→D N (0,IX (θ0 ))

y, por el teorema de Slutzky, concluir que √

n(θˆn − θ0 ) −→D N

µ 0,

1 IX (θ0 )

¶ . 2

El enunciado del teorema 39 puede generalizarse al caso de variables aleatorias no id´enticamente distribuidas. Por eso se expresa la varianza l´ımite del estimador m´aximo veros´ımil en t´erminos de I(θ0 ) en lugar de hacerlo directamente en t´erminos de la informaci´on de Fisher de X. El resultado del teorema 39 puede expresarse diciendo que el estimador m´aximo veros´ımil θˆn de θ0 es asint´ oticamente normal: θˆn ∼ AN(θ0 , (nIX (θ0 ))−1 ). Obs´ervese que el estimador m´aximo veros´ımil es asint´oticamente insesgado y ´ ticamente eficiente, puesto que su varianza l´ımite coincide con la asinto cota de Cram´er-Rao.

´ PUNTUAL 2: EVALUACION ´ DE ESTIMADORES 130CAP´ITULO 4. ESTIMACION Para basar la inferencia sobre el par´ametro θ en ese resultado es preciso estimar la informaci´on de Fisher I (θ0 ) = nIX (θ0 ). El siguiente resultado X e proporciona dos estimadores de esa cantidad. Teorema 40 Bajo las condiciones del teorema 39 (C1 a C6, H2, H3) los estad´ısticos On y En definidos como ¯ ∂ 2 log L(θ| X n ) ¯¯ e , On = − ¯ ¯ ˆ ∂θ2 θ=θn

(θˆ ), Xn n e divididos por n son estimadores consistentes de IX (θ0 ). Es decir, tanto On , la ´ n observada evaluada en el m´ ´n informacio aximo, como En , la informacio esperada evaluada en el m´ aximo, estiman consistentemente la informaci´ on de Fisher contenida en la muestra acerca del par´ ametro. En = I

Demostraci´ on:

¯ 2 On 1 ∂ log L(θ| X n ) ¯¯ e =− = ¯ ¯ ˆ n n ∂θ2 θ=θn ¯ ¯ 2 3 ¯ 1 ∂ log L(θ| X n ) ¯ 1 ∂ log L(θ| X n ) ¯¯ e e − − ¯ ¯ ¯ ¯ ∗ n ∂θ2 n ∂θ3 θ=θ0

(θˆn − θ0 )

θ=θ (θ0 ,θˆn )

donde |θ∗ (θˆn , θ0 ) − θ0 | ≤ |θˆn − θ0 |. El t´ermino de las derivadas terceras tiende a 0 en probabilidad mientras que el primer t´ermino converge en probabilidad a IX (θ0 ), por la ley de los grandes n´ umeros (ver la demostraci´on del teorema 39). Por otra parte, 1 En = I (θˆn ) = IX (θˆn ) −→P IX (θ0 ) n n Xn e por la consistencia de θˆn y la continuidad de IX (θ), (garantizada por la condici´on C6).

2

Podemos escribir entonces que el estimador m´aximo veros´ımil θˆn de θ es ¶ µ ¶ µ 1 1 o θˆn ∼ AN θ0 , . θˆn ∼ AN θ0 , On En En general, si se est´a estimando una transformaci´on suave del par´ametro τ (θ) por m´axima verosimilitud se tiene que µ ¶ √ (τ 0 (θ0 ))2 n(τ (θˆn ) − τ (θ0 )) −→D N 0, . IX (θ0 )

´ ´ 4.4. TEOR´IA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROS´IMIL131 Ejemplo 63 Estimaci´ on m´ aximo veros´ımil de un par´ ametro de la distribuci´ on de Weibull. Sea X1 , . . . , Xn m.a.s. de X ∼ W (2, β): 2 −x2 /β xe , 0 ≤ x ≤ ∞, β > 0. β Ã n ! Pn 2 2n Y L(β| x n ) = n xi e−( i=1 Xi )/β β e i=1

f (x, β) =

n 1X 2 l (β| x n ) = K − n log β − X β i=1 i e n n 1 X 2 ∂ S(β| x n ) = l (β| x n ) = − + 2 X ∂β β β i=1 i e e n 1X 2 X S(β| X n ) = 0 =⇒ βˆn = n i=1 i e à !¯ n ¯ ¯ X n 2 n ¯ 2 ¯ S 0 (β| X n )¯ = 1/2}. e e Un procedimiento m´as conservador consiste en rechazar H0 s´olo si la probabilidad de que sea falsa, dados los datos x , es mayor que c > 1/2 (por ejemplo, e puede tomarse c = 0,95 o c = 0,99).

5.7. CONTRASTES BAYESIANOS

171

Ejemplo 74 Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida. La distribuci´on a priori de θ es N (µ, τ 2 ), con µ y τ 2 conocidos. Contrastamos ½

H0 : θ ≤ θ 0 H1 : θ > θ 0

Tal como se vi´o en la secci´on 3.3, la distribuci´on a posteriori de θ es N (µp , τp2 ), donde τ 2 σ2 nτ 2 x + σ 2 µ , τ = . µp = p nτ 2 + σ 2 nτ 2 + σ 2 Rechazar H0 si y s´olo si P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x ), e e es equivalente a hacerlo si y s´olo si 1 P (θ ≤ θ0 | x ) < , 2 e y como π(θ| x ) es sim´etrica y centrada en µp , esto es cierto si y s´olo si e µp =

nτ 2 x + σ 2 µ σ 2 (θ0 − µ) > θ0 ⇐⇒ x > θ0 + . 2 2 nτ + σ nτ 2 .

.

5.7.1.

Ventaja a priori y a posteriori. Factor de Bayes

En el marco de la inferencia bayesiana, la forma de proceder es determinar la ventaja a posteriori de H0 (en ingl´es, posterior odds), Q∗ =

P (H0 | x ) e P (H1 | x ) e

y la conclusi´on del contraste se expresa diciendo que H0 es Q∗ veces m´ as probable que H1 , dados los datos. Alternativamente, y dado que P (H0 | x ) + P (H1 | x ) = 1, se tiene que e e 1 Q∗ = P (H0 | x ), y = P (H1 | x ) 1 + Q∗ 1 + Q∗ e e son, respectivamente, las probabilidades a posteriori de que H0 y H1 sean ciertas. Obs´ervese que en el enfoque bayesiano se tratan las dos hip´otesis, la nula y la alternativa, de forma sim´etrica.

´ CAP´ITULO 5. CONTRASTES DE HIPOTESIS

172

Mediante el teorema de Bayes, podemos expresar Q∗ de la forma siguiente: x |H0 )P (H0 ) e h( x ) P (H0 | x ) P (H0 ) f ( x |H0 ) ∗ e = e e Q = = = Q · B, P (H1 ) f ( x |H1 ) P (H1 | x ) f ( x |H1 )P (H1 ) e e e h( x ) e f(

donde Q = P (H0 )/P (H1 ) es la ventaja a priori de H0 y representa la creencia del investigador sobre qu´e hip´otesis es cierta antes de realizar el experimento, y B = f ( x |H0 )/f ( x |H1 ) es el factor de Bayes, que determina c´omo e e los datos observados han cambiado esas creencias sobre qu´e hip´otesis es cierta. A menudo se impone el valor Q = 1, que no favorece a priori a ninguna de las dos hip´otesis. El inter´es se centra entonces en el factor de Bayes, pues este valor es el que determina c´omo los datos modifican las creencias sobre qu´e hip´otesis es cierta. En general H0 especifica el modelo muestral f0 (x|θ) y una distribuci´on a priori para θ, mientras que H1 especifica otro modelo param´etrico f1 (x|φ) y una distribuci´on a priori sobre φ. Con esta formulaci´on, los contrastes bayesianos permiten comparar modelos param´etricos diferentes. Por ejemplo, en un problema de regresi´on lineal se podr´ıan comparar dos conjuntos de regresores diferentes. Veremos ahora c´omo se concretan los contrastes bayesianos en tres situaciones en las que el modelo param´etrico bajo ambas hip´otesis es el mismo: el contraste de dos hip´otesis simples, el de dos compuestas y el de una simple frente a una compuesta.

5.7.2.

Contraste de dos hip´ otesis simples.

Se trata de contrastar

½

H0 : θ = θ0 H1 : θ = θ1

Dar una distribuci´on a priori para el par´ametro consiste en fijar valores para P (H0 ) y P (H1 ). En este caso el factor de Bayes es B=

f ( x |θ0 ) e , f ( x |θ1 ) e

que es el cociente de verosimilitudes que sirve de estad´ıstico al test derivado del Lema de Neyman-Pearson.

5.7. CONTRASTES BAYESIANOS

173

Ejemplo 75 Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ). As´ı, (

n X

n

)

f ( x |θ) = θ exp −θ xi e i=1 y

µ B=

θ0 θ1

(

¶n

exp (θ1 − θ0 )

n X

) xi

.

i=1

La ventaja a posteriori de H0 es P (H0 ) Q∗ = P (H1 )

µ

θ0 θ1

¶n

( exp (θ1 − θ0 )

n X

) xi

.

i=1

.

.

5.7.3.

Contraste de dos hip´ otesis compuestas.

Se trata de contrastar ½

H0 : θ ∈ Θ0 H1 : θ ∈ Θ1 = Θc0

Para cada hip´otesis se debe determinar una distribuci´on a priori del par´ametro θ (´estas podr´ıan coincidir). Sean π0 (θ|H0 ) y π1 (θ|H1 ), la distribuciones a priori de θ bajo H0 y bajo H1 , respectivamente. As´ı, Z Z f ( x |H0 ) = f (x, θ|H0 )dθ = f (x|θ)π0 (θ|H0 )dθ, e Θ0 Θ0 y

Z f ( x |H1 ) = e

Z f (x, θ|H1 )dθ = Θ1

Por lo tanto, el factor de Bayes es R B = RΘ0 Θ1

5.7.4.

f (x|θ)π1 (θ|H1 )dθ, Θ1

f (x|θ)π0 (θ|H0 )dθ f (x|θ)π1 (θ|H1 )dθ

.

Contraste de hip´ otesis nula simple frente a alternativa compuesta.

Se trata de contrastar

½

H0 : θ = θ 0 H1 : θ 6= θ0

´ CAP´ITULO 5. CONTRASTES DE HIPOTESIS

174

Combinando los dos casos anteriores, se tiene que el factor de Bayes es en este caso f (x|θ0 ) B=R . f (x|θ)π 1 (θ|H1 )dθ θ6=θ0 Obs´ervese que si la distribuci´on a priori de θ es absolutamente continua entonces la probabilidad a posteriori de H0 ser´a igual a 0, lo cu´al implica que Q∗ ser´a siempre 0, sean cuales sean los datos observados, y H0 ser´a rechazada siempre. Sin embargo el factor de Bayes B s´ı es calculable y recoge la informaci´on esencial que los datos aportan sobre la veracidad de H0 y H1 . En este caso es posible establecer a priori un valor para Q y definir Q∗ como el producto de Q por B.

Ejemplo 76 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ). Se desea contrastar ½ H0 : θ = θ0 H1 : θ 6= θ0 La verosimilitud es

Pn xi i=1 θ . f ( x |θ) = e−nθ Qn e i=1 xi !

Se considera la distribuci´on a priori de θ bajo H1 como la distribuci´on conjugada, una γ(α1 , α2 ): 1 1 π1 (θ|H1 ) = θα1 e−θ/α2 . Γ(α1 + 1) α2α1 +1 El numerador del factor de Bayes es f ( x |θ0 ) y el denominador e Z f (x|θ)π1 (θ|H1 )dθ = θ6=θ0

Pn

Z

θ i=1 xi 1 1 α1 −θ/α2 e−nθ Qn dθ = α1 +1 θ e Γ(α + 1) x ! α2 1 θ6=θ0 i=1 i Pn Γ(α1 + i=1 xi + 1) Pn × Qn α1 + xi +1 α1 +1 i=1 x !Γ(α + 1)α (n + 1/α ) i 1 2 2 i=1 Pn Pn Z ∞ α1 + xi +1 α1 + xi (n+1/α2 )θ i=1 i=1 (n + 1/α2 ) θ e Pn dθ = Γ(α1 + i=1 xi + 1) 0 Pn Γ(α1 + i=1 xi + 1) Pn . Qn α2α1 +1 i=1 xi !Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1 As´ı,

Pn e B= Qn α1 +1

α2

i=1

−nθ0 θQ 0

Γ(α1 +

i=1 n

Pn i=1 i=1

xi

xi !

=

xi +1) α1 +

xi !Γ(α1 +1)(n+1/α2 )

Pn i=1

xi +1

5.7. CONTRASTES BAYESIANOS

175

Pn Pn xi α2α1 +1 e−nθ0 θ0 i=1 Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1 Pn . Γ(α1 + i=1 xi + 1)

Supongamos que se observan seis datos, x1 = 3, x2 = 1, x3 = 6, x4 = 2, x5 = 5, x6 = 2, de donde

P

xi = 19, y que se quieren contrastar ½

H0 : θ = 2 H1 : θ 6= 2

con π1 (θ|Θ1 ) ∼ γ(α1 = 2,6, α2 = 1/0,6). La esperanza y la varianza a priori son, respectivamente, E=

2,6 + 1 2,6 + 1 = 6, V = = 10. 0,6 0,62

As´ı, el factor de bayes es

B=

219 e−6·2 Γ(2,6 + 1)(6 + 0,6)2,6+19+1 = 0,77. 0,62,6+1 Γ(2,6 + 19 + 1)

Supongamos que la ventaja a priori de H0 es Q = 0,5. Entonces, la ventaja a posteriori es Q∗ = Q · B = 0,5 · 0,77 = 0,385 y se concluir´ıa que H1 es la hip´otesis cierta. Supongamos que la distribuci´on a priori tuviese par´ametros α1 = 35 y α2 = 1/6. Entonces E = 6 y V = 1. En este caso se llegar´ıa a que B = 3,16 y Q∗ = 1,58, luego se seguir´ıa que H0 es la hip´otesis correcta. El siguiente gr´afico ilustra las diferencias entre las dos situcaiones que acabamos de considerar.

´ CAP´ITULO 5. CONTRASTES DE HIPOTESIS

176

Distribuciones a priori 0.5

0.45

0.4

0.35 p(θ|H1,α1=35, α2=6)

p(θ|H1)

0.3

0.25

0.2

0.15 p(θ|H1,α1=2.6, α2=0.6)

0.1

0.05

0

0

θ Media de x ,...,x 5 1 n

θ

10

15

.

.

En el contraste de una hip´otesis nula simple frente a una alternativa compuesta el factor de bayes puede calcularse de un modo alternativo, tal y como especifica por el siguiente teorema. Teorema 45 Si f (x|θ) es continua en θ = θ0 , entonces B = l´ım

θ−→θ0

π(θ| x , H1 ) e π(θ|H1 )

donde π(θ| x , H1 ) es la densidad a posteriori de θ y π(θ|H1 ) es la a priori. e Demostraci´ on: Por la hip´otesis de continuidad se tiene que f ( x |H0 ) = l´ım f ( x |θ, H1 ). θ−→θ0 e e Como f ( x |θ, H1 ) = f ( x |H1 )π(θ| x , H1 )/π(θ|H1 ), se tiene que e e e f ( x |H0 ) = f ( x |H1 ) l´ım θ−→θ0 e e

π(θ| x , H1 ) π(θ| x , H1 ) f ( x |H0 ) e e e = l´ım =⇒ B = . θ−→θ π(θ|H1 ) π(θ|H1 ) 0 f ( x |H1 ) e 2

5.8. LISTA DE PROBLEMAS

5.8.

177

Lista de problemas

Definiciones b´ asicas. Contrastes m´ as potentes 1. (Garthwaite, Jollife y Jones 1995, 4.1) Utiliza el Lema de Neyman-Pearson para encontrar la regi´on cr´ıtica del test m´as potente para contrastar H0 frente a H1 en las siguientes situaciones. a) X1 , . . . , Xn es m.a.s. de X ∼ Poisson(θ). H0 : θ = θ0 , H1 : θ = θ1 , θ1 > θ 0 . b) X1 , . . . , Xn es m.a.s. de X ∼ exp(θ), con θ = E(X)−1 . H0 : θ = θ0 , H1 : θ = θ 1 , θ 1 > θ 0 . c) X1 , . . . , Xn es m.a.s. de X ∼ N (µ, σ 2 ), Y1 , . . . , Ym es m.a.s. de Y ∼ N (θ, τ 2 ), las dos muestras son independientes y σ 2 y τ 2 son conocidas. H0 : θ = µ, H1 : θ = µ + δ, δ > 0, µ y δ conocidos. 2. (Garthwaite, Jollife y Jones 1995, 4.2) En el u ´ltimo apartado del ejercicio 2 2 anterior, supongamos que σ = τ = δ = 1, que n = m y que hacemos el contraste ´optimo a nivel α = 0,01. a) Calcula la potencia del test si n = 10. b) Calcula el menor valor de n tal que la potencia sea mayor o igual que 0,95. 3. (Garthwaite, Jollife y Jones 1995, 4.3) Sea X1 , . . . , Xn una m.a.s. de una distribuci´on gamma de par´ametros (3, θ) con densidad f (x; θ) =

1 2 −x/θ x e I(0,∞) (x). 2θ3

a) Encuentra el test m´as potente para contrastar H0 : θ = θ0 frente a H1 : θ = θ1 , donde θ1 > θ0 . b) Utiliza los resultados obtenidos para dar el test uniformemente m´as potente para contrastar H0 frente a H10 : θ > θ0 . 4. (Garthwaite, Jollife y Jones 1995, 4.5) Sea X1 , . . . , Xn una m.a.s. de una distribuci´on lognormal de par´ametros (µ, 1). Prueba que existe un test uniformemente m´as potente para contrastar H0 : µ = µ0 frente a H1 : µ > µ0 e indica qu´e forma tiene. 5. (Garthwaite, Jollife y Jones 1995, 4.7) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X. Se considera el contraste ½ H0 : X ∼ U (0, 1) H1 : X ∼ f (x; θ) = θeθx /(eθ − 1), 0 ≤ x ≤ 1, θ > 0, θ desconocido Prueba que hay un test uniformemente m´as potente y da la regi´on cr´ıtica aproximada para n suficientemente grande.

´ CAP´ITULO 5. CONTRASTES DE HIPOTESIS

178

6. (Garthwaite, Jollife y Jones 1995, 4.12) Sea X ∼ f (x), una funci´on de densidad desconocida. Se toma una muestra de tama˜ no n para contrastar H0 : f (x) = f0 (x) frente a H1 : f (x) = f1 (x), donde f0 y f1 son densidades conocidas con el mismo soporte. a) Considera las densidades de la forma λf0 (x) + (1 − λ)f1 (x), λ ∈ [0, 1], para expresar H0 y H1 como hip´otesis param´etricas. b) Considera

x2 1 1 f0 (x) = √ e− 2 , f1 (x) = e−|x| , 2 2π y prueba que entonces la regi´on cr´ıtica del test m´as potente para contrastar H0 frente a H1 es de la forma

R = { x ∈ IRn : e

n X

(|xi | − 1)2 ≥ k}

i=1

para alg´ un k. c) Eval´ ua esa regi´on cr´ıtica para n = 1 y k = 1. ¿Es el test insesgado? d ) Eval´ ua esa regi´on cr´ıtica para n = 1 y k = 1/4.¿Es el test insesgado?

Contrastes de la raz´ on de verosimilitudes, scores y Wald 7. Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ) con ambos par´ametros desconocidos. a) Considera el contraste ½

H0 : µ = µ0 H1 : µ 6= µ0

Comprueba que el test de la raz´on de verosimilitudes conduce al test t usual, que tiene regi´on cr´ıtica √ n(x − µ0 ) n Rα = { x ∈ IR : −tn−1,α/2 ≤ ≤ tn−1,α/2 }c , S e donde Ac denota el complementario del conjunto A. b) Considera el contraste ½

H0 : σ 2 = σ02 H1 : σ 2 6= σ02

Comprueba que el test de la raz´on de verosimilitudes tiene regi´on cr´ıtica (n − 1)S 2 Rα = { x ∈ IRn : C1 ≤ ≤ C2 }c , σ02 e para constantes C1 y C2 elegidas convenientemente.

5.8. LISTA DE PROBLEMAS

179

8. Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ) y Y1 , . . . , Ym m.a.s. de Y ∼ N (θ, τ 2 ). Las dos muestras son independientes. Los cuatro par´ametros son desconocidos. a) Suponiendo que σ 2 = τ 2 , comprueba que el test de la raz´on de verosimilitudes para contrastar ½

H0 : µ = θ H1 : µ 6= θ

conduce al contraste usual para la diferencia de medias. b) Da la regi´on cr´ıtica del test de la raz´on de verosimilitudes para contrastar ½ H0 : σ 2 = τ 2 H1 : σ 2 6= τ 2 c) En el caso especial de n = m, comprueba que el test anterior se reduce al test F usual para contrastar igualdad de varianzas. 9. Sean dos muestras independientes, X1 , . . . , Xm m.a.s. de X ∼ Exp(λ1 ), e Y1 , . . . , Yn m.a.s. de Y ∼ Exp(λ2 ) (los par´ametros son las inversas de las esperanzas). Sean X m e Y n las respectivas medias muestrales. Consideramos el test ½ H0 : λ 1 = λ 2 H1 : λ 1 < λ 2 a) Probar que bajo H0 Xm ∼ F2m,2n Yn (indicaci´ on: Probar que si X es exponencial con esperanza 2, entonces X es tambi´en χ2 con dos grados de libertad. Probar que si X e Y son variables aleatorias independientes e id´enticamente distribuides seg´ un una Exp(λ), entonces (X/Y ) ∼ F2,2 ). b) Probar que la regi´on cr´ıtica del test de la raz´on de verosimilitudes para contrastar H0 frenta a H1 puede expresarse en funci´on del cociente X m /Y n y de cuantiles de una distribuci´on F con grados de libertad convenientes. c) Los siguientes datos corresponden a tiempos de llegada a un incidente de dos servicios de urgencia: guardia urbana y bomberos. Tiempo (minutos) de llegada de la guardia urbana a un accidente de tr´afico urbano Tiempo (minutos) de llegada de los bomberos a un incendio en el casco urbano.

2,65 2,98 5,61 6,61 2,50 0,65 3,74 1,12 5,34 0,40 1,93 4,87 6,89 3,48 4,91 5,04 9,17 2,20 1,05 6,09

´ CAP´ITULO 5. CONTRASTES DE HIPOTESIS

180

Se supone que los tiempos de llegada se distribuyen seg´ un una ley exponencial. Usar el test de raz´on de verosimilitudes para contrastar si los tiempos medios de llegada de ambos servicios son iguales frente a que la guardia urbana llega en promedio antes que los bomberos. Hacerlo a un nivel de significaci´on α = 0,05. 10. Se toma una muestra de tama˜ no n de una variable aleatoria Poisson(θ) para contrasrtar H0 : θ = θ0 frente a H1 : θ 6= θ0 . Encontrar el estad´ıstico de los siguientes tests. a) Test de raz´on de verosimilitudes. b) Test del score. c) Test de Wald. 11. (Examen junio 2000) Cuando las muertes a causa de una enfermedad rara, pero no contagiosa, suceden aleatoria y uniformemente en una poblaci´on, el n´ umero de muertes en una regi´on con poblaci´on igual a P (es decir, con un n´ umero de habitantes igual a P ) se modela con una ley de Poisson de media µP , µ ∈ [0, 1]. a) Suponemos que el n´ umero de muertes observadas en n regiones con poblaciones P1 , P2 , . . . , Pn son Y1 , Y2 , . . . , Yn . Deriva una expresi´on para el estimador de m´axima verosimilitud de µ. Ll´amalo µ ˆ. La siguiente tabla da el n´ umero de muertos por c´ancer de h´ıgado (el c´ancer de h´ıgado se puede considerar una enfermedad rara) durante 4 a˜ nos en las regiones de Ontario (Canad´a). Regionses Regi´on 1 Regi´on 2 Regi´on 3 Regi´on 4 Regi´on 5 Regi´on 6 Regi´on 7 Regi´on 8 Regi´on 9 Regi´on 10

Pi 423.447 175.685 1.245.379 413.465 216.476 242.810 213.591 166.045 265.880 116.371

Muertes 37 11 72 40 12 14 16 9 15 12

b) Encuentra µ ˆ para estos datos y calcula el n´ umero de muertes esperadas en cada regi´on. c) Supongamos ahora que Y1 , Y2 , . . . , Yn son variables aleatorias de Poisson de medias λ1 , λ2 , . . . , λn y sean P1 , P2 , . . . , Pn constantes positivas conocidas. Considera la hip´otesis: H0 : λ1 = µP1 , λ2 = µP2 , . . . , λn = µPn

5.8. LISTA DE PROBLEMAS

181

donde µ es desconocido. Demuestra que el estad´ıstico del test de la raz´on de verosimilitudes para contrastar esta hip´otesis es −2 log Λ = 2

n X

ˆi) Yi log(Yi /λ

i=1

ˆi = µ donde λ ˆ Pi y µ ˆ es el estimador de m´axima verosimilitud encontrado en el apartado (a). d ) Aplica este u ´ltimo resultado para concluir si las tasas de muerte (proporci´on de muertos en cada poblaci´on) de las 10 regions son proporcionales a las poblaciones de las regiones. 12. (Examen julio 2000) Sea X v.a. con densidad f (x; β) =

β I[1,∞) (x), β > 0. xβ+1

a) Prueba que Y = log X ∼ Exp(β) (donde β es 1/E(Y )). b) Se observa una muestra de tama˜ no n de X. Contrasta a nivel α ½

H0 : β = 1 H1 : β 6= 1

usando el test de la raz´on de verosimilitudes, el test de Wald y el test del score. c) Aplica los tests anteriores para α = 0,05 al caso de haber observado los siguientes datos: 2,2263, 1,6464, 1,1788, 1,5014, 3,1677, 1,3762, 5,0698, 1,7471, 1,8849, 16,0879 (Suma de los datos= 35.8865; producto de los datos= 7595.66).

Contrastes bayesianos 13. (Garthwaite, Jollife y Jones 1995, 7.8) Sea X ∼ B(n, θ), con n conocido. Una de las dos hip´otesis siguientes es cierta: H0 : θ =

1 3 o H1 : θ = . 2 4

Prueba que la probabilidad a posteriori de que H0 sea cierta es mayor que su probabilidad a priori si y s´olo si x log 3 < n log 2. 14. (Garthwaite, Jollife y Jones 1995, 7.9) Sea X1 , . . . , Xn una m.a.s. de una distribuci´on exponencial de esperanza 1/θ, θ > 0. Se desea contrastar H0 : θ = 1 frente a H1 : θ 6= 1, donde estas hip´otesis tienen probabilidades

182

´ CAP´ITULO 5. CONTRASTES DE HIPOTESIS a priori P (H0 ) = p y P (H1 ) = 1 − p. Si la distribuci´on a priori de θ es γ(α, β), con α y β conocidos, determina la ventaja a posteriori P (H0 | x ) e = Q · B, P (H1 | x ) e donde Q es la ventaja a priori y B es el factor de Bayes, de dos formas distintas: aplicando primero directamente la definici´on del factor de Bayes y, despu´es, calculando B como l´ımite de cocientes entre probabilidades a posteriori y a priori bajo H1 . Q∗ =

15. (Garthwaite, Jollife y Jones 1995, 7.10) Sea X1 , . . . , Xn una m.a.s. de una N (θ, 1). Se consideran dos hip´otesis: H0 : θ = 1 y H1 , con P (H0 ) = p y P (H1 ) = 1 − p. a) Suponiendo que H1 especifica que θ = −1, prueba que Pn pe i=1 xi Pn . P (H0 | x ) = Pn e pe i=1 xi + (1 − p)e− i=1 xi b) Suponiendo que H1 especifica que θ 6= 1 y que bajo H1 la distribuci´on a priori de θ es N (0, 1), determina P (H0 | x ) en el caso especial de Pn e que i=1 xi = n.

Cap´ıtulo 6

Estimaci´ on por intervalos Referencias: Casella-Berger, cap´ıtulo 9 y Crist´ obal (1992), cap´ıtulo 15.

En los cap´ıtulos 3 y 4 se han estudiado los estimadores puntuales. Estos estimadores ofrecen un u ´nico valor como estimaci´on del par´ametro desconocido ´ n por conjuntos, θ. En este cap´ıtulo se aborda el problema de la estimacio donde se estudian estimadores que proporcionan un conjunto como estimaci´on de θ. El resultado de una estimaci´on por conjuntos es una afirmaci´on del tipo “θ ∈ C”, donde C = C( x ) es un subconjunto del espacio param´etrico Θ que e depende de los datos observados x . En el caso de que Θ ⊆ IR los conjuntos que e se suelen usar para realizar inferencias sobre θ son intervalos.

6.1.

Intervalos de confianza

Un estimador por intervalos de un par´ametro θ ∈ Θ ⊆ IR es cualquier par de funciones reales L( x ) y U ( x ) definidas en el espacio muestral X tales e e que L( x ) ≤ U ( x ) para todo x = (x1 , . . . , xn ) ∈ X . Si se observa el valor e e e X = x , mediante este estimador se hace la inferencia “L( x ) ≤ θ ≤ U ( x )”. e e e e Al intervalo aleatorio [L( X ), U ( X )] se le llama estimador por intervalos e e de θ (o intervalo estimador de θ), mientras que al valor que ha tomado en ´ n por intervalos la muestra observada [L( x ), U ( x )] se le llama estimacio e ´ e de θ (o intervalo estimacion de θ). Ejemplo 77 Sea X1 , X2 , X3 , X4 una muestra de tama˜ no 4 de X ∼ N (µ, 1). Un estimador por intervalos de µ es [X − 1, X + 1]. Para cada muestra observada x1 , x2 , x3 , x4 , la estimaci´on por intervalos de µ es [x − 1, x + 1]. . .

183

184

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

Obs´ervese que si se estima un par´ametro θ mediante un intervalo, la inferencia es menos precisa que si se estima con un estimador puntual: ahora nos limitamos a afirmar que el par´ametro est´a en un cierto conjunto, mientras que antes d´abamos un valor concreto como estimaci´on suya. Dado que se pierde en precisi´on, cabe preguntarse qu´e se gana al estimar un par´ametro θ mediante un intervalo, respecto a hacerlo con un estimador puntual. La respuesta es que se gana en confianza: en general, la probabilidad de que un estimador sea exactamente igual al par´ametro que desea estimar es 0, mientras que la probabilidad de que un estimador por intervalos cubra al par´ametro ser´a positiva.

Ejemplo 77, p´ agina 183. Continuaci´ on. Si se estima µ por X, se tiene que P (X = µ) = 0, porque X ∼ N (µ, 1/4). Sin embargo, P (µ ∈ [X − 1, X + 1]) = P (X − 1 ≤ µ ≤ X + 1) = P (−1 ≤ X − µ ≤ 1) = µ ¶ X −µ √ ≤ 2 = 0,9544. P −2 ≤ 1/ 4 A costa de algo de precisi´on, el paso de un estimador puntual a uno por intervalos ha permitido aumentar la confianza que tenemos en que sea correcta la afirmaci´on hecha en la inferencia. . . Se llama probabilidad de cobertura de un estimador por intervalos [L( X ), U ( X )] del par´ametro θ a la probabilidad de que ese intervalo aleatorio e e cubra al verdadero valor del par´ametro θ: Pθ (θ ∈ [L( X ), U ( X )]). e e Obs´ervese que esa probabilidad de cobertura puede variar con θ. Se llama coeficiente de confianza del intervalo [L( X ), U ( X )] como e e estimador del par´ametro θ al ´ınfimo de las probabilidades de cobertura: ´ınf Pθ (θ ∈ [L( X ), U ( X )]). e e

θ∈Θ

Intervalo de confianza es el nombre que recibe usualmente un estimador por intervalos junto con su coeficiente de confianza. Tambi´en se nombra as´ı a veces a la estimaci´on a que da lugar el estimador por intervalos aplicado a una muestra concreta. Adem´as de C( x ), se usar´a tambi´en la notaci´on IC1−α (θ) se e usar´a para referirse a un intervalo de confianza (1 − α) para θ. Si se desea construir un intervalo para una transformaci´on invertible τ (θ) del par´ametro y [L( x ), U ( x )] es un intervalo de confianza (1 − α) para θ, entonces e e el intervalo [τ (L( x )), τ (U ( x ))] e e es un intervalo de confianza (1 − α) para τ (θ).

´ 6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 185 Obs´ervese que en las expresiones del tipo Pθ (θ ∈ [L( X ), U ( X )]), el valor e e del par´ametro est´a fijo y lo que son variables aleatorias son los extremos del intervalo: Pθ (θ ∈ [L( X ), U ( X )]) = Pθ ({L( X ) ≤ θ} ∩ {U ( X ) ≥ θ}). e e e e

6.2.

M´ etodos para construir intervalos de confianza

En esta secci´on veremos cuatro m´etodos para construir estimadores por intervalos de un par´ametro θ ∈ Θ ⊆ IR.

6.2.1.

Inversi´ on de un contraste de hip´ otesis

Como veremos a continuaci´on, hay una estrecha relaci´on entre la estimaci´on por intervalos y los contrastes de hip´otesis. En general, se puede decir que cada m´etodo de construcci´on de un intervalo de confianza corresponde a un m´etodo de contraste de un hip´otesis, y viceversa.

Ejemplo 78 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ conocido. Consideramos el contraste ½ H0 : µ = µ0 . H1 : µ 6= µ0 Para hacer el contraste a nivel α el test insesgado uniformemente de m´axima √ potencia rechaza H0 si |x − µ0 | > zα/2 σ/ n, es decir, la regi´on del espacio muestral X en donde se acepta H0 es el conjunto de x tales que e σ σ x − zα/2 √ ≤ µ0 ≤ x + zα/2 √ . n n Dado que el test tiene tama˜ no α, se tiene que P (aceptar H0 |µ = µ0 ) = 1 − α. Por lo tanto, para todo µ0 ¯ µ ¶ σ σ ¯ P X − zα/2 √ ≤ µ0 ≤ X + zα/2 √ ¯¯ µ = µ0 = 1 − α, n n de donde se sigue que ¶ µ σ σ =1−α Pµ X − zα/2 √ ≤ µ ≤ X + zα/2 √ n n √ √ para todo µ, luego [X − zα/2 σ/ n, X + zα/2 σ/ n] es un estimador por intervalos de confianza 1 − α para µ. . .

186

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

La correspondencia entre intervalos de confianza y contrastes de hip´otesis se debe a que ambos procedimientos persiguen la consistencia entre los valores observados en la muestra y los par´ametros de la distribuci´on poblacional, aunque desde perspectiva distintas. En un contraste de hip´otesis se fijan los par´ametros y se buscan qu´e valores muestrales son acordes con ellos (esto es, se busca la regi´on de aceptaci´on), mientras que en la estimaci´on por intervalos se toma como fija la muestra observada y se buscan los valores de los par´ametros que hacen esta muestra plausible (esto es, se busca el intervalo de confianza). El siguiente resultado prueba la relaci´on existente entre contrastes e intervalos. Teorema 46 Para cada valor θ0 ∈ Θ se denota por A(θ0 ) a la regi´ on de aceptaci´ on a nivel α de un test que contrasta H0 : θ = θ0 . Para cada x ∈ X se e define el conjunto C( x ) ⊆ Θ como e C( x ) = {θ0 ∈ Θ : x ∈ A(θ0 )}. e e Entonces el conjunto aleatorio C( X ) es un estimador por conjuntos de confiane za 1 − α para θ. Rec´ıprocamente, sea C( X ) un estimador por conjuntos de confianza 1 − α e para θ. Para cada θ0 ∈ Θ se define A(θ0 ) = { x ∈ X : θ0 ∈ C( x )}. e e Entonces A(θ0 ) es la regi´ on de aceptaci´ on a nivel α de un test que contrasta H0 : θ = θ 0 . Demostraci´ on: Veamos la primera parte. Por ser A(θ0 ) el complementario de la regi´on de rechazo de un test de nivel α se tiene que Pθ0 ( X ∈ A(θ0 )) ≥ 1 − α. e Dado que θ0 es un valor arbitrario del par´ametro, podemos escribir θ en lugar de θ0 . Como x ∈ A(θ) si y s´olo si θ ∈ C( x ), se tiene que e e Pθ (θ ∈ C( X )) = Pθ ( X ∈ A(θ)) ≥ 1 − α, e e y se concluye que C( X ) es un estimador por conjuntos de confianza 1 − α. e Veamos la segunda parte. La probabilidad de error de tipo I del test cuya regi´on de aceptaci´on es A(θ0 ) es Pθ0 ( X 6∈ A(θ0 )) = Pθ0 (θ0 6∈ C( X )) ≤ α, e e as´ı que este es un test de nivel α.

2

El procedimiento de construcci´on de intervalos de confianza (o de conjuntos de confianza, en general) a partir de la inversi´on de contrastes de hip´otesis es muy

´ 6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 187 u ´til en la pr´actica porque en general es m´as sencillo un problema de contraste de hip´otesis que uno de estimaci´on: el hecho de poder trabajar suponiendo la hip´otesis nula cierta facilita la tarea. Cualquiera de los m´etodos de contraste de hip´otesis vistos en el tema 5 puede invertirse para dar lugar a conjuntos de confianza. Obs´ervese que, aunque sea θ ∈ IR, este mecanismo de inversi´on no garantiza que los conjuntos de confianza obtenidos sean intervalos.

Ejemplo 79 Sea X ∼ B(n, p). Se desea construir un conjunto de confianza 1 − α para p a partir de una observaci´on x de X. Para ello se invierte el test de tama˜ no α que contrasta H0 : p = p0 frente a H1 : p 6= p0 y tiene por regi´on de aceptaci´on los valores x que son m´as probables bajo H0 hasta completar una probabilidad de (1 − α). Para fijar ideas supongamos que n = 3 y 1 − α = 0,442. La siguiente tabla da las regiones de aceptaci´on A(p) para los distintos valores de p especificados en H0 : p [0, ,238] (,238, ,305) [,305, ,362] (,362, ,366) [,366, ,634] (,634, ,638) [,638, ,695] (,695, ,762) [,7,621]

A(p) 0 0,1 1 0,1 1,2 2,3 2 2,3 3

Invirtiendo estas regiones de aceptaci´on se obtienen los siguientes conjuntos de confianza C(x): x 0 1 2 3

C(x) [0, ,305) ∪ (,362, ,366) (,238, ,634] [,366, ,762) (,634, ,638) ∪ (,695, 1]

Observar que no todos los conjuntos de confianza que pueden aparecer son intervalos. . .

En la pr´actica, sin embargo, con frecuencia s´ı encontraremos intervalos. Por otra parte, el tipo de intervalo encontrado depender´a de la hip´otesis alternativa

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

188

que se consider´o para definir el contraste. Si la hip´otesis alternativa es bilateral, en general se obtendr´a un intervalo de longitud finita, mientras que si la alternativa es unilateral, los intervalos que se encuentran tienen uno de sus extremos en −∞ o ∞.

Ejemplo 80 Sea X ∼ exp(λ), λ = E(X), y se quiere dar un intervalo de confianza para λ e mediante la inversi´on de un test de tama˜ no α. Se toma una muestra de tama˜ no n de X. El test de la raz´on de verosimilitudes para contrastar ½ H0 : λ = λ 0 H1 : λ 6= λ0 tiene por estad´ıstico 1 − e λn 0

supλ

Pn i=1

1 − λn e

xi /λ0

Pn i=1

µ Pn i=1

nλ0

xi /λ

xi

=

1 − e λn 0

Pn

(

¶n en e−

Pn i=1

xi /λ0

1 e−n xi /n)n

=

i=1

Pn i=1

xi /λ0

.

Para un valor λ0 fijo, la regi´on de aceptaci´on del test es ½ µ Pn ¶n Pn ¾ i=1 xi A(λ0 ) = x : e− i=1 xi /λ0 ≥ k ∗ , λ0 e donde la constante k ∗ se elige para que el test tenga tama˜ no α, o lo que es lo mismo, para que Pλ0 ( X ∈ A(λ0 )) = 1 − α. e Obs´ervese que la expresi´on de la regi´on de aceptaci´on depende de la muestra P y del par´ametro s´olo a trav´es de v = xi /λ0 . Adem´as, la distribuci´on de Pn Pn V = i=1 Xi /λ0 no depende del par´ametro λ0 : i=1 Xi ∼ γ(n, λ0 ) bajo H0 , luego V ∼ γ(n, 1). De esto se sigue que el valor k ∗ es el mismo para todo λ0 . Invirtiendo la regi´on de aceptaci´on se obtiene el conjunto de confianza 1 − α: ½ µ Pn ¾ ¶n Pn − xi /λ ∗ i=1 xi i=1 C( x ) = λ : ≥k . e λ e La funci´on g(v) = v n e−v es positiva en todo IR+ , vale 0 en v = 0 y tiende a 0 si v tiende a infinito. Adem´as, tiene un u ´nico punto cr´ıtico en v = n. Se sigue que tiene un u ´nico m´aximo en v = n y que los conjuntos de la forma {v ≥ 0 : g(v) ≤ k ∗ }, con k ∗ ≤ g(n) = nn e−n , son intervalos de la forma [l, u], con l ≥ n ≥ u y g(l) = g(u) = k ∗ . De ello se deduce que A(λ0 ) es un intervalo para cualquier valor de λ0 , y que los conjuntos de confianza C( x ) tambi´en son intervalos para cualquier valor de Pn e i=1 xi .

´ 6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 189 As´ı pues, el intervalo de confianza obtenido ser´a de la forma ( ) n n n X X X C( xi ) = λ : L( xi ) ≤ λ ≤ U ( xi ) , i=1

con

i=1

i=1

Pn Pn n n X X xi i=1 xi L( xi ) = , U( xi ) = i=1 . u l i=1 i=1

Los valores l y u son las soluciones del sistema de ecuaciones no lineales ½ g(l) = g(u) P (l ≤ V ≤ u) = 1 − α Si n = 2, V ∼ γ(2, 1) y el sistema se transforma en ´este: ½ 2 −l l e = u2 e−u e−l (l + 1) − e−u (u + 1) = 1 − α Si hacemos 1 − α = 0,9 y resolvemos el sistema, se obtiene l = 0,4386 y u = 5,4945, luego el intervalo de confianza 0.90 para λ es X X [0,182 Xi , 2,28 Xi ] ≡ [0,364X 2 , 4,56X 2 ]. .

6.2.2.

.

Cantidades pivotales

Uno de los m´etodos m´as comunes de construcci´on de intervalos de confianza es el uso de cantidades pivotales. Sea X = (X1 , . . . , Xn ) una m.a.s. de X ∼ F (x; θ). Una funci´on Q( X , θ) e e de la muestra y del par´ametro es una cantidad pivotal si la distribuci´on de probabilidad de Q( X , θ) no depende del par´ametro θ, es decir, Q( X , θ) tiene e e la misma distribuci´on para cualquier valor de θ. Dada una cantidad pivotal Q( X , θ), para cualquier conjunto A del espacio e imagen de Q se tiene que Pθ (Q( X , θ) ∈ A) no depende de θ. Por lo tanto si se e elige un conjunto Aα tal que Pθ (Q( X , θ) ∈ A) = 1 − α, para todo θ, e y se observa la muestra X = x , entonces el conjunto e e C( x ) = {θ : Q( x , θ) ∈ A} e e es un conjunto de confianza 1 − α para θ. En el caso de que θ ∈ IR, el uso de cantidades pivotales no garantiza en general que el conjunto de confianza sea un intervalo.

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

190

Ejemplo 81 Si X tiene distribuci´on perteneciente a una familia de localizaci´on y escala, entonces es posible definir diferentes cantidades pivotales. Entre ellas se˜ nalaremos las siguientes: Familia de localizaci´on:

fµ (x) = f (x − µ)

Q( x , µ) = X − µ e

Familia de escala:

fσ (x) = (1/σ)f (µ/σ)

Q( x , σ) = X/σ e

Familia de localizaci´on y escala:

fµ,σ (x) = (1/σ)f ((x − µ)/σ)

Q1 ( x , µ, σ) = (X − µ)/σ, e Q2 ( x , µ, σ) = (X − µ)/S e Para ver que esas funciones son cantidades pivotales basta escribir Xi = µ+σYi , con Yi ∼ f , y comprobar que las funciones Q s´olo dependen de Y1 , . . . , Yn . . .

Ejemplo 80, p´ agina 188. Continuaci´ on. En el ejemplo 80 el intervalo de confianza construido se bas´o en Pn Xi V = i=1 , λ cuya distribuci´on es γ(n, 1) para cualquier valor de λ, as´ı que V es una cantidad pivotal y el intervalo de confianza construido all´ı es un ejemplo de intervalo basado en una cantidad pivotal. Si se define T = 2V , entonces T ∼ γ(n, 2), es decir T ∼ χ22n . Es m´as f´acil encontrar tabulada la distribuci´on χ22n que la distribuci´on gamma, por lo que T resultar´a m´as u ´til en la pr´actica. . . En la pr´actica, la forma en la que se construye un intervalo de confianza a partir de una cantidad pivotal es la siguiente. Supondremos que Q( x , θ) ∈ IR y e θ ∈ IR. Para un valor α dado, se buscan n´ umeros a y b tales que Pθ (a ≤ Q( X , θ) ≤ b) = 1 − α. e Observar que a y b no dependen de θ por ser Q cantidad pivotal, y que la elecci´on de a y b no ser´a u ´nica en general. Para cada θ0 , el conjunto A(θ0 ) = { x : a ≤ Q( x , θ) ≤ b} e e es la regi´on de aceptaci´on de un test de tama˜ no α para contrastar H0 : θ = θ0 basado en el estad´ıstico T ( X ) = Q( X , θ0 ). Invirtiendo este contraste obtenee e mos el conjunto de confianza 1 − α para θ: C( x ) = {θ : a ≤ Q( x , θ) ≤ b}. e e

´ 6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 191 Si g

(θ) = Q( x , θ) es una funci´on mon´otona de θ para cada x fijo, entonces x e e e se tiene garant´ıa de que C( x ) sea un intervalo. Si g (θ) es creciente, entonx e e ces C( x ) = [L( x , a), U ( x , b)], mientras que si g (θ) es decreciente, entonces x e e e e C( x ) = [L( x , b), U ( x , a)]. Si g (θ) es invertible, entonces x e e e e C( x ) = [m´ın{g −1 (a), g −1 (b)}, m´ax{g −1 (a), g −1 (b)}]. x x x x e e e e e

Ejemplo 80, p´ agina 188. Continuaci´ on. En este ejemplo Q( X , λ) = Pn e 2 2 i=1 Xi /λ ∼ χ2n . As´ı, podemos elegir a = χ22n,1−α/2 y b = χ22n,α/2 , donde P (Y ≥ χ22n,p ) = p para p ∈ (0, 1), y la variable Y es una χ22n . En este caso

2

i=1 xi (λ) = Q( x , λ) = , x λ e e es invertible y decreciente, luego el intervalo de confianza (1 − α)

g

es decir g

x e para λ ser´ a

Pn

# " P Pn n 2 i=1 xi 2 i=1 xi C( x ) = [g (b), g (a)] = , . χ2n,1−α/2 χ2n,α/2 x x e e e −1

−1

En el caso de n = 2 y α = 0,1, χ24,,05 = 9,49 y χ24,,95 = ,71, luego el intervalo de confianza 0.90 es · ¸ 4x 4x C( x ) = , = [0,4215x, 5,63x]. 9,49 ,71 e .

.

Obs´ervese que el intervalo que se acaba de calcular difiere del construido en el ejemplo 80, pese a que ambos se basan (en la pr´actica) en la misma cantidad pivotal. Ello se debe a que, como se se˜ nal´o antes, la forma de elegir los valores a ´trico y b no es u ´nica. Aqu´ı se han tomado de forma que el intervalo fuese sime en probabilidad, es decir, la probabilidad α que queda fuera del intervalo C( X ) se reparte a partes iguales entre valores menores y mayores que los del e intervalo. Esta forma de elegir a y b es la m´as usada en la pr´actica, aunque veremos m´as adelante que no da lugar, en general, a los intervalos m´as cortos posibles.

Ejemplo 82 Intervalos de confianza para la media y la varianza de la distribuci´ on normal.

192

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

Si X ∼ N (µ, σ) con σ conocida, entonces la distribuci´on de X es de una familia de localizaci´on y, por tanto, Q( X , µ) = (X − µ)/σ es una cantidad pivotal. e Adem´as, √ √ n(X − µ) Z = nQ( X , µ) = ∼ N (0, 1). σ e El intervalo de confianza (1 − α) para µ sim´etrico en probabilidad que se deriva de esta cantidad pivotal es σ σ IC1−α (µ) = C( x ) = [x − zα/2 √ , x + zα/2 √ ]. n n e Si σ es desconocido, una cantidad pivotal es Q( X , µ) = (X − µ)/S. Adem´as, e √ √ n(X − µ) ∼ tn−1 . t = nQ( X , µ) = S e El intervalo de confianza (1 − α) para µ sim´etrico en probabilidad que se deriva de esta cantidad pivotal es S S IC1−α (µ) = C( x ) = [x − tn−1,α/2 √ , x + tn−1,α/2 √ ]. n n e Si se desea dar un intervalo de confianza para σ 2 o para σ, puede usarse la cantidad pivotal Q( x , σ) = (n − 1)S 2 /σ 2 ∼ χ2n−1 . e Si se eligen a y b para que el intervalo sea sim´etrico en probabilidad se obtienen " # 2 2 (n − 1)S (n − 1)S IC1−α (σ 2 ) = , , χ2n−1,α/2 χ2n−1,1−α/2 "s IC1−α (σ) =

(n − 1)S 2 , χ2n−1,α/2

s

# (n − 1)S 2 . χ2n−1,1−α/2

.

.

Uno de los casos en los que la cantidad pivotal es mon´otona en el par´ametro para una muestra fija es aqu´el en que existe un estad´ıstico T = T ( X ) (es e deseable que sea un estad´ıstico suficiente para el par´ametro) con distribuci´on absolutamente continua y tal que su funci´on de distribuci´on sea mon´otona en el par´ametro. En este caso, se toma como cantidad pivotal Q( x , θ) = FT (T ( x ); θ). e e Por una parte Q( X , θ) = FT (T ( X ); θ) ∼ U (0, 1) para todo θ, luego Q es e e cantidad pivotal, y por otra g (θ) = Q( x , θ) es mon´otona en θ. Este m´etodo x e es u ´til para construir intervalose de confianza para par´ametros de posici´on.

´ 6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 193 Veamos ahora una forma gen´erica de definir una cantidad pivotal que es v´alida para cualquier distribuci´on poblacional absolutamente continua y que siempre da lugar a un intervalo de confianza si el par´ametro es real. Supongamos que X es una variable aleatoria absolutamente continua con funci´on de distribuci´on F (x; θ) y que esta funci´on es continua y mon´otona en θ. Sea X1 , . . . , Xn m.a.s. de X. Entonces Ui = F (Xi ; θ) ∼ U (0, 1) para todo θ, y Yi = − log Ui ∼ exp(1) ≡ γ(1, 1). Por lo tanto,

n X

Yi ∼ γ(n, 1) y 2

i=1

n X

Yi ∼ χ22n .

i=1

As´ı, se tiene que n n X X Q( x , θ) = 2 Yi = −2 log F (Xi ; θ) e i=1 i=1

es cantidad pivotal y g

(θ) = Q( x , θ) es mon´otona en θ. x e e Obs´ervese que Ui = 1 − F (Xi ; θ) ∼ U (0, 1), por lo que tambi´en se puede definir Q a partir de los logaritmos de la funci´on (1 − F (Xi ; θ)).

Ejemplo 80, p´ agina 188. Continuaci´ on. Sea Xi es exponencial con media λ. En este caso es m´as c´omodo trabajar con Ui = 1 − F (Xi ; λ) = e−Xi /λ . As´ı, Pn n X 2 i=1 Xi Q( x , λ) = −2 log(1 − F (Xi ; θ)) = ∼ χ22n , λ e i=1 que es la misma cantidad pivotal que hab´ıamos encontrado en el ejemplo 80. . .

6.2.3.

Intervalos bayesianos

En el marco bayesiano el par´ametro θ es una variable aleatoria cuya distribuci´on a priori es π(θ). Las observaciones tienen distribuci´on condicionada con densidad (o funci´on de masa) f (x|θ). Tras la observaci´on de una muestra X = x , la distribuci´on de probabilidad de θ se modifica con la informaci´on ree e cibida y pasa a tener la distribuci´on a posteriori π(θ| x ). As´ı, cualquier intervalo e (o en general, cualquier conjunto) A ⊂ Θ tal que Z P (θ ∈ A| x ) = π(θ| x )dθ = 1 − α e e A ser´a un intervalo bayesiano de probabilidad 1 − α. El conjunto A depende de la muestra observada a trav´es de π(θ| x ). e

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

194

Obs´ervese que ahora ya no se habla de coeficiente de confianza, como en el enfoque cl´asico: ahora (1 − α) es realmente la probabilidad de que el par´ametro pertenezca al intervalo A y ahora el par´ametro es la variable aleatoria, mientras que la muestra (y por tanto el conjunto A) es fija puesto que ya ha sido observada. Por este motivo, a los intervalos bayesianos se les denomina intervalos de credibilidad (o m´as en general, conjuntos de credibilidad). De los infinitos intervalos A que podemos elegir de forma que P (θ ∈ A| x ) = 1 − α e dos alternativas parecen sensatas. En primer lugar, podemos tomar el intervalo sim´etrico en probabilidad, es decir, aqu´el que deja a su izquierda una probabilidad de α/2 y otra tanta a su derecha. Tambi´en puede buscarse el intervalo de credibilidad (1−α) que tenga mayor densidad a posteriori. Es decir, {λ : π(λ| x ) ≥ cα }, e donde cα se elige de forma que Z {λ:π(λ|

x )≥cα } e

π(λ| x )dλ = 1 − α. e

Ejemplo 83 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), 0 < θ. Sea λ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de λ dadas las observaciones X1 = x1 , . . . , Xn = xn es una ! Ã n X γ α+ xi , (β −1 + n)−1 , i=1

seg´ un se vio en el teorema 20. Si tomamos como distribuci´on a priori la γ de par´ametros α = β = 1, Pn entonces la a posteriori de λ es γ(1 + i=1 xi , (n + 1)−1 ), luego (2(n + 1)λ| x ) ∼ χ22(P x +1) . i e Si tomamos intervalos sim´etricos en probabilidad, obtenemos el intervalo de credibilidad (1 − α)  2  χ2(P x +1),1−α/2 χ22(P x +1),α/2 i i  . , 2(n + 1) 2(n + 1) Pn Si suponemos que n = 10 y que i=1 xi = 6 y tomamos 1 − α = ,9, se obtiene el intervalo de credibilidad 90 % para λ siguiente: [,299, 1,077].

´ 6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 195 Con los mismos datos se obtiene el intervalo de credibilidad 90 % con mayor densidad a posteriori para λ siguiente: [,253, 1,005]. Obs´ervese que este intervalo es m´as corto que el intervalo que deja fuera dos colas con la misma probabilidad. En la siguiente figura se representan ambos. Intervalos de credibilidad (1−α)=0.9 para λ 1.8

1.6

Densidad a posteriori de λ

1.4

1.2

1

0.8

0.6 cα=0.44

0.4

IC1−α(λ) de mayor densidad

0.2

IC1−α(λ) simétrico en probabilidad 0

0

0.2

0.4

0.6

0.8 λ

.

6.2.4.

1

1.2

1.4

1.6

.

Intervalos de verosimilitud

A partir de la funci´on de verosimilitud se puede estimar un par´ametro mediante un intervalo (o, m´as en general, mediante un conjunto) de una forma alternativa a los intervalos de confianza vistos hasta ahora. Estos estimadores alternativos se conocen como intervalos de verosimilitud. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x; θ). La funci´on de verosimilitud de una muestra observada x es e n Y L(θ; x ) = f (xi ; θ). e i=1 Esta funci´on, para x fijo, representa c´omo de veros´ımil es la muestra x para e e cada uno de los posibles valores de θ. El estimador m´aximo veros´ımil de θ es el valor θˆ que hace m´axima la verosimilitud y es un buen estimador de θ, como vimos en la secci´on 4.4. Si se desea

196

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

estimar θ mediante un conjunto, parece l´ogico considerar el de los valores θ que hagan m´as veros´ımil la muestra observada x . e Para un valor cualquiera de θ se define la verosimilitud relativa de la muestra x seg´ un θ como e L(θ; x ) e . R(θ; x ) = ˆ x) e L(θ; e Dada una proporci´on p ∈ (0, 1), se define el conjunto de verosimilitud al 100p % para θ al conjunto V ( X ) = {θ : R(θ; x ) ≥ p}. e e Si θ ∈ IR, estos conjuntos de verosimilitud ser´an intervalos si la funci´on de verosimilitud es c´oncava para cualquier x ∈ X . e Obs´ervese que hay una equivalencia clara entre los conjuntos de verosimilitud al 100p % y los intervalos de confianza (1−α) construidos a partir de la inversi´on del test de raz´on de verosimilitudes para contrastar H0 : θ = θ0 frente a H0 : θ 6= θ0 , donde entre p y α existe una relaci´on biyectiva.

Ejemplo 80, p´ agina 188. Continuaci´ on. Sea X ∼ exp(λ), λ = E(X). e Los c´alculos realizados en el ejemplo 80 nos permiten escribir la verosimilitud relativa como Pn xi /λ 1 − i=1 e λn Pn R(λ; x ) = = e supλ λ1n e− i=1 xi /λ µ Pn ¶n Pn i=1 xi en e− i=1 xi /λ . nλ As´ı, el intervalo de verosimilitud al 100p % ser´a ¾ ½ µ Pn ¶n Pn i=1 xi V (x) = λ : en e− i=1 xi /λ ≥ p . nλ e Este intervalo tiene una confianza (1 − α) que depende de p. Del mismo modo, el intervalo de confianza 0.9 que se calcul´o en la p´agina 188 para n = 2, [0,364X 2 , 4,56X 2 ], es tambi´en un intervalo de verosimilitud al 100p %, y p depende del valor (1 − α) elegido. Concretamente, en este caso p = 0,23. . .

6.3.

Evaluaci´ on de estimadores por intervalos

Los intervalos de confianza (1 − α) posibles para un par´ametro dada una muestra x son m´ ultiples. Se plantea la cuesti´on de c´omo evaluar la calidad de e cada intervalo y, si es posible, elegir el mejor.

´ DE ESTIMADORES POR INTERVALOS 6.3. EVALUACION

197

En estimaci´on por intervalos (o por conjuntos) hay dos cantidades que indican la calidad de un estimador: la longitud (o tama˜ no) del intervalo y su probabilidad de cobertura. Es deseable tener intervalos cortos (precisi´on) con alta probabilidad de cobertura (confianza). Sucede que si se desea aumentar la precisi´on hay que disminuir la confianza y viceversa.

6.3.1.

Intervalos de longitud m´ınima

Una pr´actica habitual es fijar la confianza deseada para los intervalos y buscar qu´e intervalo con esa confianza es el que tiene longitud m´ınima. Se trata de un problema de optimizaci´on con la restricci´on de que la confianza sea una dada. La siguiente proposici´on da la soluci´on bajo ciertas condiciones. Proposici´ on 4 Supongamos que se construye un intervalo de confianza (1 − α) para un par´ ametro θ ∈ IR a partir de la cantidad pivotal Q( x , θ) ∈ IR y que e la distribuci´ on de Q( X , θ) es absolutamente continua con funci´ on de densidad e fQ . Se supone adem´ as que la funci´ on g (θ) = Q( x , θ) es creciente, derivable x e e invertible y que su inversa es la funci´ oen h : IR −→ Θ ⊆ IR. Si la funci´ on fQ /h0 es unimodal, entonces el intervalo de confianza (1 − α) de longitud m´ınima para θ es C( x ) = [h(a∗ ), h(b∗ )] e donde a∗ y b∗ son los valores de IR que verifican fQ (a∗ ) fQ (b∗ ) = h0 (a∗ ) h0 (b∗ ) y

Z

b∗

a∗

fQ (q)dq = 1 − α.

Demostraci´ on: Sea FQ la funci´on de distribuci´on de Q( X , θ). Tal como vimos e en el apartado de la secci´on 6.2 dedicado a las cantidades pivotales, los intervalos de la forma [h(a), h(b)], con FQ (b) − FQ (a) = 1 − α, son intervalos de confianza (1 − α) para θ. As´ı que b depende de a de forma que FQ (b(a)) − FQ (a) = 1 − α. Derivando respecto a a obtenemos fQ (b(a))b0 (a) = fQ (a).

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

198

Si buscamos el valor de a que minimiza la longitud del intervalo, hay que minimizar h(b(a)) − h(a). Los puntos cr´ıticos a∗ de esta funci´on son los que cumplen h0 (b(a∗ ))b0 (a∗ ) = h0 (a∗ ) ⇐⇒

fQ (b∗ ) fQ (a∗ ) = , h0 (a∗ ) h0 (b∗ )

donde b∗ = b(a∗ ). Adem´as s´olo hay un punto a∗ que cumpla simult´aneamente esa condici´on y la de que FQ (b(a∗ )) − FQ (a)∗ = 1 − α, porque al ser fQ /h0 unimodal, cualquier otro intervalo cuyos extremos tengan igual valor de fQ /h0 o bien est´a estrictamente contenido en [a∗ , b(a∗ )] o bien lo contiene estrictamente. En cualquiera de los dos casos, la probabilidad que encierra es distinta de (1−α). Veamos ahora que la soluci´on u ´nica (a∗ , b(a∗ )) es un m´ınimo. Calculamos la segunda derivada de h(b(a)) − h(a): h00 (b(a))b0 (a)2 + h0 (b(a))b00 (a) − h00 (a) = Ã ! 0 0 fQ (a)fQ (b(a)) − fQ (b(a))b0 (a)fQ (a) fQ (a) 00 0 0 h (b(a))b (a) −h00 (a). +h (b(a)) 2 (b(a)) fQ (b(a)) fQ Si tenemos en cuenta que en (a∗ , b(a∗ )) se verifica que fQ (a)/h0 (a) = fQ (b)/h0 (b), la expresi´on anterior se transforma en ´esta: 0 0 h0 (a)fQ (a) − h00 (a)fQ (a) h0 (b(a))fQ (b(a))b0 (a)fQ (a) h00 (b(a))fQ (b(a))b0 (a)fQ (a) − + = 2 2 (b(a)) fQ (a) fQ (b(a)) fQ

(h0 (a))2 fQ (a)

µ

0 0 h0 (a)fQ (a) − h00 (a)fQ (a) h0 (b(a))fQ (b(a)) − h00 (b(a))fQ (b(a)) 0 − b (a) 0 2 (h (a)) (h0 (b(a)))2 à ¯ ¯ ! (h0 (a))2 ∂ (fQ (q)/h0 (q)) ¯¯ ∂ (fQ (q)/h0 (q)) ¯¯ − ¯ ¯ fQ (a) ∂q ∂q q=a 0

y esta cantidad es positiva por ser fQ /h unimodal.

q=b

2

Las modificaciones necesarias para que este resultado sea aplicable a transformaciones g decrecientes son inmediatas. x e Un caso particular importante es aqu´el en que la transformaci´on g (θ) = x e Q( x , θ) es lineal. En este caso h es tambi´en lineal y su derivada es constante, de e donde se sigue que la condici´on para que el intervalo tenga longitud m´ınima es que la densidad fQ tome el mismo valor en ambos extremos a y b. Si, adem´as, la distribuci´on de Q es sim´etrica, entonces los intervalos de menor longitud ser´an tambi´en sim´etricos en probabilidad. Esto ocurre, por ejemplo, en la estimaci´on por intervalos de la media poblacional de la normal. Obs´ervese que si [L( x ), U ( x )] es el intervalo de confianza (1 − α) de m´ınima e e longitud para θ, el intervalo [τ (L( x )), τ (U ( x ))] es un intervalo de confianza e e (1 − α) para τ (θ), pero ´este no tiene por qu´e ser el de m´ınima longitud.

¶ =

´ DE ESTIMADORES POR INTERVALOS 6.3. EVALUACION

199

En la estimaci´on por intervalos de un par´ametro de escala a veces interesa m´as tener el intervalo [L, U ] de m´ınima escala, es decir, el que tiene el menor valor de U/L posible, en lugar del intervalo de m´ınima longitud. El resultado anterior se puede usar tomando la reparametrizaci´on λ = log θ. El intervalo de ˜ ∗ ), h(b ˜ ∗ )], donde h ˜ = log h y h m´ınima longitud para λ ser´a de la forma [h(a (θ) = Q( x , θ). As´ı que el intervalo [h(a∗ ), h(b∗ )] es el de x e e ˜ 0 (a) = fQ (b)/h ˜ 0 (b) se puede expresar menor escala para θ. La condici´on fQ (a)/h en t´erminos de h como fQ (b)h(b) fQ (a)h(a) = . h0 (a) h0 (b) es la inversa de g

Ejemplo 84 Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Queremos dar el intervalo de confianza (1 − α) de menor longitud para σ 2 , basado en la cantidad pivotal (n − 1)S 2 Q( X , σ 2 ) = ∼ χ2n−1 . 2 σ e En este caso la transformaci´on g (σ 2 ) = (n − 1)S 2 /σ 2 y su inversa es x e (n − 1)S 2 . h(q) = q La condici´on que deben cumplir los cuantiles a y b de la distribuci´on χ2n−1 para dar lugar al intervalo m´as corto es fQ (a)a2 = fQ (b)b2 , adem´as de cumplir que Pχ2n−1 ([a, b]) = 1 − α. Es f´acil encontrar valores de n y α para los que este intervalo no es sim´etrico en probabilidad. Si se desea el intervalo m´as corto para σ, entonces s p (n − 1)S 2 1 h(q) = =⇒ h0 (q) = − (n − 1)S 2 p . q 2 q3 La condici´on que deben cumplir a y b es fQ (a)a3/2 = fQ (b)b3/2 . Si se desea el intervalo de menor escala para σ 2 la condici´on que deben cumplir a y b es fQ (a)a = fQ (b)b. y si se quiere el de m´ınima escala para σ, entonces fQ (a)a2 = fQ (b)b2 . .

.

200

6.3.2.

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

Relaci´ on con contrastes de hip´ otesis y optimalidad

El criterio de la longitud no es el u ´nico con el que se puede evaluar un intervalo. Un concepto alternativo nace a partir de la estrecha relaci´on existente entre intervalos de confianza y contrastes de hip´otesis. Se trata de la probabilidad de falso cubrimiento que fue introducida por Neyman. Sea X ∼ f ( x ; θ) y C( x ) un intervalo de confianza (1 − α) para θ basado e e e en la inversi´ on de un test con regi´on de aceptaci´on A(θ). La probabilidad de verdadera cobertura es la funci´on de θ definida como Pθ (θ ∈ C( X )). La e probabilidad de falsa cobertura es la probabilidad de que un intervalo 0 cubra θ cuando θ es el verdadero valor del par´ametro. Es una funci´on que depende de dos valores del par´ametro θ y θ0 . Formalmente se define como Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), U ( X )] y θ0 6= θ, e e e e Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), ∞) y θ0 < θ, e e e Pθ (θ0 ∈ C( X )), si C( X ) = (∞, U ( X )] y θ0 > θ. e e e Un intervalo de confianza (1−α) que minimiza la probabilidad de falso cubrimiento para todos los valores de θ y θ0 sobre una clase de intervalos de confianza ´ s acurado (UMA). Estos (1 − α) se denomina intervalo uniformemente ma intervalos de confianza se consiguen invirtiendo contrastes uniformemente m´as potentes, como pone de manifiesto el siguiente resultado. Teorema 47 Sea X ∼ f ( x ; θ), θ ∈ Θ ⊆ IR. Para cada θ0 ∈ Θ, sea A∗ (θ0 ) e e la regi´ on de aceptaci´ on del contraste UMP para contrastar H0 : θ = θ0 frente a H1 : θ > θ0 a nivel α. Sea C ∗ ( x ) el intervalo de confianza (1 − α) construie do invirtiendo las regiones de aceptaci´ on UMP. Entonces para cualquier otro intervalo C( x ) de confianza (1 − α) se tiene que e Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X )) e e para todo θ0 < θ. En particular, el intervalo C ∗ ( x ) es UMA entre los que son e de la forma C( x ) = [L( X ), ∞). e e Demostraci´ on: Sea θ0 < θ y A(θ0 ) la regi´on de aceptaci´on del test conseguido al invertir los intervalos C( x ). Como A∗ (θ0 ) es UMP para contrastar H0 : θ = θ0 e frente a H1 : θ > θ0 , y θ > θ0 se tiene que Pθ (θ0 ∈ C ∗ ( X )) = Pθ ( X ∈ A∗ (θ0 )) ≤ Pθ ( X ∈ A(θ0 )) = Pθ (θ0 ∈ C( X )). e e e e 2 Para intervalos de la forma (−∞, U ( X )] se puede establecer un resultado e an´alogo. Obs´ervese que los intervalos UMA no siempre existen, dado que en la secci´on 5.2 vimos que no est´a garantizada la existencia de tests UMP.

´ DE ESTIMADORES POR INTERVALOS 6.3. EVALUACION

201

Cuando se estudiaron los contrastes UMP se puso de manifiesto la conveniencia de restringir la atenci´on s´olo a los contrastes insesgados a la hora de buscar el contraste UMP para contrates bilaterales. En el estudio de los intervalos de confianza UMA existe un concepto an´alogo de insesgadez: se dice que C( x ) es conjunto insesgado de confianza (1 − α) si e Pθ (θ0 ∈ C( X )) ≤ 1 − α para todo θ 6= θ0 . e Es decir, un conjunto de confianza es insesgado si la probabilidad de falso cubrimiento es siempre menor o igual que la probabilidad de cubrimiento verdadero. Se dice que un conjunto C ∗ ( x ) de confianza (1 − α) es insesgado y uni´ s acurado si e formemente ma es UMA entre la clase de conjuntos insesgados de confianza (1 − α). El siguiente teorema establece la correspondencia entre conjuntos insesgados UMA y contrastes insesgados UMP. Teorema 48 Sea X ∼ f ( x ; θ), θ ∈ Θ. Para cada θ0 ∈ Θ, sea A∗ (θ0 ) la regi´ on e e de aceptaci´ on del contraste insesgado UMP para contrastar H0 : θ = θ0 frente a H1 : θ 6= θ0 a nivel α. Sea C ∗ ( x ) el conjunto de confianza (1 − α) construido e invirtiendo las regiones de aceptaci´ on del test insesgado UMP. Entonces para cualquier otro conjunto insesgado C( x ) de confianza (1 − α) se tiene que e Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X )) e e para todo θ0 6= θ, es decir, el intervalo C ∗ ( x ) es insesgado UMA. e Demostraci´ on: La demostraci´on es an´aloga a la del teorema 47 y puede dejarse como ejercicio. 2 Para terminar esta secci´on, se establecer´a la relaci´on existente entre la longitud de un intervalo de confianza y su probabilidad de cobertura. Teorema 49 (Pratt, 1961) Sea X una variable aleatoria real con distribuci´ on param´etrica dada por la funci´ on de densidad (o funci´ on de masa) f ( x ; θ), θ ∈ e Θ ⊆ IR. Sea C(x) = [L(x), U (x)] un intervalo de confianza para θ. Si L(x) y U (x) son funciones estrictamente crecientes de x, entonces para cualquier valor θ∗ se tiene que Z Eθ∗ (U (X) − L(X)) = Pθ∗ (θ ∈ C( X ))dθ. e θ6=θ ∗ Demostraci´ on: Z ÃZ

Z ∗

Eθ∗ (U (X) − L(X)) =

U (x)

(U (x) − L(x))f (x; θ )dx = X

X

L(x)

! dθ f (x; θ∗ )dx

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

202 Obs´ervese que

θ ∈ {θ : L(X) ≤ θ ≤ U (x)} ⇐⇒ x ∈ {x : U −1 (θ) ≤ x ≤ L−1 (θ)}, puesto que L(x) y U (x) son funciones estrictamente crecientes. Por lo tanto, cambiando el orden de integraci´on la integral anterior puede calcularse como ! Z ÃZ −1 Z L

Θ

(θ)

f (x; θ∗ )dx dθ =

U −1 (θ)

Pθ∗ (U −1 (θ) ≤ X ≤ L−1 (θ))dθ = Θ

Z

Z P (θ ∈ C(X))dθ = θ∗

Θ

θ6=θ ∗

Pθ∗ (θ ∈ C(X))dθ. 2

El teorema anterior justifica que a los intervalos que minimizan la probabi´ s cortos en el lidad de falsa cobertura se les llame tambi´en intervalos ma sentido de Neyman.

6.4.

Intervalos de confianza asint´ oticos

Estudiaremos en esta secci´on t´ecnicas que proporcionan intervalos de confianza aproximada (1 − α). Se basan en propiedades asint´oticas de algunos estad´ısticos. Sea X n = (X1 , . . . , Xn ) una m.a.s. de tama˜ no n de X ∼ f (x; θ). Se dice e ´ tica si para todo θ que Qn ( x n , θ) es una cantidad pivotal asinto e Qn ( X n , θ) −→D Q, e donde Q es una variable aleatoria de distribuci´on conocida que no depende de θ. Si se construyen intervalos de confianza (1 − α) a partir de Qn sustituyendo su distribuci´on por la de Q, diremos que los intervalos resultantes tienen aproximadamente confianza (1 − α). En general, cuanto mayor sea n mejor ser´a la aproximaci´on. Un caso particular importante lo constituyen las cantidades pivotales asint´oticas de la forma T ( X n ) − EθA (T ( X n )) e eq Qn = VθA (T ( X n )) e que son asint´oticamente normales, donde T ( X n ) es alg´ un estad´ıstico de la muese tra tal que Vθ (T ( X n )) e −→P 1. T ( X n ) − EθA (T ( X n )) −→P 0, A e e Vθ (T ( X n )) e

´ 6.4. INTERVALOS DE CONFIANZA ASINTOTICOS

6.4.1.

203

Intervalos basados en el estimador de m´ axima verosimilitud

Sea L( X n , θ) la funci´on de verosimilitud de una muestra de tama˜ no n de e X ∼ f (x, θ). Sea θˆn el estimador de m´axima verosimilitud de θ, y sea ¶ µ 2 ∂ log L(θ; X ) , In (θ) = −Eθ n ∂θ2 e la informaci´on de Fisher que sobre θ contiene una muestra de tama˜ no n. Entonces θˆn − θ V =p QEM −→D Z ∼ N (0, 1), n (In (θ))−1 V luego QEM es una cantidad pivotal derivada del estimador m´aximo veros´ımil. n Un conjunto de confianza aproximadamente (1 − α) para θ es V {θ : −zα/2 ≤ QEM ≤ zα/2 }. n

No siempre podr´a derivarse de ah´ı un intervalo de confianza. Una forma de garantizar un intervalo de confianza aproximadamente (1 − α) para θ es construirlo como q q −1 ˆ ˆ ˆ [θn − zα/2 (In (θ)) , θn + zα/2 (Iˆn (θ))−1 ], donde Iˆn (θ) es alg´ un estimador consistente de la informaci´on de Fisher.

Ejemplo 85 Sea X ∼ N (0, σ 2 ). Se desea construir un intervalo de confianza aproximada (1 − α) para σ. El logaritmo de la verosimilitud de una muestra de tama˜ no n es Pn √ x2 log L(σ, x n ) = −n log 2π − n log σ − i=12 i . 2σ e La funci´on score es ∂ log L(σ, x n ) n e =− + ∂σ σ

Pn i=1 σ3

x2i

,

por lo que el estimador m´aximo veros´ımil es v u n u1 X σ ˆn = t X 2, n i=1 i y la informaci´on de Fisher es ! Ã 2 ∂ log L(σ, x n ) n 3n 2n e = − 2 + 4 Eσ (X 2 ) = 2 . In (σ) = −Eσ 2 ∂σ σ σ σ

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

204

As´ı, la cantidad pivotal asint´otica es q P n 1 V QEM n

n

( x n , σ) = e

i=1

x2i − σ

√ σ/ 2n

,

que, fijada la muestra, es una funci´on invertible de σ. El intervalo de confianza para σ es q P   n 1 2   i=1 xi − σ n √ ≤ zα/2 = σ : −zα/2 ≤   σ/ 2n q P n 1 

n

i=1

x2i

1 + zα/2

q P n 1 n

,

i=1

x2i

1 − zα/2

 .

Si se construye el intervalo de confianza para σ 2 basado en su estimador de m´axima verosimilitud se observa que los extremos de este intervalo no son los cuadrados de los extremos del intervalo construido para σ. . .

V Hay una relaci´on estrecha entre los intervalos de confianza basado en QEM n y los intervalos de verosimilitud definidos en la p´agina 195. El logaritmo de la verosimilitud relativa es

ˆ x ), r(θ; x ) = log R(θ; x ) = log L(θ; x ) − log L(θ; e e e e que bajo condiciones de regularidad puede ser aproximada en torno a θˆn como 1 r(θ; x ) ≈ − (θ − θˆn )2 In (θˆn ). 2 e El conjunto de verosimilitud al 100p % para θ es V ( X ) = {θ : R(θ; x ) ≥ p} = {θ : r(θ; x ) ≥ log p} ≈ e e e {θ : (θˆn −θ)2 In (θˆn ) ≤ −2 log p} = [θˆn −

q

−2 log p/In (θˆn ), θˆn +

q

−2 log p/In (θˆn )].

Este intervalo de verosimilitud coincide con el intervalo de confianza construido a partir del EMV si hacemos zα/2 =

p

−2 log p.

Tomar α = 0,05 equivale a tomar p = 0,1465, tomar α = 0,1 es equivalente a fijar p = 0,2585.

´ 6.4. INTERVALOS DE CONFIANZA ASINTOTICOS

6.4.2.

205

Intervalos basados en la funci´ on score.

Sea L( X n , θ) la funci´on de verosimilitud de una muestra de tama˜ no n de e X ∼ f (x, θ). Sea Sn ( X n , θ) la funci´on score: e ∂ log L(θ; X n ). Sn ( X n , θ) = ∂θ e e Recordemos que Eθ (Sn ) = 0, Vθ (Sn ) = In (θ), donde In (θ) es la informaci´on de Fisher. Adem´as, QSn =

Sn ( X n , θ) pe −→D Z ∼ N (0, 1), In (θ)

luego QSn es cantidad pivotal asint´otica. El conjunto C( x ) = {θ : −zα/2 ≤ QSn ( x , θ) ≤ zα/2 } e e es un conjunto de confianza aproximadamente igual a (1 − α). Si QSn ( x , θ) es e funci´on invertible de θ para x fijo, entonces ese conjuntos ser´a un intervalo. e El m´etodo de construcci´on de intervalos de confianza basado en la funci´on score tiene la particularidad de que si se utiliza para dar un intervalo para θ y se obtiene [L( x ), U ( x )], cuando se usa para dar un intervalo para τ (θ) el intervalo e e que se obtiene es justamente [τ (L( x )), τ (U ( x ))]. Esto se debe a que e e ∂ ∂τ ∂τ Sn ( x , τ ) = log L(θ; X n ) = Sn ( x , θ) , ∂θ ∂θ ∂θ e e e " # µ ¶ 2 ∂2 ∂θ ∂ ∂2τ In (τ ) = −Eτ log L(θ; X n ) + log L(θ; X n ) 2 = ∂θ2 ∂τ θ ∂θ ∂θ e e µ ¶2 ∂τ In (θ) , ∂θ de donde se sigue que QSn ( x , θ) = QSn (τ (θ)). e Esta propiedad no la verifican todos los m´etodos de construcci´on de intervalos de confianza, tal y como se se˜ nal´o en el ejemplo 85, p´agina 203.

Ejemplo 85, p´ agina 203. Continuaci´ on. La funci´on score es Pn x2 n Sn = − + i=13 i σ σ y la informaci´on de Fisher es In =

2n . σ2

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

206

As´ı, el conjunto de confianza basado en el score es Pn 2   xi   − nσ + i=1 3 q σ ≤ zα/2 = σ : −zα/2 ≤   2n σ2

 v u u t

1 n

Pn

v u u q ,t

2 i=1 xi

1 + zα/2

2 n

1 n

Pn



2 i=1 xi

1 − zα/2

 q . 2 n

Este intervalo es diferente del que se encontr´o en la p´agina 203. Obs´ervese que si se construye el intervalos basado en la funci´on score para σ 2 , se obtiene un intervalo cuyos extremos son los cuadrados de los extremos del intervalo para σ. . . El siguiente teorema establece que entre una amplia familia de intervalos basado en cantidades pivotales asint´oticamente normales, los m´as cortos son los basado en la funci´on score. Teorema 50 Sea X ∼ f (x; θ). Se suponen las condiciones de regularidad H1, H2 y H3 introducidas en el Teorema de Cram´er-Rao. Sea h(X, θ) una funci´ on tal que Eθ (h(X, θ)) = 0 y 0 < Vθ (h) = Vθ (h(X, θ)) < ∞. Se define Pn i=1 h(Xi , θ) Qh ( X , θ) = p e nVθ (h) Se define h0 (X, θ) =

∂ log f (x, θ). ∂θ

Entonces se verifica lo siguiente: 1. Qh ( X , θ) es asint´ oticamente N (0, 1). e 2. QSn = Qh0 . 3. La cantidad

¯ µ ¶¯ ¯ ¯ ¯Eθ ∂ Qh ¯ ¯ ∂θ ¯

se hace m´ axima cuando h(X, θ) = h0 (X, θ) o h(X, θ) = kh0 (X, θ) con k 6= 0. 4. Los intervalos de confianza basados en la funci´ on score son los m´ as cortos asint´ oticamente, entre los basados en las cantidades pivotales asint´ oticas Qh .

´ 6.4. INTERVALOS DE CONFIANZA ASINTOTICOS

207

Demostraci´ on: El apartado 1 se sigue del TCL. El 2 es inmediato. Veamos que se cumple 3. La derivada parcial de Ah respecto a θ es à n ! n X ∂ h(Xi , θ) ∂ Qh (X, θ) 1 1 ∂ Vθ (h) X =p − h(Xi , θ) . ∂θ ∂θ 2Vθ (h) ∂θ i=1 nVθ (h) i=1 Como Eθ (h(X, θ)) = 0, su esperanza ser´a · ¸ r · ¸ ∂ Qh (X, θ) n ∂ h(X, θ) Eθ = E . ∂θ Vθ (h) ∂θ Obs´ervese adem´as que ¸ · 1 ∂θ 1 ∂ h(Xi , θ) √ −→P p , E ∂θ n ∂Qh (X, θ) Vθ (h) lo cu´al implica que el valor absoluto de ∂Qh (X, θ)/∂θ tiende a infinito en probabilidad. Este hecho ser´a necesario para probar el punto 4. Por otra parte, si derivamos respecto a θ la igualdad Eθ (h(X, θ)) = 0 se obtiene lo siguiente: Z Z Z ∂ ∂ h(x, θ) ∂ f (x; θ) 0= h(x, θ)f (x; θ)dx = f (x; θ)dx + h(x, θ)dx, ∂θ ∂θ ∂θ de donde se sigue que · ¸ Z ∂ h(Xi , θ) ∂ f (x; θ) E =− h(x, θ)dx = ∂θ ∂θ Z −

h(x, θ)

∂ log f (x; θ) f (x; θ)dx = −Cov(h(X, θ), h0 (X, θ)). ∂θ

De ah´ı se deduce, por una parte, que · ¸ p ∂ Qh0 (X, θ) Eθ = − nVθ (h0 ) < 0, ∂θ y por otra que · Eθ

¸ √ Cov(h(X, θ), h0 (X, θ)) ∂ Qh (X, θ) p =− n , ∂θ Vθ (h)

luego,

h Eθ Eθ

y por lo tanto

h

∂ Qh (X,θ) ∂θ

i

∂ Qh0 (X,θ) ∂θ

i = Corr(h(X, θ), h0 (X, θ)),

¯ · ¸¯ ¯ · ¸¯ ¯ ¯ ¯ ¯ ¯Eθ ∂ Qh (X, θ) ¯ ≤ ¯Eθ ∂ Qh0 (X, θ) ¯ . ¯ ¯ ¯ ¯ ∂θ ∂θ

Esto concluye la demostraci´on de 3.

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

208

Probemos ahora 4. Sea θ0 el verdadero valor del par´ametro. Si θ es suficientemente pr´oximo a θ0 , ¯ ∂ Qh ¯¯ Qh ( X , θ) ≈ Qh ( X , θ0 ) + (θ − θ0 ) , ∂θ ¯θ0 e e El intervalo de confianza basado en Qh es entonces ) ( ¯ ∂ Qh ¯¯ ≤ zα/2 , θ : −zα/2 ≤ Qh ( X , θ0 ) + (θ − θ0 ) ∂θ ¯θ0 e cuya longitud tiende a 0 porque, seg´ un vimos m´as arriba, el valor absoluto de (∂Qh (X, θ)/∂θ)|θ0 tiende a infinito en probabilidad. Ello hace que los valores θ que est´an dentro del intervalo sean cada vez m´as pr´oximos a θ0 , con lo que la anterior aproximaci´on de Qh ( X , θ) por su desarrollo de Taylor de primer orden e ser´a cada vez m´as precisa, cuando n crece. La longitud asint´otica del intervalo es 2z ¯ µ α/2¯ ¶¯ . ¯ ¯ ¯E ∂ Qh ¯¯ ¯ ∂θ ¯ θ0 ¯ Basta entonces aplicar el punto 3 del teorema para obtener 4.

2

Podemos dar las siguientes reglas pr´acticas para calcular intervalos de confianza asint´oticos. En primer lugar, es recomendable que ´estos se basen en la funci´on score. Tanto en ese caso como si se usan otras cantidades pivotales, se recomienda evitar cuanto sea posible la sustituci´on de cantidades que dependen del par´ametro por estimadores consistentes de ´estas.

Ejemplo 86 Sea X ∼ B(n, p). Calcularemos el intervalo de confianza (1 − α) asint´otico para p que se deriva de la funci´on score. La verosimilitud es µ ¶ n x L(θ; x) = p (1 − p)n−x x y el score, S(θ, x) =

∂ log L(θ; x) x − np = . ∂p p(1 − p)

La informaci´on de Fisher es ·

¸ ∂ 2 log L(θ; x) n I(p) = −E = . ∂p2 p(1 − p) As´ı, la cantidad pivotal asint´otica derivada de la funci´on score es √ n(ˆ p − p) S(θ, x) =p , QS (x, p) = p I(p) p(1 − p)

´ 6.4. INTERVALOS DE CONFIANZA ASINTOTICOS

209

donde pˆ = x/n. El intervalo de confianza que da lugar es ( ) √ n(ˆ p − p) C1 = p : −zα/2 ≤ p ≤ zα/2 p(1 − p) El siguiente es tambi´en un intervalo de confianza (1 − α) asint´oticos para el par´ametro p de X ∼ B(n, p): ( ) " # p √ pˆ(1 − pˆ) n(ˆ p − p) √ C2 = p : −zα/2 ≤ p ≤ zα/2 = pˆ ∓ zα/2 n pˆ(1 − pˆ) El primero de estos dos conjuntos necesita un desarrollo adicional hasta quedar expresado expl´ıcitamente como un intervalo. Definimos la funci´on g(p) = (p − p pˆ) n/(p(1 − p)). Es f´acil comprobar que esa funci´on es estrictamente creciente en p. Resolviendo las ecuaciones g(p) = ±zα/2 se obtiene que ³  p ´ 2 p(1− ˆ p)+(z ˆ /4n) α/2 √ n

2  pˆ + (zα/2 /2n) ∓ zα/2 ³ ´ C1 =   2 /n) 1 + (zα/2

 . 

El premio por este trabajo extra es que la longitud de C1 ser´a, en general, menor que la de C2 . Se puede comprobar que el cociente de la longitud de C1 entre la de C2 es q 2 /4nˆ 1 + (zα/2 p(1 − pˆ)) , 2 /n) 1 + (zα/2 que para valores de pˆ cercanos a 0.5 es aproximadamente igual a 1

q

2 /n) 1 + (zα/2

< 1.

Cuando n crece los intervalos C1 y C2 son pr´acticamente coincidentes. .

.

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

210

6.5.

Lista de problemas

M´ etodos de construcci´ on 1. (Casella-Berger, 9.1) Sea X ∼ N (µ, 1). A partir de una m.a.s. X1 , . . . , Xn de X se puede contruir un intervalo de confianza 0.95 para µ de la forma √ x ∓ 1, 96/ n. Sea p la probabilidad de que una nueva observaci´on Xn+1 independiente de las anteriores caiga dentro de ese intervalo. ¿Es p menor, igual o mayor que 0.95? 2. Utiliza los resultados obtenidos en el problema 7 de la lista 5.8 para construir intervalos de confianza para la media y la varianza de una distribuci´on normal. 3. Utiliza los resultados obtenidos en el problema 8 de la lista 5.8 para construir intervalos de confianza para la diferencia de medias y el cociente de varianzas de dos distribuciones normales. 4. Utiliza los resultados obtenidos en el problema 9 de la lista 5.8 para construir intervalos de confianza de la forma [c, ∞) para el cociente de las medias de dos exponenciales. 5. (Garthwaite, Jollife y Jones 1995, 5.10) Se observa un valor de X ∼ B(10, p) y resulta x = 1. Construye un intervalo con coeficiente de confianza 0.95 a partir de la inversi´on del test de la raz´on de verosimilitudes para contrastar H0 : p = p0 frente a H1 : p 6= p0 . 6. (Garthwaite, Jollife y Jones 1995, 5.1) Se dispone de una m.a.s. de tama˜ no n de una exponencial con densidad f (x; θ) = a) Prueba que Y = 2

Pn i=1

1 −x/θ e I(0,∞) (x). θ

Xi /θ es cantidad pivotal.

b) Construye un intervalode confianza (1 − α) para θ a partir de Y . 7. (Garthwaite, Jollife y Jones 1995, 5.3) Se consideran la variables aleatorias independientes X1 , . . . , Xn tales que Xi ∼ N (θai , bi ), i = 1, . . . , n, donde las constantes ai , bi son conocidas y bi > 0, para i = 1, . . . , n. a) Encuentra un estad´ıstico suficiente para θ y a partir de ´el construye un intervalo bilateral de confianza (1 − α) para θ. b) Si ai = bi = i, i = 1, . . . , n, ¿cu´al es el menor valor de n tal que longitud de ese intervalo es menor o igual que 0,5?

6.5. LISTA DE PROBLEMAS

211

8. (Casella-Berger, 9.11) Encuentra una cantidad pivoltal para θ basada en una m.a.s. de tama˜ no n de una N (θ, θ), donde θ > 0 es la varianza de la distribuci´on. A partir de esa cantidad pivotal, construye un intervalo de confianza (1 − α) para θ. 9. (Casella-Berger, 9.26) Sea X1 , . . . , Xn una m.a.s. de X ∼ beta(θ, 1) y supongamos que θ tiene distribuci´on a priori γ(r, λ). Dar un conjunto de credibilidad (1 − α) para θ. 10. (Casella-Berger, 9.29) Sea X1 , . . . , Xn una m.a.s. de X ∼ Bern(p). Dar un intervalo de credibilidad (1 − α) para p usando la a priori conjugada beta(a, b).

Evaluaci´ on de los m´ etodos de construcci´ on de intervalos de confianza 11. (Casella-Berger, 9.35) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Compara las longitudes esperadas de los intervalos de confianza (1 − α) para µ calculados bajo los supuestos siguientes. a) σ 2 conocida. b) σ 2 desconocida. 12. (Casella-Berger, 9.36) Sean X1 , . . . , Xn variables aleatorias independientes con funciones de densidad fXi (x; θ) = eiθ−x I[iθ,∞) (x). a) Prueba que T = m´ıni (Xi /i) es un estad´ıstico suficiente para θ. b) Encontrar el intervalo de confianza (1 − α) de la forma [T + a, T + b] de longitud m´ınima. 13. (Casella-Berger, 9.37) Sea X1 , . . . , Xn una m.a.s. de X ∼ U (0, θ). Sea Y = X(n) el m´aximo de las observaciones. a) Prueba que Y /θ es una cantidad pivotal. b) Prueba que [y, y/α1/n ] es el m´as corto de cuantos intervalos de confianza (1 − α) se pueden derivar de la cantidad pivotal Y . 14. (Casella-Berger, 9.42) Se tiene una observaci´on de una γ(k, β) con par´ametro de forma k conocido. Encontrar el intervalo de confianza (1 − α) m´as corto entre los que tienen la forma [x/b, x/a]. 15. (Casella-Berger, 9.44) Sea X una variable aleatoria con distribuci´on log´ıstica: ex−θ f (x; θ) = . (1 + ex−θ )2 Bas´andote en una observaci´on de X, construye el intervalo de confianza (1 − α) uniformemente m´as acurado de la forma (−∞, U (x)].

212

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

16. (Casella-Berger, 9.45) Sea X1 , . . . , Xn una m.a.s. de X ∼ exp(λ) (E(X) = λ). a) Construye el contraste UMP de tama˜ no α para contrastar H0 : λ = λ0 rente a H1 : λ < λ0 . b) Da el intervalo de confianza (1 − α) uniformemente m´as acurado basado en el contraste del apartado anterior y prueba que puede expresarse como # " P n i=1 xi . C( x ) = 0, 2 χ2n,α e c) Calcula la longitud esperada de C( X ). e

Intervalos de confianza asint´ oticos 17. (Casella-Berger, 9.60.a) Sea X1 , . . . , Xn una m.a.s. de una distribuci´on binomial negativa de par´ametros (r, p), r conocido. Calcula un intervalo de confianza aproximada (1 − α) para p basado en la funci´on score. 18. (Casella-Berger, 9.62) Sea X1 , . . . , Xn una m.a.s. de una distribuci´on binomial negativa de par´ametros (r, p), r conocido. Pn a) ¿Qu´e distribuci´on tiene Y = i=1 Xi ? b) Prueba que si p tiende a 0, entonces 2pY tiende en distribuci´on a una on: Utiliza las funciones generadores de momentos). χ22nr . (Indicaci´ c) Usa este hecho para probar que " 2 # χ2nr,1−α/2 χ22nr,α/2 Pn , Pn 2 i=1 xi 2 i=1 xi es un intervalo de confianza aproximada (1 − α) para p. d ) ¿C´omo habr´ıa que escoger los extremos del intervalo para obtener el intervalo de longitud m´ınima con confianza aproximada (1 − α)? 19. (Garthwaite, Jollife y Jones 1995, 5.14) Se observa una variable aleatoria X con distribuci´on de Poisson(θ). Usa el hecho de que para valores grandes de θ la distribuci´on de X es aproximadamente N (θ, θ) para obtener una ecuaci´on cuadr´atica en θ cuyas ra´ıces dan los extremos de un intervalo de confianza aproximado para la media de X, θ. 20. (Garthwaite, Jollife y Jones 1995, 3.21, 5.8) Una empresa consm´etica se plantea lanzar al mercado un nuevo producto para hombre y quiere saber qu´e proporci´on θ de hombres de un grupo de edad comprar´an ese producto. Dado que una pregunta directa puede no obtener una respuesta sincera, se opta por un procedimiento de respuesta aleatorizada mediante el cual el encuestador nunca puede saber la respuesta dada por el encuestado.

6.5. LISTA DE PROBLEMAS

213

Cada enuestado lanza un dado sin que el encuestador vea el resultado. Seg´ un el resultado obtenido, habr´a de codificar su respuesta (“S´ı, comprar´e el nuevo producto” o “No, no comprar´e el nuevo producto”) como A, B o C, seg´ un la siguiente tabla:

Verdadera respuesta

S´ı No

Resultado 1 2 3 C C C C A A

en el 4 A B

dado 5 6 B A A B

En una muestra de 1000 hombres las veces que aparecieron las respuestas A, B y C fueron 440, 310 y 250, respectivamente. a) Prueba que el logaritmo de la verosimilitud de θ es 440 log(3 − θ) + 310 log(2 − θ) + 250 log(1 − 2θ) + constante. b) Da el estimador m´aximo veros´ımil de θ. c) Construye un intervalo de confianza aproximada 95 % para θ. d ) Supongamos ahora que se tiene acceso a la verdadera respuesta S´ı-No de los hombres de otra muestra de tama˜ no n. ¿Qu´e tama˜ no muestral n es necesario para que el intervalo de confianza 95 % en este caso tenga la misma longitud que el calculado previamente?

214

´ POR INTERVALOS CAP´ITULO 6. ESTIMACION

Cap´ıtulo 7

Introducci´ on a la Teor´ıa de la Decisi´ on Referencias: Casella-Berger, cap´ıtulo 10, Garthwaite, Jollife y Jones (1995), cap´ıtulo 6.

Todos los m´etodos de inferencia estad´ıstica (estimaci´on puntual, contrastes de hip´otesis, estimaci´on por intervalos) involucran la toma de una decisi´on: hay que decidir qu´e punto o qu´e intervalo se toma como estimador de un par´ametro; hay que decidir si se rechaza o no la hip´otesis nula. ´ n es el marco te´orico que permite estudiar globalLa teor´ıa de la decisio mente los problemas de inferencia estad´ıstica como un u ´nico tipo de problema: la toma de una decisi´on. Todas los elementos del proceso de decisi´on est´an formalmente definidos, incluyendo el criterio que la decisi´on final habr´a de optimizar.

7.1.

Elementos b´ asicos en un problema de decisi´ on

Los elementos necesarios para plantear un problema de inferencia estad´ıstica desde la perspectiva de la teor´ıa de la decisi´on son los siguientes: Datos. Los datos se describen mediante un vector aleatorio X cuyos valores e est´an en el espacio muestral X . Modelo. Es el conjunto de posibles distribuciones de probabilidad de los datos X . Se supone que es una familia param´etrica de distribuciones {fθ : e θ ∈ Θ}, donde fθ es una funci´on de densidad o una funci´on de masa de 215

216

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION ´ metros. El par´ameprobabilidad. El conjunto Θ es el espacio de para tro θ (que puede ser un escalar o un vector) es el valor verdadero, pero desconocido, del estado de la naturaleza.

Espacio de acciones. Despu´es de observar X = x se toma una decisi´on e e que afecta a θ. El conjunto de posibles acciones permitidas es el espacio de acciones. Este conjunto se denotar´a por A y sus elementos por a. El espacio de acciones determina si un problema de decisi´on es uno de estimaci´on puntual (si A = Θ), uno de estimaci´on por intervalos (si A es el conjunto de intervalos contenidos en Θ) o uno de contraste de hip´otesis (si A = {“aceptar H0 ”, “rechazar H0 ”}). Funci´ on de p´ erdida. Para evaluar el coste de tomar la decisi´on a cuando ´ n de el verdadero estado de la naturaleza es θ, se utiliza una funcio ´rdida: pe L : Θ × A −→ IR (θ, a) −→ L(θ, a) Cuanto mayor es el valor de L(θ, a) menos apropiada es la decisi´on a si el verdadero estado de la naturaleza es θ. En econom´ıa y en an´alisis ´ n de utilidad bayesiano se valora la adecuaci´on de a a θ con una funcio U (θ, a) que da valores altos a pares acordes y valores bajos a pares poco adecuados. Una funci´on de p´erdida cambiada de signo es una funci´on de utilidad y viceversa. ´ n es una funci´on Reglas de decisi´ on. Una regla de decisio δ

:

X x e

−→ A −→ δ( x ) = a e

que, para cada posible valor x de X , indica qu´e acci´on a se ha de tomar e ´ n aceptables si X toma el valor x . El conjunto de reglas de decisio e e en un problema se denota por D. Funci´ on de riesgo. Para evaluar la calidad de las reglas de decisi´on δ ∈ D se ´ n de riesgo define la funcio R

: Θ×D (θ, δ)

−→ IR −→ R(θ, δ) = Eθ [L(θ, δ( X ))] e

que mide la p´erdida esperada si se usa la regla δ y el verdadero estado de la naturaleza es θ. Como el valor que toma el par´ametro θ no es conocido, es deseable usar una regla de decisi´on que tenga valores bajos de la funci´on de riesgo para todos los posibles valores θ ∈ Θ.

´ ´ 7.1. ELEMENTOS BASICOS EN UN PROBLEMA DE DECISION

7.1.1.

217

Comparaci´ on de reglas de decisi´ on.

Sean δ1 y δ2 dos reglas de decisi´on con funciones de riesgo asociadas R(θ, δ1 ) y R(θ, δ2 ). Comparar δ1 y δ2 mediante la funci´on de riesgo es f´acil si se verifica que R(θ0 , δ1 ) < R(θ0 , δ2 ) para todo θ ∈ Θ. Al comparar δ1 y δ2 diremos que: δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ. δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ). δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ. Una regla δ1 es inadmisible si existe otra regla δ2 tal que R(θ, δ2 ) ≤ R(θ, δ1 ) para todo θ ∈ Θ y adem´as existe un θ0 tal que R(θ0 , δ2 ) < R(θ0 , δ1 ). En ese caso diremos que δ2 es preferible a δ1 , o simplemente que δ2 es mejor que δ1 . Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea mejor que δ. Una regla de decisi´on que sea admisible tiene una propiedad deseable, ya que no existe ninguna otra regla que la mejore uniformemente, pero no hay garant´ıas de que el comportamiento de esa regla sea uniformemente bueno en Θ. La admisibilidad s´olo garantiza que la regla no es uniformemente mala. Parece razonable restringir la b´ usqueda de las reglas de decisi´on a la clase de reglas de D que sean admisibles. En la comparaci´on de dos reglas de decisi´on lo habitual ser´a que ninguna de ellas sea preferible a la otra, sino que una de ellas tenga menor riesgo que la otra para determinados valores de θ y ocurra lo contrario para otros valores de θ. Para realizar una valoraci´on global (considerando todos los posibles valores de θ) de ´ n de probabilidad una regla de decisi´on δ, a veces se define una distribucio a priori π(θ) en Θ que refleja c´omo son de plausibles las diferentes zonas del espacio de par´ametros. A partir de esta distribuci´on sobre Θ se define el riesgo Bayes de las reglas de decisi´on como B

:

A −→ IR δ −→ B(δ) = Eπ [R(θ, δ)]

218

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION

En ocasiones escribiremos el riesgo Bayes como B(π, δ) para se˜ nalar expl´ıcitamente que su definici´on depende de la distribuci´on a priori π considerada. El riesgo Bayes de δ resume en un solo n´ umero el comportamiento de δ sobre todo el espacio Θ. Valores peque˜ nos de B(π, δ) indican que δ tiene un buen comportamiento en las zonas de Θ a las que π asigna m´as probabilidad. A una regla de decisi´on δ que hace m´ınimo el riesgo Bayes se le llama regla Bayes. En la secci´on 7.4 veremos que estas reglas tiene ciertas propiedades de optimalidad.

7.2.

Teor´ıa de la decisi´ on e inferencia estad´ıstica

En esta secci´on veremos c´omo plantear los problemas de estimaci´on puntual, estimaci´on por intervalos y contraste de hip´otesis como problemas de teor´ıa de la decisi´on.

7.2.1.

Estimaci´ on puntual.

Supongamos que X es un vector aleatorio con distribuci´on fθ , θ ∈ Θ. Sue pongamos que Θ ⊆ IR y se desea estimar el par´ametro θ. Determinaremos todos los elementos del problemas de decisi´on asociado. Las ideas que se desarrollar´an ahora son tambi´en v´alidas si θ es un vector de par´ametros. Los datos y el modelo son los que se acaban de especificar: X , {fθ : θ ∈ Θ}. e El espacio de acciones A se corresponde con los posibles valores de θ, es decir A = Θ. A veces puede interesar que A sea m´as grande que Θ, por ejemplo, si θ es la probabilidad de ´exito de un experimento de Bernoulli y Θ = (0, 1) podr´ıa ser que nos interesase tomar A = [0, 1]. La funci´on de p´erdida L debe reflejar el hecho de que si una acci´on a es cercana a θ entonces la decisi´on es correcta, es decir, la p´erdida es peque˜ na. En general las funciones de p´erdidas consideradas son funciones crecientes en la distancia entre θ y a. Las funciones de p´erdida m´as usuales son ´estas: P´ erdida del valor absoluto: L(θ, a) = |θ − a|. P´ erdida cuadr´ atica: L(θ, a) = (θ − a)2 . P´ erdida 0-1: L(θ, a) = 1{|θ−a|>c} , con c ≥ 0. La funci´on de p´erdida puede reflejar que es menos deseable, por ejemplo, sobrestimar θ que subestimarlo. As´ı lo hace esta funci´on de p´erdida: ½ L(θ, a) =

(θ − a)2 10(θ − a)2

si si

a 0. Recordemos que E(S 2 ) = σ 2 y V (S 2 ) = 2σ 4 /(n − 1). El riesgo de δb es R((µ, σ 2 ), δb ) = V (bS 2 ) + (E(bS 2 ) − σ 2 )2 = 2σ 4 b + (bσ 2 − σ 2 )2 = σ 4 n−1 2

µ

2b2 + (b − 1)2 n−1

¶ = σ 4 c(b).

As´ı, la funci´on de riesgo no depende de µ y es cuadr´atica en σ 2 . Obs´ervese que si c(b) < c(b0 ) entonces R((µ, σ 2 ), δb ) < R((µ, σ 2 ), δb0 ). Por lo tanto, buscar la mejor regla de decisi´on equivale a minimizar c(b) en b. El m´ınimo de esa expresi´on se alcanza en b = (n − 1)/(n + 1) y, por lo tanto, para cada valor del par´ametro (µ, σ 2 ) el estimador n

1 X n−1 2 S = S˜2 = (Xi − X)2 n+1 n + 1 i=1 tiene el riesgo menor entre todos los estimadores de la forma bS 2 . El siguiente gr´afico compara los riesgos de S 2 , σ ˆ 2 y S˜2 para diferentes valores 2 2 2 de σ , donde σ ˆ = (n − 1)S /n es el estimador m´aximo veros´ımil de σ 2 .

220

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION 35

30 R(σ2,S2) 25

2

2

R(σ ,(n−1)S /n)

Riesgo

20

15

R(σ2,(n−1)S2/(n+1))

10

5

0

0

1

2

3

4

5

6

7

8

9

10

σ2

.

.

Ejemplo 88 Sea X1 , . . . , Xn muestra aleatoria simple de X no necesariamente normal con V (X) = σ 2 positiva y finita. Consideramos el problema de la estimaci´on de σ 2 y la funci´on de p´erdida LS (σ 2 , a) =

a a − 1 − log 2 , σ2 σ

´rdida de Stein. Obs´ervese que LS (σ 2 , a) ≥ 0 y que LS (σ 2 , a) = conocida como pe 0 si y s´olo si a = σ 2 . Adem´as, para σ 2 fijo, se tiene que l´ım LS (σ 2 , a) = ∞, y

a−→0

l´ım LS (σ 2 , a) = ∞.

a−→∞

Es decir, LS penaliza tanto la subestimaci´on como la sobrestimaci´on. Recu´erdese que con la p´erdida cuadr´atica la subestimaci´on tiene p´erdida acotada, mientras que la penalizaci´on de la sobrestimaci´on es no acotada. Consideremos, como en el ejemplo anterior, la clase de estimadores de la forma δb = bS 2 . Su riesgo es · 2 ¸ µ ¶ bS bS 2 S2 2 R(σ , δb ) = E − 1 − log 2 = b − 1 − log b − E log 2 . σ2 σ σ Obs´ervese que el u ´ltimo sumando es funci´on de σ 2 y posiblemente de otros par´ametros, pero no es funci´on de b. As´ı, R(σ 2 , δb ) se minimiza en aquel valor

´ E INFERENCIA ESTAD´ISTICA 7.2. TEOR´IA DE LA DECISION

221

b que hace m´ınima la funci´on b − log b, es decir, en b = 1. As´ı, de todos los estimadores de la forma bS 2 el que tiene menor riesgo para cualquier valor σ 2 es δ1 = S 2 . . .

7.2.2.

Contrastes de hip´ otesis.

En un problema de contraste de hip´otesis el espacio de acciones consiste u ´nicamente en dos elementos: A = {a0 , a1 }, donde la acci´on a0 consiste en aceptar H0 : θ ∈ Θ0 y la acci´on a1 en rechazarla o, equivalentemente, aceptar H1 : θ ∈ Θ 1 . Una regla de decisi´on δ es una funci´on del espacio muestral X que s´olo toma e dos valores: a0 o a1 . El conjunto { x : δ( x ) = a0 } es la regi´on de aceptaci´on del e e test y el conjunto { x : δ( x ) = a1 } es la regi´on de rechazo o regi´on cr´ıtica. e e La funci´on de p´erdida ha de reflejar que se comete un error si se decide a0 cuando H0 es falsa o se decide a1 cuando H0 es verdadera, mientras que en otros casos se act´ ua correctamente. En este contexto la funci´on de p´erdida 0-1 es la m´as utilizada: L(θ, a0 ) = 1{θ6∈Θ0 } , L(θ, a1 ) = 1{θ∈Θ0 } . Esta funci´on penaliza de igual forma los errores de tipo I que los errores de tipo II. Si se desea penalizarlos de forma diferente puede usarse la funci´on de p´erdida 0-1 generalizada: L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } , donde cI es el coste de un error de tipo I, y cII el de uno de tipo II. Se pueden definir otras funciones de p´erdida que recojan aspectos propios del problema que se est´e tratando. Por ejemplo, la funci´on de p´erdida puede recoger el hecho de que es m´as grave cometer un error de tipo I cuanto m´as lejos de Θ0 est´e θ. La funci´on de potencia de un contraste est´a relacionada con la funci´on de riesgo de ese contraste. Sea β(θ) la funci´on de potencia de un test basado en la regla de decisi´on δ. Sea C = { x : δ( x ) = a1 } la regi´on cr´ıtica. Entonces e e β(θ) = P ( X ∈ C|θ) = P (δ( X ) = a1 |θ). e e Por su parte, la funci´on de riesgo asociada a una p´erdida 0-1 generalizada es, para θ ∈ Θ0 , R(θ, δ) = Eθ (L(θ, δ( X ))) = e 0 · P (δ( X ) = a0 |θ) + cI · P (δ( X ) = a1 |θ) = cI β(θ), e e y para θ 6∈ Θ0 , R(θ, δ) = Eθ (L(θ, δ( X ))) = e

222

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION

cII · P (δ( X ) = a0 |θ) + 0 · P (δ( X ) = a1 |θ) = cII (1 − β(θ)). e e Esta relaci´on entre la funci´on de riesgo y la de potencia viene dada por la elecci´on de la funci´on de p´erdida 0-1 generalizada. Sin embargo, aunque se trabaje con otras funciones de p´erdida, en general la funci´on de potencia juega un papel importante en cualquier contraste de hip´otesis. En efecto, R(θ, δ) = Eθ (L(θ, δ( X ))) = L(θ, a0 )(1 − β(θ)) + L(θ, a1 )β(θ). e Ejemplo 89 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocida. El contraste uniformemente m´as potente de nivel α para contrastar ½ H0 : µ ≥ µ0 H1 : µ < µ 0 rechaza H0 si

X − µ0 √ < −zα σ/ n

y tiene funci´on de potencia µ ¶ µ ¶ µ − µ0 µ − µ0 √ √ β(µ) = Pµ Z < −zα − = φ −zα − . σ/ n σ/ n Para α = 0,1 y tomando cI = 8 y cII = 3 en la funci´on de p´erdida 0-1 generalizada, se tiene que µ ¶ µ − µ0 √ R(µ, δ) = 8φ −zα − si µ ≥ µ0 , σ/ n µ µ ¶¶ µ − µ0 √ R(µ, δ) = 3 1 − φ −zα − si µ < µ0 . σ/ n 3

2.5

R(µ,δ)

2

1.5

1

0.5

0 −3

µ √ 1/ 2π, puede comprobarse que g 0 (c) > 0 para todo c ≥ 0, luego el m´ınimo riesgo se alcanza en c = 0. √ En resumen, si bσ ≤ 1/ 2π (lo que equivale a no dar un peso excesivo al tama˜ no del intervalo en la funci´on de riesgo) √ entonces el intervalo ´optimo es [x − c∗ σ, x + c∗ σ], mientras que si bσ > 1/ 2π (es decir, si la longitud del intervalo pesa mucho en la funci´on de riesgo) entonces el mejor intervalo para µ es [x, x], es decir, un estimador puntual de µ. . .

7.3.

El problema de decisi´ on bayesiano

Hemos visto en la secci´on 7.1 que a veces se define una distribuci´on de probabilidad π(θ) sobre el espacio param´etrico Θ, que refleja el conocimiento que el investigador tiene sobre los posibles valores del par´ametro a priori, es decir, antes de observar los datos X . En general cualquier funci´on de pesos que pone dere de cierta forma las diferentes regiones de Θ ser´a v´alida como distribuci´on π(θ), aunque esta distribuci´on no refleje ning´ un conocimiento previo subjetivo sobre Θ. Se defini´o el riesgo Bayes de la regla de decisi´on δ respecto de la distribuci´on a priori π como B(π, δ) = Eπ [R(θ, δ)]. Es una medida del riesgo medio de acuerdo a los pesos que asigna π. As´ı, si no se dispone de informaci´on previa que permita definir π, una forma razonable de elegir esta distribuci´on a priori es hacerlo de forma que los valores de θ a los que se les asigne probabilidad a priori grande sean aquellos para los cuales el experimentador desea tener un riesgo peque˜ no, y los valores de θ con peso peque˜ no sean aquellos cuyo riesgo no le preocupa. Se define la regla Bayes como aquella regla δ π que minimiza el riesgo Bayes: B(π, δ π ) = m´ın B(π, δ). δ∈D

226

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION

Esta regla puede no existir, o bien puede haber m´as de una regla Bayes, aunque en general s´olo existe una regla Bayes. Los siguientes resultados indican c´omo encontrar las reglas Bayes, si ´estas existen. Teorema 51 Para cada x ∈ X se define e r( x , a) = E (L(θ, a)), π(θ| x ) e e donde la esperanza se toma con respecto a la distribuci´ on a posteriori de π, dado que se ha observado X = x . Para cada x ∈ X se supone que existe una acci´ on e e e a( x ) ∈ A tal que e r( x , a( x )) = m´ın r( x , b). b∈A e e e Sea la regla de decisi´ on δπ

:

X −→ A x −→ a( x ) e e π π Si δ ∈ D entonces δ es la regla Bayes respecto a π. Demostraci´ on: Sea f ( x , θ) = f ( x |θ)π(θ) la distribuci´on conjunta de ( X , θ) e e e y sea m( x ) la marginal de X . As´ı, e e h i B(π, δ) = Eπ (R(θ, δ)) = Eπ Eθ (L(θ, δ( X ))) = e · ¸ Eθ (L(θ, δ( X ))) = E E (L(θ, δ( X ))) = m( x ) π(θ| X ) e e e e E (r( X , δ( X ))). m( x ) e e e π Para cada x ∈ X , r( x , δ ( x )) ≤ r( x , δ( x )) para todo δ ∈ D, de donde se e e e e e sigue que E (r( X , δ π ( X ))) ≤ E (r( X , δ( X ))) m( x ) m( x ) e e e e e e para todo δ ∈ D y, en consecuencia, que B(π, δ π ) ≤ B(π, δ) para todo δ ∈ D, luego δ π es la regla Bayes.

2

Obs´ervese que la funci´on r( x , a) que se define en el anterior teorema es la e esperanza a posteriori de la funci´on de p´erdida, dado que se ha observado X = e x . Por lo tanto, para encontrar la regla Bayes hay que minimizar la esperanza e a posteriori de la funci´on de p´erdida, ya sea anal´ıtica o num´ericamente. El siguiente resultado se sigue directamente del teorema anterior y da la expresi´on expl´ıcita para la regla de Bayes en dos casos importantes referidos a la estimaci´on de par´ametros.

´ BAYESIANO 7.3. EL PROBLEMA DE DECISION

227

Corolario 8 Consideremos un problema de estimaci´ on de un par´ ametro real θ ∈ IR. Se tiene lo siguiente: 1. Si L(θ, a) = (θ − a)2 la regla Bayes es δ π ( x ) = E(θ| x ), si δ π ∈ D. e e π 2. Si L(θ, a) = |θ−a| la regla Bayes es δ ( x ) que asocia a cada x la mediana e e a de la distribuci´ on a posteriori π(θ| x ), si δ π ∈ D. e Obs´ervese que si el conjunto de acciones A = Θ es finito (o discreto) podr´ıa pasar que E(θ| x ) 6∈ A y entonces δ π ( x ) = E(θ| x ) no ser´ıa una funci´on de X e e e e en A, es decir, δ π no ser´ıa una regla de decisi´on leg´ıtima. Si A = Θ es convexo se puede probar que E(θ| x ) ∈ A para cualquier distribuci´on a posteriori π(θ| x ). e e El siguiente resultado hace referencia al problema de contrastes de hip´otesis desde la perspectiva de la teor´ıa de la decisi´on bayesiana. Concreta en este contexto lo establecido por el teorema 51 sobre c´omo determinar la regla Bayes. Teorema 52 Consideremos un problema de contraste de la hip´ otesis H0 : θ ∈ Θ0 frente a H1 : θ 6∈ Θ0 , con funci´ on de p´erdida 0-1 generalizada. Cualquier test que cII rechaza H0 si P (θ ∈ Θ0 | x ) < cI + cII e y cII acepta H0 si P (θ ∈ Θ0 | x ) > cI + cII e es una regla de Bayes (tambi´en llamada test de Bayes o regla Bayes). Demostraci´ on: Aplicamos el teorema 51. Como A = {a0 , a1 } hay que comparar r( x , a0 ) y r( x , a1 ) y escoger como acci´on a( x ) aquella de las dos que e e e d´e valor menor de r( x , a). e Recordemos que L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } . Calculamos r( x , a0 ) y r( x , a1 ): e e r( x , a0 ) = E (L(θ, a0 )) = cII P (θ 6∈ Θ0 | x ) π(θ| x ) e e e r( x , a1 ) = E (L(θ, a1 )) = cI P (θ ∈ Θ0 | x ). π(θ| x ) e e e As´ı, el conjunto de x ∈ X para los cuales el test de Bayes rechaza H0 son e aquellos para los cuales r( x , a1 ) < r( x , a0 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) < cII P (θ 6∈ Θ0 | x ) ⇐⇒ e e e e cII P (θ ∈ Θ0 | x ) < . cI + cII e

228

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION

An´alogamente, el conjunto de puntos en los que el test Bayes acepta H0 , es decir, aquellos para los cuales la acci´on a0 tiene menor riesgo esperado a posterior que la acci´on a1 , son aquellos que cumplen r( x , a0 ) < r( x , a1 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) > cII P (θ 6∈ Θ0 | x ) ⇐⇒ e e e e cII . P (θ ∈ Θ0 | x ) > cI + cII e Si r( x , a0 ) = r( x , a1 ), las dos acciones son indiferentes y puede tomarse cuale e quiera de ellas sin que la regla resultante deje de ser la regla Bayes. 2

Ejemplo 91 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) y π(θ) ∼ N (µ, τ 2 ), con σ 2 , µ y τ 2 conocidos. Sea η=

σ2 . nτ 2 + σ 2

La distribuci´on a posteriori de θ dado que X = x es normal con par´ametros e e E(θ| x ) = (1 − η)x + ηµ, V (θ| x ) = ητ 2 . e e Consideremos el test

½

H0 : θ ≥ θ0 H1 : θ < θ0

con funci´on de p´erdida 0-1 generalizada. Calculemos P (θ ∈ Θ0 | x ): e ¯ ¶ µ θ0 − (1 − η)x − ηµ ¯¯ P (θ ∈ Θ0 | x ) = P (θ ≥ θ0 |x) = P Z ≥ √ ¯x . τ η e As´ı, el test de Bayes rechaza H0 si P (θ ∈ Θ0 | x ) < α0 e donde α0 = cII /(cI + cII ), y eso ocurre si y s´olo si √ η(µ − θ0 ) + zα0 τ η θ0 − (1 − η)x − ηµ > zα0 ⇐⇒ x < θ0 − . √ τ η 1−η Por lo tanto, el test de Bayes rechaza H0 para valores peque˜ nos de x y el valor cr´ıtico depende de las p´erdidas para los dos tipos de errores (a trav´es del valor α0 ) y de la distribuci´on a priori. Recordemos que el test uniformemente m´as potente de nivel α rechaza H0 si σ x < θ0 − zα √ . n

´ 7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISION

229

En el caso particular de que tom´asemos cI = 1 − α y cII = α, entonces α = α. Si adem´as consideramos la distribuci´on a priori de θ centrada en θ0 tendremos que el test de Bayes rechaza H0 si √ zα0 τ η x < θ0 − . 1−η 0

Recordando la definici´on de η se llega a que se rechaza H0 si y s´olo si r σ σ2 x < θ0 − zα0 √ 1 + 2, nτ n p expresi´on que s´olo difiere del test UMP en el factor 1 + (σ 2 /nτ 2 ). Ambos contrasten coincidir´an si σ 2 /nτ 2 = 0, es decir, si n −→ ∞, o si τ 2 −→ ∞ o si σ 2 −→ 0. . .

7.4.

Admisibilidad de las reglas de decisi´ on

La clase D de todas las reglas de decisi´on posibles quiz´as sea excesivamente grande: podr´ıa estar formada por todas las funciones de X en A. La elecci´on de la regla δ en un determinado problema se simplifica si restringimos la b´ usqueda a una subclase de reglas C ⊆ D de la que formen parte u ´nicamente las reglas que tengan alguna buena propiedad. Una de estas propiedades deseables es la de ser admisible.

7.4.1.

Comparaci´ on de reglas de decisi´ on.

Sean δ1 y δ2 dos reglas de decisi´on con funciones de riesgo asociadas R(θ, δ1 ) y R(θ, δ2 ). Al comparar δ1 y δ2 diremos que: δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ. δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ). δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ. Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea mejor que δ. Diremos que δ es inadmisible si existe otra regla δ 0 mejor que δ. Una regla de decisi´on que sea admisible tiene una propiedad deseable, ya que no existe ninguna otra regla que la mejore uniformemente, pero no hay garant´ıas de que el comportamiento de esa regla sea uniformemente bueno en Θ. La admisibilidad s´olo garantiza que la regla no es uniformemente mala. Parece

230

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION

razonable restringir la b´ usqueda de las reglas de decisi´on a la clase de reglas de D que sean admisibles. Sea una clase C ⊆ D. Se dice que C es una clase completa si para cada δ 6∈ C existe δ ∈ C que es mejor que δ 0 . C es una clase esencialmente completa si para cada δ 0 6∈ C existe δ ∈ C que es tan buena como δ 0 . 0

Teorema 53 Sea C una clase de reglas de decisi´ on completa. Entonces la clase de reglas de decisi´ on admisibles est´ a contenida en C. Demostraci´ on: Sea δ 0 una regla admisible. Si δ 0 6∈ C, entonces existe δ ∈ C 0 mejor que δ , y eso contradice el supuesto de que δ 0 es admisible, luego δ 0 ∈ C. 2

7.4.2.

B´ usqueda de reglas admisibles y clases completas.

Teorema 54 Consideremos un problema de decisi´ on en el que Θ ⊆ IR. Supongamos que para cada regla de decisi´ on δ ∈ D, la funci´ on de riesgo R(θ, δ) es continua en θ. Sea π(θ) una distribuci´ on a priori sobre Θ tal que para todo ε > 0 y todo θ ∈ Θ la probabilidad que π asigna al intervalo (θ − ε, θ + ε) es positiva. Sea δ π la regla Bayes respecto a π. Si −∞ < B(π, δ π ) < ∞ entonces δ π es admisible. Demostraci´ on: Supongamos que δ π es inadmisible. Entonces existe una regla δ ∈ D tal que R(θ, δ) ≤ R(θ, δ π ) para todo θ ∈ Θ y existe un θ0 ∈ Θ con R(θ0 , δ) < R(θ0 , δ π ). Sea ν = R(θ0 , δ π ) − R(θ0 , δ) > 0. Por continuidad de R(θ, δ) y R(θ, δ π ) se tiene que existe ε > 0 tal que ν R(θ, δ π ) − R(θ, δ) > 2 para todo θ ∈ (θ0 − ε, θ0 + ε). Entonces B(π, δ π ) − B(π, δ) = Eπ [R(θ, δ π ) − R(θ, δ)] ≥ ν Pπ [(θ0 − ε, θ0 + ε)] > 0. 2 Esto contradice el supuesto de que δ π es regla Bayes. Por lo tanto δ π es admisible. 2 Eπ [1(θ0 −ε,θ0 +ε) (R(θ, δ π ) − R(θ, δ))] ≥

El teorema anterior proporciona un conjunto de condiciones bajo las cuales las reglas Bayes son admisibles. Hay otros conjuntos de hip´otesis que tambi´en

´ 7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISION

231

lo garantizan (en este sentido pueden verse los problemas 10 y 11). Del teorema se sigue que las reglas Bayes son en general admisibles y por lo tanto pertenecen a cualquier clase completa. Es as´ı razonable considerar las reglas Bayes. El siguiente teorema permite restringir las reglas de decisi´on consideradas a aquellas que dependen de estad´ısticos suficientes, dado que hacerlo no tiene coste en t´erminos de las funciones de riesgo. Este resultado es una generalizaci´on del teorema de Rao-Blackwell (teorema 27, p´agina 108). Teorema 55 Sea A, el espacio de acciones, un intervalo de IR, posiblemente no acotado. Supongamos que la funci´ on de p´erdida L(θ, a) es una funci´ on convexa de la acci´ on a, para todo θ ∈ Θ. Sea T ( X ) un estad´ıstico suficiente de θ con e espacio muestral T . Si δ( x ) ∈ D es una regla de decisi´ on, entonces la regla de decisi´ on e δ 0 ( x ) = δT0 (T ( x )), e e donde

δT0

:

T t

−→ A −→ δT0 (t) = Eθ (δ( X )|T ( X ) = t), e e es tan buena como δ, siempre y cuando la esperanza condicionada exista para todo t ∈ T . Demostraci´ on: Veamos en primer lugar que δ 0 ( x ) es regla de decisi´on, es decir, e es una funci´on de X en A. Por una parte, como T es estad´ıstico suficiente, Eθ (δ( X )|T ( X ) = T ( x )) no depende de θ, sino s´olo de x . Adem´as, como δ e e e e es regla de decisi´on se tiene que δ( x ) ∈ A para todo x ∈ X y por ser A un e e conjunto convexo se sigue que Eθ (δ( X )|T ( X ) = T ( x )) ∈ A. e e e Veamos ahora que δ 0 es tan buena como δ. Para todo θ ∈ Θ, se tiene que R(θ, δ) = Eθ [L(θ, δ( X ))] = Eθ [Eθ L(θ, δ( X ))|T ( X )] e e e y por ser L convexa, Eθ [Eθ L(θ, δ( X ))|T ( X ))] ≥ Eθ [L(θ, Eθ (δ( X )|T ( X )))] = e e e e Eθ [L(θ, δ 0 ( X ))] = R(θ, δ 0 ). e

2

El siguiente corolario se sigue directamente del teorema. Corolario 9 La clase de reglas de decisi´ on que dependen de los datos X s´ olo e a trav´es de un estad´ıstico suficiente T es una clase esencialmente completa. Estos resultados tienen especial importancia en el problema de estimaci´on puntual cuando el espacio A es un intervalo.

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION

232

7.4.3.

Admisibilidad de la media muestral bajo normalidad.

Sean X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ). Nos planteamos el problema de estimaci´on de θ ∈ Θ = IR con funci´on de p´erdida cuadr´atica. Veremos que en este caso la media muestral es admisible como estimador de θ. Teorema 56 La media muestral X es un estimador admisible de θ. Demostraci´ on: Distinguiremos dos situaciones, seg´ un σ 2 sea conocida o no. (i) σ 2 conocida. Supongamos que δ( x ) = x es inadmisible. Entonces existe δ 0 ( x ) tal que R(θ, δ 0 ) ≤ e e R(θ, x) para todo θ ∈ IR y para alg´ un θ0 se tiene que R(θ, x) − R(θ, δ 0 ) = ν > 0. De la continuidad en θ de la funci´on de p´erdida cuadr´atica y la continuidad de la funci´on de densidad de la normal de esperanza θ, se sigue que R(θ, δ) es funci´on continua de θ para toda regla δ. Como consecuencia de ello, existe ε > 0 tal que R(θ, x) − R(θ, δ 0 ) > ν/2, para todo θ ∈ (θ0 − ε, θ0 + ε). Consideramos sobre IR la distribuci´on a priori π ∼ N (0, τ 2 ) y definimos η=

σ2 . nτ 2 + σ 2

As´ı, Z



B(π, x) − B(π, δ 0 ) =

[R(θ, x) − R(θ, δ 0 )] √

−∞

Z

θ0 +ε

[R(θ, x) − R(θ, δ 0 )] √

θ0 −ε

θ2 1 e− 2τ 2 dθ ≥ 2πτ

θ2 1 e− 2τ 2 dθ > 2πτ 0 2

−(θ ) 0 ν ν ν 1 P (θ0 − ε < Y < θ0 + ε) > 2εfY (θ00 ) = 2ε √ e 2τ 2 2 2 2 2πτ

donde Y ∼ N (0, τ 2 ) y θ00 es el m´as cercano a 0 de los dos puntos θ0 − ε y θ0 + ε. Si llamamos K(τ ) a 0 2 ν 1 −(θ0 ) K(τ ) = 2ε √ e 2τ 2 2 2π se tiene que τ (B(π, x) − B(π, δ 0 )) > K(τ ) y que

ν/2 l´ım K(τ ) = √ 2ε > 0. 2π

τ −→∞

Por otra parte, el riesgo Bayes de la media muestral es Z σ2 R(θ, X)π(θ)dθ = B(π, x) = , n Θ

´ 7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISION

233

porque R(θ, X) = Eθ [(θ − X)2 ] = σ 2 /n, para todo θ ∈ Θ. Esto adem´as ocurre para cualquier a priori π. Sea δ π la regla Bayes respecto a la a priori π. Por el teorema 51 y su corolario, la regla Bayes δ π ( x ) es la que asigna a cada x la esperanza a posteriori de θ e e dado x , y su riesgo Bayes es la varianza a posteriori: e B(π, δ π ) = τ 2 η =

τ 2 σ2 . nτ 2 + σ 2

Por lo tanto, τ (B(π, δ π ) − B(π, x)) = τ σ2 ³ n´ σ2 − τ 1 − τ 2η 2 = − τ n σ n −

¶ µ σ2 = τ 2η − n

µ 1 − τ2

σ2 n 2 2 nτ + σ σ 2

¶ =

σ2 τ η. n

Finalmente, 0 ≥ τ (B(π, δ π ) − B(π, δ 0 )) = τ (B(π, δ π ) − B(π, x)) + τ (B(π, x)) − B(π, δ 0 )) > −

σ2 σ2 τ σ2 τ →∞ ν/2 τ η + K(τ ) = − + K(τ ) −→ √ 2ε > 0, 2 2 n n nτ + σ 2π

lo cual es una contradicci´on, que nace de suponer que x no es admisible. (ii) σ 2 desconocida. Supongamos que x es inadmisible. Entonces existe un estimador δ 0 tal que R((θ, σ 2 ), δ 0 ) ≤ R((θ, σ 2 ), x), para todo (θ, σ 2 ), R((θ0 , σ02 ), δ 0 ) < R((θ, σ 2 ), x), para alg´ un (θ0 , σ02 ). Como δ 0 es una funci´on de X en IR, δ 0 tambi´en es un estimador de θ si σ 2 se fija en el valor σ02 . Para cualquier regla de decisi´on, el riesgo R(θ, δ) cuando σ 2 es conocida y vale σ02 es igual al riesgo en el caso de σ 2 desconocida evaluado en el valor σ02 : R((θ, σ02 ), δ). As´ı, R(θ, δ 0 ) = R((θ, σ02 ), δ 0 ) ≤ R((θ, σ02 ), x), para todo θ, R(θ0 , δ 0 ) = R((θ0 , σ02 ), δ 0 ) < R((θ, σ02 ), x), para alg´ un θ0 . De aqu´ı se sigue que δ 0 es mejor que x para estimar θ cuando σ 2 es conocido y vale σ02 , lo que contradice el hecho de que x es admisible si σ 2 es conocida. As´ı x ha de ser admisible tambi´en si σ 2 es desconocida. 2

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION

234

7.5.

Reglas minimax

El riesgo Bayes definido en la secci´on 7.3 permite resumir el comportamiento de la funci´on de riesgo de una regla de decisi´on δ sobre todo el espacio Θ en un solo n´ umero, el riesgo Bayes de esa regla, que es el valor medio (seg´ un la a priori π) de la funci´on de riesgo. Este resumen es u ´til porque permite comparar cualquier par de reglas de decisi´on mediante la comparaci´on de sus respectivos riesgos Bayes. Otro resumen num´erico de la funci´on de riesgo usado habitualmente es el valor m´aximo (o el supremo) que toma esta funci´on cuando θ recorre Θ. Se dice que una regla de decisi´on δ 0 es una regla minimax si sup R(θ, δ 0 ) = ´ınf sup R(θ, δ). θ∈Θ

δ∈D θ∈Θ

Una regla minimax protege de la mejor forma posible (´ınf δ∈D ) contra la situaci´on m´as adversa que podr´ıa presentarse (supθ∈Θ ). El criterio minimax para elegir una regla de decisi´on es muy conservador, pues s´olo tiene en cuenta para cada regla δ cu´al es su comportamiento en el peor escenario posible, sin considerar si ese escenario adverso es o no plausible. Este criterio considera que la naturaleza (quien decide el valor de θ) es un adversario del decisor, y lleva a ´este a actuar de forma estrat´egica. Este supuesto es exagerado en muchos problemas estad´ısticos. Por otra parte, el criterio minimax se complementa bien con el de admisibilidad. Una regla puede ser admisible porque se comporta bien en un determinado valor de θ, aunque tenga un riesgo alt´ısimo para los restantes valores. Si adem´as de admisible una regla es minimax se puede estar seguro de que el riesgo no ser´a extremadamente alto en ning´ un valor de θ. As´ı pues, una regla que sea minimax y admisible ser´a una buena regla. De hecho, las reglas minimax est´an estrechamente relacionadas con las reglas admisibles y las reglas Bayes, como ponen de manifiesto los resultados siguientes. Teorema 57 Supongamos que una regla de decisi´ on δ π es regla Bayes para cierta distribuci´ on a priori π y que, adem´ as, R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ. Entonces δ π es minimax. Demostraci´ on: Supongamos que δ π no fuese minimax. Entonces existir´ıa al0 guna regla δ tal que sup R(θ, δ 0 ) < sup R(θ, δ π ). θ∈Θ

θ∈Θ

El riesgo Bayes de esta regla ser´ıa B(π, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ π ) ≤ B(π, δ π ), θ∈Θ

θ∈Θ

7.5. REGLAS MINIMAX

235

entrando en contradicci´on con el hecho de que δ π es regla Bayes respecto a π. 2 Obs´ervese que la hip´otesis R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ, es muy restrictiva. Al definirse el riesgo Bayes como B(π, δ π ) = Eπ (R(θ, δ π )) se tiene que en general B(π, δ π ) ≤ sup R(θ, δ π ). θ∈Θ

De esto se sigue que la hip´otesis del problema es equivalente a que B(π, δ π ) = sup R(θ, δ π ), θ∈Θ

y eso ocurre si y s´olo si π pone toda la probabilidad en el conjunto de puntos θ en los que R(θ, δ π ) es m´axima. En cierto modo lo que se pide en el teorema es que la regla R(θ, δ π ) sea constante con probabilidad 1, seg´ un π. La distribuci´on a priori π cuya regla Bayes es minimax es la distribuci´on a priori menos favorable. Tiene la propiedad de que si π 0 es otra distribuci´on 0 a priori y δ π es la regla Bayes asociada, entonces 0

B(π 0 , δ π ) ≤ B(π, δ π ). En efecto, 0

B(π 0 , δ π ) ≤ B(π 0 , δ π ) = Eπ0 (R(θ, δ π )) ≤ Eπ0 (B(π, δ π )) = B(π, δ π ). Si una regla de decisi´on δ tiene funci´on de riesgo constante en θ entonces se dice que es una regla igualadora. En muchos caso las reglas igualadoras son minimax, como muestra el siguiente resultado, que se sigue directamente del teorema anterior. Corolario 10 Sea δ una regla igualadora que es regla Bayes para alguna distribuci´ on a priori π. Entonces δ es minimax. Este corolario es u ´til cuando se quiere probar que una regla igualadora es minimax. Basta con encontrar una a priori π respecto de la cual la regla igualadora sea regla Bayes. El siguiente resultado prueba que en ese caso tambi´en basta con probar que la regla igualadora es admisible. Teorema 58 Sea δ una regla igualadora. Si δ es admisible, entonces es minimax.

236

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION

Demostraci´ on: Sea c = R(θ, δ), que es constante en θ por ser δ igualadora. Si δ no es minimax, entonces existe una regla δ 0 tal que sup R(θ, δ 0 ) < sup R(θ, δ) = c. θ∈Θ

θ∈Θ

Para todo θ ∈ Θ se tiene entonces que R(θ, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ) = c = R(θ, δ), θ∈Θ

θ∈Θ

lo cual implica que δ no es admisible. El absurdo nace de suponer que δ no es minimax. 2

Ejemplo 92 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ). El teorema 56 muestra que la media muestral X es un estimador admisible de θ cuando se usa p´erdida cuadr´atica, tanto si σ 2 es conocido como si no lo es. En el caso de σ 2 conocida, se tiene que X es una regla igualadora: R(θ, x) = V (X) =

σ2 . n

As´ı, por el teorema anterior se sigue que la media muestral X es estimador minimax. Sin embargo, si σ 2 es desconocido, este teorema no es aplicable porque X ya no es una regla igualadora: el riesgo R((θ, σ 2 ), x) = V (X) =

σ2 , n

depende de σ 2 . De hecho cualquier estimador tiene sup R((θ, σ 2 ), δ) = ∞, θ,σ 2

y por lo tanto cualquier estimador es minimax. Se puede probar que si se define la p´erdida L((θ, σ 2 ), a) = (a − θ)2 /σ 2 entonces X es admisible y minimax, con riesgo m´aximo finito. . .

El siguiente resultado muestra que bajo ciertas situaciones una regla minimax es admisible. Teorema 59 Supongamos que δ es la u ´nica regla minimax en el sentido de que cualquier otra regla minimax es equivalente a δ. Entonces δ es admisible.

7.5. REGLAS MINIMAX

237

Demostraci´ on: Sea δ 0 otra regla de decisi´on. Si la funci´on de riesgo de δ 0 coincide con la de δ, entonces δ 0 no es mejor que δ. Si no coinciden, entonces δ 0 no es minimax, mientras que δ s´ı lo es, as´ı que sup R(θ, δ 0 ) > sup R(θ, δ). θ∈Θ

θ∈Θ

De ah´ı se sigue que para alg´ un θ0 ∈ Θ, R(θ0 , δ 0 ) > sup R(θ, δ) ≥ R(θ0 , δ), θ∈Θ

por lo que δ 0 no es mejor que δ. Como δ 0 podr´ıa ser cualquier regla de decisi´on, se sigue que no existe otra regla que sea mejor que δ, luego δ es admisible. 2

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION

238

7.6.

Lista de problemas

Teor´ıa de la Decisi´ on e inferencia estad´ıstica. Reglas Bayes 1. (Casella-Berger, 10.1) Sea X ∼ N (θ, 1) y considera el contraste de H0 : θ ≥ θ0 frente a H0 : θ < θ0 . Usa la funci´on de p´erdida L(θ, a0 ) = b(θ0 − θ)1{θ 1/3 con p´erdida 0-1. Dibuja y compara las funciones de riesgo de los siguientes dos contrastes: el primero rechaza H0 si X = 0 o X = 1 y el segundo lo hace si X = 4 o X = 5. 3. (Casella-Berger, 10.3) Sea X ∼ B(10, p). Dibuja y compara las funciones de riesgo de dos estimadores de p, δ1 (x) = 1/3 y δ2 (x) = x/10, bajo funci´on de p´erdida dada por el valor absoluto. 4. (Casella-Berger, 10.6) Sea X ∼ N (µ, σ 2 ), σ 2 desconocida. Para cada c ≥ 0 se define el estimador por intervalos para µ C(x) = [x − cs, x + cs], donde s2 es un estimador de σ 2 independiente de X, tal que νS 2 /σ 2 ∼ χ2ν . Se considera la funci´on de p´erdida L((µ, σ), C) =

b Long(C) − IC (µ). σ

a) Prueba que la funci´on de riesgo, R((µ, σ), C), est´a dada por R((µ, σ), C) = b(2cM ) − [2P (T ≤ c) − 1], donde T ∼ tν y M = E(S)/σ. √ b) Si b ≤ 1/ 2π, prueba que el valor de c que minimiza el riesgo satisface que µ ¶ ν+1 2 ν 1 b= √ . 2 2π ν + c

7.6. LISTA DE PROBLEMAS

239

c) Relaciona estos resultados con los an´alogos obtenidos en el caso de que σ 2 sea conocida (ver ejemplo desarrollado en teor´ıa), en el sentido siguiente: prueba que si ν −→ ∞, entonces la soluci´on encontrada aqu´ı converge a la que se tiene si σ 2 es conocida. 5. (Casella-Berger, 10.8) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida. Se desea estimar θ usando p´erdida cuadr´atica. Sea la distribuci´on a priori de θ, π(θ), una N (µ, τ 2 ) y sea δ π el estimador Bayes de θ. Prueba las siguientes f´ormulas para la funci´on de riesgo y el riesgo Bayes. a) Para cualesquiera constantes a y b, el estimador δ( X ) = aX +b tiene e funci´on de riesgo R(θ, δ) = a2

σ2 + (b − (1 − a)θ)2 . n

b) Sea η = σ 2 /(nτ 2 + σ 2 ). La funci´on de riesgo del estimador de Bayes es σ2 R(θ, δ π ) = (1 − η)2 + η 2 (θ − µ)2 . n c) El riesgo Bayes del estimador de Bayes es B(π, δ π ) = τ 2 η. 6. (Casella-Berger, 10.9) Sea X ∼ N (µ, 1). Sea δ π el estimador de Bayes de µ bajo p´erdida cuadr´atica. Calcula y dibuja las funciones de riesgo, R(µ, δ π ), para π(θ) ∼ N (0, 1) y π(θ) ∼ N (0, 10). Indica c´omo la distribuci´on a priori afecta la funci´on de riesgo del estimador de Bayes. 7. (Casella-Berger, 10.11) Se define la funci´on de p´erdida LINEX (LINearEXponential) como L(θ, a) = ec(a−θ) − c(a − θ) − 1, con c > 0. Es una funci´on suave que permite ponderar de forma asim´etrica las desviaciones por exceso y por defecto. Variando el valor c se pueden conseguir desde p´erdidas muy asim´etricas hasta otras casi sim´etricas. a) Dibuja L(θ, a) como funci´on de a − θ cuando c = 0,2, 0,5 y 1. b) Sea X ∼ f (x|θ). Prueba que el estimador de Bayes de θ, usando p´erdida LINEX y distribuci´on a priori π, es 1 δ π = − log E(e−cθ |X). c c) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida y distribuci´on a priori sobre θ no informativa: π(θ) = 1. Prueba que el estimador de Bayes de θ bajo p´erdida LINEX es δ B (X) = X −

cσ 2 . 2n

d ) Compara los riesgos Bayes de δ B (X) y de X usando p´erdida LINEX.

240

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION e) Compara los riesgos Bayes de δ B (X) y de X usando p´erdida cuadr´atica.

Admisibilidad. Reglas minimax 8. (Casella-Berger, 10.12) Sea X ∼ N (µ, 1) y consideremos el contraste de H0 : µ ≤ 0 frente a H1 : µ > 0 usando p´erdida 0-1. Sea δc el test que rechaza H0 si X > c. Se puede probar que la clase de contrastes {δc : −∞ ≤ c ≤ ∞} es esencialmente completa para este problema. Sea δ el test que rechaza H0 si 1 < X < 2. Encuentra un test δc que sea mejor que δ. 9. (Casella-Berger, 10.13) Sea X ∼ N (µ, 1) y consideremos el contraste de H0 : µ = 0 frente a H1 : µ 6= 0 usando p´erdida 0-1. Sea δc,d el test que acepta H0 si c ≤ X ≤ d. Se puede probar que la clase de contrastes {δc,d : −∞ ≤ c ≤ d ≤ ∞} es esencialmente completa para este problema. Sea δ el test que acepta H0 si 1 ≤ X ≤ 2 o −2 ≤ X ≤ −1. Encuentra un test δc,d que sea mejor que δ. 10. (Casella-Berger, 10.14) Supongamos un problema de decisi´on con espacio param´etrico finito, Θ = {θ1 , . . . , θm }. Supongamos que δ π es la regla Bayes con respecto a una distribuci´on a priori π que da probabilidad positiva a cada posible valor de θ ∈ Θ. Prueba que δ π es admisible. 11. (Casella-Berger, 10.15) Supongamos que para una cierta distribuci´on a priori π, cada regla Bayes con respecto a π (si es que hay m´as de una) tiene la misma funci´on de riesgo. Prueba que estas reglas Bayes son admisibles. En otras palabras, si una regla Bayes es u ´nica entonces es admisible. 12. (Casella-Berger, 10.16) Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Se desea estimar µ con p´erdida cuadr´atica. Prueba que la regla δ(x) = 17, que estima µ como 17 para cualquier valor x observado, es admisible. 13. (Casella-Berger, 10.19) Se dice que una clase de reglas de decisi´on C es completa minimal si es completa y ning´ un subconjunto propio de C es clase completa. Prueba que si existe una clase de reglas completa minimal, entonces es la clase de reglas admisibles. 14. (Casella-Berger, 10.20) Sea C una clase de reglas de decisi´on esencialmente completa. Prueba que si δ 0 6∈ C es admisible, entonces existe una regla δ ∈ C tal que δ y δ 0 son equivalentes. 15. (Casella-Berger, 10.21) Sea X ∼ B(n, p), con n conocida. Se considera la estimaci´on de p con p´erdida del error absoluto. Sea δ(x) = 1/3 la regla que estima p como 1/3, sea cual sea la observaci´on x. a) Prueba que δ(x) es admisible.

7.6. LISTA DE PROBLEMAS

241

b) Prueba que δ(x) es la regla Bayes para alguna distribuci´on a priori π(p). 16. (Casella-Berger, 10.23) Sea X1 , . . . , Xn una m.a.s. de una poblaci´on con esperanza θ y varianza desconocida σ 2 , 0 < σ 2 < ∞. Se desea estimar θ con p´erdida cuadr´atica. a) Prueba que cualquier estimador de la forma aX + b, donde a > 1 y b son constantes, es inadmisible. b) Prueba que si a = 1 y b 6= 0 entonces el estimador es inadmisible. c) Supongamos ahora que σ 2 es conocida. Prueba que un estimador de esa forma es admisible si a < 1. 17. (Casella-Berger, 10.24) Sea X variable aleatoria uniforme discreta en los naturales que van de 1 a θ ∈ IN. Sea el espacio param´etrico Θ = {1, 2, . . .}. Se estima θ considerando p´erdida cuadr´atica. a) Sea el espacio de acciones A = Θ. Prueba que para algunas distribuciones a priori el estimador δ(x) = E(θ|x) no es el estimador Bayes de θ. b) Supongamos ahora que el espacio de acciones es A = [1, ∞) y que la esperanza E(θ|x) existe siempre. Prueba que δ(x) = E(θ|x) es el estimador Bayes de θ. c) Prueba que δ0 (x) = x es admisible, independientemente de cu´al de los dos espacios de acciones anteriores sea considerado. (Nota: Prueba que R(1, δ) es m´ınimo si δ = δ0 y despu´es usa inducci´on en θ.) d ) El estimador δ0 (x) = x es el estimador de Bayes con respecto a alguna distribuci´on a priori. ¿Con respecto a cu´al? e) Prueba que existen otras reglas Bayes respecto a esa misma distribuci´on a priori que tienen funciones de riesgo diferentes a la de δ0 . 18. (Casella-Berger, 10.26) Sea X ∼ N (µ, 1). Se desea contrastar H0 : µ ≥ µ0 frente a H1 : µ < µ0 con funci´on de p´erdida 0-1 generalizada mediante un test que rechace H0 si X < −zα + µ0 . Encuentra el valor de α que da lugar a un test minimax. 19. (Casella-Berger, 10.27) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) con σ 2 desconocida. Se desea estimar θ con la funci´on de p´erdida L((θ, σ 2 ), a) =

(a − θ)2 . σ2

a) Prueba que X es un estimador admisible de θ. b) Prueba que X es minimax. 20. (Casella-Berger, 10.30, 10.31) Sea πn , n ∈ IN, una sucesi´on de distribuciones a priori. Sea δn la regla Bayes respecto a πn .

242

´ A LA TEOR´IA DE LA DECISION ´ CAP´ITULO 7. INTRODUCCION a) Prueba que si B(πn , δn ) converge a un n´ umero c y δ es una regla de decisi´on tal que R(θ, δ) = c para todo θ ∈ Θ, entonces δ es minimax. b) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) con σ 2 conocida. Se desea estimar θ con p´erdida cuadr´atica. Utiliza el resultado del apartado anterior para probar que X es minimax.

21. (Casella-Berger, 10.33) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ Bern(p). Se desea estimar p con p´erdida cuadr´atica. Sea p Pn Xi + n/4 √ pˆB = i=1 . n+ n a) Prueba que pˆB es una regla igualadora. b) Prueba que pˆB es minimax. c) Prueba que pˆB es admisible. 22. (Examen junio 2000) Sea la variable aleatoria X con distribuci´on uniforme en el intervalo [0, θ], con θ > 0 desconocido. Se desea estimar el par´ametro θ bas´andose s´olo en una u ´nica observaci´on de X y se plantea este problema como un problema de decisi´on. La distribuci´on a priori sobre θ tiene como funci´on de densidad π(θ) = θe−θ I(0,∞) . a) Consideramos s´olo las reglas de decisi´on que son funciones de la observaci´on x de la forma dk (x) = kx, con k ≥ 1. Si la funci´on de p´erdida es L(θ, a) = |a − θ| calcula la funci´on de riesgo R(θ, dk ). ¿Es posible encontrar una regla dk∗ que haga m´ınimo el riesgo para cualquier valor de θ? b) Encuentra la regla Bayes. (Indicaci´ on: Usa directamente la definici´on de regla Bayes como aquella que hace m´ınimo el error Bayes.) c) Consideremos ahora p´erdida cuadr´atica. Encuentra la regla Bayes. d ) Si ahora se permite que cualquier funci´on d(x) sea una regla de decisi´on y se considera p´erdida cuadr´atica, encuentra la regla Bayes. 23. (Examen julio 2000) Sea X ∼ B(n = 2, p). Se ha de decidir a partir de una observaci´on de X si el par´ametro p es 1/4 o 1/2. La funci´on de p´erdida es 0-1. a) Da la lista de las ocho posibles reglas de decisi´on e indica los correspondientes valores de la funci´on de riesgo. b) Indica cu´ales de las ocho reglas son inadmisibles. c) Encuentra la regla Bayes correspondiente a una distribuci´on a priori con funci´on de probabilidad 2 1 π(1/4) = , π(1/2) = . 3 3 d ) Encuentra la regla minimax para este problema.

Referencias Arnold, S. F. (1990). Mathematical Statistics. Prentice-Hall. Bertsekas, D. P. (1999). Nonlinear Programming (Second ed.). Athenea Scientific. Bickel, P. J. y K. A. Doksum (1977). Mathematical statistics : basic ideas and selected topics. Prentice Hall. Casella, G. y R.L Berger (1990). Statistical Inference. Duxbury Press. Crist´obal, J.A (1992). Inferencia Estad´ıstica. Universidad de Zaragoza. DeGroot, M. H. (1988). Probabilidad y Estad´ıstica. Addison-Wesley. Garc´ıa-Nogales, A. (1998). Estad´ıstica Matem´atica. Universidad de Extremadura. Garthwaite, P. H., I. T. Jollife y B. Jones (1995). Statistical Inference. PrenticeHall. Lehmann, E. L. (1986). Testing Statistical Hypotheses (2nd ed.). Wiley. Pe˜ na, D. (1995). Estad´ıstica: Modelos y M´etodos, Volumen 2: Modelos lineales y series temporales. Alianza Universidad, Madrid. Segunda edici´on revisada. Rice, J. A. (1995). Mathematical Statistics and Data Analysis (Second ed.). Duxbury Press. Sanz, M. (1999). Probabilitats. Barcelona: EUB. Schervish, M.J. (1995). Theory of Statistics. Springer. Shorack, G.R. y J.A. Wellner (1986). Empirical Processes with Applications to Statistics. John Wiley & Sons. Silvey, S.D. (1983). Statistical Inference. Chapman and Hall. Spivak, M. (1970). C´alculo infinitesimal. Barcelona: Revert´e. V´elez, R. y A. Garc´ıa (1993). Principios de Inferencia Estad´ıstica. UNED.

243

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.