Metodología para selección de modelos de regresión lineal múltiple basada en métodos multiobjetivo/Methodology for Selection of Multiple Linear Regressions Models Based on Multiobjective Methods

June 6, 2017 | Autor: Carlos Ojeda | Categoría: Multiobjective Optimization, Regression Models, Multiple Linear Regression
Share Embed


Descripción

XXI Simposio de Estadística Modelos de Regresión Bogotá, D.C., Julio 19 al 23 de 2011

Metodología para selección de modelos de regresión lineal múltiple basada en métodos multiobjetivo Methodology for Selection of Multiple Linear Regressions Models Based on Multiobjective Methods

Carlos Julio Ojeda1*, Claudio Rocco2** 1UNIVERSIDAD

NACIONAL EXPERIMENTAL DE LOS LLANOS OCCIDENTALES EZEQUIEL ZAMORA, 2UNIVERSIDAD

CENTRAL DE VENEZUELA

...................................... Resumen En este trabajo se diseñó una metodología de selección de Modelos de Regresión Lineal Múltiple (MRLM) basada en métodos multiobjetivo discretos que abordan el problema de elegir entre un conjunto de modelos rivales, con igual forma funcional de la variable dependiente, el mejor o más adecuado, tomando en cuenta múltiples atributos y criterios de elección. Se realizó una revisión teórica de los principales métodos de selección de MRLM, así como también del análisis multicriterio bajo el enfoque multiobjetivo, eligiéndose los métodos de programación compromiso y optimización de metas lexicográficas, en sus versiones discretas, como la base para el diseño de una metodología de selección que incorpora la satisfacción simultánea de múltiples criterios. La metodología se resume en un nuevo método denominado MERLIND (Modelos de Regresión Lineal No Dominados), el cual se acerca a los modelos ideales de una manera intuitiva, utilizando la noción de distancia. Se pude concluir que esta metodología logra escoger, a partir de las 2k-1 combinaciones posibles de k variables regresoras, modelos que garantizan la coherencia teórica, y que simultáneamente ofrecen una solución equilibrada en todos los criterios. El procedimiento se ilustra mediante una aplicación a la economía agrícola venezolana.

Palabras claves: Regresión Lineal Múltiple, Selección de Modelos de Regresión, Métodos Multiobjetivo, Programación Compromiso. Abstract In this paper a new methodology for selecting the best Multiple Linear Regression Models (MLRM) is presented. The approach is based on using discrete multi-objective methods, The main idea is to select the best or more appropriate model among a set of competing models with the same functional form of the dependent variable, taking into account multiple attributes and criteria. Based on a theoretical review of the main MLRM selection methods, as well as multicriteria analysis under the multi-objective approach (methods of compromise programming and lexicographic optimization goals in their discrete versions), the methodology proposed incorporates simultaneous satisfaction of multiple criteria. The methodology is summarized in a new method called MERLIND, which is close to an ideal model in an intuitive way, using the

*

Profesor Asistente. Email: [email protected] Profesor Titular. Email: [email protected]

**

1

Carlos Julio Ojeda & Claudio Rocco

notion of distance. It could be concluded that this methodology is able to select, among the 2k-1 combinations of k regressor variables, models that ensure consistency theory, and simultaneously offer a balanced solution for all criteria. The procedure is illustrated by an application in the agricultural economy of Venezuela.

Keywords: Multiple Linear Regression, Regression Model Selection, Multiobjective Methods, compromise programming.

1. Introducción Quienes han trabajo con la regresión múltiple reconocen que la selección del “mejor modelo” de un conjunto de modelos candidatos, es una etapa muy importante y complicada, Gujarati (2004) compara jocosamente la búsqueda del modelo correcto con la búsqueda del Santo Grial. En general, se puede afirmar que cuando existen varios modelos alternativos para una misma evidencia muestral surge el problema de la selección (García, 1996). Para poder seleccionar el mejor modelo, los analistas deben elegir entre un conjunto de modelos candidatos que poseen numerosos atributos teóricos y estadísticos; asimismo, deben tomar en cuenta múltiples criterios de selección. Todo ello conforma un problema de decisión que puede ser abordado mediante el análisis multicriterio y sus diversos enfoques, específicamente a través de los métodos multiobjetivo, los cuales permiten seleccionar alternativas no dominadas, similares a una alternativa ideal. El objetivo del presente trabajo consiste en diseñar una metodología de selección de Modelos de Regresión Lineal Múltiple (MRLM), basada en métodos multiobjetivo aplicados a problemas de decisión discretos. La estructura del trabajo es la siguiente. La segunda sección muestra al lector el problema de selección del mejor modelo y algunos enfoques de selección de MRLM. La tercera sección aborda los fundamentos del análisis multicriterio. La cuarta sección presenta la propuesta de selección bajo el enfoque multiobjetivo: el Método MERLIND (Modelos de Regresión Lineal No Dominados), abarcando el algoritmo y una aplicación a datos de la economía agrícola venezolana. Finalmente se incluyen las conclusiones y recomendaciones.

2. La selección del mejor modelo A lo largo de las cuatro últimas décadas el desarrollo de la teoría de selección de modelos de regresión ha experimentado notables avances, véase por ejemplo los trabajos de Akaike (1973), Schwarz (1978), Hannan y Quinn (1979), Hoover y Pérez (1999) y Hendry y Krolzig (2003), sin embargo actualmente no se cuenta con una teoría unificada de selección del mejor modelo. A continuación se muestra los enfoques de selección estudiados.

XXI Simposio de Estadística 2011

Metodología para selección de modelos de regresión lineal múltiple basada en métodos multiobjetivo

3

2.1. Enfoques que incorporan la satisfacción de objetivos. Aznar (1987), adopta una estrategia de selección basada en procedimientos que incorporan explícitamente una función de pérdida que refleje el grado de cumplimiento de un objetivo fijado a priori, en este caso cumplir con el objetivo del análisis estructural. El autor ejemplifica en su trabajo, la selección entre dos modelos rivales, mediante el uso de una función de pérdida definida como: Minimizar βˆ ji − β ji

j = 1, 2

Es decir, minimizar la diferencia entre los parámetros estimados y los parámetros verdaderos de la variable independiente Xi en el modelo Mj para j=1,2. Se logró demostrar que dicha condición equivale a elegir el modelo que minimice la varianza del estimador del parámetro (para más detalles véase Aznar, 1987). Aznar logró demostrar que los resultados de selección a los que se llega con el procedimiento de incorporar explícitamente la función de pérdida como expresión de la función de utilidad de los investigadores, pueden ser sustancialmente diferentes a los que se obtendrían utilizando otro tipo de procedimientos de selección tradicionales como por ejemplo maximizar el R2 ajustado. Aznar et. al. (1991) evaluaron empíricamente versiones de los modelos LSW (Lucas-SargentWallace) y NRH-GAP (Hipótesis de la Tasa Natural-Ajuste Gradual de Precios). Según este enfoque, un modelo resulta aceptable frente a otros en el contraste empírico si cumple “satisfactoriamente” un objetivo establecido a priori y corroborado a posteriori, en este caso, el de predicción. Para los autores de este trabajo, si el porcentaje del error cometido por el modelo es menor que el error garantizado, el modelo si corrobora a posteriori lo que había garantizado a priori, por lo tanto posee superioridad para la selección. 2.2. Enfoques de selección automática. Este enfoque consiste en la utilización de algoritmos de selección automáticos implementados con ayuda del computador; Doornik (2008) señala que a menudo, la computadora (es decir, el modelista automático) puede encontrar un mejor modelo que el modelista humano; asimismo puede ser capaz de encontrar varios modelos que son más o menos igual de buenos, proporcionando información adicional para tomar decisiones; entre estos métodos tenemos los algoritmos de ampliación, reducción, métodos híbridos y métodos combinatorios. Los algoritmos de ampliación, reducción y sus variantes tienen en común la estimación de las ecuaciones de regresión con un conjunto de variables y a continuación añadir o eliminar selectivamente variables hasta que se consiga con alguna medida de criterio conjunta o regla de parada (Hair y Gómez, 1999). En este caso ninguno de estos métodos asegura la satisfacción simultánea de los múltiples criterios de adecuación. También existe el riesgo de seleccionar modelos “aparentemente adecuados” cuando no lo son (por ejemplo modelos con significancia estadística pero no teórica). Montgomery et. al. (2002) afirman que los analistas sin experiencia pueden verse tentados a creer que como todos los procedimientos secuenciales terminan con una ecuación final, dicho modelo es óptimo en algún sentido, lo cual es incorrecto.

XXI Simposio de Estadística 2011

Carlos Julio Ojeda & Claudio Rocco

Los métodos combinatorios implican un proceso de búsqueda a lo largo de todas las 2k-1 ecuaciones posibles de un conjunto de k variables independientes (suponiendo que el término de ordenada al origen se incluye en todas las ecuaciones). Gracias a los desarrollos computacionales hoy en día es posible procesar con mucha eficiencia hasta unos 30 regresores candidatos, con tiempos de cómputo satisfactorios (Montgomery et. al. 2002). La selección del mejor modelo se realiza utilizando algún criterio de información como el Criterio de Información de Akaike (CIA) y el Criterio de Información de Schwarz (CIS), entre otros, sin embargo Hair y Gómez (1999) apuntan que dicha estrategia posee la limitante de no examinar factores como: la presencia de multicolinealidad, la identificación de valores atípicos y la interpretación teórica de los coeficientes, elementos que pueden poner en aprietos la ecuación seleccionada. Otro enfoque emergente en esta área son los Algoritmos de selección automática General a lo Particular (Gets), desarrollados principalmente en la Escuela de Economía de Londres, en esta área encontramos los estudios de Hoover y Pérez (1999), PCGets de Hendry y Krolzig (2003), y el algoritmo Autometric de Doornik (2008). Dichos algoritmos utilizan bloques de reducción de variables con pruebas F, permitiendo personalizar las pruebas de diagnóstico y aplicar pruebas de inclusión entre los modelos contendores terminales. Partiendo de un modelo general sin restricciones (GUM), los procedimientos de prueba estándar van eliminando las variables estadísticamente insignificativas. Posteriormente, se verifica la congruencia de los modelos, examinando las hipótesis de ruido blanco, homocedasticidad, normalidad de los errores y constancia de los parámetros, con ello se busca comprobar la validez de las reducciones, asegurando una mejor selección. Cuando sucesivas búsquedas no cambian el GUM y el conjunto de modelos candidatos terminal ha convergido en dos o más modelos, se utiliza el criterio de CIS de Schwarz para la selección de un modelo. 2.3. Enfoques que utilizan criterios específicos de selección. Se han definido en la literatura estadística múltiples criterios de selección de modelos. Según Gujarati (2004), algunos de ellos son muy empleados y los paquetes estadísticos incluyen, desde hace tiempo, información de este tipo, intercalada en sus rutinas de regresión. García (1996) afirma que cada criterio de selección posee condiciones ideales que se aspiran lograr para poder concluir cuál de los modelos es el mejor, por lo menos de forma individual, según dicho criterio. La Tabla 1 nos muestra las reglas de decisión para la selección del mejor modelo con base en treinta criterios individuales estudiados. Las reglas de decisión han sido formuladas tomando en cuenta dos modelos candidatos con igual forma funcional de la variable dependiente denominados: M1 y M2. Se utiliza el símbolo f para denotar la preferencia estricta de un modelo con respecto al otro (Hildenbrand, y Kirman, 1982).

XXI Simposio de Estadística 2011

Metodología para selección de modelos de regresión lineal múltiple basada en métodos multiobjetivo

5

Tabla 1: Criterios de selección y condiciones ideales. Código

Criterio

Regla de decisión

1

Consistencia teórica: Signos esperados

Sea M1 un modelo con los signos esperados correctos en los coeficientes estimados y M2 un modelo con signos esperados incorrectos. M1 f M2.

2

Consistencia teórica: Variables relevantes

Sea M1 un modelo que posea las variables relevantes sugeridas por la teoría del fenómeno y M2 que no posea las variables relevantes. M1 f M2.

3

Prueba de hipótesis sobre coeficientes individuales

Sea M1 un modelo con significación estadística en sus coeficientes individuales y M2 un modelo sin significación estadística en sus coeficientes individuales. M1 f M2.

4

Prueba de significancia global

Sea M1 un modelo con significación global y M2 un modelo sin significación global. M1 f M2.

5

Prueba de hipótesis para modelos restringidos

Sea M1 un modelo que cumple con la hipótesis de restricción en sus parámetros y M2 un modelo que no cumple con la hipótesis de restricción en sus parámetros. M1 f M2.

6

Error estándar de la regresión (ee)

Sea M1 un modelo con ee1 y M2 un modelo con ee2, si ee1 R2, ajustado2. M1 f M2.

9

Autocorrelación: Gráfico de los residuos

Sea M1 un modelo con un patrón identificado de autocorrelación en la gráfica de sus residuos y M2 un modelo sin un patrón de autocorrelación en la gráfica de sus residuos. M1 f M2.

10

Autocorrelación: Prueba de Durbin-Watson

Sea M1 un modelo con DW no significativo a la hipótesis de no autocorrelación de primer orden y M2 un modelo con DW significativo. M1 f M2.

11

Autocorrelación: Prueba h-Durbin

Sea M1 un modelo con h-Durbin no significativo a la hipótesis de no autocorrelación de primer orden y M2 un modelo con DW significativo. M1 f M2.

12

Autocorrelación: Prueba de Breusch-Godfrey

Sea M1 un modelo con L=(n-p) R2, no significativo a la hipótesis de no autocorrelación y M2 un modelo con (n-p) R2, significativo. M1 f M2.

13

Autocorrelación: Correlograma

Sea M1 un modelo con residuos entre las bandas de confianza de no autocorrelación y M2 un modelo con residuos fuera de las bandas de confianza de no autocorrelación. M1 f M2.

14

Autocorrelación: Prueba de las rachas

Sea M1 un modelo cuya racha de signos en los residuos es aleatoria y M2 un modelo cuya racha de signos en los residuos no es aleatoria. M1 f M2.

XXI Simposio de Estadística 2011

Carlos Julio Ojeda & Claudio Rocco Tabla 1: Criterios de selección y condiciones ideales. Continuación. Código

Criterio

Regla de decisión

15

Heteroscedasticidad: Gráfico de los residuos

Sea M1 un modelo con un patrón identificado de homocedasticidad en la gráfica de sus residuos y M2 un modelo sin un patrón de homocedasticidad en la gráfica de sus residuos. M1 f M2.

16

Heteroscedasticidad: Prueba de Park

Sea M1 un modelo con coeficiente no significativo a la hipótesis de homocedasticidad y M2 un modelo con coeficiente significativo a la hipótesis de homocedasticidad. M1 f M2.

17

Heteroscedasticidad: Prueba de Glejser

Sea M1 un modelo con coeficiente no significativo en todas las pruebas de hipótesis de homocedasticidad y M2 un modelo con al menos un coeficiente significativo a la hipótesis de homocedasticidad. M1 f M2.

18

Heteroscedasticidad: Prueba de Breush-Pagan

Sea M1 un modelo con ML = n⋅R2, no significativo a la hipótesis de existencia de homocedasticidad y M2 un modelo con ML= n⋅R2significativo. M1 f M2.

19

Heteroscedasticidad: Prueba de White

Sea M1 un modelo con ML= n⋅R2, no significativo a la hipótesis de existencia de homocedasticidad y M2 un modelo con ML= n⋅R2 significativo. M1 f M2.

20

Normalidad de los residuos: Histograma de residuos

Es un criterio muy subjetivo para definir una regla de decisión.

21

Normalidad de los residuos: Gráfico Q-Q normal

Es un criterio muy subjetivo para definir una regla de decisión.

22

Normalidad de los residuos: Contraste χ2

Sea M1 un modelo con χ2 no significativo a la hipótesis de normalidad y M2 un modelo con χ2 significativo. M1 f M2.

23

Normalidad de los residuos: Contraste de asimetría y curtosis de Jarque-Bera

Sea M1 un modelo con JB no significativo a la hipótesis de normalidad y M2 un modelo con JB significativo. M1 f M2.

24

Normalidad de los residuos (F)

Sea M1 un modelo con D no significativo a la hipótesis de normalidad y M2 un modelo con D significativo. M1 f M2.

Contraste de Kolmogorov-Smirnov modificada por Lillierfors 25

Multicolinealidad: Relación t y R2

Sea M1 un modelo con presencia de t significativas y un R2 alto y M2 un modelo con de t no significativas y un R2 alto. M1 f M2.

26

Multicolinealidad: Factor de inflación de la varianza (FIV)

Sea M1 un modelo con FIV α en algún coeficiente menos la constante)

1

P-valor del contraste F ≤ α

3

P-valor del contraste F > α

1 3

_

R 2 > 0,70

2

_ 2 0,50 ≤ R ≤ 0,70

1

_

R 2 < 0,50 Z5

Autocorrelación

Z6

Z7

Prueba de hipótesis para modelos restringidos

Durbin-Watson

Correlograma 12 rezagos

Puntos

Si F ≤ Fc crítico (m, n-k) grados de libertad

3

Si F > Fc crítico (m, n-k) grados de libertad

1

P-valor del contraste DW > α

3

P-valor del contraste DW ≤ α

1

Gráficos de AC y PAC dentro de las bandas

3

Gráficos de AC y PAC fuera de las bandas

1

XXI Simposio de Estadística 2011

Metodología para selección de modelos de regresión lineal múltiple basada en métodos multiobjetivo

11

Tabla 3: Matriz de conversión de puntos. Continuación. Bloque de criterio

Cód

Criterio

Regla práctica

Puntos

Normalidad

Z9

Contraste de asimetría y curtosis de Jarque-Bera

P-valor del contraste JB > α

3

P-valor del contraste JB ≤ α

1

P-valor de K-S > α

3

P-valor de K-S ≤ α

1

FIV < 10

3

FIV ≥ 10

1

IC < 10

3

10 ≤ IC ≤ 30

2

IC > 30

1

Cp ≤ PCp 33,33

3

PCp 33,33 ≤ Cp ≤ PCp 66,66

2

Cp > PCp 66,66

1

CIS ≤ PCIS 33,33

3

PCIS 33,33 ≤ CIS ≤ PCIS 66,66

2

CIS > PCIS 66,66

1

Z10

Kolmogorov-Smirnov

Multicolinealidad Otros criterios Z11

Factor de inflación de la varianza (FIV)

Z12

Índice de condición

Z13

Z14

Criterio Cp de Mallow

Criterio de información de Schwarz (CIS)

Nota: PCp n= Percentil n del criterio Cp de Mallow. PCIS n= Percentil n del criterio CIS.

b. Organizar los resultados de los puntajes de los modelos, en una matriz de Zij como se muestra en la Tabla 2. Paso 3. Distancias normalizadas. a. Fijar el valor ideal en 3 puntos y el anti-ideal en 1 punto. b. Calcular las distancias normalizadas: dij =

Z *j − Z ij Z *j − Z j *

XXI Simposio de Estadística 2011

Carlos Julio Ojeda & Claudio Rocco

c. Agregar las distancias normalizadas de las pruebas de los k=7 bloques de criterios: c.1. Coherencia teórica: d1 = ∑ d ij para i=1,2,…,m y j=1

c.2. Coherencia estadística: d 2 = ∑ d ij para i=1,2,…,m y j=2,3,…,5

c.3. Autocorrelación: d 3 = ∑ d ij para i=1,2,…,m y para j=6,7

c.4. Heteroscedasticidad: d 4 = ∑ d ij para i=1,2,…,m y j=8

c.5. Normalidad: d 5 = ∑ d ij para i=1,2,…,m y j=9,10

c.6. Multicolinealidad: d 6 = ∑ d ij para i=1,2,…,m y j=11,12

c.7. Otros criterios: d 7 = ∑ d ij para i=1,2,…,m y j=13,14

Ir al paso 4. Paso 4. Conjunto compromiso. a. Para el conjunto L1, se define la siguiente función de logro lexicográfica: F = (f1, f2) f1 = Min d1 f2 = ( Min∑ d j para j=2, 3,…,7) Almacenar los índices de dichos modelos en el conjunto L1. b. Para el conjunto L∞, se define la siguiente función de logro lexicográfica: F=(f1, f2) f1 = Min d1 f2 = ( Min Max d j para j=2,3,…,7) Almacenar los índices de dichos modelos en el conjunto L∞. c. Calcular X*=L1 ∩ L∞, esos índices proporcionan las ecuaciones de regresión múltiple que cumpliendo con la coherencia teórica, poseen una mínima distancia global y simultáneamente, brindan una solución equilibrada en el resto de los criterios.

XXI Simposio de Estadística 2011

Metodología para selección de modelos de regresión lineal múltiple basada en métodos multiobjetivo

13

4.2. Aplicación: Demanda de carne de res en Venezuela. 1970-1995. Paso 0. Inicialización. a. Para seleccionar la mejor ecuación que permita explicar la demanda de carne de res en Venezuela durante el periodo 1970-1995, se utilizaron los datos recolectados por Muñoz (1999). Tomando en consideración la teoría de la demanda, seleccionamos las siguientes variables de partida: Variable dependiente: Y= Demanda de carne de res, estimada mediante el consumo aparente de carne en canal (CA=Producción nacional + Importaciones – Exportaciones) y registrada en las hojas de balance de alimentos del Instituto Nacional de Nutrición. Se expresa en toneladas métricas. Variables Independientes: A = precio real de la carne de res (a precios constantes de 1984). Precios por Kg registrados en los anuarios del antiguo Ministerio de Agricultura y Cría (MAC). B = precio real de la carne de porcino (a precios constantes de 1984). Precios por Kg registrados en los anuarios del antiguo Ministerio de Agricultura y Cría (MAC). C = precio real del pollo (a precios constantes de 1984). Precios por Kg registrados en los anuarios del antiguo Ministerio de Agricultura y Cría (MAC). D = ingreso real = medido como el ingreso anual disponible nacional (a precios contantes de 1984). Millones de Bs. Fuente: Anuarios del BCV. b. Respuestas de la interacción con el analista: b.1. El nivel de significación fijado para las pruebas estadísticas es de 5%. b.2. Los signos esperados para los coeficientes de las variables independientes son: A = Se espera que sea negativo, pues según la teoría de la demanda existe una relación inversa entre las cantidades demandas de un bien y su precio. B y C = Se espera que sea positivo pues se consideran productos sustitutos de la carne de res. D = Se espera que sea positivo, pues a mayor ingreso real, se espera que incremente las cantidades demandadas. b.3. No se especifican restricciones teóricas entre los coeficientes. Paso 1. Generación de modelos a. No se generaron transformaciones en las variables originales. b. Con las variables se generan las 24 –1=15 combinaciones: c. Los modelos se estimaron con el intercepto. d. Los resultados de los criterios para cada modelo se ejecutaron en Eview 5.0, PSS 15.0 y Statgraphics Centurion XVI. Los mismos se muestran en las Tablas 4 y 5.

XXI Simposio de Estadística 2011

Carlos Julio Ojeda & Claudio Rocco Tabla 4: Resultados observados en los criterios.

1.

Modelo Y, A

2.

Y, B

3.

Y, C

4.

Y, D

5.

Y, A, B

6.

Y, A, C

7.

Y, A, D

8.

Y, B, C

9.

Y, B, D

10.

Y, C, D

11.

Y, A, B, C

12.

Y, A, B, D

13.

Y, A, C, D

14.

Y, B, C, D

15.

Y, A, B, C, D

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.

F / PEcuación/ P-valor del estadístico t valor R2 ajustado DW p-valor Y = 224504, + 341898*A 6,67 0, 1848 0,68326 0 0 (0,0163) 0,0163 Y = 14231,9 + 1,19869E6*B 24,96 0,746 1,04926 0,0027 ( 0,8166) (0) 0 Y = 245222, + 425761*C 2,27 4,8386 0,6832 0 (0) (0,1449) 0,1449 Y = 88446,1 + 66,5679*D 49,25 65,8702 0,96455 0,001 (0,0127) (0) 0 Y = -5539,37 + 205410*A + 1,06003E6*B 16 54,5103 1,3585 0,0197 (0,9249) (0,0592) (0,0002) 0 Y = 209692, + 308090,*A + 144396,*C 3,34 15,7898 0,67929 0 (0,0002) (0,0541) (0,6345) 0,0531 Y = 72791,8 + 129797*A + 61,0382*D 26,71 67,2885 1,23616 0,007 (0,043) (0,1666) (0) 0 Y = -30217,2 + 1,16125E6*B + 326750,*C 14,65 52,2009 1,09165 0,0021 (0,6453) (0) (0,118) 0,0001 Y = 50925,2 + 307951,*B + 54,8792*D 25 65,7906 1,09229 0,0025 (0,3259) (0,3413) (0,0016) 0 Y = 3556,9 + 486659,*C + 67,939*D 41,99 76,6325 1,73032 0,1396 (0,9234) (0,0021) (0) 0 Y = -26805,8 + 160156,*A + 1,069E6*B + 188352,*C 10,76 53,9511 1,32978 0,0089 (0,67770) (0,18480) (0,0002) (0,4051) 0,0001 Y = 34448,4 + 130951,*A + 313559*B + 49,0875*D 18,17 67,3234 1,38471 0,0147 (0,5054) (0,1634) (0,3224) (0,0045) 0 Y = 2956,15 - 13123,5*A + 499177,*C + 68,5334*D 26,81 75,5929 1,71462 0,0935 (0,9381) (0,8879) (0,00710) (0) 0 Y = -7573,92 + 110227*B + 473477*C + 63,7181*D 27,03 75,7491 1,73501 0,1166 (0,8718) (0,6911) (0,0038) (0,0001) 0 Y = -7565,51 - 7556,38*A + 106719*B + 481105*C + 64,1947*D 19,36 74,6019 1,72521 0,0774 (0,8749) (0,9374) (0,7105) (0,0133) (0,0003) 0 Tabla 4: Resultados observados en los criterios. Continuación.

Modelo Y, A Y, B Y, C Y, D Y, A, B Y, A, C Y, A, D Y, B, C Y, B, D Y, C, D Y, A, B, C Y, A, B, D Y, A, C, D Y, B, C, D Y, A, B, C, D

Correlograma Fuera Fuera Fuera Fuera Dentro Fuera Fuera Fuera Fuera Dentro Dentro Dentro Dentro Dentro Dentro

nR2 p-valor 4,97 0,08 2,07 0,35 2,27 0,32 2,35 0,3 7,58 0,18 8 0,15 5,92 0,31 4,52 0,47 3 0,69 11,14 0,06 12,13 0,2 0,52 8,13 13,46 0,14 14,55 0,1 16,18 0,3

JB p-valor 1,48 0,47 2,24 0,32 2,45 0,29 7,34 0,02 3,71 0,15 1,44 0,48 8,08 0,01 3,44 0,17 10,64 0 3,81 0,14 4,32 0,11 12,37 0 3,69 0,15 5,31 0,07 5,18 0,07

K-S p-valor 0,572 0,899 0,818 0,515 0,675 0,752 0,714 0,688 0,779 0,578 0,589 0,879 0,647 0,796 1,08 0,194 0,917 0,37 0,917 0,369 1,048 0,222 0,715 0,686 0,794 0,554 0,866 0,441 0,877 0,425

FIV 1 1 1 1 1,095 1,272 1,174 1,01 2,605 1,003 1,382 2,792 1,615 2,742 3,259

IC 7,95 17 9,69 11,21 20,76 11,9 13,68 21,19 29,15 16,07 24,87 33,77 20,02 33,8 38,82

Cp 55,02 26,24 67,92 10,25 21,19 56,25 9,62 23,28 10,97 1,16 21,88 10,3 3,14 3 5

CIS 24,47 24 24,62 23,6 23,97 24,58 23,64 24,02 23,68 23,3 24,06 23,72 23,43 23,42 23,54

XXI Simposio de Estadística 2011

Metodología para selección de modelos de regresión lineal múltiple basada en métodos multiobjetivo

15

Paso 2. Matriz de decisión. a. Las evaluaciones y puntajes se realizan de acuerdo con las reglas prácticas definidas en la Tabla 3. La Tabla 5 muestra la matriz de decisión del problema planteado. Tabla 5: Matriz de decisión Modelo

Z1 Z2 Z3 Z4 Z6 Z7 Z8 Z9 Z10 Z11 Z12 Z13 Z14

1. 2.

Y, A Y, B

1 3

3 3

3 3

1 1

1 1

1 1

3 3

3 3

3 3

3 3

3 2

1 1

1 2

3.

Y, C

3

1

1

1

1

1

3

3

3

3

3

1

1

4. 5.

Y, D Y, A, B

3 1

3 1

3 3

2 2

1 1

1 3

3 3

1 3

3 3

3 3

2 2

2 2

3 2

6.

Y, A, C

1

1

1

1

1

1

3

3

3

3

2

1

1

7. 8.

Y, A, D Y, B, C

1 3

1 1

3 3

2 2

1 1

1 1

3 3

1 3

3 3

3 3

2 2

3 1

2 1

9.

Y, B, D

3

1

3

2

1

1

3

1

3

3

2

2

2

10. 11.

Y, C, D Y, A, B, C

3 1

3 1

3 3

3 2

3 1

3 3

3 3

3 3

3 3

3 3

2 2

3 2

3 1

12.

Y, A, B, D

1

1

3

2

1

3

3

1

3

3

1

2

2

13. 14.

Y, A, C, D Y, B, C, D

3 3

1 1

3 3

3 3

3 3

3 3

3 3

3 3

3 3

3 3

2 1

3 3

3 3

15.

Y, A, B, C, D

3

1

3

3

3

3

3

3

3

3

1

3

3

Paso 3. Distancias normalizadas. Se fijó el valor ideal en 3 puntos y el anti-ideal en 1 punto. Posteriormente se calculó las distancias normalizadas y se agregaron por bloques de criterios, los resultados de las distancias se muestran en la Tabla 6.

XXI Simposio de Estadística 2011

Carlos Julio Ojeda & Claudio Rocco Tabla 6: Resumen de distancias por bloque de criterio Modelo

d1 d2 d3 d4 d5 d6 d7

1.

Y, A

1

1

2

0

0

0

2

2.

Y, B

0

1

2

0

0 0,5 1,5

3. 4.

Y, C Y, D

0 3 0 0,5

2 2

0 0

0 0 2 1 0,5 0,5

5.

Y, A, B

1 1,5

1

0

0 0,5

6. 7.

Y, A, C Y, A, D

1 3 1 1,5

2 2

0 0

0 0,5 2 1 0,5 0,5

8.

Y, B, C

0 1,5

2

0

0 0,5

2

9. 10.

Y, B, D Y, C, D

0 1,5 0 0

2 0

0 0

1 0,5 0 0,5

1 0

11.

Y, A, B, C

1 1,5

1

0

0 0,5 1,5

12. 13.

Y, A, B, D Y, A, C, D

1 1,5 0 1

1 0

0 0

1 1 0 0,5

1 0

14.

Y, B, C, D

0

1

0

0

0

1

0

15.

Y, A, B, C, D

0

1

0

0

0

1

0

1

Paso 4. Conjunto compromiso. Los modelos que minimizan a d1 son: 2, 3, 4, 8, 9, 10, 13, 14 y 15. Posteriormente se calcula la métrica L1 y la métrica L∞. La Tabla 7 nos muestra dichos resultados. Tabla 7: Resultados de las métricas L1 y L∞ Modelo

d1 d2 d3 d4 d5 d6 d7

L1

L∞

2.

Y, B

0,0 1,0 2,0 0,0 0,0 0,5 1,5 5,0

2,0

3.

Y, C

0,0 3,0 2,0 0,0 0,0 0,0 2,0 7,0

3,0

4.

Y, D

0,0 0,5 2,0 0,0 1,0 0,5 0,5 4,5

2,0

8.

Y, B, C

0,0 1,5 2,0 0,0 0,0 0,5 2,0 6,0

2,0

9.

Y, B, D

0,0 1,5 2,0 0,0 1,0 0,5 1,0 6,0

2,0

10.

Y, C, D

0,0 0,0 0,0 0,0 0,0 0,5 0,0 0,5* 0,5**

13.

Y, A, C, D

0,0 1,0 0,0 0,0 0,0 0,5 0,0 1,5

1,0

14.

Y, B, C, D

0,0 1,0 0,0 0,0 0,0 1,0 0,0 2,0

1,0

15.

Y, A, B, C, D 0,0 1,0 0,0 0,0 0,0 1,0 0,0 2,0

1,0

*= modelo que minimiza L1. **= modelo que minimiza L∞.

El conjunto L1, de mínima distancia es L1 = {10}, y el conjunto L∞ de mínima distancia máxima se define como L∞ = {10}, por lo tanto al interceptar los dos conjuntos tenemos:

XXI Simposio de Estadística 2011

Metodología para selección de modelos de regresión lineal múltiple basada en métodos multiobjetivo

17

X*=L1 ∩ L∞ = {10} ∩ {10} = {10} El modelo 10, seleccionado es: Y = 3556,9 + 486659*C + 67,939*D; dicho modelo posee los siguientes atributos: • Cumple con la coherencia teórica, es decir, los signos son los correctos. • Los coeficientes (sin incluir la pendiente) son individual y globalmente significativos. • El R 2 es 76,63%, es decir posee un buen ajuste. • No muestra indicios de autocorrelación. • No hay indicios de heteroscedasticidad. • Los residuos se distribuyen normalmente. • Hay indicios de multicolinealidad, pero moderada. • Posee un valor de Cp de Mallows y CIS mínimos de todos los modelos candidatos. • Dicha selección poseen la ventaja de brindar la mínima distancia global y simultáneamente, ofrecer una solución equilibrada en el resto de los criterios.

5. Conclusiones y recomendaciones. Esta investigación ha permitido el diseño de una metodología de selección de MRLM, basada en métodos multiobjetivo. En este trabajo se han revisado los enfoques para la selección de MRLM, resaltando el hecho que la misma ha sido abordada tradicionalmente bajo el examen individual de múltiples criterios de selección paramétricos y no paramétricos, para los cuales la idea del mejor modelo no es la misma. Existen algunos desarrollos que abordan el problema de la selección incorporando un objetivo a priori (por ejemplo, cumplir con el análisis estructural o la predicción), demostrando que la selección final puede ser muy diferente a la obtenida bajo enfoques tradicionales. Asimismo, se ha venido trabajando en el diseño de algoritmos de selección automáticos, que permiten bajo el enfoque de reducción, obtener un modelo congruente que cumpla con las hipótesis de ruido blanco, homocedasticidad, normalidad de los errores, constancia de los parámetros, entre otros. El estudio de la selección de MRLM forma parte del tipo de problemas multicriterio que buscan elegir la mejor o más adecuada alternativa de un conjunto dado ante múltiples criterios de elección. El análisis de dicho problema multicriterio bajo la perspectiva, de los métodos multiobjetivo, permitió la escogencia de los métodos de programación compromiso y optimización de metas lexicográficas, como las bases para la creación de una metodología de selección que incorpore la satisfacción simultánea de múltiples criterios, y permita acotar un conjunto de modelos no dominados.

XXI Simposio de Estadística 2011

Carlos Julio Ojeda & Claudio Rocco

El método MERLIND propuesto en este trabajo tiene la ventaja que puede acercarnos a los modelos ideales de una manera intuitiva, utilizando la noción de distancia. Asimismo, logra seleccionar de todas las combinaciones posibles, modelos que siempre garantizan la coherencia teórica y que, simultáneamente ofrece una solución equilibrada en todos los criterios. La metodología también permite resumir toda la información generada en las regresiones y organizarla de mejor manera. Se han detectado ciertos aspectos que se sugiere sean considerados en desarrollos futuros. Sería relevante estudiar por ejemplo las posibilidades de incorporar al algoritmo los criterios de validación cruzada, como una vía para un abordaje más integral del problema de la selección. Asimismo, estudiar la incorporación de variables cualitativas en los datos para corregir shocks estructurales. Por otra parte, se puede explorar, a partir del algoritmo propuesto, el diseño de software de selección que permita una mayor interacción y perfeccionamiento de las preferencias del analista. Adicionalmente, sería conveniente abordar la utilización del algoritmo como vía para la identificación y aplicación de medidas remediales en los criterios no satisfechos, se recuerda que el método propuesto muestra las debilidades de cada criterio en particular, pero no permite incorporar modelos corregidos sobre la marcha.

Referencias Akaike, H. (1973), Information Theory and an Extension of the Maximum Likelihood Principle, en 2nd International Symposium on Information Theory. 1 (1), 267-281. Akademiai Kiado. Aznar, A. (1987), ‘Contenido informativo y selección de modelos econométricos’. Investigaciones económicas (Segunda Epoca), 11 (1), 25-39. Aznar, A., Trívez, F. y Aparicio, M. (1991), ‘Modelo LSW versus modelo NRH-GAP. Aplicación de una nueva metodología de selección de modelos’. Investigaciones económicas, 15 (3), 575600. Bustos, E. (2003), Métodos multicriterios discretos de ayuda a la toma de decisión. Conferencia presentada en la Escuela Superior de Cómputo – Instituto Politécnico Nacional, México. Carrasquero, N.(1996), Un método interactivo para aislar y explorar un conjunto de soluciones de compromiso. Trabajo de ascenso a la categoría de Asociado no publicado. Universidad Central de Venezuela, Caracas, Venezuela. Doornik, J (2008), ‘Encompassing and Automatic Model Selection’. Oxford Bulletin Of Economics And Statistics, 70, 915-925. Doumpos, M., y Zopounidis, C. (2002), Multicriteria decision aid classification methods. Dordrecht; Boston: Kluwer Academic Publishers. García, C. (1996), ‘Estabilidad de algunos criterios de selección de modelos’. Questiio: Quaderns d'Estadistica, Sistemes, Informatica i Investigació Operativa, 20 (2), 147-166.

XXI Simposio de Estadística 2011

Metodología para selección de modelos de regresión lineal múltiple basada en métodos multiobjetivo

19

Gujarati, D. (2004), Econometría (4ª. ed.) (Demetrio Garmendia y Gladys Arango, Trads). México: Editorial Mc Graw Hill (Trabajo original publicado en 1978). Hannan, E. J., y Quinn (1979), ‘The Determination of the Order of an Autoregression’, Journal of the Royal Statistical Society, B, 41, 190-195. Hair, J. F., y Gómez Suárez, M. (1999), Análisis multivariante. Madrid etc.: Prentice Hall. Hendry, D. y Krolzig, H. (2003), ‘The properties of automatic gets modeling’. The Economic Journal, 115 (March), C32–C61. Hildenbrand, W., y Kirman, A. P. (1982), Introducción al análisis del equilibrio. Barcelona: Antoni Bosch. Hoover y Perez. (1999), ‘Data mining reconsidered: encompassing and the general-to-specific approach to specification search’, Econometrics Journal, 2, 167–191. Jaramillo, P. (2009), Análisis Multiobjetivo en problemas discretos. Conferencia presentada en la Universidad Nacional de Colombia Universidad Nacional de Colombia. Sede Medellin. Kahraman, C (2008), Fuzzy multi-criteria decision making: theory and applications with recent developments. New York: Springer. Lawrence, K y Reeves, G (1996), Toma de decisiones con criterios múltiples. En Maynard y otros (Ed.), Manual del ingeniero industrial (pp-14.211-14.229). México: McGraw-Hill. Montgomery, D y Peck, E y Vining, G. (2006), Introducción al análisis de regresión lineal (3ª. ed.) (Ing. Virgilio González, Trad). México: Compañía Editorial Continental (Trabajo original publicado en 2002). Muñoz, S (1999), El proceso econométrico a través del Eviews 2.0. Universidad de los Andes. Venezuela: Edición Interna ULA. Romero, C. (1996), Análisis de las decisiones multicriterio. Madrid: Isdefe. Schwarz, C. (1978), ‘Estimating the Dimension of a Model’. Annals of Statistics, 461-464. Zeleny, M. (1982), Multiple criteria decision making. New York: McGraw-Hill.

XXI Simposio de Estadística 2011

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.