Caracterización Estadística y Optimización de Redes Neuronales Artificiales para Pronóstico de Series de Tiempo

July 14, 2017 | Autor: Maria Angelica | Categoría: Statistical Analysis, Sistemas Y Computacion, OPTIMIZATION TECHNIQUE, Time Series Forecasting, Demand Forecasting, Artificial Neural Network

Share Embed

Laporkan tautan ini

Descripción

Caracterización Estadística y Optimización de Redes Neuronales Artificiales para Pronóstico de Series de Tiempo María Angélica Salazar Aguilar, Mauricio Cabrera-Ríos* División de Posgrado en Ingeniería de Sistemas, Facultad de Ingeniería Mecánica y Eléctrica, Universidad Autónoma de Nuevo León, Monterrey, Nuevo Léon {[email protected] , [email protected]} *

Autor Responsable, Teléfono: (81) 1052 3321

Resumen: Los pronósticos de series de tiempo constituyen un área activa para la aplicación de Redes Neuronales Artificiales (RNAs). Aunque la selección de una RNA para tal aplicación se ha simplificado grandemente, la falta de un método establecido para asignar los parámetros de las RNAs de una manera adecuada sigue siendo un reto. En este trabajo se propone una metodología basada en técnicas estadísticas y optimización para la selección de parámetros de una RNA para el pronóstico de series de tiempo. La comprobación del procedimiento propuesto se realizó al utilizarlo en un problema real de pronóstico de demanda en telecomunicaciones. Palabras clave: Redes Neuronales Artificiales, Series de tiempo, Análisis y Diseño de Experimentos, Pronósticos. Abstract: Time series forecasting is an active area for the application of Artificial Neural Networks (ANNs). Although the selection of a ANN has been greatly simplified, it remains a challenge to adequately determine the ANN parameters. In this work a method based on statistical analysis and optimization techniques is proposed to select the ANNs parameters for application in time series forecasting. The results on the successful application of the method in a real demand forecasting problem for the telecommunications industry are also reported. . Keywords: Artificial Neural Networks, Time Series Forecasting, Design and Analysis of Experiments.

1. Introducción A lo largo de la historia, pronosticar el comportamiento de algún fenómeno ha tenido una gran importancia. Ésto se ve reflejado en la diversidad de aplicaciones desarrolladas en prácticamente todas las áreas del conocimiento. Cuando es posible obtener información cuantitativa acerca del comportamiento de la variable o fenómeno de interés a través del tiempo, es decir, cuando se dispone de una serie de tiempo, el pronóstico típicamente se realiza utilizando las técnicas establecidas de Análisis de Series de Tiempo. Un pronóstico es, por lo general, la base para la toma de decisiones estratégicas, tácticas y operacionales en muchas organizaciones. Dada su importancia, no es sorprendente que se haya constituido en un área activa de investigación (Makridakis and Wheelwright, 1987; Zhang, 2004).

Durante décadas, la realización de pronósticos ha estado dominada por la utilización de métodos lineales tales como promedios móviles, suavizamiento exponencial, regresión y descomposición de series de tiempo. Dentro de éstos, destaca el uso de la técnica de promedios móviles autoregresivo integrado (ARIMA), creado por Box y Jenkins (1976). Los métodos lineales se pueden instaurar de manera conveniente, sin embargo, la existencia de relaciones no lineales entre los datos pueden limitar la aplicación de estos modelos (Makridakis et al., 1982). En la práctica es muy posible encontrar relaciones no lineales en los datos, y es por tanto necesario utilizar técnicas capaces de reflejar tal comportamiento. Las RNAs proveen una herramienta alternativa para la realización del pronóstico debido a su capacidad de modelar no linealidad. Adicionalmente, aún cuando el caso es uno de linealidad, las RNAs han mostrado ser exitosas y competitivas como herramientas de modelación (Hwarng, 2001; Medeiros et al., 2001; Zhang, 2001). Las RNAs surgieron como una herramienta de modelación cuantitativa y han sido aplicadas con éxito en un amplio número de problemas de predicción en casi todas las áreas de negocios, industria y ciencia (Widrow et al., 1994). Los trabajos realizados en torno a éstas han mostrado que tienen características atractivas para la predicción y clasificación de patrones. La utilización de RNAs es relativamente nueva en la literatura de pronósticos de series de tiempo, sin embargo, lo positivo de los resultados en las aplicaciones la convierten en un área prometedora. Desarrollar un modelo de RNAs para una aplicación práctica no es una tarea trivial. La exactitud del pronóstico de la RNA depende de varias decisiones sumamente importantes en cuanto a la definición de los parámetros que intervienen en el modelo así como del tipo y la arquitectura de red que se van a utilizar (Zhang, 2004). Algunas de estas decisiones pueden ser tomadas en el proceso de construcción del modelo, mientras que otras requieren ser especificadas antes de que comience la modelación. Dado que no existe una regla establecida para tomar estas decisiones, en este trabajo se propone una metodología que nos permite ajustar los parámetros de la RNA garantizando que el modelo resultante tenga un desempeño adecuado. La metodología propuesta se basa en el análisis estadístico y optimización de las medidas de desempeño de la RNA, que son esencialmente definidas para nuestros propósitos como medidas de error de predicción. El método consiste en diseñar y analizar un experimento estadístico en el que cada factor o variable controlable corresponde a uno de los parámetros que se desea ajustar en la RNA. Se caracterizan los resultados mediante un análisis de varianza basado en un modelo de regresión apropiado para cada medida de desempeño. Posteriormente, se considera cada uno de los modelos de regresión como el objetivo de un problema de optimización en el que se busca el valor de los parámetros que minimizan el valor objetivo (valor de la medida de desempeño). La solución final determina el valor que deben tomar los parámetros para que la RNA genere pronósticos confiables. En el resto de este documento se describe el tipo de decisiones en la aplicación de RNAs en pronósticos de series de tiempo, posteriormente se describe a detalle la metodología propuesta y finalmente se demuestra su efectividad por medio de la aplicación a un problema real de pronóstico de demanda para la industria de las telecomunicaciones.

2. Decisiones en la aplicación de RNAs en pronósticos de series de tiempo En el desarrollo de un modelo de RNAs para pronóstico de series de tiempo, la especificación de la arquitectura en términos de la cantidad de variables de entrada, que corresponde al número de neuronas en la capa de entrada, así como el número de neuronas en la capa oculta y en la capa de salida, es una tarea crítica. Al determinar el número de neuronas en la capa de entrada, se determina la cantidad de datos históricos que se deben utilizar para la realización del pronóstico. En este documento, a los datos históricos se les denominará con el término en inglés lags. Así mismo, es bien sabido que el número de neuronas en la capa oculta determina la capacidad de la RNA para aproximar las relaciones no lineales entre los lags y las variables de salida o pronósticos (Zhang et al., 1998). La selección de número de neuronas en la capa oculta ha sido anteriormente

estudiada por diversos autores (Zhang, 2004; Hansen et al., 2003; Sexton et al., 2005), sin embargo, no existe aún una manera definitiva para abordar este problema Son numerosas las aplicaciones de RNAs en las que los autores aconsejan el preprocesamiento de los datos para mejorar el desempeño de la RNA, Piramuthu et al. (1998) documentan la importancia del mismo. Se ha observado que al construir nuevas representaciones de los datos se pueden atenuar las dificultades durante la fase de entrenamiento, el cual es el proceso por medio del que la RNA trata de aprender (representar) los datos que se le presentan. El preprocesamiento reduce el grado de dispersión y complejidad de los datos en el espacio de búsqueda bajo el cual se lleva a cabo el entrenamiento (Hansen et al., 2003) y es por tanto un factor importante si se busca mejorar el desempeño de la RNA. Por otra parte, seleccionar el algoritmo de entrenamiento que se utilizará para modificar los pesos de las conexiones de la RNA es otro factor importante para la gran mayoría de aplicaciones. Pronósticos de series de tiempo, en este caso, no es la excepción. Es nuestra propuesta que las decisiones aquí descritas se tomen de una manera sistemática y simultánea por medio de la utilización de métodos estadísticos experimentales y técnicas de optimización siguiendo la metodología que se describe en la siguiente sección.

3. Metodología propuesta La figura 1 presenta esquemáticamente la metodología que se propone con el objetivo de seleccionar los parámetros del modelo de RNAs de una manera sistemática y simultánea. La metodología aquí se presenta de una manera general para RNAs. Posteriormente se discutirán los detalles de su aplicación en pronósticos de series de tiempo. Esta metodología surge con la idea básica de ver la RNA como un sistema en el cual existen variables controlables que influyen en una medida de desempeño del sistema. De esta forma, al considerar los parámetros de la RNA como variables controlables que influyen en el desempeño de la misma, podemos fijar los valores de esos parámetros y así explorar la superficie de respuesta de la RNA mediante la construcción de un modelo de regresión que se ajuste a las medidas de desempeño encontradas. Así tendremos la capacidad de determinar la contribución que tiene cada uno de los parámetros en la medida de desempeño. Con este conocimiento es posible, dado que sea necesario, eliminar variables que no sean estadísticamente significativas, caracterizar interacciones, así como determinar si las medidas de desempeño seleccionadas acerca de la RNA dependen de conjuntos de variables distintos entre sí. En este último caso, es factible crear problemas independientes de optimización. Puesto que nuestro objetivo final es determinar qué valores deben tomar estos parámetros para obtener un valor deseable en las medidas de desempeño de la RNA, el problema se convierte en uno de optimización. Los pasos de la metodología propuesta en la Figura 1 se pueden describir de la manera siguiente: 1) Descripción de la RNA como Sistema. Determinar el tipo de RNA que se utilizará para el análisis. Identificar los parámetros controlables y definir las respuestas de interés (medidas de desempeño del modelo de RNAs). 2) Análisis y Diseño de Experimentos. Planear, ejecutar e interpretar un diseño estadístico de experimentos. 3) Metamodelación. Describir la superficie de cada respuesta mediante un modelo de regresión apropiado, realizando la comprobación de supuestos a través de un análisis de residuos. 4) Problema de Optimización. Considerar los metamodelos como funciones objetivo de un problema de optimización. 5) Solución. Resolver los problemas de optimización definidos en el paso anterior. Utilizar múltiples comienzos para escapar de optimalidad local.

Parámetros

Tipo de RNA

1) Descripción de la RNA como Sistema.

Respuestas

2) Análisis y Diseño de Experimentos. Caracterización

3) Metamodelación

4) Problemas de Optimización. Múltiples Inicializaciones

5) Solución Figura 1: Metodología Propuesta para la Selección de Parámetros en RNAs Para llegar a la definición de la metodología propuesta de la Figura 1, se partió del hecho de que un experimento puede ser visto como una prueba planeada donde se introducen cambios controlados en un proceso o un sistema con el objetivo de analizar la variación inducida por estos cambios en una medida de desempeño. En varios casos y dada la rapidez relativa con la que se pueden entrenar las redes neuronales, será factible escoger un diseño factorial. Este diseño contiene tantas corridas experimentales como combinaciones de niveles resulten para los factores, esto es, si existen cuatro factores variados a tres, cuatro, tres y cinco niveles cada uno, el diseño factorial tendrá 3x4x3x5 = 180 corridas experimentales. De esta manera, los factores controlables que intervienen en el experimento corresponden a los parámetros del modelo de RNAs que se desean determinar. Cada corrida experimental indica los valores asignados a los parámetros para construir la RNA correspondiente y bajo los cuales se llevará a cabo el entrenamiento de la misma. Una vez realizado el entrenamiento, se cuantifica la calidad de predicción de la RNA a través de las medidas de desempeño seleccionadas para el estudio y se registra como parte del experimento. En los parámetros donde sea posible considerar tres o más valores diferentes, es recomendable utilizar al menos tres de esos valores, con el fin de brindarle curvatura al modelo.

Realizado el experimento se lleva a cabo su análisis con el objetivo de caracterizar la variación producida por los parámetros en las medidas de desempeño del modelo de RNAs. Para ello, requerimos hacer un análisis de varianza basado en un modelo de regresión lineal múltiple de segundo orden con interacciiones, similar al de la ecuación (1), bajo el supuesto de que los residuos, ε , son independientes e idéntica y normalmente distribuidos con una varianza desconocida pero constante.

k

k

i =1

i =1

k −1

y = β 0 + ∑ β i x i + ∑ β ii x i + ∑ 2

k

∑β

i =1 j = i +1

ij

xi x j + ε

(1)

La variable dependiente y representa el valor de la medida de desempeño de la RNA, xi corresponde al valor que toma el parámetro

βi

i en cada combinación factorial, β 0 representa la ordenada al origen del plano de regresión,

corresponde al coeficiente de regresión de xi ,

coeficiente de regresión de la interacción de entre xi y

β ii es

el coeficiente de regresión de

xi2 y β ij es el

x j ; k es el número de parámetros controlables.

Los coeficientes de regresión son típicamente calculados mediante un procedimiento de reducción de errores cuadrados, disponible en la mayoría de paquetes computacionales de estadística comerciales. Una vez calculados los coeficientes de regresión, se realiza la comprobación de supuestos para verificar la adecuación del modelo. Finalmente, se considera el modelo de regresión resultante para cada medida de desempeño como función objetivo de un problema de optimización en el cual se busca encontrar los valores de los parámetros que minimizan el valor de la función objetivo. Es importante recordar que el problema de optimización resultante es no lineal la gran mayoría de las veces y que las variables de optimización son enteras, lo cual hace que el problema de optimización sea difícil de resolver. Más aún, estos problemas suelen ser no convexos, en cuyo caso no se puede garantizar que la solución encontrada sea una solución óptima global. Para probar la metodología propuesta se realizó el estudio de un caso práctico, el cual que se presenta a continuación.

4. Caso de estudio En este estudio se considera un problema real que surge en la industria de telecomunicaciones. La empresa en donde se llevó a cabo este estudio, como la mayoría de las empresas, tiene como objetivo principal generar utilidades a través de proveer un alto nivel de servicio a sus clientes. Su principal recurso es una red de transmisión, la cual puede ser definida como un conjunto de equipos de transmisión interconectados que poseen una capacidad finita de transmisión. Por otra parte, los clientes demandan utilización de la red en diferentes niveles en forma estocástica. La instalación de equipo no se realiza de forma inmediata pues se requiere todo un proceso de planeación de expansión de capacidad, y es por tanto necesario estimar el comportamiento de la demanda en períodos futuros. De esta manera, el tomador de decisiones estará en condiciones de determinar la capacidad que se requiere en la red para satisfacer la demanda sin incurrir en un exceso de capacidad ociosa, de ahí que sea muy importante contar con un pronóstico confiable.

Para este estudio se contó con información histórica de la demanda del servicio en períodos de tiempo mensuales, es decir, se contó con una serie de tiempo.

4.1. Descripción de la RNA como Sistema El modelo de pronóstico se construyó tomando como base la RNA presentada en la Figura 2 por su bien conocida capacidad de aproximación universal (White, 1990; Hornik, 1989), su amplia utilización y el buen desempeño que ha mostrado en el análisis de series de tiempo (Zhang, et al., 1998; Zhang, 2004; Liao et al., 2005; Hansen, et al., 2004). La RNA en la Figura 2 es una red neuronal de avance, entrenada por medio de la retropropagación del error de predicción, y que cuenta con tres capas de neuronas: una capa de entrada en la que se recogen datos conocidos, una capa oculta que determina la flexibilidad de la RNA para adaptarse a los datos conocidos y una capa de salida, por medio de la que se obtiene la salida de la red. En esta RNA específica, se considera solamente una neurona en la capa de salida.

i = t − m, t − m + 1,...t de la RNA en pronósticos de series de tiempo, corresponden a los valores de la demanda registrada en m períodos anteriores (lags) al período t + 1 , el cual se desea pronosticar.

Las entradas

Yi

Es muy importante determinar el valor de este parámetro que nos indica hasta qué período en el pasado es significativa la correlación entre los datos. El número de neuronas en la capa oculta proporcionan a la RNA la capacidad de aproximar las relaciones no lineales existentes entre los datos. Éste debe ser seleccionado con cuidado puesto que un número excesivo de neuronas provoca demasiada flexibilidad al modelo que puede traducirse en el fenómeno de pérdida de la capacidad de predicción de la red conocido como sobreentrenamiento. La neurona en la capa de salida calcula el pronóstico de la demanda en el período t + 1 , ∧

representado por Y t +1 . Las funciones de transferencia utilizadas fueron la tangente hiperbólica en las neuronas de la capa oculta y la función identidad en las neuronas de la capa de salida.

∧

Salida

Y t +1 bt+1

Vt+1,i

Capa Oculta

……… bj

Wji

…... Yt

Yt-1

Entrada Yt-m+1

Yt-m

Figura 2: Red Neuronal Artificial de avance, entrenada por Retropropagación del error de pronóstico, con tres capas.

En RNAs,

W ji

i = 1,2,..., neuronas ,

para j = 1,2,..., m es conocido como peso de la conexión que

j procedente de la neurona i , Vt +1,i para i = 1,2,..., neuronas es el peso de la conexión que llega a la neurona t + 1 (neurona de salida) desde la neurona j (neurona de la capa oculta). Estos

llega a la neurona

pesos son utilizados para ponderar las salidas generadas por las neuronas, y representan la memoria de la RNA. como bt +1 son conocidos como sesgos (del inglés ‘biases’), y representan el sesgo de la Tanto b j neurona j (en la capa oculta) y el sesgo de la neurona t + 1 en la capa de salida respectivamente. Para llevar a cabo el entrenamiento de la RNA, esto es la actualización de pesos de las conexiones entre las neuronas, así como la actualización de los sesgos en las neuronas de la capa oculta y en la neurona de la capa de salida, existe una diversidad de algoritmos. En este caso utilizamos el algoritmo de Levenberg-Marquard (lm) y el de Regularización Bayesiana (br). Ambos son conocidos como procedimientos de segundo orden que han demostrado efectividad en el entrenamiento de RNAs (Bishop, 1995; Hagan et al., 1996). Para el manejo de los datos se consideraron los parámetros transfomación y escala; transformación incluyó dos opciones: manejar los datos como demanda puntual en cada período o como diferencias entre la demanda de períodos adyacentes; por otro lado, escala se refiere a normalizar los datos para que caigan en una escala de [-1, 1] o bien manejarlos en su escala original. Para medir la calidad del pronóstico (medidas de desempeño) de la RNA se utilizaron el Error Cuadrado Medio o MSE ; el Error Absoluto Medio o MAE, la mayor de las diferencias en las que el valor pronosticado por la RNA está debajo del valor histórico o B_Pred ;y S_Pred, que es la mayor de las diferencias en las que el valor pronosticado por la RNA está arriba del valor histórico. Tanto MSE como MAE son medidas de desempeño que han sido muy utilizadas en la literatura, mientras que B_Pred y S_Pred son medidas que en nuestro caso de estudio resultan importantes para determinar por una parte, el peor caso de demanda insatisfecha y por otra parte, el peor caso de capacidad ociosa en la red.

4.2. Análisis y Diseño de Experimentos Con el objetivo de encontrar un buen modelo de RNAs para la predicción de demanda, se utilizó la metodología propuesta para la selección de los parámetros: Variamos lags en el rango [2,6], neuronas en el rango [2,7], transformación en {ninguna, diferencias}, escala en {observada, [-1,1] } y algoritmo en {lm,br}.Consideramos 3 niveles para lags y neuronas, mientras que para transformación, escala y algoritmo se consideraron sólo 2 niveles como se pudo observar. Las medidas de desempeño utilizadas fueron MSE, MAE, B_Pred y S_Pred. Al llevar a cabo el experimento de acuerdo a las especificaciones de la sección 4.1, se consideró adecuado utilizar un diseño factorial de 32x23 que resultó en un total de 72 combinaciones factoriales para correr el modelo de RNA’s. Los valores específicos que se consideraron para cada factor en su nivel correspondiente fueron lags = {2,3,6}, neuronas = {2,5,7}, transformación = {ninguna, diferencias}, escala = {observada , [-1,1] } y algoritmo = {lm, ,br }. Para manejar los valores de los parámetros en forma numérica se utilizó la codificación siguiente: en el parámetro transformación, ‘ninguna’ = 1 y ‘diferencias’ = 2; en escala, ‘observada’ =1 y ‘[-1, 1]’ =2; mientras que para algoritmo, ‘lm’ = 1 y ‘br’ = 2. Los resultados se muestran en la Tabla 1. Como puede observarse, las primeras cinco columnas contienen el valor que toma cada uno de los factores (parámetros) para realizar la corrida del modelo de RNAs. Las columnas siguientes contienen el valor que toman las medidas de desempeño de la RNA para esa combinación de factores.

Tabla 1: Resultados del experimento Neuronas 2 2 2 2 2 2 2 2 2 2 2 2 5 5 5 5 5 5 5 5 5 5 5 5 7 7 7 7 7 7 7 7 7 7 7 7 2 2 2 2

Lags 2 2 2 2 3 3 3 3 6 6 6 6 2 2 2 2 3 3 3 3 6 6 6 6 2 2 2 2 3 3 3 3 6 6 6 6 2 2 2 2

Escala 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2

Transformación 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2

Algoritmo 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2

MAE 15.38 14.83 14.99 14.41 15.39 15.25 14.89 12.53 15.31 15.02 13.43 10.60 15.09 11.80 12.47 9.93 15.01 14.69 10.21 9.78 15.46 12.71 7.04 3.29 14.81 9.09 8.89 7.30 15.28 11.85 9.20 5.49 14.45 13.90 3.59 0.80 14.71 17.08 16.34 15.58

MSE 717.49 822.03 609.14 808.62 725.56 724.62 613.74 523.33 566.63 578.48 501.43 248.54 698.58 448.97 407.59 440.55 715.72 759.51 355.73 251.53 553.00 545.57 169.25 32.99 700.10 178.11 218.43 147.09 722.19 443.52 310.22 68.57 607.09 461.54 19.41 1.68 594.07 860.04 752.57 835.90

B_Pred 69.89 73.26 66.36 71.63 70.07 68.28 66.36 69.62 69.56 69.35 69.18 65.77 70.89 65.35 43.30 69.97 69.37 69.42 65.85 70.43 59.24 68.51 30.79 21.04 70.41 65.23 63.52 65.69 69.49 68.94 48.55 17.46 64.92 58.44 13.88 5.04 62.21 77.67 74.73 73.23

S_Pred 125.52 130.74 105.76 132.36 125.99 135.72 105.42 135.46 116.49 98.61 112.18 41.95 125.17 128.56 114.36 134.07 126.64 142.16 108.67 55.35 101.95 120.65 74.33 13.86 125.41 26.45 57.49 32.18 126.43 114.13 108.67 29.64 121.57 90.33 10.82 4.68 108.03 126.22 125.00 130.77

Continuación Tabla 1: Resultados del Experimento. Neuronas 2 2 2 2 2 2 2 2 5 5 5 5 5 5 5 5 5 5 5 5 7 7 7 7 7 7 7 7 7 7 7 7

Lags 3 3 3 3 6 6 6 6 2 2 2 2 3 3 3 3 6 6 6 6 2 2 2 2 3 3 3 3 6 6 6 6

Escala 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2

Transformación 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2

Algoritmo 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

MAE 14.89 17.20 16.44 15.63 14.25 17.52 15.91 13.80 15.08 16.72 16.08 15.58 13.79 16.99 16.15 15.63 12.82 17.41 15.81 16.02 15.05 16.64 16.06 15.58 15.08 15.84 16.11 15.64 16.11 17.32 16.79 16.03

MSE 599.43 869.86 762.38 733.86 487.30 902.81 671.52 453.44 595.96 851.16 744.92 835.90 612.04 860.63 753.67 734.32 489.91 894.46 668.94 768.42 697.36 849.40 743.19 835.90 691.16 809.28 751.95 734.34 654.56 888.40 668.00 769.16

B_Pred 62.26 77.72 74.79 73.77 61.59 77.79 72.30 67.84 58.55 76.67 73.82 73.23 59.96 77.22 73.94 73.86 61.46 77.55 71.73 74.90 69.75 76.42 73.85 73.23 68.29 73.67 73.94 73.87 70.27 77.36 71.67 75.02

S_Pred 107.29 126.34 125.03 135.76 110.67 125.84 112.24 92.78 111.78 126.80 123.70 130.77 118.52 126.93 123.64 135.75 117.20 125.49 113.97 131.98 125.30 126.89 123.39 130.77 126.37 130.38 123.30 135.74 111.83 125.23 114.15 131.87

4.3. Metamodelación Una vez realizado el experimento, se procedió a caracterizar los resultados mediante el análisis de varianza con el fin de conocer la contribución que tiene cada uno de los factores en las medidas de desempeño de la RNA. De esta manera se obtuvo un modelo de regresión para cada una de las medidas de desempeño utilizadas. Los coeficientes de los modelos de regresión resultantes se muestran en la Tabla 2.

Tabla 2: Coeficientes del modelo de regresión para cada medida de desempeño Término de Regresión Constante Neuronas Lags Escala Transformación Algoritmo Neuronas*Neuronas Lags*Lags Escala*Escala Transformacion*Transformación Algoritmo*Algoritmo Neuronas*Lags Neuronas*Escala Neuronas*Transformación Neuronas*Algoritmo Lags*Escala Lags*Transformación Lags*Algoritmo Escala*Transformación Escala*Algoritmo Transformación*Algoritmo

MAE 29.82 -1.08 0.55 -1.92 -1.67 -14.15 0.02 -0.08

MSE 1726.89 -84.40 -4.72 -178.61 -100.62 -935.46 -0.15 -6.00

B_Pred 102.61 0.13 1.58 0.88 9.10 -61.57 0.07 -0.13

S_Pred 219.74 4.36 20.73 -23.03 -9.47 -145.98 -1.41 -2.83

0.01 -0.52 -0.21 1.00 -0.74 0.06 0.52 -1.71 4.84 2.91

7.41 -25.08 -21.05 68.57 -37.02 4.64 25.07 -101.01 291.74 237.47

-0.61 -2.99 -1.08 3.94 -3.41 -0.61 4.13 -6.87 19.42 7.45

0.61 -4.35 -3.57 9.57 -7.30 -2.19 6.03 -7.87 42.71 27.82

Nótese que al aproximar datos mediante modelos de regresión se parte del supuesto de que los residuos son independientes, siguen una distribución normal y tienen varianza constante. Es entonces importante que una vez que se ha obtenido el modelo de regresión se lleve a cabo una comprobación de los supuestos bajo los cuales fue creado, de esta manera podemos asegurar que nuestras conclusiones tienen bases estadísticas sólidas. El análisis de residuos nos permite llevar a cabo tal comprobación de supuestos. Por ejemplo, la Figura 3 nos muestra gráficamente el análisis de residuos para el modelo de regresión de la medida de desempeño B_Pred. En la Figura 3, la gráfica superior izquierda nos permite comprobar el supuesto de una distribución normal en los residuos, de manera similar, el histograma de frecuencias se aproxima a la campana de una distribución normal. La gráfica inferior derecha nos lleva a la comprobación del supuesto de independencia estadística mientras que en la gráfica superior derecha es posible comprobar la igualdad de varianza.

Residual Plots for B_Pred Normal Probability Plot of the Residuals

Residuals Versus the Fitted Values

99.9

20

90

Residual

Percent

99

50 10 1 0.1

10 0 -10 -20

-20

-10

0 Residual

10

20

20

Histogram of the Residuals

Residuals Versus the Order of the Data

18

Residual

Frequency

80

20

24

12 6 0

40 60 Fitted Value

10 0 -10 -20

-20

-10

0 Residual

10

20

1 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Observation Order

Figura 3: Análisis de Residuos para el modelo de regresión de B_Pred Como puede observarse, el modelo encontrado sí cumple con los supuestos establecidos, así que el modelo es apropiado y puede procederse a la interpretación de resultados basados en este modelo. Algunas veces, no será fácil determinar si estos supuestos se cumplen y deberá recurrirse a pruebas estadísticas formales que se pueden encontrar en fuentes como Devore (1995). De acuerdo a la metodología propuesta, se considera aplicar optimización a los modelos encontrados para determinar qué valores deben tomar cada uno de los factores para optimizar el desempeño de la RNA.

4.4. Problemas de Optimización y Solución En general, los modelos de optimización resultantes para cada medida de desempeño tienen el siguiente formato:

Encontrar Minimizar Sujeto

xi

∀i∈ I

z = β0 +

k

∑

i =1

para

β i xi +

k

∑

i =1

β ii x i 2 +

a x li ≤ x i ≤ x ui xi ∈ Z

+

I = {1 , 2 ,..., k }

∀i∈ I ∀i∈ I

k −1

k

i =1

j = i +1

∑ ∑

β ij x i x j

Las variables de decisión son las variables xi , éstas representan el valor que debe tomar el i-ésimo parámetro para minimizar la función objetivo z . Como ya se mencionó anteriormente, la función objetivo corresponde al modelo de regresión encontrado para la medida de desempeño en cuestión; k es el número de parámetros controlables, dichos parámetros están acotados por un valor mínimo xli y un valor máximo xui que fue especificado con anterioridad en la fase de Análisis y Diseño de Experimentos. La última restricción indica que las variables xi pueden tomar solamente valores enteros y positivos. En nuestro caso de estudio k = 5 , donde los parámetros son: neuronas, lags, escala, ,transformación y algoritmo. Al resolver de forma independiente cada uno de los modelos obtenidos y utilizando múltiples comienzos se encontró que se deben manejar los datos en diferencias y en escala [-1,1], utilizando como entrada las diferencias de la demanda registrada en los últimos 6 períodos con 7 neuronas en la capa oculta y el algoritmo de entrenamiento lm. La RNA correspondiente a esta solución se comporta como se muestra en la Figura 4. Puede observarse que este modelo hace una muy buena aproximación de los datos reales. Es necesario comentar que, aunque describimos previamente el fenómeno de sobreentrenamiento, en este caso específico no se consideró explícitamente. El objetivo de este trabajo fue inicialmente probar la metodología, sin embargo, en futuros trabajos se incluirá la validación cruzada para evitar el sobreentrenamiento de la RNA. La solución mostrada en la Figura 4 fue la mejor que encontró el paquete computacional de optimización al minimizar cada una de las medidas de desempeño. La solución obtenida resultó ser la misma para todas las medidas de desempeño utilizadas, así que podemos concluir que en este caso particular las medidas de desempeño están altamente correlacionadas. Si por el contrario, los objetivos o medidas de desempeño hubiesen llevado a soluciones distintas entre sí, tomar una decisión acerca de cuáles son los mejores valores de los parámetros de la RNA sería una tarea más complicada. En tal caso se hace necesaria la utilización de técnicas de optimización multicriterio.

Real

RNAs

800 700

Unidades de Demanda

600 500 400 300 200 100 0 1

7

13

19

25

31

37

43

49

55

61

67

Tiempo (meses)

Figura 4: Modelo de RNAs vs Modelo Real

Las técnicas de optimización multicriterio tienen como objetivo aquellas soluciones que representen los mejores compromisos entre todas las medidas de desempeño, las cuales se denominan soluciones eficientes. Una representación gráfica conveniente se puede encontrar en la Figura 5. Dado que no es el objetivo en este trabajo discutir a fondo técnicas multicriterio, se refiere al lector interesado a Deb (2004) y a Hellermeier (2001) para ahondar en el tema. Una de las técnicas que se ha propuesto recientemente para resolver este tipo de problemas es el análisis envolvente de datos. Algunas aplicaciones en el terreno de la manufacura se pueden encontrar en Cabrera-Ríos et al. (2002,2004), Castro J. M. et al. (2004) y en Castro C. E et al. (2003)..

Objetivo 2. Maximizar

Objetivo 1. Minimizar

Figura 5: Representación Gráfica de un Problema de Optimización Multicriterio. La línea mostrada une soluciones eficientes y delimita la frontera eficiente del problema.

Una vez que se aplicó la optimización con los modelos de regresión, podemos garantizar que la solución encontrada determina los valores que deben tomar los parámetros para que la RNA resultante tenga un desempeño adecuado. Las herramientas computacionales utilizadas para la ejecución del procedimiento propuesto fueron Matlab, Minitab y Excel. El primero fue utilizado para construir los modelos de RNAs, el segundo para el análisis estadístico y el tercero para realizar la optimización a través de su herramienta XL Solver. Los resultados detallados acerca de la optimización realizada están disponibles por parte de los autores.

5. Conclusiones y Trabajo a Futuro En este trabajo, se propuso una metodología para seleccionar los parámetros que intervienen en la construcción y utilización de RNAs. La metodología propuesta utiliza conceptos de diseño de experimentos, análisis de varianza, y optimización no lineal. Se pudo demostrar que la metodología trabaja bien por medio de un caso práctico de predicción de demanda en la industria de las telecomunicaciones. Dentro de las características atractivas de la metodología se encuentra que: (1) utiliza técnicas establecidas y confiables, (2) puede instaurarse sin necesidad de una codificación especializada y (3) hace entendible la interrelación entre los varios parámetros de la RNA. La metodología propuesta puede aplicarse a RNAs con arquitecturas más complicadas, tales como aquéllas utilizadas para predecir n períodos de demanda en el futuro. La consecución del trabajo aquí presentado considerará precisamente este caso multiperíodo.

Referencias Bishop C. M., Neural Networks for Pattern Recognition. Oxford University Press, Oxford, UK, 1995. Box G. E. P., and Jenkins G. M., Time Series Analysis: Forecasting and Control, San Francisco, CA: HoldenDay, EUA,1976. Cabrera-Ríos M., Castro J. M., and Mount-Campbell C. A., “Multiple quality criteria optimization in reactive inmold coating with a data envelopment analysis approach II: a case with more than three performance measures”, Journal of Polymer Engineering, Vol. 24, No. 4 , 2004, pp. 435-450. Cabrera-Ríos M., Castro J. M., and Mount-Campbell C. A., “Multiple quality criteria optimization in in-mold coating (IMC) with a data envelopment analysis approach”, Journal of Polymer Engineering, Vol. 22, No. 5, 2002, pp. 305- 340. Castro C. E., Cabrera-Ríos M., Lilly B., Castro J. M., and Mount-Campbell C. A., “Identifying the best compromise between multiple performance measures in injection holding (IM) using data envelopment analysis (DEA)”, Journal of Integrated Design and Process Science, Vol. 7, No. 1, 2003, pp. 77-87. Castro J. M., Cabrera-Ríos M., and Mount-Campbell C. A., “Modelling and Simulation in reactive polymer processing”, Modelling and Simulation in Materials Science and Engineering, Vol. 12, No. 3, 2004, pp. S121S149. Deb K., Multi-Objective Optimization Using Evolutionary Algorithms, Editorial Wiley, NY, EUA, 2004. Devore J. L., Probability and Statistics for Engineering the Sciences, 4ta Edición, Duxbury Press, California Polytechnic State University, EUA, 1995. Hagan M. T., Demuth H. B., and Beale M., Neural Network Design, PWS Publising Company, EUA, 1996. Hansen J. V., and Nelson R. D., “Forecasting and recombining time-series components by using neural networks”, Journal of the Operations Research Society, No. 54, 2003, pp. 307-317. Hillermeier C., Nonlinear Multiobjective Optimization: A Generalized Homotopy Approach, Basel: Birkhauser Verlag, 2001. Hornik K., Stinchcombe M., and White H.,“Multilayer feedforward networks are universal approximators”, Neural Networks, Vol. 2, No. 5, 1989, pp. 359-366. Hwarng H. B., “Insights into neural-network forecasting of time series corresponding to ARMA (p,q) structures”, Omega: The International Journal of Management Science, Vol. 29, No. 3, 2001, pp. 273-289. Kolarik T., and G. Rudorfer, “Time series forecasting using neural networks”, Conference Proceedings of the International Conference on APL 1994. APL Quote Quad, Vol. 25, No. 1, 1994, pp. 86-94. Liao K-P, and Fildes R., “The accuracy of a procedural approach to specifying feedforward neural networks for forecasting”, Computers & Operations Research, Vol. 32, No. 2, 2005, pp. 151-2169. Makridakis S., Anderson A., Carbone R., Fildes R., Hibbon M., Lewandowski R., Newton J., Parsen E., and Winkley R., “The accuracy of extrapolation (time series) methods: Results of a forecasting competition”, Journal of Forecasting, Vol. 1, 1982, pp. 111-153

Makridakis S., and Wheelwright S. C., The Handbook of Forecasting a Manager’s Guide, 2da Edición, Editorial Wiley, NY, EUA, 1987. Medeiros M. C., and Pedreira C. E., “What are the effects of forecasting linear time series with neural networks”, Logistic and Transportation Review, Vol. 31, No. 3, 2001, pp. 239-251. Piramuthu S., H. Ragavan, and M. Shaw, “Using feature construction to improve the performance of neural networks”, Management Science, Vol. 44, No. 3, 1998, pp. 416-430. Sexton R. S., McMurtrey S., Michalopoulos J. O., and Smith A. M.,“Employee turnover : a neural network solution”, Computers & Operations Research, Vol. 32, No. 10, 2005, pp. 2635-2651. White H., “Connectionist nonparametric regression: Multilayer feedforward networks can learn arbitrary mappings”, Neural Networks, Vol. 3, No. 5, 1990, pp. 535-549. Widrow B., Rumelhart D., and Lehr M. A., “Neural networks: Applications in industry, bussines and science”, Communications of the ACM, Vol. 37, No. 3, 1994, pp. 93-105. Zhang G., Patuwo E., and Hu Y. M., “Forecasting with artificial neural networks the state of the art”, International Journal of Forecasting, Vol.14, No. 1, 1998, pp. 35-62. Zhang G. P., Neural Networks in Business Forecasting, Idea Group Publishing, Georgia State University, EUA, 2004. Zhang G. P., and Hu M. Y., “A simulation study of artificial neural networks for nonlinear time series forecasting”, Computers & Operations Research, Vol. 28, 2001, pp. 381-396.

Lihat lebih banyak...

Caracterización Estadística y Optimización de Redes Neuronales Artificiales para Pronóstico de Series de Tiempo

Descripción

Comentarios