REDES NEURONALES Y MEJORA DE LA CALIDAD - TESIS

July 22, 2017 | Autor: Juan Cevallos | Categoría: Gestión de la calidad, Algoritmos Geneticos, Lógica Difusa, Redes Neuronales Artificiales
Share Embed


Descripción

UNIVERSIDAD NACIONAL FEDERICO VILLARREAL ESCUELA UNIVERSITARIA DE POSTGRADO Doctorado en Ingeniería

TÍTULO: “Redes Neuronales Artificiales aplicadas a la mejora de la calidad”

Tesis presentada por el Magíster Juan Manuel Cevallos Ampuero para optar el Grado de Doctor en Ingeniería.

Asesor: Dr. Justo Pastor Solis Fonseca

Lima, 2 de Julio 2008

DEDICADO A:

Mis padres

i

AGRADECIMIENTO

A la Universidad y mis profesores que me brindaron conocimientos para poder aprender cada vez más.

ii

ÍNDICE TEMÁTICO Resumen

ix

Abstract

x

Sintesi

xi

Introducción.

xii

CAPÍTULO I. MARCO DE REFERENCIA

1.1.

Antecedentes bibliográficos del problema.

1

1.2.

Marco Teórico

15

1.3.

Marco Conceptual.

82

1.4.

Marco Filosófico

85

1.5.

Marco Epistemológico

100

CAPÍTULO II. PLANTEAMIENTO METODOLÓGICO 2.1. Enunciado del problema

113

2.2. Objetivos

113

2.3. Hipótesis, variables e indicadores

113

2.4. Diseño metodológico

114

CAPÍTULO III. APLICACIÓN DE LA RED NEURONAL ARTIFICIAL DESARROLLADA Y RESULTADOS 3.1. Análisis de las características de las Arquitecturas de Redes

118

Neuronales y sus posibilidades de aplicar para la Mejora de la Calidad de procesos. 3.2. Desarrollo de una Arquitectura de Red Neuronal para Mejora de la Calidad de procesos.

125

3.3. Prueba de comparación de la Red Neuronal desarrollada con otras Arquitecturas de Redes Neuronales de Función de Base Radial y con técnicas tradicionales de mejora de la calidad de procesos

193

3.4. Aplicación de la Red Neuronal seleccionada a un caso de iii

Mejora de la calidad de diseño de procesos

225

3.5. Aplicación de la Red Neuronal seleccionada a un caso de mejora de la calidad de un proceso

234

CAPÍTULO IV ANÁLISIS DE RESULTADOS

244

CAPÍTULO V DISCUSIÓN DE RESULTADOS

255

CONCLUSIONES Y RECOMENDACIONES

269

REFERENCIAS BIBLIOGRÁFICAS

272

ANEXOS Anexo 1. Informe de Experto consultado sobre el Programa Cómputo de la Red Desarrollada.

278

Anexo 2. Programa y Listado completo del Programa Desarrollado de Creación de Red Neuronal Artificial y de Simulación para Aplicar en Mejora de la calidad.

279

Anexo 3. Detalle de cálculos en Perceptrón Multicapa con aprendizaje Backpropagation

286

Anexo 4. Detalle de cálculos con Redes Neuronales con Funciones de Base Radial

293

iv

ÍNDICE DE TABLAS

Tabla 1. Aportes de Ishikawa

16

Tabla 2. Etapas de la Calidad

17

Tabla 3. Diseño de Experimentos

19

Tabla 4. ANVA Análisis de Variancia

20

Tabla 5. Diseño Factorial

21

Tabla 6. Arreglo Ortogonal

23

Tabla 7. Matriz L4 (23-1)

24

Tabla 7a Tabla de Promedios

24

Tabla 8. Sistemas Expertos

33

Tabla 9. Algoritmos de aprendizaje para Perceptrón Multicapa

51

Tabla 10. Análisis de las características de las Redes Neuronales Perceptrón, Adaline y Pereptrón Multicapa

119

Tabla 11. Análisis de las características de las Redes Neuronales de Función de Base Radial, Recurrentes y De Aprendizaje no Supervisado 121 Tabla 12. Selección de Shell a utilizar

126

Tabla 13. Tabla de arquitectura

128

Tabla 14. Datos del caso de Diseño de Experimentos, Del Castillo, et al. 148 Tabla 15. Comparación Red Desarrollada – Perceptrón Multicapa con Backpropagation y Análisis Estadístico Tradicional, para valores Deseados

149

Tabla 16. Valores deseados y obtenidos con las nuevas entradas.

155

Tabla 17. Valores deseados y obtenidos con las nuevas entradas PMC-BK Tabla 18. Parámetros de proceso del Caso de Vasconcellos, et al.

161 161

Tabla 19. Comparación Red Desarrollada – Perceptrón Multicapa con Backpropagation – Algoritmo de Levenmberg_Marquardt y Análisis Estadístico Tradicional, para valores deseados

162

Tabla 20. Diseño Experimental del Caso de Vasconcellos, et al.

164

Tabla 21. Respuestas promedio y efecto de cada factor del proceso

164

Tabla 22. Análisis de Variancia ANVA del caso de Vasconcellos et al.

165

Tabla 23. Residuos/errores del caso de Vasconcellos, et al.

166

Tabla 24. Valores de factores para obtener un valor deseado

173 v

Tabla 25. Valores de factores para obtener un valor deseado GRNN

186

Tabla 26. Diseño de Experimento y salida del caso de Montgomery

194

Tabla 27. Niveles de los Factores del Caso de Schmidt

195

Tabla 28. Resultados del Experimento del Caso de Schmidt

195

Tabla 29. Niveles de los Factores del Caso de Ross

196

Tabla 30. Resultados de Experimento del Caso de Ross

196

Tabla 31. Comparación de la Red Desarrollada con Redes Neuronales de Función de Base Radial

197

Tabla 32. Análisis de variancia del caso velocidad de filtración

203

Tabla 33. Comparación de Red Desarrollada con Redes Neuronales de Función de Base Radial

204

Tabla 34. Tabla de resultados, de mejor desempeño para largo y ancho 212 Tabla 35. Comparación de Red Desarrollada con Redes Neuronales de Función de Base Radial

213

Tabla 36. Tabla de resultados, de mejor desempeño lado izquierdo y derecho del caso de soldadura

224

Tabla 37. Valores de los Factores y Respuestas del Caso de Montgomery y Bowles Tabla 38. Valores Transformados de los Factores

225 226

Tabla 39. Comparación de Red Desarrollada con Red Newrbe y Análisis Estadísticos Tradicionales.

227

Tabla 40. Valores de los Factores y Niveles del Caso de Anand

235

Tabla 41. Resultados del Caso de Anand

235

Tabla 42. Comparación de Red Desarrollada con Red Newrbe y Análisis Estadísticos Tradicionales.

236

Tabla 43. Errores obtenidos en los casos analizados

258

vi

ÍNDICE DE FIGURAS

Figura 1. Ciclo de Deming

16

Figura 2. Función Pérdida

23

Figura 3. Representación de datos en Lógica Difusa

30

Figura 4. Red neuronal artificial perceptrón con n neuronas de entrada, m neuronas en su capa oculta y una neurona de salida.

31

Figura 5. Red Neuronal Biológica

36

Figura 6. Neurona artificial con varios inputs

37

Figura 7. Proceso de entrenamiento de una Red Neuronal

39

Figura 8. Esquema de una Neurona Artificial (McCulloch-Pitts).

39

Figura 9. Red Neuronal Artificial con una capa oculta.

40

Figura 10. Perceptrón: Red con dos capas (entrada y salida)

41

Figura 11. Perceptrón con R entradas

42

Figura 12. Perceptrón con R inputs y S outputs

42

Figura 13. Red ADALINE

44

Figura 14. Regla de decisión de una Red ADALINE con 2 inputs

45

Figura 15. Perceptrón de dos neuronas con una capa oculta

46

Figura 16. Perceptrón Multicapa, con capa de entrada más tres capas

46

Figura 17. Perceptrón Multicapa, con capa oculta tansig y capa de salida purelin con aprendizaje Backpropagation

47

Figura 18. Neurona de Base Radial

52

Figura 19. Red Neuronal de Función de Base Radial

53

Figura 20. Red Neuronal de Función de Base Radial. Arquitectura

54

Figura 21. Ejemplos de neuronas con conexiones recurrentes Figura 22. Red de Hopfield para n= 4 Figura 23. Arquitectura de una red de aprendizaje competitivo

61 63 69

Figura 24. Arquitectura de red con capa de aprendizaje competitivo

70

Figura 24a. Arquitectura de red con capa de mapa auto organizativo

72

Figura 25. Logotipo Neuroshell

78

Figura 26. Logotipo Neurosolutions

79

Figura 27. Logotipo Matlab

80

Figura 28. Logotipo SprinN

81 vii

Figura 29. Alan Turing

89

Figura 30. Roger Penrose

91

Figura 31. Hubert Greyfus

93

Figura 32. John Searle

96

Figura 33. Thomas Kuhn

100

Figura 34. René Descartes

102

Figura 35. Karl Popper

103

Figura 36. Imre Lakatos

105

Figura 37. Charles Darwin

111

Figura 38. Modelo de la Red Neuronal Desarrollada

128

Figura 39. Flujograma de selección de programa de red desarrollada

128

Figura 40. Entrenamiento de La Red. Programa 14r. Fase I.

130

Figura 41. Simulación de La Red. Programa 14r. Fase II.

133

Figura 42. Entrenamiento de La Red. Programa 15r. Fase I.

139

Figura 43. Simulación de La Red. Programa 15rr. Fase II.

142

Figura 44. Red Neuronal de Función de Base Radial

245

Figura 45. Arquitectura de la Red Perceptrón Multicapa

287

Figura 46. Red Neuronal de Función de Base Radial

294

viii

RESUMEN Con el objeto de superar las limitaciones que tiene el Análisis Estadístico Tradicional que se aplica al diseño de experimentos, por trabajar con relaciones fundamentalmente lineales, se desarrolló una metodología que aplica Redes Neuronales Artificiales RNA en los diseños de experimentos; se analizaron diversas arquitecturas y se encontró que las RNA de Función de Base Radial fueron las que dieron mejor resultado; dentro de ellas las que tuvieron mejor desempeño fueron las de Diseño Exacto. Por ello se construyó la RNA “Red Desarrollada” que utiliza la distancia de Mahalanobis, con la cual se obtuvo los mejores resultados. Con la metodología desarrollada, que elabora las Redes RNA Directa e Inversa, además de poder realizar los cálculos que hace el Análisis Estadístico Tradicional para el diseño de experimentos, también se puede determinar los valores de los parámetros de entrada con base a las características de calidad deseadas. Asimismo, se llegó de determinar que se mejora la exactitud mediante la optimización del cálculo de las distancias de los vectores de entrada a los centros y que la capacidad de interpolación de los resultados aumenta en la medida que se incrementa la amplitud hasta cierto límite, dependiendo del tipo de datos. Palabras Clave: Inteligencia artificial, Calidad, Redes neuronales artificiales, Mejora de calidad, Diseño de Experimentos, Perceptrón multicapa, Backpropagation, Redes Neuronales Artificiales de Función de Base Radial.

ix

ABSTRACT In order to overcome the limitations that has the Traditional Statistical Analysis that applies to the design of experiments, by working with essentially linear relations, it was developed a methodology that applies Artificial Neural Network ANN in the designs of experiments; it was discussed various architectures and found that ANN with Radial Basis Function were giving the best result; within that had the best performance were the ANN with “Exact Design”. Thus was built ANN

"Network

Development" which uses the distance of Mahalanobis, which won the best results. With the methodology developed, that build Networks RNA direct and reverse, as well as be able to perform calculations made by the Traditional Statistical Analysis for design of experiments, you can also determine the input parameters based on the quality characteristics desired. Also, there was determined which improves accuracy through optimization of calculating the distance of input vectors to the centres and that the ability of interpolation of the results increases in the way that increases the amplitude up to certain limit, depending the type of data. Key Words: Artificial inteligence, Quality, Artificial neural networks, Quality improve, Design of Experiments, Multilayer perceptron, Backpropagation, Artificial Neural Networks of Function of Radial Basis

x

SINTESI Al fine di superare i limiti che ha l'analisi statistica tradizionali che vale per il disegno di esperimenti, di lavorare con le relazioni essenzialmente lineare, messo a punto una metodologia che si applica Reti Neurali Artificiali RNA in Disegni di Esperimenti; discusso varie architetture e rilevato che la RNA di funzione di Base radiale sono state dando il risultato migliore, nel cui ha dato loro le migliori prestazioni sono stati i Disegno Preciso. Così è stato costruito RNA "Rete Sviluppati” che utilizza la distanza di Mahalanobis, che ha ottenuto i migliori risultati. Con la metodologia sviluppata, la compilazione di reti di RNA diretta e inversa, così come essere in grado di eseguire calcoli delle analisi statistiche per il disegno tradizionale di esperimenti, è anche possibile

determinare

i

parametri

di

entrata

basata

sulla

qualità

caratteristiche desiderato. Inoltre, vi è stato quello di determinare che migliora la precisione mediante l'ottimizzazione del calcolo della distanza di vettori di entrata

i centri e che la capacità di interpolazione dei risultati

aumenta nella misura in cui aumenta le larghezza in una certa misura, a seconda il tipo di dati. Parola chiave: Intelligenza Artificiale, Qualità, Reti Neurali Artificiali, a migliorare la qualità, il disegno di esperimenti, Perceptron multi layer, backpropagation, Rete Neurale Funzione Base Radiale.

xi

Introducción La mejora de la calidad de procesos en los sectores más competitivos, en la actualidad, se da en la calidad de diseño de los procesos (ello incluye el diseño tanto de productos como de servicios), ello se ha identificado como el Problema que se quiere trabajar. Problema que implica la determinación de los principales parámetros que permitan optimizar los diseños de procesos. Para ello se requiere trabajar con varias variables dependientes e independientes, las cuáles no siempre tienen una relación lineal. Las herramientas que en la actualidad se utilizan para determinar dichos parámetros asumen relaciones lineales, obteniéndose niveles de error que no permiten obtener los resultados esperados. La Delimitación del Problema, está en que la determinación de los parámetros para la mejora de la calidad de los diseños de procesos se utilizan, principalmente, los diseños de experimentos, diseños factoriales fraccionales, los Métodos Taguchi y las metodologías de superficie de respuesta; que tienen la limitación de asumir relaciones lineales entre las variables. Frente a esta situación algunos investigadores han empezado a utilizar Redes Neuronales Artificiales, debido a que tienen la ventaja de no asumir relaciones lineales entre las variables; pero utilizan Redes que han sido creadas para otros propósitos distintos al de la mejora de la calidad de diseño de procesos. Esta situación lleva a considerar el uso de las RNA en la mejora de la calidad de diseños de procesos muy escasamente debido a que no se obtendrán todas las potencialidades propias de las RNA. (Lo antes mencionado se aplica tanto para productos como para servicios). La Caracterización del Problema, se basa en que se requiere diseñar un nuevo tipo de Red Neuronal Artificial que permita su aplicación más adecuada para la determinación de los parámetros de calidad de diseño de procesos, superando así las limitaciones que las RNA tienen en la actualidad para la mejora de la calidad de diseño de procesos (tanto de productos como de servicios). Con base a lo antes expuesto se tiene que el Problema General es: ¿Una Red Neuronal Artificial específica para la mejora de la calidad de diseño de procesos, dará mejores resultados que los obtenidos con los análisis xii

estadísticos tradicionales para los diseños experimentales y las RNA ya existentes, para los casos que se trabaje con varias variables dependientes e independientes y en los que sus relaciones no sean lineales?. El Objetivo General que se busca es desarrollar una Red Neuronal Artificial específica para la mejora de la calidad de diseño de procesos, que dé mejores resultados que los obtenidos con los diseños experimentales y las RNA ya existentes, para los casos que se trabaje con varias variables dependientes e independientes y en los que sus relaciones no sean lineales. La Justificación e Importancia del trabajo de Investigación, radica en que la mejora de la calidad en la actualidad se da tanto dentro como fuera de la línea de producción, pero es fuera de la línea de producción donde se obtienen los resultados más significativos, en la medida que permite innovaciones y nuevos desarrollos de productos o procesos. Las diversas técnicas que se utilizan para la mejora de la calidad por lo general trabajan con relaciones lineales entre variables independientes y dependientes, lo cual es una limitación para la formulación y/o diseño de nuevos procesos, productos o servicios. La Redes Neuronales Artificiales permiten establecer relaciones no lineales entre variables, lo cual es una ventaja con relación a otras herramientas que se utilizan para la mejora de la calidad. Las Redes Neuronales Artificiales RNA han demostrado ser técnicas que se pueden utilizar para determinar relaciones entre variables de entrada y salida, las mismas que después permiten predecir salidas con base a valores de las variables de entrada. Estas características propias de las RNA se vienen aplicando en diversas áreas del conocimiento, especialmente para trabajos de comparación de patrones y clasificación, pero aún es muy poco usual que se apliquen de manera práctica para resolver problemas de mejora de la calidad. Esta limitación se debe a que las RNA se han desarrollado para resolver problemas distintos a los de mejora de la calidad; por tanto para resolver problemas de mejora de la calidad se requieren desarrollar RNA adecuadas a dicho objetivo. No existen textos sobre mejora de la calidad que consideren el uso de las RNA, debido a que no existe una metodología para ello. Prácticamente es mínimo lo avanzado en esta dirección, ello es la justificación de la presente investigación;

xiii

es decir, hay un vacío que requiere ser llenado; lo cual es la razón de ser de la presente Tesis. Por otro lado la Importancia del Trabajo de Investigación, radica en que las RNA permiten determinar relaciones no lineales entre variables dependientes e independientes. Con base a lo obtenido en las aplicaciones de RNA en otros sectores, se considera que la aplicación de las RNA en los trabajos de mejora de la calidad de los procesos deben permitir llegar niveles muy superiores de optimización y calidad, que los actuales. Como consecuencia de lo anterior, este logro también debe permitir mejoras importantes en la competitividad y productividad. La mejora de la competitividad y productividad de las empresas, en especial en los países en desarrollo, permitirá su supervivencia, ya que en el mundo globalizado que vivimos la mejora permanente es una condición para el éxito. Las limitaciones del Trabajo de Investigación, radica en que las técnicas de mejora de la calidad de diseño de los procesos consideradas en el presente plan son las más importantes; sin embargo, pueden ser más dependiendo del tipo de producto o servicio de que se trate. Constantemente se vienen desarrollando aportes sobre nuevas técnicas para la mejora de la calidad, mejoras de aplicación de las existentes, combinación de las mismas; sin embargo, las seleccionadas para la realización del presente trabajo se consideran que son las más importantes. La Hipótesis General, que se propone es que se puede desarrollar una Red Neuronal Artificial específica para la mejora de la calidad de diseño de procesos, que aplicada a los diseños de experimentos dé mejores resultados que los obtenidos con los análisis estadísticos tradicionales y las RNA ya existentes, para los casos que se trabaje con varias variables dependientes e independientes y en los que sus relaciones no sean lineales. En el Capítulo I se presenta el Marco de Referencia, donde los antecedentes bibliográficos sobre la materia, tratan tanto de temas de calidad como de redes neuronales artificiales. Asimismo, se presenta el Marco Teórico, donde se consideran catorce grandes temas sobre el asunto de la investigación, destacando el tema referido a los principales tipos de Redes Neuronales Artificiales; es así que se presentan las Redes tipo Perceptrón, Adaline, Perceptrón Multicapa, Redes de Base Radial, Redes Recurrentes y Redes de xiv

Aprendizaje no Supervisado. También se presenta el Marco Conceptual en este Capítulo, donde se establecen diez conceptos fundamentales. En el Marco Filosófico, se presentan los pensamientos de los filósofos más reconocidos de la antigüedad y actuales relacionados con la inteligencia artificial; por otro lado en el Marco Epistemológico, se presentan las propuestas de los epistemólogos más reconocidos de la actualidad como son Tomás Kuhn, Karl Popper e Imre Lakatos, los cuales nos han orientado en el desarrollo del presente trabajo. En el Capítulo II se presenta el Planteamiento Metodológico que contienen el Enunciado del Problema; los Objetivos; la Hipótesis, variables e indicadores donde se puede apreciar nuestra hipótesis que apuesta a que se puede obtener mejores resultados en la tarea de mejora de la calidad con diseño de experimentos utilizando las RNA que con los métodos de análisis estadísticos tradicionales. Asimismo, se presenta la metodología empleada, la cual se caracterizó por haber desarrollado una nueva Red Neuronal de Función de Base Radial que se aplicó a siete casos tipo de diseño de experimentos de destacados autores que aparecen en la bibliografía sobre mejora de la calidad con diseño de experimentos. Se comparó los resultados obtenidos con los métodos tradicionales y los obtenidos con la nueva Red desarrollada y así fuimos aproximándonos a nuestro objetivo de manera progresiva. En el Capítulo III, se presentan los trabajos relacionados con la obtención de una Red Neuronal Artificial para la mejora de la calidad y su aplicación, en primer término se seleccionaron dos tipos de redes del total, luego de las dos se seleccionó un tipo de red; y con base a ello se construyo una Red específica, la misma que se aplicó a los siete casos seleccionados, llegándose a conclusiones sobre los mejores resultados que se obtuvieron. En el Capítulo IV, se presentan los resultados obtenidos con base a lo desarrollado en el capítulo III; y en el Capítulo V se presenta la discusión realizada con base a los resultados del capítulo IV y lo desarrollado en el capítulo III, siguiendo el criterio de tratar cada uno de los elementos de las redes y discutiendo como lograr el mejor desempeño.

xv

CAPÍTULO I MARCO DE REFERENCIA 1.1. Antecedentes Bibliográficos del Problema CEVALLOS, Juan (2004), en su artículo “ Aplicación de Redes Neuronales para Optimizar Problemas Multirespuesta en Mejora de la Calidad”, publicado en Industrial Data, Volumen 7 N° 2; desarrolla una aplicación de redes neuronales en problemas multirespuesta para el mejoramiento de la calidad, a partir de un análisis conceptual se establece una aplicación que demuestra la eficacia de las redes neuronales utilizando el perceptrón multicapa con el algoritmo backpropagation. En este trabajo no se utiliza una red neuronal artificial que sea específica para mejora de la calidad. LAWSON, John; MADRIGAL, José y ERJAVEC, John, (1992) en su texto “Estrategias experimentales para el mejoramiento de la calidad en la industria”, sostiene que “La competencia en el mundo de los negocios está obligando a las corporaciones industriales a encontrar nuevas formas de incrementar su eficiencia, especialmente en el proceso de fabricación y en el desarrollo de nuevos procesos y productos. Estos últimos incluyen: pruebas de prototipo, desarrollo de nuevos componentes y diseño de sistemas, elección de materia prima y determinación de límites de tolerancia. Debido a que generalmente, no se tienen relaciones determinísticas para resolver estos problemas, las investigaciones industriales o técnicas, se llevan a cabo usando métodos de ensayo y error y/o experimentación”. Es así que se presentan estrategias sobre los siguientes temas: estrategias experimentales y diseños factoriales, diseños de diagnóstico y factoriales fraccionados, superficie de respuesta, experimentos con mezclas y análisis de variancia. BESTERFIELD, D. (1995) en su texto “Control de Calidad”, trata de manera especial sobre las técnicas de Gráficas de control de variables y por atributos; y Muestreo de aceptación. Lo cual es fundamental para el control estadístico de la calidad tradicional. MONTGOMERY, Douglas (2004), en su texto “Diseño y análisis de experimentos”, en el prefacio indica “El presente libro es un texto de introducción que aborda el diseño y análisis de experimentos.

... Refleja

1

asimismo, los métodos que he encontrado útiles en mi propia práctica profesional como consultor en ingeniería y estadística en las áreas generales de diseño de productos y procesos, mejoramiento de procesos e ingeniería de control de calidad”. En dicho libro se presentan los temas : Experimentos comparativos simples; Experimentos con un solo factor: el análisis de varianza; Bloques aleatorizados, cuadrado latinos y diseños relacionados; Diseños factoriales; Diseños factoriales fraccionados; Métodos de superficies de respuesta y otros enfoques para la optimización de procesos (incluye operación evolutiva y diseño robusto); Experimentos con factores aleatorios; Diseños anidados y en parcelas subdivididas; Otros tópicos de diseño y análisis. BARBA, Enric; BOIX, Francese y CUATRECASAS, Lluís (2001), en su texto “Seis Sigma. Una iniciativa de Calidad Total”; sostiene entre otros lo siguiente: “A principios de los ochenta, las empresas aún medían su calidad en porcentajes, por lo general el número de defectos detectados en cien piezas. Sin embargo, en muchas industrias el nivel de defectos había mejorado tanto como para permitir compatibilizarlo ya no en porcentajes, sino en defectos por millón de piezas”. “Las empresas que persiguen la mejora continua basada en la filosofía Seis Sigma logran no sólo reducir el nivel de defectos, sino también: -

Reducir costes a través de la eliminación de errores internos.

-

Reducir el tiempo de proceso.

-

Incrementar su productividad.

-

Mejorar la calidad en el proceso de desarrollo y lanzamiento de nuevos

productos. -

Mejorar el nivel de resultados de los procesos de soporte.”

Asimismo, en la Introducción sostiene: “... y en los sucesivos capítulos se describen las herramientas básicas de mejora de Seis Sigma, dedicándose un estudio más profundo a aquellos que consideramos más importantes: el AMFE (Análisis del Modo de Fallos y Efectos), que se presenta en el capítulo 3, el CEP (Control Estadístico de Procesos) o SPC ( Statistical Process Control) al que se dedica el capítulo 4, y el DDE (Diseño de Experimentos), que se trata en el capítulo 5, ..”. Luego en el capítulo 5 se sostiene: “La herramienta menos

2

conocida por lo general pero la más efectiva de la iniciativa Seis Sigma es el Diseño de Experimentos (DDE) o usando sus siglas en inglés el DOE (Design of Experiments)”. TAGUCHI, Genichi (1990), en su texto “Introduction to Quality Engineering. Designing Quality into Products and Proceses”, sostiene “… cuando la etapa de producción es alcanzada, ni las medidas de dentro de la línea ni las de fuera de la línea son efectivas para combatir los ruidos internos y externos. Este es el porqué los problemas de calidad involucrados como ruidos internos y externos son llamados problemas de calidad de diseño. Esto es extremadamente importante para recordar que un buen diseño de producto puede resolver no sólo problemas de calidad de diseño sino que también problemas de calidad de producción.” “... Investigación y desarrollo es la clave para ambos la calidad de diseño y la calidad de producción,...” ROSS, Philip (1988), en su texto “Taguchi Techniques for Quality Engineering”, sostiene que ”Taguchi considera la calidad en dos áreas principales: control de calidad fuera de la línea y en la línea. .. El control de calidad fuera de la línea se refiere a la mejora de la calidad en las etapas de desarrollo del producto y proceso.”; “... La parte del control de calidad fuera de la línea es tratada en este texto por la escasez de materiales sobre esta fase de los Métodos Taguchi y el impacto positivo que tienen sobre el costo, que es obtenido mediante la mejora de calidad en estas etapas tempranas del ciclo de vida de un producto”. KUEHL, Robert, (2001) en su texto

“Diseño de Experimentos”, en un

subcapítulo sobre Genichi Taguchi y la mejora de la calidad sostiene “Los diseño factoriales fraccionados se usan en forma amplia en experimentos fuera de la línea para mejorar la calidad del producto. Las investigaciones fuera de la línea integran los principios de diseño de ingeniería y de diseño estadístico para mejorar la calidad de productos e incrementar la productividad. En particular, la metodología de Taguchi (Taguchi, 1986) ha tenido un impacto importante sobre el mejoramiento del diseño de productos y procesos en la manufactura”. PRAT, Albert, TORT – MARTORELL, Xavier, GRIMA, Pere y POZUETA, Lourdes (2000), en su texto “Métodos Estadísticos. Control y mejora de la

3

calidad”, destaca que la evolución del control de la calidad ha ido desde la inspección, luego el control estadístico de procesos CEP y por último a la calidad en la etapa de diseño. Al respecto menciona la importancia del diseño de experimentos para la mejora de la etapa de diseño. Asimismo, trata sobre comparación de dos tratamientos,

ANVA Análisis de Variancia, Diseños

Factoriales, Metodología de superficie de respuesta, Diseño de productos robustos y Control estadístico de procesos. SCHEEL, Carlos (2001), en su texto “Modelación de la Dinámica de Ecosistemas” presenta el mejoramiento de la calidad, mediante el uso de los arquetipos desarrollados por Peter Senge, en donde se puede ver la aplicación del enfoque de sistemas a la mejora de la calidad. CEVALLOS, Juan (2000) en su Tesis de Maestría “ Aplicación de los Métodos Taguchi a la mejora de la calidad en la pequeña y microempresa”, desarrolla una metodología de aplicación de los métodos Taguchi fuera de la línea a las PYME. NILSSON, N.(2001), en su texto “Inteligencia Artificial” trata sobre los principales campos de la Inteligencia Artificial y dentro de ellos considera a las redes neuronales. Asimismo, considera sistemas reactivos, búsqueda en espacios de estado, representación del conocimiento y razonamiento, métodos de planificación basados en lógica y comunicación e integración. RUSSELL, S y NORVIG, P. (1996), en su texto “Inteligencia Artificial” trata sobre las áreas de la inteligencia artificial, considera redes neuronales, y además,

procedimientos para la solución de problemas; conocimiento y

razonamiento; como actuar en forma lógica; conocimiento incierto y razonamiento; aprendizaje; y comunicación, percepción y actuación. KENETT, R. Y ZACKS, S. (2000), en su texto “Estadística Industrial Moderna. Diseño y control de la calidad y confiabilidad”, destacan la importancia de la estadística en los temas de calidad y tratan los temas de variabilidad, probabilidad, muestreo, inferencia, regresión lineal múltiple, muestreo para inspección, control estadístico del proceso, diseño y análisis de experimentos, calidad por diseño y análisis de confiabilidad. Resaltan la importancia de la calidad por diseño.

4

MARTIN DEL BRIO, Bonifacio, SANZ MOLINA Alfredo (2002), en su texto “Redes Neuronales y Sistemas Difusos” en el capítulo sobre aplicaciones de las redes neuronales artificiales presenta un listado donde se considera las siguientes áreas: Redes neuronales lineales: telecomunicaciones y anulación de ruido y vibraciones. Clasificación de patrones: fraudes con tarjetas de crédito, reconocimiento de caracteres impresos OCR, reconocimiento del habla, control de calidad (detección de niveles de contaminantes, clasificación de anomalías en altavoces, evaluación del grado de pureza de zumo de naranja y evaluación de ruido de radiocassetes de automóvil), detección de sucesos en aceleradores de partículas, prospecciones petrolíferas, lucha contra el tráfico las drogas y aplicaciones médicas. Predicción y análisis financiero: Concesión de préstamos, análisis de mercado, reservas de vuelos. Control y optimización: Control industrial, Fabricación de celulosa y papel, hornos de fundiciones, industria de semiconductores, control de procesos químicos, refinería de petróleo. Aplicaciones militares: guiado automático de misiles, combate aéreo. Otras aplicaciones. Predicción, máquinas fotocopiadoras, fallos de motores eléctricos, conducir camiones, automoción, aplicaciones biomédicas, síntesis de nuevos medicamentos. Asimismo, plantean la existencia de los siguientes tipos de Redes Neuronales: Redes Neuronales Supervisadas: perceptrón simple, Adalina, perceptrón multicapa, el aprendizaje hebbiano y backpropagation. Redes Autoorganizadas: Modelos neuronales no supervisados, modelos de mapas autoorganizados de Kohonen, Otros Modelos de Redes Neuronales: Redes neuronales realimentadas, modelo de Hopfield, neuronas estocásticas – máquina de Boltzman, funciones de base radial y LVQ Learning Vector Quantization. En este texto no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad.

5

HILERA José y MARTINEZ Víctor. (2000), en su texto “Redes Neuronales Artificiales”., sobre aplicaciones de las redes neuronales plantean las siguientes

áreas:

reconocimiento

de

patrones,

bases

de

datos

de

conocimiento para información estocástica, control de robots, filtrado de señales; segmentación, compresión y fusión de datos; interfaces adaptativas para sistemas hombre/ máquina. Con relación a los tipos de neuronas se plantean: Redes Neuronales con conexiones hacia adelante: perceptrón, perceptrón multibnivel, Adaline y Madaline, Backpropagation, Modelo de Hopfield, Modelos de resonancia adaptativa ART, Modelo de Kohonen. En este texto no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. HAGAN, Martín T., DEMUTH, Howard B., BEALE, Mark. (1996), en su texto “Neural Network Design”, plantean las siguientes aplicaciones de Redes Neuronales: Aeroespacial (pilotos automáticos de aviones), automotriz (sistemas de guía automática de automóviles), banca (lectura de cheques y otros documentos y evaluaciones de solicitudes de créditos), defensa (conducción de armas), electrónica (predicción de secuencia de códigos), entretenimiento (animación), finanzas (análisis de uso de líneas de créditos), seguros (evaluación de solicitudes), manufactura ( control de procesos de manufactura, análisis y diseño de productos), medicina (análisis de células cancerígenas del seno, mejora de la calidad hospitalaria), petróleo y gas (exploración), robótica (control de trayectoria), reconocimiento del habla, seguridad (análisis de mercados), telecomunicaciones (compresión de datos e imágenes, traducción en tiempo real de lenguaje hablado), transporte (sistemas de diagnóstico de frenos de camiones), entre otros. Entre los tipos de Redes Neuronales trata: Perceptrón, Hamming, Hopfield, Aprendizaje

Hebbiano

supervisado,

Adaline,

backpropagation

y

sus

variaciones, redes de aprendizaje asociativo, redes competitivas, Mapas autoorganizados, Redes de Grossberg, Redes ART de resonancia adaptativa, entre otras. En este texto no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad.

6

ISASI, Pedro y GALVAN, Inés (2004) en su texto “Redes de Neuronas Artificiales”,

presentan

los

siguientes modelos

de

redes neuronales:

perceptrón, adaline, perceptrón multicapa, redes de base radial, redes recurrentes (Red de Hopfield), redes de aprendizaje supervisado ( Mapas auotoorganizados de Kohonen), y de resonancia adaptativa ART, redes de series temporales, redes de control de procesos dinámicos, redes de clasificación (redes de cuantización vectorial). Con relación al diseño de la arquitectura del perceptrón multicapa sostiene: “En lo que respecta al número de neuronas y capas, algunos de estos parámetros vienen dados por el problema y otros deben ser elegidos por el diseñador. Así, por ejemplo, tanto el número de neuronas en la capa de entrada, como el número de neuronas en la capa de salida, vienen dados por las variables que definen el problema. En algunas aplicaciones prácticas, no hay lugar a duda sobre el número de entradas y salidas. Sin embargo existen problemas en los que el número de variables de entrada relevantes para el problema no se conoce con exactitud. En estos casos, se dispone de un gran número de variables, algunas de la cuales podrían no aportar información relevante a la red, y su utilización podría complicar el aprendizaje, pues implicaría arquitecturas de gran tamaño y con alta conectividad. En estas situaciones es conveniente realizar un análisis previo de las variables de entrada más relevantes al problema y descartar aquellas que no aportan información a la red. Este puede llegar a ser una tarea complicada y requerir técnicas avanzadas, como técnicas basadas en análisis de correlación, análisis de componentes principales, análisis de sensibilidad de redes de neuronas y técnicas basadas en algoritmos genéticos, entre otras”. De manera similar cuando trata sobre el diseño de la arquitectura de redes de base radial sostiene: “El número de entradas y salidas en una red de base radial viene dado por el número de variables que definen el problema. Como ocurría cuando se utilizaba el perceptrón multicapa, en algunas aplicaciones no hay lugar a duda sobre dichas variables. Sin embargo, existen aplicaciones en las que pudiera ser necesario llevar a cabo un análisis de las variables más relevantes y significativas que definen el problema”.

7

En este texto no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. MONTAÑO, Juan. (2002), es su Tesis Doctoral “Redes Neuronales Artificiales aplicadas al Análisis de Datos”, se presenta al siguiente clasificación de Redes Neuronales Artificiales más conocidas: 1. Supervisado 1. Con conexiones feedforward -

Lineales:

-

Perceptrón (Rosenblatt, 1958)

-

Adaline (Widrow y Hoff,1960)

-

Perceptrón multicapa (Multilayer perceptron) (MLP)

-

Backpropagation (Rumelhart, Hinton y Williamns, 1986)

-

Correlación en cascada (Fahlman y Lebiere, 1990)

-

Quickpropagation (Fahlman, 1988)

-

Delta – bar – delta (Jacobs, 1988)

-

Resilient Propagation (Riedmiller y Braun, 1993)

-

Gradiente conjugado (Battiti, 1992)

-

Radial Basis Function RBF (Bromead y Lowe, 1988)

-

Orthogonal Least Squares (Chen, Cowan y Grant, 1991)

-

Cerebellar Artículation Controller (CMAC) (Albus, 1975)

-

Sólo clasificación :

-

General Regression Neural Network (GRNN) (Specht, 1991)

-

Red Neuronal Probabilística (PNN) (Specht,1990)

-

Sólo regresión:

-

General Regresión Neural Network (GRNN) (Specht, 1991)

2. Con conexiones feedback -

Bidirectional Associative Memory (BAM) (Kosko, 1992)

-

Máquina de Boltzman (Ackley, Hinton y Sejnowski, 1985)

-

Series temporales recurrentes -

Backpropagation through time (Werbos, 1990)

-

Elman (Elman, 1990)

-

Finite Impulse Response (FIR) (Wan, 1990)

-

Jordan (Jordan, 1986)

8

-

Real-time recurrent network (Williams y Zipser, 1989)

-

Recurrent backpropagation (Pineda, 1989)

-

Time Delay NN (TDNN) (Lang, Waibel y Hinton, 1990)

3. Competitivo -

ARTMAP (Carpeter, Grossberg y Reynold, 1991)

-

Fuzzy ARTMAP (Carpenter, Grossberg, Markuzon, Reynolds y Rosen, 1992)

-

Gaussian ARTMAP (Williamson, 1995)

-

Counterpropagation (Hecht-Nielsen 1987, 1988, 1990)

-

Neocognitrón (Fukushima, Miyake e Ito, 1983; Fukushima, 1988)

2 No supervisado 1. Competitivo -

Vector Quantization.

-

Grossberg (Grossberg, 1976)

-

Comen (Kohonen, 1984)

-

Consciente (Disieno, 1988)

-

Mapa Auto-Organizado (Self-Organizing Map) (Kohonen, 1982, 1995)

-

Teoría de la Resonancia Adaptativa (Adaptive Resonante Theory, ART)

-

ART 1 (Carpenter y Grossberg, 1987ª)

-

ART 2 (Carpenter y Grossberg, 1987b)

-

ART 2-A (Carpenter, Grossberg y Rosen, 1991a)

-

ART 3 (Carpenter y Grossberg, 1990)

-

Fuzzy ART (Carpenter, Grossberg y Rosen, 1991b)

-

Differential Competitive Learning (DCL) (Kosko, 1992)

2. Reducción de dimensionalidad -

Regla de Oja (Oja, 1989)

-

Sanger (Sanger, 1989)

-

Differential hebbian (Kosko, 1992)

3. Autoasociación -

Autoasociador lineal (Anderson, Silverstein, Ritz y Jones, 1977)

-

Brain-State-in-a-Box (BSB) (Anderson, Silverstein, Ritz y Jone, 1977)

-

Red de Hopfield (1982)

9

ARAGON, Alberto. (2002) Tesis Doctoral “Métodos Evolutivos para el aprendizaje de Redes Neuronales”, plantea como principales modelos de redes neuronales relacionados con los métodos evolutivos los siguientes: -

Perceptrón

-

Redes de Propagación hacia atrás.

-

Memoria asociativa BAM

-

Máquina de Boltzmann

-

Mapas autoorganizativos

-

Redes de Expansión.

Con respecto a las áreas de aplicación se plantea que las RN tratan de resolver de forma eficiente problemas que pueden encuadrarse dentro de tres amplios grupos: optimización, reconocimiento y generalización. Estos tres tipos engloban un elevado número de situaciones, lo que hace que el campo de aplicación de las redes neuronales en la gestión empresarial sea muy amplio. En esta Tesis no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. HAYKIN, Simon, (1994), en su texto “Neural Networks”, sostiene que “una red neuronal es una técnica poderosa de computación, primero por que es una estructura distribuida de forma paralela y masiva; y segundo, por su habilidad para aprender y por lo tanto generalizar; la generalización se refiere a que la red neuronal produce razonables salidas para entradas no encontradas durante

el

entrenamiento

(aprendizaje).

Estas

dos

capacidades

de

procesamiento de información hacen posible que las redes neuronales resuelvan

problemas

complejos

que

son

corrientemente

insolubles”.

Asimismo, sostiene que “el uso de las redes neuronales ofrece las siguientes propiedades y capacidades útiles: No linealidad; Mapeos Input –Output; Adaptabilidad; Respuesta a evidencias; Información contextual; Tolerancia a las fallas; implementabilidad de tecnología VLSI (very large scale integrated) integrada a escala muy grande, uniformidad de análisis y diseño, Analogía neurobiológica. Como parte de la introducción afirma que se pueden identificar cuatro diferentes clases de arquitecturas de redes: redes monocapa hacia

10

adelante; redes multicapa hacia adelante; redes recurrentes; y estructuras latices (lattice). En este texto no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. KAUFMANN, Arnold y GIL ALUJA, Jaime, (1995) en su texto “Grafos Neuronales para la Economía y la Gestión de Empresas” , plantean que “la ley de Hebb formulada a partir de observaciones y medidas en neurobiología, ha sido adoptada por casi la totalidad de investigadores en neuromimética

y

utilizada en casi todos los modelos de neuronas artificiales. No solamente no la hemos relegado al silencio sino que le hemos prestado la importancia que creemos merece. El ajuste de los principales parámetros, necesario para conseguir un resultado especificado a la salida o en ciertas neuronas de la red artificial, constituye un elemento fundamental. En general, se actúa sobre los pesos de las conexiones (arcos del grafo).

Al incidir en estos pesos, se

modifican los potenciales para que a la salida de las neuronas se disponga de un potencial previamente elegido o adaptado. Se puede actuar, también, en los umbrales, lo que ya no se realiza tan frecuentemente. En el fondo, los ajustes de los pesos hacen pensar en los ajustes que tienen lugar en las resistencias, en las redes de Kirchoff, pero el peso se parecería más una conductancia (inversa a una resistencia) aunque en una red de neuronas artificiales esta conductancia carezca de la dimensión que posee, en las ecuaciones de dimensiones de la física”. En este texto no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. FREEMAN, James A., SKAPURA, David M., (1993) en su texto “Redes Neuronales. Algoritmos, Aplicaciones y Técnicas de Programación” presentan las siguientes redes neuronales: 

Adaline y Madaline



Propagación hacia atrás



El Bam y la memoria de Hopfield



Temple (annealing) simulado. Entre las redes tratadas se cuentan la terminación de Boltzmann y las redes de entrada-salida.



La red de contrapropagación

11



Mapas autoorganizativos. Contiene el mapa de topología mantenida de Kohonen y el clasificador de mapa de características.



Teoría de la resonancia adaptativa.

Entre las redes descritas se

cuentan ART1 y ART2, 

Clasificación espacio-temporal de tramas.

Describe la red espacio-

temporal de Hecht-Nielsen. 

El neocognitrón.

En este texto no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. COX, M. (2005), en su Artículo “A Neural Netwok Method for Modelling the Parameters of a CUSUM Chart”. Quality Engineering 17; 197-205. 2005; sostiene que la Gráfica de Sumas Acumuladas CUSUM (Cumulative Sum Charts) es ampliamente empleada en control de calidad para monitorear un proceso o para evaluar datos históricos. Las gráficas CUSUM están diseñadas para exhibir promedios aceptables de longitud de corrida tanto cuando el control es dentro o fuera del proceso. En su investigación introduce una técnica funcional para generar los parámetros h y k para una gráfica que tendrá un promedio de longitud de corrida especificado. Se emplea el método de redes neuronales artificiales para derivar los coeficientes apropiados. Se utiliza la hoja de cálculo EXCEL para los cálculos de los parámetros. En este Artículo no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. ZORRIASSATINE, f.y TANNOCK, D. (1998) en su Artículo “ A review of neural networks for statistical process control”, desarrolla este trabajo para evaluar la literatura existente sobre la aplicación de las redes neuronales para el análisis de las gráficas tradicionales de Shewart de control estadístico de procesos. Luego de su estudio da recomendaciones sobre la aplicación, sin embargo, sostiene que todavía no se ha podido desarrollar una metodología de redes neuronales equivalente a las tradicionales gráficas de Shewart, aunque afirma que el conocimiento en esta área está aumentando. En este Artículo no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad.

12

LEGER, R., GARLAND, W. y POEHLMAN, W. (1998), en su Artículo “Fault detection and diagnosis using statistical control charts and artificial neural networks”, examina la factibilidad de usar gráficas de control CUSUM de sumas acumuladas y redes neuronales artificiales juntas para detectar y diagnosticar fallas. La estrategia propuesta fue evaluada en un modelo de sistema de transferencia de calor de un reactor nuclear CANDU ( "CANadá Deuterio Uranio). Los resultados de la investigación indican que un sistema

FDD (fault detection and diagnosis ) usando gráficas de control CUSUM y una red neuronal de función básica radial RBF (radial basis function) no sólo es factible sino que tiene un promisorio potencial frente a los métodos tradicionales. En este Artículo no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. LAM, S., PETRI, L. y SMITH, A. (2000) en su Artículo “ Prediction and optimization of a ceramic casting process using a hierarchical hybrid system of neural networks anf fuzzy logic”, es una investigación que describe un sistema híbrido que integra lógica difusa, redes neuronales y optimización algorítmica para usarlo en la industria cerámica. Un módulo de predicción estima dos métricas de piezas de fundición deslizante (slip-cast) a través de la ejecución de dos redes neuronales. Un algoritmo de mejora de procesos optimiza los valores de un proceso controlable usando el módulo de predicción de la red neuronal en la función objetivo. Un módulo de sistema experto contiene una jerarquía de dos reglas básicas de lógica difusa. Las reglas básicas prescriben el tiempo de proceso adecuado a líneas de producción individual dados condiciones ambientales, características de molde y la predicción de la red neuronal. Este trabajo demuestra la aplicabilidad de nuevas técnicas computacionales para un proceso de manufactura tradicional y el sistema ha sido implementado en una planta importante en EEUU. En este Artículo no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. NASEREDDIN, M. y

MOLLAGHASEMI, M. (1999.), en su Artículo “The

development of a methodology for the use of neural networks and simulation modeling in systems design”, en este trabajo es explorado el uso

de

13

metamodelos para aproximar la reversa de modelos de simulación. El objetivo del enfoque es obtener el opuesto de lo que un modelo de simulación puede hacer. Esto es, que dado un conjunto de medidas de desempeño deseadas, el meta modelo saca un diseño para cumplir con las metas de la gestión. El desempeño de varios meta modelos simulados con redes neuronales fueron comparadas al desempeño de un meta modelo de regresión escalonado, en términos de exactitud. Se encontró que en la mayoría de los casos, que los metamodelos de redes neuronales superan a los metamodelos de regresión. También se encontró que un módulo de red neuronal tiene el mejor desempeño en términos de minimizar el error de predicción. En este Artículo no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. HSIEH, K. Y Tong, L., (2000) en su Artículo “Parameter Optimization for Quality Response with Linguistic Ordered Category by employing Artificial Neural Networks: A Case Study”, demuestran la efectividad de utilizar redes neuronales para optimizar parámetros de calidad cualitativos. Al respecto sostienen que la solución de estos problemas con redes neuronales es más fácil que con enfoques estadísticos como los diseños experimentales. En este Artículo no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad. KONAK, A, KULTUREL – KONAK, S, SMITH, A y NETTLESHIP, I (2003) en su Artículo “Estimation of shrinkage for near net-shape using a neural network approach” demuestran las ventajas del uso de redes neuronales frente a los modelos de regresión no lineal para predecir la reducción de tamaño en los procesos HIP de calentamiento con presión isostática para superaleaciones basadas en níquel para manufactura de piezas cuyas dimensiones deben ser conseguidas con exactitud. El resultado permite establecer los parámetros de temperatura y presión para un mejor desempeño. En este Artículo no se menciona que exista una red neuronal artificial que sea específica para mejora de la calidad.

14

1.2. Marco Teórico Sobre el concepto de calidad: La calidad es el conjunto de características que tienen un producto o servicios que permiten satisfacer a los clientes. En términos prácticos ello implica cumplir con las especificaciones establecidas en el diseño para satisfacer las necesidades de los clientes. Se dice que un producto o servicio de buena calidad cuando satisface las necesidades de los clientes, cuanto más satisface a los clientes se entiende que es de mejor calidad. Con relación al concepto de calidad se cuenta con varios autores reconocidos a nivel internacional que han desarrollado aportes muy importantes, al respecto se presentan los aportes de

Ishikawa, Deming, Crosby, Juran y

Feigenbaum. ISHIKAWA, 1986, sostiene que calidad es satisfacer los requerimientos del cliente, que cumplir las normas es insuficiente. Indica que en el sentido estrecho calidad significa la calidad del producto, pero en el sentido amplio, significa calidad del trabajo, del servicio, de información, del proceso, de la división, del personal, del sistema, de la empresa, de los objetivos, etc. calidad total. Introduce el concepto de control total de calidad CTC, estilo japonés, que plantea que todas las divisiones y todos los empelados deben participar en el estudio y la promoción del control de calidad. Con relación a los métodos estadísticos plantea el uso de los métodos estadísticos elementales, intermedios y avanzados. En el nivel intermedio considera a los métodos de diseñar experimentos; y en el nivel avanzado incluye los métodos avanzados de diseñar experimentos, análisis de multivariables y diversos métodos de investigación de operaciones.

Con relación a los métodos estadísticos

avanzados sostiene que sólo muy pocos ingenieros y técnicos se adiestrarán en los métodos estadísticos avanzados, a fin de emplearse en análisis de procesos y de calidad muy complejos. Estos métodos avanzados, sostiene, han venido a ser la base de una alta tecnología y también de la exportación de tecnología. Afirma, que en el Japón, el empleo de los métodos estadísticos intermedios y avanzados ha llegado a ser muy alto, y que esto también ha ayudado a levantar el nivel de la industria japonesa.

15

El concepto de calidad, considerando su dimensión e importancia tanto en la cultura occidental y oriental, es tratado de manera especial por el Dr. Ishikawa en su texto “¿Qué es el Control Total de Calidad? La modalidad japonesa”; al respecto sostiene que las diferencias entre las actividades de calidad japonesas y las de occidente son muchas debido a las características socioculturales. Tabla 1. Aportes de Ishiwawa

APORTES DE ISHIKAWA CONTROL TOTAL DE CALIDAD

CÍRCULOS DE CALIDAD

DIAGRAMA DE ISHIKAWA

CALIDAD LA DA EL CLIENTE

DEMING, 1989, sostiene que calidad es el grado predecible de uniformidad y fiabilidad a bajo costo y adecuado a las necesidades del mercado. Asimismo, plantea que existe una relación directa entre calidad y productividad. Frente a la situación de las empresas americanas, a mediados de la década del 80, propone los 14 principios parea salir de la crisis, que se sintetizan en Crear constancia de propósito para la mejora de productos y servicios y Adoptar una nueva filosofía. Asimismo, propone el círculo o ciclo de mejora: Planear, Hacer, Verificar, Actuar, conocido como Ciclo de Deming. Ver Figura 1.

ACTUAR

PLANEAR

VERIFICAR

HACER

Figura 1. Ciclo de Deming

CROSBY, 1987, sostiene que calidad es conformidad con los requerimientos. Los requerimientos deben ser claramente establecidos. Deben tomarse mediciones continuamente para determinar la conformidad con dichos

16

requerimientos. La no conformidad detectada es ausencia de calidad. Introduce los conceptos de cero defectos y que la calidad no cuesta. JURAN, 1989, sostiene que calidad es aptitud para el uso. Pero que tiene diversos significados. Sus dos significados principales: A. Consiste de aquellas características del producto que cumplen las necesidades del cliente y por lo tanto proveen un producto satisfactorio. B. Consiste en libre de defectos. FEIGENBAUM, (1994) sostiene que calidad es aptitud para el uso. Pero, indica, que tiene diversos significados, sus dos significados principales son: A. Consiste de aquellas características del producto que cumplen las necesidades del cliente y por lo tanto proveen un producto satisfactorio. B. Consiste en libre de defectos KENNET (2000) sostiene que en la actualidad se considera que la calidad es la nueva arma competitiva. La calidad no se obtiene por arte de magia sino que se debe trabajar conscientemente para conseguirla como se desea. La evolución histórica del concepto de control de calidad, ha pasado por las etapas de inspección, control de procesos y calidad del diseño. Para lograr ésta última se requiere la utilización de herramientas como el diseño de experimentos,

diseños

factoriales

fraccionales,

métodos

Taguchi

y

metodología de superficie de respuesta, entre otros. Tabla 2. Etapas de la calidad.

ETAPAS DE LA CALIDAD INSPECCIÓN

CONTROL DE

CALIDAD DEL

PROCESOS

DISEÑO

En la actualidad se sostiene que la calidad es una virtud del diseño y que la satisfacción del cliente resulta de la calidad del diseño y la calidad de la realización del diseño. En años recientes se ha introducido el concepto de diseño robusto lo cual implica que el diseño se realiza teniendo en cuenta los problemas que tendrá el cliente durante el uso del producto y que se deben establecer los parámetros de diseño adecuados que reduzcan los problemas al cliente durante el uso del producto. Esto es un cambio importante en el campo de la calidad ya que de un trabajo principalmente sobre lo que ocurre

17

en la planta se pasa a considerar de manera preponderante lo que pasa con el cliente durante el uso del producto. Justamente la trascendencia que tiene en la actualidad la calidad del diseño, lleva a la necesidad de usar nuevas herramientas, entre las que destacan el diseño de experimentos, los diseños factoriales fraccionales, los métodos Taguchi y las metodologías de superficie de respuesta, que se tratan a continuación. Sobre las Herramientas para la mejora de la calidad de diseño. Sobre diseño de experimentos (DDE) y la mejora de la calidad. (KENNET, R. y ZACKS, S. , 2000; PRAT, A., TORT – MARTORELL, X., GRIMA, P. y POZUETA, L., 1999; TAGUCHI, G., 1990; LAWSON, J. ,MADRIGAL, J. y ERJAVEC, J.,1992).

Sostienen que aplicar el DDE en una empresa en la actualidad puede resultar una ventaja competitiva para las empresas que quieren minimizar la variabilidad de sus productos y procesos. La adquisición de nuevo conocimiento requiere, por lo general, que ocurra un fenómeno distinto de lo habitual en presencia de un experto capaz de extraer conclusiones tras reflexionar sobre él. Mediante la experimentación se intenta reproducir artificialmente ambas circunstancias. En el mundo actual las empresas que sean capaces de aprender mediante la experimentación gozarán de una ventaja competitiva clara. El DDE aporta una metodología para reducir la variabilidad propia de las características de calidad de los productos, y la que originan los procesos sobre los productos. La empresa moderna persigue lograr la competitividad mediante productos y servicios de gran calidad y mínimo coste. El DDE se emplea en las fases de diseño y planificación de productos, servicios y procesos de fabricación. También se utiliza para la mejora de procesos, productos y servicios ya desarrollados. Los trabajos de inspección y control de procesos se realizan después o durante el proceso, pero el DDE se realiza antes del proceso, de cara al futuro, permitiendo lograr una alta calidad. El DDE primero identifica que variables o factores afectan la respuesta que nos interesa y después permite obtener un modelo de dicha respuesta y de su desviación típica en función de las variables significativas. Mediante el proceso de experimentación con diferentes valores de las características o factores

18

clave que afectan la respuesta de los procesos o productos sometidos a estudio se obtiene los valores óptimos. El DDE es el cambio intencional de las entradas de un proceso para observar cambios en la salida o salidas del proceso. Las entradas son factores que influyen en el comportamiento del proceso. La salida o salidas son características que se registran para determinar la calidad del proceso. Por tanto, el DDE permite identificar qué factores son las fuentes principales de variabilidad en las características elegidas que garantizan la calidad de las prestaciones del producto o proceso; y por otro lado permite, luego de identificar dichos factores, determinar a qué valores deben ajustarse para que las características seleccionadas logren las especificaciones deseadas con la mínima variabilidad. Tabla 3. Diseño de Experimentos

DISEÑO DE EXPERIMENTOS PERMITE IDENTIFICAR VALORES DE LOS FACTORES FACTORES DE VARIABILIDAD

PARA

SATISFACER

A

LOS

CLIENTES

El proceso de experimentación consta de las siguientes etapas: recopilación de información, establecimiento de los objetivos principales, planificación del experimento, realización de los ensayos, análisis de los resultados de los ensayos y conclusiones. Para el trabajo con dos o más poblaciones se utiliza el análisis de variancia, para ello se describen los datos u observaciones

mediante el modelo

estadístico lineal: Yij     i   ij; ; i  1,2,...a; j  1,2,...n

donde YIJ es la ijtratamientos llamado media global,  j es un parámetro único para el i-ésimo tratamiento llamado efecto del tratamiento i-ésimo y  ij es la componente aleatoria del error. El objetivo es probar hipótesis apropiadas con respecto a los efectos del tratamiento y hacer una estimación de ellos. En este caso el

19

modelo se denomina análisis de variancia, para un factor. Se requiere que el experimento se realice en orden aleatorio. Se obtiene la siguiente tabla se análisis de variancia para el modelo de efectos fijos unifactorial: Tabla 4. ANVA Análisis de Variancia Fuente

de Suma

Variación

de Grados

Cuadrados

de

Media

de Fo

Cuadrados

Libertad SSTRATAMIENTOS A – 1

Entre

M STRATAMIENTOS Fo =

tratamientos Error(

M STRATAMIENTOS

dentro SSE

N-a

M SE

M SE

de tratamientos) Total

SST

N-1

Donde: SSTRATAMIENTOS = Suma de Cuadrados de Tratamientos SSE = Suma de Cuadrados del Error SST = Suma de Cuadrados Total M STRATAMIENTOS= Media de Cuadrados de Tratamientos M SE = Media de Cuadrados del Error N = Número total de observaciones = an a = Número de tratamientos n = Número de observaciones por tratamiento Para los casos de dos o más factores se utiliza la misma tabla para el cálculo de análisis de variancia, sólo que se adiciona el ajuste respectivo para los cálculos según el número de factores. Sobre los diseños factoriales fraccionales y la mejora de la calidad: (MONTGOMERY, D. 2004; KUEHL, R., 2001; PRAT, A., TORT – MARTORELL, X., GRIMA, P. y POZUETA, L., 1999; LAWSON, J. ,MADRIGAL, J. y ERJAVEC, J.,1992)

Sostienen que en la industria los diseños más utilizados son los diseños factoriales a dos niveles, que se representan por: 2k. En este caso los valores

20

correspondientes a los dos niveles se codifican asignando al nivel bajo el valor –1 ó – y al alto +1 ó +. Así por ejemplo el diseño experimental completo de tres factores (L,G,T) a dos niveles cada uno se representa de la siguiente manera: Tabla 5. Diseño Factorial EXPERIMENTO

L

G

T

1

-1

-1

-1

2

1

-1

-1

3

-1

1

-1

4

1

1

-1

5

-1

-1

1

6

1

-1

1

7

-1

1

1

8

1

1

1

En el mundo competitivo y globalizado que vivimos la búsqueda el éxito por parte de las empresas y organizaciones lleva a considerar varios factores e incluso varios niveles, por lo que si se consideran todas las interacciones, el número resultante de experimentos es muy elevado, por ello se utilizan los diseños factoriales fraccionales. Por ejemplo si se tienen siete factores, el número de experimentos sería de 27 = 128; y ello sería muy costoso. Los diseños factoriales fraccionales permiten estudiar un elevado número de factores en un número de experimentos mucho menor de lo que requeriría un factorial completo. El diseño factorial fraccional que realiza la mitad de experimentos que el diseño factorial completo se llama diseño de fracción un medio o simbólicamente para un diseño factorial completo 2 3 su diseño factorial fraccional un medio será 23-1. Este último diseño se dice que es de resolución III. Si bien es cierto

se pueden diseñar diversos diseños factoriales

fraccionales, los que son reconocidos a nivel internacional como de mucha utilidad son los de Plackett- Burman y los de los Métodos Taguchi. Estos últimos son de gran aplicación en mejora de la calidad, en especial en el sector productivo industrial, lo cual se trata a continuación. Sobre los Métodos Taguchi y la mejora de la calidad: 21

(MONTGOMERY, D. 2004; KENNET, R. y ZACKS, S. , 2000; PRAT, A., TORT – MARTORELL, X., GRIMA, P. y POZUETA, L., 1999; TAGUCHI, G., 1990; ROSS, P.,1988) Un enfoque alternativo al Diseño de Experimentos DDE basado en diseños factoriales completos o fraccionales son los métodos del Dr. Genichi Taguchi. Sus métodos se desarrollaron en Japón en los años 50. en 1958 publicó en Japón el libro “Diseño Experimental” en el que introdujo su concepto de “Relación Señal / Ruido” derivado de la ingeniería de telecomunicación, un índice que permite evaluar la robustez de una característica de calidad de un producto.

Robustez en su argot significa insensibilidad frente a aquellas

causas que provocan su variabilidad: Esto lo consigue al determinar qué causas (ruido) originan esa variabilidad y planteando experimentos que nos minimicen esa variabilidad. En 1972 usó de nuevo este concepto en su libro “Relación Señal / Ruido.

Manual para comparar métodos de control y

medida”. Pero no fue hasta 1980 en que sus métodos se empiezan a divulgar en EE.UU. con la publicación de una serie de libros sobre “Ingeniería de Calidad” y “Métodos de Taguchi”. Los métodos de Taguchi se basan en el empleo de la función de pérdida y en la utilización de matrices de diseño ortogonales para llevar a cabo los experimentos, así como en el posterior diagnóstico mediante el análisis de las medias.

22

Pérdida

Característica de Calidad

m Valor objetivo

Figura 2. Función Pérdida

El Dr. Taguchi ha popularizado una serie de configuraciones que permiten ahorrar muchos experimentos y sin embargo permiten identificar los factores clave e incluso lograr modelar la respuesta. Sus diseños se presentan en lo que Taguchi denomina las Matrices Ortogonales, que son diseños fraccionales de resolución III, como por ejemplo la L8 (27), diseño de siete factores con 2 niveles por factor y en el que se realizan ocho ensayos, que se muestra a continuación: Tabla 6. Arreglo Ortogonal Ensayos Factores A

B

C

D

E

F

G

1

1

1

1

1

1

1

1

2

1

1

1

2

2

2

2

3

1

2

2

1

1

2

2

4

1

2

2

2

2

1

1

5

2

1

1

1

2

1

2

6

2

1

1

2

1

2

1

7

2

2

2

1

2

2

1

8

2

2

2

2

1

1

2

23

Normalmente las interacciones se consideran ruido (porque tienen un efecto menor), por lo que sólo se tiene en cuenta los factores. Una vez llevados a cabo los experimentos, se elabora la tabla de respuestas que contiene las medias de los resultados. La técnica consiste en tomar uno a uno los factores y calcular un promedio de los resultados obtenidos con el nivel 2 ( +1) y otro los obtenidos con el nivel 1 ( -1) elaborando con los datos calculados la tabla de respuestas. Se seleccionará la combinación en la que se toman los mejores niveles de los factores más relevantes, buscando los óptimos de los factores menos relevantes. Supongamos un ejemplo ficticio de un diseño con matriz ortogonal L4(2 3-1). Se calcula el análisis de las medias de una característica para la que ser mayor es mejor. En la tabla siguiente se muestra la matriz ortogonal con los resultados de los diferentes ensayos : Tabla 7. Matriz L4 (23-1) Ensayo

Factores

Resultados

A

B

C

1

1

1

1

30

2

1

2

2

32

3

2

1

2

41

4

2

2

1

45

Se calculan los promedios de los resultados en función de los niveles de los tres factores y obtenemos la tabla de respuestas siguiente: Tabla7a. Tabla de Promedios. Factores A

B

C

Nivel 1

31

35.5

37.5

Nivel 2

43

38.5

36.5

Por ejemplo, para el factor A, nivel 1: (30+32)/2 = 31. Para el factor A, nivel 2: (41+45)/2 = 43 La mejor combinación es factor A nivel 2, factor B a nivel 2 y factor C a nivel 1.

24

Sobre las metodologías de superficie de respuesta y la mejora de la calidad: (MONTGOMERY, D. 2004; KUEHL, R., 2001; KENNET, R. y ZACKS, S. , 2000; PRAT, A., TORT – MARTORELL, X., GRIMA, P. y POZUETA, L., 1999; LAWSON, J. ,MADRIGAL, J. y ERJAVEC, J.,1992)

La MSR es un conjunto de técnicas matemáticas y estadísticas útiles para modelar y analizar problemas en los cuales una respuesta de interés es influida por varias variables, y el objetivo es optimizar esta respuesta. Por ejemplo, si suponemos que se quiere encontrar los niveles de temperatura (x1) y presión (x2) que maximicen el rendimiento (y) de un proceso. El rendimiento del proceso es una función de los niveles de la temperatura y la presión, lo cual se expresa así:

y  f ( x1 , x2 )   donde 

representa el ruido o error observado en la respuesta y. Si la

respuesta esperada se denota por E(y) = f(x1,x2) =  entonces a la superficie representada por :

  f ( x1 , x2 ) se le llama superficie de respuesta. En la mayoría de problemas de MSR se desconoce la forma de la relación entre la respuesta y las variables independientes. Por ello, el primer paso es determinar una aproximación apropiada a la relación funcional real entre la variable dependiente y las variables independientes. Por lo general se emplea un polinomio de orden bajo sobre alguna región de las variables independientes. Si la respuesta es descrita adecuadamente por una función lineal de las variables independientes, la función de aproximación es el modelo de primer orden:

y   0  1 x1   2 x2  ...   k xk   Cuando existe curvatura en el sistema se requiere usar un modelo de segundo orden: k

k

i 1

i 1

y   0    i xi   ii xi2  i



x x j  ,,,i  j

ij i

j

Casi todos los problemas de MSR usan uno o ambos polinomios de aproximación. Estos polinomios funcionan muy bien en regiones relativamente

25

pequeñas. El método de mínimos cuadrados sirve para estimar los parámetros de los polinomios de aproximación. La MSR es un procedimiento secuencial. Por lo general la estimación inicial de las condiciones de operación óptimas del sistema estarán lejos del óptimo real. En dicha situación, el objetivo del experimentador es pasar con rapidez a la vecindad general del óptimo. Cuando se está lejos del óptimo, se supone que un modelo de primer orden es una aproximación adecuada de la verdadera superficie en una región pequeña de las x. El método del ascenso más pronunciado es un procedimiento para moverse secuencialmente sobre la trayectoria del ascenso más pronunciado, en la dirección del incremento máximo de la respuesta. Si lo que se pretende es una minimización, entonces esta técnica se llama método del descenso más pronunciado. El modelo ajustado de primer orden es: k

yˆ  ˆ 0   ˆ i xi i 1

y la superficie de respuesta de primer orden, es decir, los contornos de yˆ , es una serie de líneas paralelas. La dirección del ascenso más pronunciado es aquella en la que yˆ se incrementa con mayor rapidez. Esta dirección es paralela a la normal de la superficie de respuesta ajustada. Por lo general se toma como la trayectoria del ascenso más pronunciado a la recta que pasa por el centro de la región de interés y que es normal a la superficie ajustada. Por ello los pasos sobre la trayectoria son proporcionales a los coeficientes de regresión ˆ i . El tamaño real del paso lo determina el experimentador con base en el conocimiento del proceso o de otras consideraciones prácticas. Se conducen experimentos sobre la trayectoria del ascenso más pronunciado hasta que deja de observarse un incremento adicional en la respuesta. Entonces puede ajustarse un nievo modelo de primer orden, determinarse una nueva trayectoria del ascenso más pronunciado y el procedimiento continua. En última instancia, el experimentador llegará a la vecindad del óptimo. En general la falta de ajuste del modelo de primer orden indica que e ha llegado a ella. En este momento se realizan experimentos adicionales para obtener una estimación más precisa del óptimo.

26

Análisis de la superficie de respuesta de segundo orden. Cuando el experimentador se encuentra relativamente cerca del óptimo, por lo general se requiere un modelo que incorpore la curvatura para aproximar la respuesta. En la mayoría de los casos, el modelo de segundo orden: k

k

i 1

i 1

y   0    i xi   ii xi2  i



x x j  ,,,i  j

ij i

j

es adecuado. Este modelo ajustado se utiliza para encontrar el conjunto óptimo de condiciones de operación para las x, así como para caracterizar la naturaleza de la superficie de respuesta. Con dicho objetivo, primero se requiere localizar el punto estacionario y luego caracterizar la naturaleza de la superficie de respuesta. Localización del punto estacionario. Suponga que quieren encontrarse los niveles de x1,x2,..xk que optimizan la respuesta predicha. Este, en caso de existir, punto será el conjunto de las x1,x2,..xk para las que las derivadas parciales

yˆ / x1  yˆ / x2 ...  yˆ / xk  0 .

A

este

punto,

por

ejemplo,

x1, s , x 2, s ,..., x k , s se le llama punto estacionario. El punto estacionario podría

representar 1) un punto de respuesta máxima, 2) un punto de respuesta mínima, 3) un punto silla. Las gráficas de contorno desempeñan un papel muy importante en el estudio de las superficies de respuesta, con ellas el experimentador puede por lo general caracterizar la forma de la superficie y localizar el óptimo con una precisión razonable. Es posible obtener una solución matemática general para la localización del punto estacionario. Al escribir el modelo de segundo orden en notación matricial se tiene: yˆ  ˆ0  x b  x Bx

donde:

 x1  x  x   2 .     xk 

 ˆ1    ˆ b   2 .     ˆ k 

y

 ˆ11 , ˆ12 / 2,..., ˆ1k / 2   B   ___ ˆ 22 ,......, ˆ 2 k / 2   simétrica ___ ˆ  kk  

27

Es decir b es un vector (k x 1) de los coeficientes de regresión de primer orden y B es una matriz simétrica (k x k) cuyos elementos de la diagonal principal son los coeficientes cuadráticos puros( ˆii ) y cuyos elementos que están fuera d ela diagonal son la mitad de los coeficientes cuadráticos mixtos (

ˆij , i  j ). La derivada de yˆ con respecto a los elementos del vector x igualada con 0 es: yˆ  b  2 Bx  0 x 1 El punto estacionario es la solución de la ecuación anterior, o: x s   B 1b 2

Además, al sustituir ecuación anterior en el modelo matricial de segundo orden, la respuesta predicha en el punto estacionario puede encontrarse como: 1 yˆ s  ˆ 0  x s b 2

Luego de obtener el punto estacionario se procede a caracterizar la superficie de respuesta para determinar si se trata de un máximo o un mínimo o un punto silla. Para ello se transforma el modelo en un nuevo sistema de coordenadas con el origen en el punto estacionario x, y después hacer la rotación de los ejes de este sistema hasta que sean paralelos a los ejes principales de la superficie de respuesta ajustada. Se obtiene así el modelo ajustado: yˆ  yˆ s  1 w12  2 w22  ...  k wk2

donde las Wi son las variables independientes transformadas y las i son constantes. Las i son los eigenvalores o raíces características de la matriz B. Si todas las i son positivas entonces el punto estacionario es un mínimo, si son negativas es un máximo y si son de signos diferentes es un punto silla. Sobre Inteligencia Artificial IA. (NILSSON, N., 2001; RUSSELL, S y NORVIG, P., 1996).

Se define la inteligencia artificial (IA) como aquella inteligencia exhibida por artefactos creados por humanos (es decir, artificial). A menudo se aplica hipotéticamente a los computadores. El nombre también se usa para referirse

28

al campo de la investigación científica que intenta acercarse a la creación de tales sistemas. Campos de la Inteligencia Artificial. Actualmente, por lo general, se refieren los siguientes campos: 1) Aprendizaje Automático (Machine Learning). Es una rama de la Inteligencia Artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. De forma más concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. Es por lo tanto, un proceso de inducción del conocimiento. En muchas ocasiones el campo de actuación del Aprendizaje Automático se solapa con el de la Estadística, ya que las dos disciplinas se basan en el análisis de datos. Sin embargo, el Aprendizaje Automático se centra más en el estudio de la Complejidad Computacional de los problemas. Muchos problemas son de clase NP-hard, por lo que gran parte de la investigación realizada en Aprendizaje Automático está enfocada al diseño de soluciones factibles a esos problemas. El Aprendizaje Automático tiene una amplia gama de aplicaciones, incluyendo motores de búsqueda, diagnósticos médicos, detección de fraude en el uso de tarjetas de crédito, análisis del mercado de valores, clasificación de secuencias de ADN, reconocimiento del habla y del lenguaje escrito, juegos y robótica. 2) Ingeniería del conocimiento (Knowledge Engineering) La ingeniería del conocimiento es aquella disciplina moderna que hace parte de la Inteligencia Artificial que ayuda a construir aplicaciones y sistemas orientados al aprendizaje, apoyándonos en metodologías instruccionales y en tecnología de computación y de telecomunicaciones, intentando representar el conocimiento y razonamiento humanos. El trabajo de los ingenieros del conocimiento consiste en extraer el conocimiento de los expertos humanos y en codificar el conocimiento de manera que pueda ser procesada por un sistema. El problema es que el ingeniero del conocimiento no es un experto en el campo que intenta programar, mientras que el experto en el tema no tiene experiencia programando.

29

La ingeniería del conocimiento engloba a los científicos, tecnología y metodología necesarios para procesar en conocimiento. Su objetivo es extraer, articular e informatizar el conocimiento de un experto. 3) Lógica difusa (Fuzzy Logic) En la lógica clásica una proposición sólo admite dos valores: puede ser verdadera o falsa. Por eso se dice que la lógica usual es bivalente o binaria. Pero existen otras lógicas que admiten además un tercer valor: posible (lógica trivaluada). La lógica multivaluada incluye sistemas lógicos que admiten varios valores de verdad posibles. La lógica difusa (borrosa o, en inglés fuzzy logic) es una de ellas, que se caracteriza por querer cuantificar esta incertidumbre: Si P es una proposición, se le puede asociar un número v(P) en el intervalo [0,1] tal que: si v(P) = 0, P es falso si v(P) = 1, P es verdadero La veracidad de P aumenta con v(P). Salta a la vista la semejanza con la teoría de la probabilidad. Esta simple idea nació en un artículo de Lofti A. Zadeh publicado en 1965 y titulado "Fuzzy Sets" (Conjuntos Difusos). La lógica difusa permite representar de forma matemática conceptos o conjuntos imprecisos, tales como frío, calor, alto, bajo, mucho, poco. Así, por ejemplo, una persona que mida 2 metros es claramente una persona alta (es alta con grado 1) y una persona que mida 1 metro no es una persona alta en absoluto (es alta con grado 0). De forma intermedia podemos decir que una persona que mida 1.82 es alta con grado 0.75 indicando que es "bastante alta". De este ejemplo puede extraerse fácilmente que la lógica y la teoría de conjuntos son isomorfismos matemáticos. En la siguiente figura se aprecia este tipo de interrelación:

Figura 3. Representación de datos en Lógica Difusa

30

En la teoría de conjuntos difusos se definen también las operaciones de unión, intersección, diferencia, negación o complemento y otras operaciones sobre conjuntos. 4) Redes neuronales artificiales (Artificial Neural Networks) Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Consiste en simular las propiedades observadas en los sistemas neuronales biológicos a través de modelos matemáticos recreados mediante mecanismos artificiales (como un circuito integrado, un ordenador o un conjunto de válvulas). El objetivo es conseguir que las máquinas den respuestas similares a las que es capaz el cerebro que se caracterizan por su generalización y su robustez. En la Figura 4 se aprecia un ejemplo de Red Neuronal Artificial.

Figura 4. Red neuronal artificial perceptrón con n neuronas de entrada, m neuronas en su capa oculta y una neurona de salida.

5) Sistemas multi-agente (Multi-Agent Systems) El dominio del sistema multiagente o de inteligencia artificial distribuida es una ciencia y una técnica que trata con los sistemas de inteligencia artificial en red. El bloque fundamental de construcción de un sistema multiagente, como es de esperarse, son los agentes. Aunque no existe una definición formal y precisa de lo que es un agente, éstos son por lo general vistos como entidades inteligentes, equivalentes en términos computacionales a un proceso del sistema operativo, que existen dentro de cierto contexto o ambiente, y que se pueden comunicar a través de

31

un mecanismo de comunicación inter-proceso, usualmente un sistema de red, utilizando protocolos de comunicación. En cierto modo, un sistema multiagente es un sistema distribuido en el cual los nodos o elementos son sistemas de inteligencia artificial, o bien un sistema distribuido donde la conducta combinada de dichos elementos produce un resultado en conjunto inteligente. 6) Sistemas expertos (Expert Systems) Imitan el comportamiento de un experto humano en la solución de un problema. Pueden almacenar conocimientos de expertos para un campo determinado y solucionar un problema mediante deducción lógica. Los sistemas expertos son aquellos programas que se realizan haciendo explícito el conocimiento en ellos; que tienen información específica de un dominio concreto y que realizan una tarea relativa a este dominio. Los sistemas expertos trabajan con inteligencia artificial simbólica, es decir, a nivel de símbolos; como pueden ser ideas, imágenes, conceptos, etc. aunque debido a su naturaleza algorítmica se usan internamente instrucciones computables y estructuras de datos como los MOPS (Memory Organization Packets) de Schank. El éxito de un sistema experto radica fundamentalmente en el conocimiento sobre el dominio que trata y su capacidad de aprendizaje. El conocimiento sobre el dominio proporciona al sistema experto mayor información sobre el problema a tratar y su entorno, de forma que pueda generar y adaptar soluciones de forma más precisa, al tener un conocimiento más profundo sobre el tema, de forma similar a un experto especializado. El aprendizaje, inductivo o deductivo según corresponda, proporcionará al sistema experto mayor autonomía a la hora de abordar problemas totalmente desconocidos; pudiendo generar nuevo conocimiento partiendo del extraído inicialmente del experto o expertos humanos.

32

TABLA 8. SISTEMAS EXPERTOS

SISTEMAS EXPERTOS RECIBEN

CONOCIMIENTOS FRENTE A UN PROBLEMA

SOBRE UN DOMINIO APLICAN TIENEN

UNA

LÓGICA

LA LÓGICA A LOS

DE CONOCIMIENTOS

ANÁLISIS

DAN UNA SOLUCIÓN

Son llamados expertos por que emulan el comportamiento de un experto en un dominio concreto y en ocasiones son usados por ellos. Con los sistemas expertos se busca una mejor calidad y rapidez en las respuestas dando así lugar a una mejora de la productividad del experto. 7) Redes Bayesianas (Bayesian Networks) Una Red Bayesiana consta de dos componentes. El primero de ellos, más cualitativo, está representado por un grafo acíclico dirigido G = (V,E) donde los nodos (el conjunto finito V) son variables aleatorias del problema, y los arcos ( ) indican relaciones entre variables. El segundo de ellos, cuantitativo, se trata de un conjunto de distribuciones de probabilidad condicionadas (una por nodo) donde la distribución en cada nodo está condicionada al posible valor de cada uno de los padres. En definitiva, es un modelo probabilístico multivariado que relaciona un conjunto de variables aleatorias mediante un grafo dirigido, el cual indica explícitamente influencia causal. Gracias a su motor de actualización de probabilidades, el Teorema de Bayes, las redes bayesianas son una herramienta extremadamente útil en la estimación de probabilidades ante nuevas evidencias 8) Vida artificial (Artificial Life) La vida artificial es el estudio de la vida y de los sistemas artificiales que exhiben propiedades similares a los seres vivos, a través de modelos de simulación. El científico Christopher Langton fue el primero en utilizar el término a fines de los años 1980 cuando se celebró la "Primera Conferencia Internacional de la Síntesis y Simulación de Sistemas Vivientes" en Los Alamos National Laboratory en 1987.

33

9) Computación evolutiva (Evolutionary Computation) La computación evolutiva nace en el año de 1993 y retoma conceptos de la evolución y la genética para resolver principalmente problemas de optimización. Esta rama de la inteligencia artificial tiene sus raíces en tres desarrollos relacionados pero independientes entre si: Algoritmos genéticos Programación evolutiva Estrategias Evolutivas Los algoritmos genéticos fueron desarrollas por John H. Holland en la década de 1960 y su motivación inicial fue la de proponer un modelo general de proceso adaptable. La programación evolutiva fue creada en la década de 1960 y su creador fue L. J. Fogel. Este desarrollo comenzó como un esfuerzo encaminado a crear inteligencia artificial basado en la evolución de máquinas de estado finitas. Las estrategias evolutivas fueron propuestas por Ingo Rechenberg y HansPaul Schwefel en la década de 1970. Su principal objetivo era el de resolver problemas de optimización de parámetros. 10) Células Binarias (Binary Cells) Es la relación matemática existente entre las unidades binarias elementales y sus operaciones lógicas y el medio físico en el que se desarrollan, dotándo de sentidos propios a las mismas células binarias. Se suele aplicar en los campos de la Automática, el control numérico (CN) y en Realidad Virtual o Inteligencia Artificial (IA). Buscar el método para poder dotar a los conocidos Dígitos 0 y 1, tan cotidianos en nuestra era de las telecomunicaciones, de capacidades de actuación propias y de comportamientos matemático-físico-químicos. 11) Estrategia evolutiva En informática, las estrategias evolutivas son métodos computacionales que trabajan con una población de individuos que pertenecen al dominio de los números reales, que mediante los procesos de mutación y de recombinación evolucionan para alcanzar el óptimo de la función objetivo. Cada individuo de la población es un posible óptimo de la función objetivo; la representación de cada individuo de la población consta de 2 tipos de

34

variables: las variables objeto y las variables estratégicas. Las variables objeto son los posibles valores que hacen que la función objetivo alcance el óptimo global y las variables estratégicas son los parámetros mediante los que se gobierna el proceso evolutivo o, en otras palabras, las variables estratégicas indican de qué manera las variables objeto son afectadas por la mutación. Haciendo una analogía más precisa, el genotipo en las estrategias evolutivas es el conjunto formado por las variables objeto y las variables estratégicas. Y el fenotipo son las variables objeto, ya que conforme se da la variación de éstas, se percibe un mejor o peor desempeño del individuo. 12) Algoritmos genéticos (Genetic Algorithms) En los años setenta, de la mano de John Holland surgió una de las líneas más prometedoras de la inteligencia artificial, la de los algoritmos genéticos. Son llamados así porque se inspiran en la evolución biológica y su base genéticomolecular. Estos algoritmos hacen evolucionar una población de individuos sometiéndola a acciones aleatorias semejantes a las que actúan en la evolución biológica (mutaciones y recombinación genética), así como también a una selección de acuerdo con algún criterio, en función del cual se decide cuáles son los individuos más adaptados, que sobreviven, y cuáles los menos aptos, que son descartados. Los algoritmos genéticos forman parte de una familia denominada algoritmos evolutivos, que incluye las Estrategias de evolución, la Programación evolutiva y la Programación genética. Sobre las Redes Neuronales Biológicas (ISASI, P. y GALVAN, I., 2004; MARTIN DEL BRIO, B., SANZ MOLINA A. ,2002) La teoría y modelado de redes neuronales está inspirada en la estructura y funcionamiento de los sistemas nerviosos, donde la neurona es el elemento fundamental. En general, una neurona consta de un cuerpo celular más o menos esférico, de 5 a 10 micras de diámetro, del que salen una rama principal, el axón, y varias ramas más cortas, llamadas dendritas.

35

Una de las características de las neuronas es su capacidad de comunicarse. En términos generales las dendritas y el cuerpo celular reciben señales de entrada; el cuerpo celular las combina e integra y emite señales de salida. El axón transmite dichas señales a los terminales axónicos, que distribuyen información o un nuevo conjunto de neuronas, se calcula que en el cerebro humano existen del orden de 1015 conexiones. En la siguiente figura se aprecia una red neuronal biológica.

Figura 5. Red Neuronal Biológica.

Las señales que se utilizan son de dos tipos: eléctrica y química. La señal generada por la neurona y transportada a lo largo del axón es un impulso eléctrico, mientras que la señal que se transmite entre los terminales axónicos de una neurona y las dendritas de la otra es de origen químico. Para establecer una similitud directa entre la actividad sináptica y la analogía con las redes neuronales artificiales podemos considerar: Las señales que llegan a la sinapsis son las entradas a la neurona; estas son ponderadas (atenuadas o simplificadas) a través de un parámetro, denominado peso asociado a la sinapsis correspondiente. Estas señales de entrada pueden excitar a la neurona (sinapsis con peso positivo) o inhibirla (peso negativo). El efecto es la suma de las entradas ponderadas. Si la suma es igual o mayor que el umbral de la neurona, entonces la neurona se activa (da salida). Esta es una situación de todo o nada; cada neurona se activa o no se activa. La

36

facilidad de transmisión de señales se altera mediante la actividad del sistema nervioso. Las sinapsis son susceptibles a la fatiga, deficiencia de oxígeno y la presencia de anestésicos, entre otro. Esta habilidad de ajustar señales es un mecanismo de aprendizaje. Sobre las RNA Redes Neuronales Artificiales. (HAYKIN, S.,2005;ISASI, P. y GALVAN, I., 2004; MARTIN DEL BRIO, B., SANZ MOLINA A. ,2002; HILERA J. y MARTINEZ V., 2000; HAGAN, M., DEMUTH, H., VÉALE, M.,1996; KAUFFMANN, A., GIL ALUJA, J.,1995; WASSERMAN, P., 1993) A continuación se presenta el marco teórico de las RNA más utilizadas y que podrían ser base para desarrollar una nueva RNA a ser utilizada en temas relacionados con la mejora de la calidad. Las Redes Neuronales Artificiales (RNA) son sistemas de procesamiento de la información cuya estructura y funcionamiento están inspirados en las redes neuronales biológicas.

Consiste en un conjunto de elementos simples de

procesamiento llamados nodos o neuronas artificiales conectadas entre sí por conexiones que tienen un valor numérico modificable llamado peso. La actividad que una neurona artificial realiza, consiste en sumar los valores de las entradas (inputs) por sus pesos, respectivos, que recibe de otras unidades conectadas a ella; dicha sumatoria ingresa a una función de activación, la misma que permite obtener salidas (ontput). Ver figura.

Figura 6. Neurona artificial con varios inputs (Hagan, et al)

El procesamiento en la Red Neuronal Artificial es paralelo, la información que posee está distribuida a lo largo de los parámetros de la misma Red. Los parámetros que definen el “conocimiento” que una RNA posee en un momento

37

dado son sus conexiones y las funciones de activación de sus unidades de procesamiento. Cada neurona artificial lleva a cabo una computación simple. La fiabilidad de la computación total que la RNA realiza depende de la interacción paralela de un gran número de unidades y, consecuentemente, en la mayoría de casos, el sistema puede continuar su funcionamiento normal, aunque una pequeña parte del mismo haya resultado dañado. Una RNA es entrenada para realizar una determinada tarea. Por ejemplo, supongamos que presentamos a la red dos tipos de objetos, por ejemplo, la letra B y la letra C con distintos tamaños y en distintas posiciones. En el aprendizaje de la red neuronal se consigue, tras un número elevado de presentaciones de los diferentes objetos y la consiguiente modificación de las conexiones de la RNA, hasta que la red distinga entre Bs y Cs, sea cual fuere su tamaño y posición en la pantalla. Se puede entrenar la RNA para que proporcione como salida el valor 1 cada vez que se presente una B y el valor 0 en caso de que se presente una C. El aprendizaje en una RNA es un proceso de modificación de los pesos de las conexiones, hasta que la respuesta de la RNA acaba por reproducir las propiedades de las entradas en este ejemplo, la red ha “aprendido” el concepto de las letras B y C sin poseer reglas concretas para el reconocimiento de dichas figuras, sin poseer un programa explícito de instrucciones para su reconocimiento. El aprendizaje puede ser supervisado (si se conocen ejemplos de entradas y sus respectivas salidas; para determinar los parámetros de la red); no supervisado ( si sólo se conocen ejemplos de entradas y no de sus respectivas salidas; para determinar los parámetros de la red); y por refuerzo ( variante del aprendizaje supervisado, en la que no se dispone de información del error, sino que se determina si la salida producida para dicho patrón es adecuada o no). Ver siguiente Figura.

38

Figura 7. Proceso de entrenamiento de una Red Neuronal(Answermath.com)

Si se denomina S al conjunto de estados posibles de la neurona, S podrá ser, por ejemplo, S = {0,1}, siendo 0 el estado inactivo y 1 el activo. S también podrá tomar un número mayor de valores, S = {0,1,2,..,n} para representar una imagen con n+1 colores, o también un intervalo continuo de valores, por ejemplo S= [0,1]. Para calcular el estado de activación de una neurona se calcula la entrada total Σi. Este valor es igual a la suma de todas las entradas por sus respectivos pesos. En la Figura 8, que se presenta a continuación, se aprecia un conjunto de entradas X1, X2,...,X3; que pueden ser definidas por un vector

X . Cada

entrada se multiplica por un peso asociado W1, W2, ..., Wn para calcular la respectiva sumatoria  que es procesada por la función de activación respectiva y se obtienen las salidas correspondientes.

Entradas X1

Salidas W j1

X2 Wj2 Wjn

 Func.A

Xn Figura 8. Esquema de una Neurona Artificial (McCulloch-Pitts).

39

El conjunto de pesos se representa por un vector W . La sumatoria que corresponde al cuerpo de la neurona, suma todas las entradas ponderadas por sus respectivos pesos, produciendo una salida E: E = x1w1 + x2w2 + ... + xnwn Lo cual se puede definir en forma vectorial como sigue: E = XTW La señal E es procesada por la función de activación, que produce la salida de la neurona S. Hay diversas funciones de activación, como por ejemplo: Lineal: S = K E con K constante. Umbral: S = 1 si E >=  , S = 0 si E < siendo el umbral constante Cualquier función: S = F (I); siendo F una función cualquiera. Combinando varias neuronas de este tipo, se pueden construir diversos tipos de redes que calculen cualquier función lógica finita. La forma como se organizan las neuronas que se combinan se conoce como su arquitectura. Se considera que las Arquitecturas de las neuronas tienen capas, y en cada capa pueden haber una o varias neuronas. Así se considera que existe una capa de entrada, una de salida y entre ambas pueden presentarse capas ocultas o intermedias. En la figura 9, se muestra un ejemplo de arquitectura típica de red neuronal artificial:

W11 X1W31 W12  W32 W21 X2 W22 Figura 9. Red Neuronal Artificial con una capa oculta.

La Red Neuronal Artificial de la Figura 9 es una Red Neuronal Artificial con capa de entrada, de salida y una capa oculta. En las capas de entrada y oculta hay 2 neuronas; y en la de salida sólo una neurona; pero podrían ser de

40

número mayor de neuronas en las distintas capas, e incluso podrían haber más capas ocultas. Dependiendo de las arquitecturas, funciones de activación, y tipos de aprendizaje, se tienen los distintos tipos de Redes Neuronales artificiales, así tenemos, entre las más utilizadas a las siguientes: A. Perceptrón: A.1. Arquitectura: Es una estructura monocapa en la que hay un conjunto de neuronas de entrada y una o varias neuronas de salida. Cada una de las neuronas de entrada tiene conexiones con todas las células de salida, y son éstas conexiones las que determinan las superficies de discriminación del sistema

W1 1 X1 F Y 2

X1

W2



Figura 10. Perceptrón: Red con dos capas (entrada y salida)

En la Figura 10, se presenta un Perceptrón donde las entradas son X1 y X2 ; la salida es Y. Los pesos son W1 y W2 y hay un umbral El umbral se utiliza como factor de comparación para producir la salida, y habrá tantos como células de salida existan en la red, uno para cada una. La salida viene dada por la siguiente ecuación: Y F (

n



Wi Xi + )

i 1

donde: F (s) = { 1 si s > 0 { -1 en caso contrario En la siguiente figura se presenta un perceptrón con R entradas y con función de activación (transferencia) hardlim (a=0, si n=0).

41

Figura 11. Perceptrón con R entradas (Matlab).

En la siguiente figura se muestra una red perceptrón con s neuronas en su capa de salida y R neuronas en su capa de entrada.

Figura 12. Perceptrón con R inputs y S outputs (Matlab)

A.2. Aprendizaje En el caso que se tengan 2 clases A y B: se introduce un patrón de los del conjunto de aprendizaje, perteneciente, por ejemplo a la clase A. Se obtiene la salida que genera la red para dicho patrón. Si la salida producida es 1, la respuesta de la red para dicho patrón es correcta y no se realizará ninguna acción. Si la salida es –1, la respuesta es incorrecta; la red categoriza el patrón como de la clase B. Este es un error de clasificación y es en este caso cuando se produce el aprendizaje: se modifican los valores de los pesos. Si la salida es inferior a la que se debería haber obtenido, los pesos son incrementados para que en la próxima presentación del mismo patrón pueda

42

superar el umbral y producir la salida deseada de 1. Si el patrón que se introduce es de la clase B, y también se produce un error de clasificación, el proceso se invierte; los pesos se decrementan por la misma razón. Sea x un patrón de entrenamiento y S(x) su clase asociada, tomando valores en (-1,1), el proceso de aprendizaje (con limitaciones) se puede describir así: 1) Empezar con valores aleatorios para los pesos y el umbral. 2) Seleccionar un vector de entrada x del conjunto de ejemplos de entrenamiento. 3) Si Y  S(x), la red da una respuesta incorrecta. Modificar Wi de acuerdo con:  Wi = S(x) Xi

(Regla de aprendizaje del Perceptrón)

4) Si no se ha cumplido el criterio de finalización, volver a 2. 5) Como el umbral es equivalente a un peso adicional, al que se denota por Wo cuya entrada es siempre 1 (Xo = 1), la ecuación anterior se puede extender para el umbral de la siguiente manera:  Wi = S(x) Xi; i = 0,...,n B. Adaline B.1. Arquitectura La arquitectura ADALINE es idéntica al Perceptrón, pero es capaz de realizar un mejor aprendizaje. Porque es un elemento combinador adaptativo, que recibe un conjunto de entradas y las combina para producir una salida. La regla de aprendizaje del PERCEPTRON no permite producir salidas reales, debido a que su función de activación: escalón; sólo permite salidas binarias: 1, -1 y a que es una regla de aprendizaje por refuerzo en la que se potencian salidas correctas y no se tienen en cuenta las incorrectas. No existe ninguna graduación en la regla que indique en qué medida resulta errónea la salida producida, y refuerce proporcionalmente a dicha medida de error. La salida Adaline puede transformarse en binaria mediante un conmutador bipolar que produce un 1 si la salida es positiva y un -1 si es negativa: n

y =

w x  i 1

i

i

43

Figura 13. Red ADALINE (Hagan,et al)

B.2. Aprendizaje El aprendizaje en este caso incluye la diferencia entre el valor real producido en la capa de salida

y

p

para un patrón de entrada

x

p

producido dicho patrón, es decir, su salida esperada

y el que debería haber S p , que está en el

p

conjunto de aprendizaje (| S p - y |). A esta regla de aprendizaje se la conoce con el nombre de la regla Delta. La regla Delta utiliza directamente la salida de la red, sin pasarla por ninguna función umbral. Habitualmente, la medida de error global utilizada es el error cuadrático medio, pero otros errores pueden ser utilizados en el modelo, la ecuación es: m

E=

E p 1

p

m



 p 1

p

(S p - y ) 2

Se busca minimizar el error, recurriendo a un proceso iterativo en el que se van presentando los patrones uno a uno y modificando los parámetros de la red, pesos de las conexiones, mediante la regla de del descenso del gradiente. Se realiza un cambio en cada peso proporcional a la derivada del error, medida en el patrón actual, respecto del peso:  p w j  

E p w j

Utilizando la regla de la cadena: E p E p y p  w j y p w j

44

Como: y p E p  x j .................... y.................... p  ( S p  y p ) w j y

Se obtiene, la regla de aprendizaje de la Red Adaline: p

w

j

  (s p  y p ) x j

A continuación se muestra figura de aplicación de la Red ADALINE con 2 inputs.

Figura 14. Regla de decisión de una Red ADALINE con 2 inputs (Hagan, et al)

El procedimiento de aprendizaje definido por la regla Delta será : 1. Inicializar los pesos de forma aleatoria 2. Introducir un patrón de entrada 3. Calcular la salida de la red, compararla con la esperada ó deseada y obtener la diferencia: ( s p  y p ) 4. Para todos los pesos, multiplicar dicha diferencia por la entrada correspondiente, y ponderarla por una tasa de aprendizaje  5. Modificar el peso restando del valor antiguo la cantidad obtenida en 4 6. Si no se ha cumplido el criterio de convergencia, regresar a 2; si se han acabado todos lo patrones, empezar de nuevo a introducir patrones. C. Perceptrón Multicapa: C.1. Arquitectura Tiene las posibilidades de las capas ocultas en una red. Así se puede resolver el problema XOR que no puede resolver el Perceptrón simple debido a la capa oculta que se añade. Se presenta ejemplo en la Figura 15.

45

W11 X1W31 W12  W32 W21 X2 W22 Figura 15: Perceptrón con una capa oculta de dos neuronas.

Se comprueba que la capa oculta, separa el plano en tres regiones (1,2y3). Así, por ejemplo, para una función de salida escalonada, la región1, da una salida 1 de la red, y las regiones 2 y 3 dan salidas 0; superándose el problema del peceptrón simple que sólo dividía el plano en dos regiones. También se pueden dar otras funciones de activación o transferencia como la sigmoidea o la lineal, u otras según se requiera. El modelo descrito es capaz de representar funciones no lineales arbitrarias, utilizando ejemplos de entrada – salida de la función, puede utilizarse como clasificador de patrones.

Figura 16: Perceptrón Multicapa, con capa de entrada más tres capas (Hagan, et al)

46

C.2. Aprendizaje Al igual que la Red Adaline toma la Regla LMS (Mínimos Cuadrados). Se busca minimizar el error; es decir:: E2Esy2 Minimizando mediante la regla del descenso del gradiente, mediante una sucesiva minimización de los errores para cada patrón, e(n), en lugar de minimizar el error total. Luego cada w se modifica para cada patrón de entrada n de acuerdo con la siguiente ley de aprendizaje:  pwj  

e(n) w

Como las neuronas de la red están agrupadas en capas de distintos niveles se puede aplicar el método del gradiente en forma eficiente, obteniéndose el algoritmo de aprendizaje Backpropagation ó de Retropropagación ó Propagación Hacia Atrás, que equivale a la regla delta generalizada. La retropropagación consiste en propagar el error hacia atrás, es decir, de la capa de salida hacia la capa de entrada, pasando por las capas ocultas intermedias y ajustando los pesos de las conexiones con el fin de reducir dicho error. En la siguiente figura se aprecia la arquitectura de un perceptrón multicapa.

Figura 17: Perceptrón Multicapa, con capa oculta tansig y capa de salida purelin con aprendizaje Backpropagation (Hagan, et al)

La Regla Delta Generalizada Para el caso del Perceptrón Multicapa se distinguen dos casos: uno para los pesos de la capa oculta C-1 a la capa de salida y umbrales de las neuronas de salida, y otro párale resto de pesos y umbrales de la red. Aplicando el método del gradiente a la red se obtiene:

47

Pesos de la capa oculta C-1 a la capa de salida y umbrales de las neuronas de la capa de salida: pesos:

wCji1 (n)  wCji1 (n  1)   iC (n)a Cj 1 (n) ; para j = 1,2,...,n C 1 ; i = 1,2,..., n C umbrales:

u Cji (n)  uiC (n  1)   iC (n) ; para i = 1,2,..., n C donde: nC 1

 (n)  ( si (n)  yi (n)) f (  wCji 1 a Cj 1  u iC )  C i

´

j 1

Pesos de la capa c a la capa c+1 a la capa de salida y umbrales de la capa c+1 para c=1,2,..C-2: pesos:

wkjc (n)  wkjc (n  1)   cj1 (n)akc (n) ; para k = 1,2,..., n c ; j = 1,2,..., n c 1 ; y c = 1,2,…, C-2 umbrales:

u cj1 (n)  u cj1 (n  1)   cj1 (n) ; para j = 1,2,..., n c 1 y c = 1,2,…, C-2 donde: nC

nc 1

k 1

i 1

 cj1 (n)  f ´ ( wkjc a kc  u cj )  c  2 (n) w cji El aprendizaje de esta red se efectúa siguiendo el algoritmo de la Regla Delta Generalizada, y consta de dos fases.

En la primera se presentan pares

entradas – salidas. Los valores de las entradas, se propagan hacia adelante y al llegar a las salidas, se evalúa el error cometido. En la segunda fase se vuelve hacia atrás corrigiendo los pesos de los nodos, con el fin de que el error se vaya haciendo más pequeño. Esta segunda fase es la que da nombre al algoritmo: backpropagation. Los pasos a seguir son: 1)Se inicializan los pesos y umbrales de la red. Valores aleatorios, alrededor de cero. 2)Se toma un patrón n del conjunto de entrenamiento, (X(n), S(n)), y se propaga hacia la salida de la red el vector de entrada X(n) utilizando las ecuaciones: 48

1

a) activación de las neuronas de la capa de entrada ( a i )

a x 1 i

para i = 1,2,... n 1 : el superíndice se refiere a la capa.

i

donde X = ( x1 , x2 ,..., xn ) representa el vector o patrón de entrada a la red. 1

c

b) activación de las neuronas de la capa oculta c ( ai ) Dada la función de activación f : nc 1

c 1 c 1 c ai = f(  w ji a j  ui ) para i = 1,2,..., n c y c = 2,3,…, C-1 c

j 1

C

c) activación de las neuronas de la capa de salida C ( a i ) yi =

a

C i

nC 1

= f (  wCji 1a Cj 1  uiC ) para i = 1,2, ..., n C j 1

donde Y = ( y 1 , y 2 , ..., y nC ) es el valor de salida de la red. Obteniéndose así la respuesta de la red para dicho vector de entrada, Y (n) 3) Se evalúa el error cuadrático cometido por la red para el patrón n utilizando la ecuación: nC

e(n) = ½

 (s (n)  y (n)) i

i 1

2

i

siendo Y(n) = ( y1 (n),..., y nC (n)) y S(n) = ( si (n),..., s nC (n)) los vectores de salidas de la red y salidas deseadas para el patrón n, respectivamente. 4) Se aplica la regla delta generalizada para modificar los pesos y umbrales de la red. Para ello se siguen los siguientes pasos: 4.1.) Se calcula los valores de  para todas las neuronas de la capa de salida utilizando la ecuación: nC 1

 (n)  ( si (n)  yi (n)) f (  wCji 1 a Cj 1  u iC )  C i

´

j 1

Se calculan los valores  para el resto de las neuronas de la red utilizando la ecuación: nC

nc 1

k 1

i 1

 cj1 (n)  f ´ ( wkjc a kc  u cj )  c  2 (n) w cji empezando desde la última capa oculta y retropropagando dichos valores hacia la capa de entrada.

49

4.3.) Se modifican pesos y umbrales de la red siguiendo las siguientes ecuaciones para los pesos y umbrales de la capa de salida: pesos:

wCji1 (n)  wCji1 (n  1)   iC (n)a Cj 1 (n) ; para j = 1,2,...,n C 1 ; i = 1,2,..., n C umbrales:

u Cji (n)  uiC (n  1)   iC (n) ; para i = 1,2,..., n C y para el resto de parámetros de la red, se aplican las siguientes ecuaciones: para los pesos:

wkjc (n)  wkjc (n  1)   cj1 (n)akc (n) ; para k = 1,2,..., n c ; j = 1,2,..., n c 1 ; y c = 1,2,…, C-2 para los umbrales:

u cj1 (n)  u cj1 (n  1)   cj1 (n) ; para j = 1,2,..., n c 1 y c = 1,2,…, C-2 5) Se repiten los pasos 2, 3 y 4 para todos los patrones de entrenamiento, completando así una iteracción o ciclo de aprendizaje. 6) Se evalúa el error total E cometido por la red, mediante la ecuación siguiente: N

E = 1/N

 e(n) ; donde N es el número de patrones y e(n) es el error cometido n 1

por la red para el patrón (entrada) n. Dicho error también recibe el nombre de error de entrenamiento, pues se calcula utilizando los patrones de entrenamiento. 7) Se repiten los pasos 2,3,4,5 y 6 hasta alcanzar un mínimo del error de entrenamiento, para lo cual se realizan m ciclos de aprendizaje.

Aproximador Universal. El Perceptrón Multicapa PMC, ha sido demostrado por Funahashi y otros (1989) que es un aproximador universal. Su teorema dice: “Sea F(x) una función no constante, acotada y monótona creciente. Sea K un subconjunto compacto (acotado y cerrado) de Rn. Sea un número real ε E R, y sea un entero k E Z, tal que k>=3, que fijamos. En estas condiciones, se tiene que:

50

Cualquier mapping g:x E K→(g1(x),g2(x),….,gm(x)) E Rm , con gi(x) sumables en K, puede ser aproximado en el sentido de la topología L2 en K por el mapping entrada – salida representado por una red neuronal unidireccional de k capas (k-2 ocultas), con f(x) como función de transferencia de las neuronas ocultas, y funciones lineales para las de las capas de entrada y salida.” Optimización del Aprendizaje. Con el objetivo de mejorar el desempeño de la red PMC se han desarrollado diversos algoritmos de aprendizaje, entre los más conocidos se tienen: Tabla 9. Algoritmos de aprendizaje para Perceptrón Multicapa

Nombre Gradiente

Característica con Al gradiente se agrega el momentum, con valor

Momentum traingd

entre 0 y 1.

Gradiente con tasa de Adaptativo traingda, Combinado adpatativo con cambio variable

momentum traingdx

Gradiente Conjugado

Ajustando la variación de la dirección del gradiente mediante funciones especiales: Fletcher Reever traincgf; Polak Riviere trancgp; Powell Beale Restarts (traincgb); Con escala trainscg

Quasi Newton

BFGS Utiliza el método de newton en lugar del gradiente conjugado trainbfg; ; Secante: Utiliza combinación de algoritmo de cuasi Newton y gradiente conjugado trainoss.

Levenberg Marquardt

En lugar del gradiente conjugado utiliza el método de Newton, pero no usa la Matriz Hessiana sino una aproximación

D. Redes Neuronales de Base Radial D.1. Arquitectura Las redes de neuronas de base radial son redes multicapa con conexiones hacia delante, al igual que el PERCEPTRON multicapa. Las redes de base radial se caracterizan porque están formadas por una única capa oculta y cada neurona de esta capa posee un carácter local, en el sentido de que cada neurona oculta de la red se activa en una región diferente

51

del espacio de patrones de entrada. Este carácter local viene dado por el uso de las llamadas funciones de base radial, generalmente la función gausiana, como funciones de activación. Las neuronas de la capa de salida de las redes de base radial simplemente realizan una combinación lineal de las activaciones de las neuronas ocultas.

Figura 18. Neurona de Base Radial (Matlab)

Las redes neuronales de base radial están formadas por tres capas de neuronas, una de entrada, una única oculta y una de salida. La capa de entrada la componen un conjunto de neuronas que reciben las señales del exterior, transmitiéndolas a la siguiente capa sin realizar ningún procesado sobre dichas señales. Las neuronas de la capa oculta reciben las señales de la capa de entrada y realizan una transformación local y no lineal sobre dichas señales. Este carácter local es lo que las diferencia del perceptrón multicapa. Esta es la única que incluye componentes no lineales en las redes de base radial. La capa de salida realiza una combinación lineal de las activaciones de las neuronas ocultas, que actúa además como salida de la red. Las conexiones de la capa de entrada a la capa oculta no llevan asociado ningún peso, mientras que las conexiones de la capa oculta a la capa de salida sí llevan asociado un peso. Sólo las neuronas de la capa de salida poseen umbral, que también se suele tratar como una conexión más de la neurona cuya entrada es constante e igual a 1.

52

Figura 19. Red Neuronal de Base Radial (Matlab)

Activación de las neuronas de la red de base radial. Si la red tiene p neuronas en la capa de entrada, m neuronas en la capa oculta y r neuronas en la capa de salida, las activaciones de las neuronas de salida para el patrón de entrada n, X(n) = (x1(n), x2(n),…, xp(n),), denotadas como yk(n),vienen dadas por la siguiente ecuación: yk(n) =  wiknu para k = 1,2,…,r donde: wik es el peso de la conexión de la neurona oculta i a la neurona de salida k; uk es el umbral de la neurona de salida ky n son las activaciones de las neuronas ocultas para el patrón de entrada X(n). Las funciones de base radial  i , determinan las activaciones de las neuronas de las neuronas ocultas de la red en función de un vector de entrada a la red X(n) y vienen dadas por expresiones que dependen de los centros de la función de base radial, la desviación ó amplitud de la función de base radial y la distancia del vector de entrada X(n) al centro Ci. Las entradas x1, x2,… xm, conforman un vector de entrada x, y son aplicadas a todas las neuronas en una capa oculta. Según la topología de la red que se muestra en la siguiente figura:

53

w1,1,c1,b1,1 X1 h(.) w2,1 b2 X2

w1,2,c2,,b1,2 w2,2 h(.)

w2,3 Xm xm

h(.) w1,3,c3,b1,3

Figura 20. Red Neuronal de Base Radial. Arquitectura

Cada neurona de la capa oculta calcula la siguiente función exponencial: hi  exp[  Di2 /( 2 2 )]

Donde: X= un vector de entrada w1,i y w2,j=vector peso de la neurona i de la capa oculta y j de la capa de salida. b1,i y b2,j =umbrales de de la neurona i de la capa oculta y j de la capa de salida. ui= centros de las neuronas ocultas Di2  ( x  u i ) T ( x  u i )

x y u = vectores columna. T = indica la transpuesta del vector. Los pesos de cada neurona de capa oculta son asignados desde los valores de un vector de entrenamiento de entrada. La neurona de salida produce la suma de pesos lineal de estos: y   hi wi , j  bij i, j

donde wi,j = peso en la capa de salida. Las Redes de Base Radial son aproximadores universales de carácter local.

54

D.2. Aprendizaje. Se pueden dar dos casos: Híbrido y totalmente supervisado. D.2.1. Aprendizaje Híbrido. En el caso híbrido: se tiene la primera fase no supervisada y la segunda supervisada. Fase No Supervisada: Los centros de las funciones de base radial se determinan mediante un algoritmo clasificación no supervisado que permita dividir el espacio de patrones de entrada en clases. El número de clases es el número de neuronas ocultas en la red de base radial. Se puede utilizar el algoritmo de K medias, o cualquier otro, e incluso los mapas autoorganizados de Kohonen. Las amplitudes o desviaciones se calcular de manera que cada neurona oculta se active de una región del espacio de entrada y de manera que cada neurona oculta se active en una región del espacio de entrada y de manera que el solapamiento de las zonas de activación de una neurona a otra sea lo más ligero posible, para supervisar así la interpolación. Entre otras, se pueden usar las heurísticas de los vecinos más cercanos, la media uniforme de las distancias euclídeas del centro Ci a los p centros más cercanos, ó la media geométrica de las distancias centro Ci a los p centro más cercanos ó incluso valores determinados que permitan un valor de salida predeterminado luego e aplicar la función de base radial. Fase Supervisada. Se busca minimizar el error entre el valor de salida de al red y el de la salida deseada que corresponde a su respectivo par p de entrada. Para ello se puede seguir el método de mínimos cuadrados o el de la seudoinversa. Mínimos Cuadrados: Las ecuaciones que se obtienen para ser aplicadas son:

wik (n)  wik (n  1)   1 ( s k (n)  y k (n))i (n) u k (n)  u k (n.  1)   1 ( s k (n)  y k (n)) para...k  1,2,...ryparai  1,..., m Seudoinversa Se aplica la ecuación:

W  G   S  (G t  G) 1  G t  S

55

Donde W es la matriz de pesos y umbrales de la red; G + es la matriz seudoinvesa de G, G es la matriz que contiene los valores de las funciones de base radial (salida de la capa oculta) y S la matriz que tiene todas las salidas deseadas. D2.2. Aprendizaje totalmente supervisado: Dado {(X(n), S(n))}n=1…N el conjunto de patrones de entrada y sus salidas deseadas, el método de aprendizaje totalmente supervisado para las redes de neuronas de base radial se resume en los siguientes pasos: 1) Se inicializan todos los parámetros de la red. En el caso de las amplitudes, pesos y umbrales, esta inicialización suele hacerse de manera aleatoria con valores cercanos a cero. Para los centros es, generalmente, preferible inicializarlos aleatoriamente a patrones de entrada o a la salida de un algoritmo de clasificación aplicado en el espacio de entrada. 2) Se toma un patrón del conjunto de patrones disponibles (X(n),S(n)) y se calcula al salida de la red, Y(n), para el patrón de entrad X(n). 3) Se evalúa el error e(n) cometido pro la red para dicho patrón, con la ecuación: r

e(n) = ½

 (s K 1

k

(n)  y k (n)) 2

donde Y(n) = (y 1 (n),..., y r (n)) y S(n) = (s 1 (n),..., s r (n)) los vectores de salida de la red y salida deseada para el patrón de entrada X(n), respectivamente. 4) Se modifican los pesos, umbrales, centros y amplitudes de la red utilizando las ecuaciones: pesos:

w

ik

(n)  wik (n  1)  1 (sk (n)  yk (n))i (n)

umbrales:

u k (n)  u k (n  1)  1 (s k (n)  y k (n)) para k = 1,2,..., r y para i = 1,...,m centros: r

( x j  cij )

k 1

d i2

cij (n)  cij (n  1)   2 ( ( s k (n)  y k (n)) wik )i (n)

para j = 1,2, ..., p y para i = 1,..., m

56

amplitudes: r

d i (n)  d i (n  1)   3 ( ( s k (n)  y k (n)) wik )i (n) k 1

X ( n)  C i d i3

2

.

Para i = 1,..., m 5) Se repiten los pasos 2, 3 y 4 para todos los patrones de entrenamiento. 6) Se repiten los pasos 2, 3, 4 y 5 hasta conseguir la convergencia, es decir, hasta que la suma de los errores para todos los patrones se estabilice, según la ecuación: N

E = 1/N

 e( n ) n 1

en este momento se alcanza un mínimo de dicha función. La ubicación de los centros del campo de recepción es un tema crítico y hay muchas alternativas para su determinación. Por ejemplo, un centro y las correspondientes neuronas de capa oculta pueden ser consideradas como cada vector input del conjunto de entrenamiento. Los vectores de entrenamiento tienden a poder agruparse, para no tener más neuronas de la capa oculta que las que son necesarias. Ya que de lo contrario, el resultado sería un tiempo de entrenamiento más largo y la operación más lenta durante la etapa de entrenamiento, por la mayor cantidad de cálculos. Aunque se pierda en exactitud. El diámetro de la región de recepción, determinado por el valor de sigma (desviación estándar), puede tener un profundo efecto sobre la exactitud del sistema. El objetivo es cubrir el espacio de input con los campos de recepción lo más uniformemente posible. Si el espacio entre los centros no es uniforme, puede ser necesario para cada neurona de la capa oculta tener su propio valor de sigma. Para las neuronas de capa oculta cuyos centros están ampliamente separados de otros, sigma debe ser lo suficientemente grande para cubrir la separación, como sea, aquellas en el centro de un cluster deben tener una pequeña sigma si la forma del cluster es representado exactamente. Dependiendo de las particularidades de la arquitectura de este tipo de Redes se presentan tipos como la: Red Neuronal de Regresión Generalizada GRAN, de aplicación principalmente para clasificar.

57

Este sistema desarrollado (Specht, 1991) contiene los métodos de función de base radial antes descritos, así como los de las Redes Neuronales Probabilísticas (PNN), otro tipo de redes. Tienen la propiedad deseable de requerir un entrenamiento no iterativo. Aproxima cualquier función arbitraria entre vectores input y output, diseñando una función estimada, directamente desde los datos de entrenamiento. Además, es consistente, tanto como el entrenamiento se vuelva más largo, la estimación del error se aproxima a cero, con solo moderadas restricciones de la función. GRNN se basa en al teoría de regresión no lineal, una bien establecida técnica estadística para estimar funciones. Por definición, la regresión de una variable dependiente y, dado x y un conjunto de entrenamiento. El conjunto de entrenamiento consiste de valores de x, cada uno con su correspondiente y (x e y son, en general, vectores) Note.- Que y puede ser alterado mediante ruidos adicionales. A pesar de esto el método de regresión producirá el valor estimado de y que minimiza el cuadrado medio del error. GRNN se basa en la siguiente fórmula estadística: 

E[ y / x] 

 

  

yf ( x, y )dy f ( x, y )dy

donde: y = salida del estimador. x= vector de entrada del estimador E[y/x] = el valor esperado de salida, dado el vector de entrada x. f(x,y) = la unión de la función de la función de densidad de probabilidad (pdf) de x e y. GRNN es; en esencia, un método para estimar f(x,y) dado el conjunto de entrenamiento. Debido a que la pdf es derivada a partir de los datos sin preconcepciones sobre su forma, el sistema es perfectamente general. No hay problema si las funciones están compuestas de múltiples regiones no Gaussianas no un idas en cualquier número e dimensiones, tanto como de distribuciones más simples. Specht muestra que yj, el valor de la función, es estimado óptimamente como sigue:

58

n

n

i 1

i 1

y j   hi wij /  hi

Donde: Wij = la salida objetivo (deseada) correspondiente al vector entrenamiento de entrada xi y salida yj hi  exp[  Di2 / 2 2 )], la salida de una neurona de capa oculta. Di2  ( x  u i ) T ( x  u i ), la distancia al cuadrado entre el vector input x y el

vector de entrenamiento u. x = vector de entrada (un vector columna) ui = vector de entrenamiento i, el centro de la neurona i (un vector columna). σ = una constante controladora del tamaño de la región respectiva. Otras formas de mejorar el desempeño. La Función de distancia Euclidiana, otras veces referida como la normal L 2, es solo una de un gran número de funciones que pueden ser usadas. Specht (1991) reporta que la L1 o (city block norm) “bloque normal de vecindad” que también satisface el criterio de consistencia de Parzen puede ser usado sin cambios significativos en los resultados, pero con una gran reducción en los cálculos requeridos. En este caso la función de distancia es calculada como sigue:

Di1   xk   k k

Es usualmente posible mejorar la exactitud mediante el ajuste de la ubicación y/o forma de la función de base (Lee y Kil, 1991). Esto puede ser cumplido mediante la modificaciones de la función exponencial. La Distancia de Mahalanobis es una medida de distancia introducida por Mahalanobis en 1936. Su utilidad radica en que es una forma de determinar la similitud entre dos variables aleatorias multidimensionales. Se diferencia de la Distancia Euclídea en que tiene en cuenta la correlación entre las variables aleatorias. Formalmente, la distancia de Mahalanobis entre dos variables aleatorias con la misma distribución de probabilidad

y

con matriz de

covarianza Σ se define como:

59

Se puede construir una Red de Base Radial de Diseño Exacto, que produzca error cero sobre los vectores de entrenamiento. Es decir con datos de entrada en pares p, t (input y output) y con una determinada amplitud se puede obtener una red con pesos y umbrales cuya salida sea exactamente t cuando la entrada es p. Para ello se tienen que crear tantas neuronas ocultas con función radial como vectores input se tiene en p. En este caso se establece como umbral de la capa oculta 0.8326/amplitud, y los pesos de la capa oculta a la de salida y los umbrales de la capa de salida se determinan mediante la expresión: [W {2,1}b{2}] * [ A{1}; ones ]  T

Teniendo en cuanta que podemos conocer A{1} y T se puede obtener W y b aplicando: [W b]=T/[P;ones(1,Q)] Donde Q es el número de vectores de entrada (que en este caso equivale al número de neuronas de la capa de entrada).

60

E. Redes Neuronales Recurrentes E.1. Arquitectura Son redes neuronales que no están sometidas a la restricción de conectividad, que consiste en no permitir conexiones entre neuronas creando ciclos o bucles. Estas redes se engloban bajo el nombre de redes neuronales recurrentes. Existen varias arquitecturas de redes recurrentes que aparecen en la literatura que tienen sus algoritmos de aprendizaje. Es importante tener una visión global de este grupo de redes, especialmente las arquitecturas más conocidas y utilizadas. Las redes de neuronas recurrentes se caracterizan porque se crean bucles en las neuronas de la red mediante el uso de las llamadas conexiones recurrentes, pudiendo aparecer en la red conexiones de una neurona con ella misma, conexiones entre neuronas de una misma capa o conexiones de las neuronas de una capa a la capa anterior. La consideración de conexiones recurrentes en una red de neuronas implica, generalmente, un aumento del número de pesos o parámetros ajustables en la red, lo cual permite que aumente la capacidad de representación, pues en las redes de neuronas artificiales la información se representa de manera distribuida en los pesos de las conexiones y/o en las propias neuronas. Sin embargo, el aumento de parámetros ajustables, complica el aprendizaje de las redes recurrentes. En la Figura 21 que se presenta a continuación se aprecian ejemplos de conexiones recurrentes:

Figura 21. Ejemplos de neuronas con conexiones recurrentes.

61

Al introducir conexiones recurrentes creando bucles, la activación de una neurona con conexiones recurrentes ya no depende sólo de las activaciones de las neuronas en la capa anterior, sino que depende también del estado o activación de cualquier otra neurona de la red conectada a ella, o incluso de su propia activación. Por tanto, en el contexto de redes de neuronas recurrentes es necesario incluir la variable tiempo en la activación o estado de una neurona, la cual viene dada por la ecuación: ai (t  1)  f i ( w ji a j (t )) j

donde el índice j varía en el conjunto de todas las neuronas conectadas a la neurona i. La presencia de la variable tiempo en las activaciones de las neuronas recurrentes, hace que estas redes posean un comportamiento dinámico o temporal. Dicho comportamiento temporal puede entenderse de dos formas diferentes, lo cual implica dos maneras distintas de entender el modo de actuación y aprendizaje dentro del grupo de redes recurrentes. Estos son: Evolución de actividades de las red hasta alcanzar un punto estable; y Evolución de actividades de las red en modo continuo. Dentro del primer grupos está la red más conocida de las redes recurrentes, cual es la Red de Hopfield. Red de Hopfield Es un modelo de memoria asociativa de patrones o muestras, que es capaz de recuperar patrones almacenados a partir de información incompleta sobre los patrones o incluso a partir de patrones con ruido. Debido a la arquitectura y al funcionamiento, la red de Hopfield se puede incluir dentro de las redes de neuronas recurrentes, pues todas las neuronas están conectadas con todas las demás, además de existir un procesamiento temporal de los patrones. Sin embargo, lo que la diferencia del resto de las redes de neuronales recurrentes es que actúa como memoria asociativa, procesando patrones generalmente estáticos, es decir, patrones en las que no interviene la variable tiempo.

62

S2

S1

S3

S4

Figura 22. Red de Hopfield para n= 4

La red de Hopfield está formada por n neuronas, cada una conectada a todas las demás salvo a ella misma, como se muestra en la Figura 22. La matriz de conexiones de la red de Hopfield es una matriz W = ( wij ) de orden n x n, donde

w

ij

representa el peso de la conexión de la neurona i a la neurona j.

Dicha matriz posee las siguientes particularidades : Es una matriz simétrica, es decir

w

ij

=

w

ij

 i, j=1,…,n. Esto implica que el

peso de la conexión de la neurona i a la neurona j es igual al peso de la conexión de la neurona j a la neurona i. Los elementos de la diagonal de la matriz son iguales a cero, es decir,

w

ij

= 0,

 i = 1,…,n, debido a que en la red de Hopfield no existen conexiones de una

neurona a ella misma. Con base al concepto formal de neurona de McCulloch-Pitts, las neuronas de la red de Hopfield poseen dos estados, generalmente -1 y 1, que vienen determinados por el nivel o potencial de activación que recibe la neurona. De este modo, el estado de la neurona i en un instante de tiempo t + 1, denotado como s i (t+1) , viene dado por:

s (t  1)  sgn( v (t  1)) i

i

63

donde sgn es la función signo dada por : sgn vi (t  1))   1  si  vi (t  1) 0

 1  si  vi (t  1)0 y vi (t  1) es el nivel de activación que actúa sobre la neurona i, calculado como: n

vi (t  1)   w ji s j (t ) ui ; para i = 1,2,..., n j 1

donde s j (t) es el estado de la neurona j en el instante anterior t y u i es un umbral fijo aplicado a la neurona i. En el caso de que el nivel de activación que recibe la neurona, v i (t+1), sea igual a cero, se considera que el estado de la neurona no cambia con respecto al instante de tiempo anterior, es decir, s i (t+1) = s i (t). De las definiciones anteriores, se observa que para la red de Hopfield no tiene sentido hablar de neuronas de entrada o salida de la red, sino del estado de la red en cada instante de tiempo. Para una red de Hopfield con n neuronas, el estado viene dado por:

s(t  1)  s1 (t  1) , s2 (t  1),..., sn (t  1)

t

donde el símbolo t denota la matriz transpuesta. Dicho estado s representa una palabra binaria de n bits de información. E.2. Aprendizaje En la red de Hopfield se distinguen dos fases de operación, llamadas fase de almacenamiento y fase de recuperación. Durante la fase de almacenamiento se van a determinar los valores que deben tomar los pesos de la red para almacenar un conjunto de patrones, y la fase de recuperación describe el mecanismo para recuperar la información almacenada a partir de información incompleta. Fase de almacenamiento Sea x(k )  ( x1 (k ), x2 (k ),..., xn (k ))k 1,..., p , el conjunto de patrones que se desea almacenar, donde cada patrón X(K) es un vector n-dimensional cuyas componentes toman valores binarios, es decir, valores -1 o 1. De acuerdo con la regla de Hebb (Hebb, 1949) para almacenar patrones, el peso de la

64

conexión de la neurona j a la neurona i en la red de Hopfield viene dado por p

w ji   x j (k )xi (k )    i  j k 1

En la ecuación anterior de observa que si x j (k) y x i (k) son iguales [x j (k) = x i (k) = 1 o -1 ] el valor del peso w ji se incrementa en una unidad, y en cualquier caso, el valor del peso se decrementa en una unidad. Fase de recuperación

x  ( x1 , x2 ,..., xn )

Sea

un patrón de prueba, diferente a los patrones

almacenados en la fase anterior. Dicho patrón representa, generalmente, una versión de algún patrón almacenado x(k) con información incompleta o ruido. Mediante esta fase, la red de Hopfield va a recuperar el patrón almacenado más parecido al patrón de prueba x.

Para ello, sigue el siguiente

procedimiento : Se inicializan los estados de las n neuronas de la red utilizando dicho patrón x, es decir : Si(0) = Xi para i = 1,2,…,n Se calculan los estados de la red en los siguientes instantes de tiempo utilizando las ecuaciones de s i (t  1) , sng vi (t  1)  y de

vi (t  1)

hasta

conseguir un punto estable o punto fijo de la red, entendiendo como punto estable aquel en el que los estados de todas las neuronas de la red permanecen invariantes con el tiempo, es decir :

s (t  1)  s (t )    i  1,2,..., n i

i

El estado estable de la red representa el patrón recuperado a partir del patrón de prueba x. Es posible que durante la fase de recuperación la red de Hopfield converja a estados estables que no corresponden con los patrones almacenados. Dichos estados reciben el nombre de estados esprios y, generalmente, vienen producidos por el almacenamiento de un número elevado de patrones. Dicho problema puede ser ligeramente corregido aplicando la regla de Hebb al revés (Hopfield et al., 1983) Función energía

65

Se ha visto que para otros tipos de redes, como el PERCEPTRON multicapa, los mapas auto-organizados de Kohonen, etc., existe una función error o función energía que describe el comportamiento de dichas redes y permite entender su funcionamiento. En el caso de la Red de Hopfield también existe dicha función, como se presenta a continuación. Dada una red de Hopfield con n neuronas y conexiones W = (w ij ), siendo W una matriz simétrica y con ceros en la diagonal, la función energía asociada a dicha red viene dada por la siguiente ecuación de E: n 1 n n E    wij si s j   ui si 2 i 1 j 1 i 1

Separando la contribución de una neurona K a la función energía dada por la expresión anterior, se puede escribir que: E

1 1 1 wij xi x j   u i si  s k  wkj s j  s k  wik si u k s k  2 ik j k 2 2 ik j I

El cambio de estado de la neurona K de la red, denotado como

s k  s k (t  1)  s k (t ), produce un cambio en al función energía, denotado como E  E (t  1)  E (t ) , el cual, de acuerdo con la ecuación anterior, adopta la

siguiente expresión: 1 1 E   s k  wkj s j  s k  wik si  u k s k 2 2 j j

Debido a que las conexiones de la red de Hopfield son simétricas, se puede escribir :

  E  s k   w jk s j u k   j  Por tanto, cuando los estados de la red cambian siguiendo las ecuaciones de s i (t  1) , sgn vi (t  1)  y de vi (t  1)  , E es siempre negativo, por lo que la función E es monótona decreciente respecto a los estados de la red. De este modo, el punto estable de la red de Hopfield se corresponde con un mínimo local de la función energía. De hecho, la manera de modificar los estados de la red en la fase de recuperación (ecuaciones de s i (t  1) , sgn vi (t  1)  y de

vi (t  1)) no es más que el resultado de aplicar el método de descenso del

66

gradiente para encontrar un mínimo de la función energía dada por la Ecuación E de la función energía, antes presentada. Debido a que un mínimo local de la función energía se corresponde con un punto estable de la red de Hopfield, todo problema de optimización que pueda escribirse en términos de la función energía (Ecuación de E ) puede ser, en principio, resuelto con la red de Hopfield asociada a dicha función. Así, por ejemplo, una aplicación interesante de la red de Hopfield, desde el punto de vista teórico, es el problema del viajante, en el que se busca la distancia mínima ente n ciudades. Hopfield formuló dicho problema en términos de la función energía dada por la Ecuación de E. F. Redes de Aprendizaje no Supervisado: F.1. Arquitectura Características básicas Las Redes de Neuronas Artificiales con aprendizaje no supervisado son aquellas que no necesitan de un profesor o supervisor externo para realizar su aprendizaje. Son capaces de modificar sus parámetros internamente, adaptándose al entorno de la mejor manera posible. Biológicamente, existen claros ejemplo de aprendizaje no supervisado, así como de supervisado. La no supervisión consiste en que la red descubra por sí sola características, regularidades, correlaciones o categorías en los datos de entrada, y se obtengan de forma codificada a la salida. Por tanto, se puede decir que estas unidades y conexiones muestran cierto grado de auto-organización. El aprendizaje no supervisado sólo consigue resultados útiles si en los datos de entrada existe cierto tipo de redundancia. Sin redundancia sería imposible encontrar patrones o características en los datos, lo cual se asemeja necesariamente a ruido aleatorio. En este sentido, la redundancia es fuente de conocimiento.

Ello significa que el contenido total de información del

conjunto de los datos de entrada es menor que el máximo que podría ser soportado por el mismo canal; esa diferencia es la redundancia. Regla de Hebb Hebb (1949) postuló un sencillo pero potente mecanismo de regulación de las conexiones neuronales, que constituyó la base de las reglas de aprendizaje que más tarde se desarrollarían. La regla de Hebb, en su versión más

67

elemental se expresa como sigue : “Cuando un axón de una célula A está bastante cerca para excitar a una célula B y repetida o presistentemente dispara, entonces se produce algún proceso de

desarrollo o cambio

metabólico de tal forma que la eficiencia del disparo de A hacia B aumenta”. La propuesta de Hebb es de especial

relevancia porque indica que la

información necesaria para modificar el valor de una conexión se encuentra localmente disponible a ambos lados de la conexión. En la actualidad existe un gran número de redes neuronales cuyo aprendizaje está basado en la regla de Hebb como las conocidas de Hopfield (1982) y algunos modelos de redes propuestos por Kohonen (1977). La regla de modificación sináptica en este tipo de redes no depende de ningún factor externo; sólo hace que las neuronas vayan incluyéndose unas a otras, a partir de las reacciones a los estímulos recibidos. Modelo de interacción lateral. Este modelo propone que la red puede adaptar sus respuestas de tal forma que la posición de la neurona que produce la respuesta pasa a ser específica de una determinada característica de la señal de entrada. Esta especificidad se da en el mismo orden topológico para la red que el que existe entre las características de las señales de entrada. Esto significa que la estructura topológica de la red absorbe a su vez aquella que se produce entre las características de los datos, y por tanto el sistema no sólo es capaz

de

realizar una clasificación de estímulos, sino que además pondrá de relieve y conservará las relaciones existentes entre las diferentes clases obtenidas. Hay varios modelos de Redes de Neuronas Artificiales que tratan de incorporar las propiedades anteriores. Para ello cada neurona está conectada con otras de su entorno de manera que produce una excitación en las más próximas y una inhibición en las más alejadas. Tanto la excitación como la inhibición laterales son gradualmente más débiles a medida que nos alejamos de la neurona en cuestión. Este mecanismo hace que cuando un estímulo produce una reacción en una célula, las células de su inmediato entorno se vean influenciadas por dicha reacción, de una manera positiva las más cercanas, y negativa las más alejadas.

Igualmente, a medida que la señal se aleja de la célula que la

68

produjo, esa influencia va progresivamente debilitándose. De esta manera el orden de las neuronas influye directamente en la forma en que las señales van a ser propagadas a través de la red, y en la respuesta de la misma. Aprendizaje competitivo. La arquitectura de una red de neuronas artificial con aprendizaje competitivo es la siguiente. Existen dos capas denominadas F1 y F2. La capa F1 es la llamada capa de entrada y recibe los datos de entrada (señales de entorno). La capa F2 es la capa de competición y se encarga de producir la salida. Cada célula de la capa F1 está conectada con todas las células de la capa F2 a través de conexiones ponderadas variables.

Por su parte la capa F2,

además de recibir las entradas de la capa F1 tiene conexiones laterales inhibitorias entre todas las células de su capa, excepto consigo misma, en que la conexión es excitatoria. Las conexiones existentes en la capa F2 son fijas y el valor es asignado en el momento de creación de la red. Esta arquitectura es un sistema de interacción lateral en el que la función de interacción de cada neurona sólo toma valores positivos para un radio de cero, es decir, para la propia neurona, y valores negativos constantes para el resto de neuronas. Cada neurona se refuerza a sí misma, realimenta su valor de activación para compensar las inhibiciones que provienen del resto de la neuronas de su capa. Ver figura 23.

F2

F1 Figura 23. Arquitectura de una red de aprendizaje competitivo

F.2. Aprendizaje Aprendizaje competitivo. Es un tipo de aprendizaje no supervisado que sirve de base para varios modelos de Redes de Neuronas Artificiales. El objetivo de estas redes es categorizar los datos de entrada. Así los datos parecidos

69

deben ser clasificados como pertenecientes a la misma categoría. En estos modelos de red suele haber una capa de clasificación compuesta de tantas neuronas como categorías pueda haber en los datos. Cada categoría está representada por un prototipo cuyas características son una especie de compendio de las características de los datos pertenecientes a esa misma categoría. En la capa de clasificación, cada neurona corresponde a un prototipo. El sistema debe relacionar cada neurona, prototipo, con los datos de entrada que representa. Es decir, es agrupa los datos de entrada en categorías, por similitud, y se asigna a cada categoría un prototipo, que más tarde será utilizado para clasificar datos nuevos y desconocidos. Cuando se recibe una entrada en la capa F!, ésta se propaga hasta la capa F2, cuyas neuronas tendrán un valor de activación proporcional al valor de la entrada propagada. Esta proporción vendrá dada por los valores de la conexiones entre F1 y F2 (W ij ) . Una vez que las neuronas de F2 han sido activadas por la capa F1, ésta deja de actuar, y la señal es propagada, de forma asíncrona, a través de la capa F2, de manera que todas las neuronas tratarán de impedir que las demás tengan un valor de activación alto, gracias a las conexiones inhibitorias con todas sus vecinas; a la vez que intentarán tener ellas mismas un valor de activación alto, gracias a las conexiones reflexivas excitatorias. Ver Figura 24.

Figura 24. Arquitectura de red con capa de aprendizaje competitivo (Matlab)

El algoritmo que describe el funcionamiento de la red es el siguiente : Se recibe el estímulo en F1.

70

Se propaga la señal hasta F2 y se calcula el valor de excitación para cada neurona de F2. Se inhiben las conexiones entre la capa F1 y la F2. Se propaga la señal por la capa F2, calculándose los nuevos valores de excitación de las neuronas. Cuando sólo haya una célula (célula ganadora) con un valor de salida mayor que cero, ir al paso 5. Ir al paso 3. Restablecer las conexiones entre las capas F1 y F2 Calcular los nuevos valores para los pesos de las conexiones entre la capa F1 y la célula neurona ganadora en el paso 3 La capa F2 se ha estabilizado cuando todas las salidas de las neuronas tienen un valor de cero, excepto una, que será la que al principio ha recibido la entrada más alta de la capa F1, ya que será la que habrá inhibido en mayor grado al resto y también habrá reforzado a sí misma en mayor grado. Las neuronas de la capa F2 compiten por la entrada, de ahí el nombre del método. La neurona que gana la competición: neurona ganadora. Esta representa al prototipo que se asigna al dato de entrada. La siguiente vez el mismo dato de entrada hará activarse aún más a su prototipo relacionado, para cada dato de entrada se realiza un ciclo de aprendizaje. Las conexiones entra la capa F1 y la neurona ganadora son reforzadas. Este aprendizaje sólo modifica las conexiones de la neurona ganadora. Esto hace que en el futuro cada neurona tanga aún mayor facilidad para reconocer el estímulo que aprendió, e incluso estímulos parecidos. Redes del tipo no supervisado, que se han desarrollado a partir de los estudios antes mencionados son las de Mapas Autoorganizativos de Kohonen y las de Teoría de la Resonancia Adaptativa ART. Ver Figura adjunta.

71

Figura 24a. Arquitectura de red con capa de mapa auto organizativo (Matlab)

Sobre las ventajas de las Redes Neuronales Artificiales (HAYKIN, S.,1994; ZORRIASSATINE, F. y TANNOCK, D. ,1998) Debido a su constitución y a sus fundamentos, las RNA presentan un gran número de características semejantes a las del cerebro. Por ejemplo, son capaces de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de abstraer características esenciales a partir de entradas que representan información irrelevante, etc. Esto hace que ofrezcan numerosas ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas. Estas ventajas incluyen: 1) Aprendizaje Adaptativo: Es una de las características más atractivas de las redes neuronales, es la capacidad de aprender a realizar tareas basadas en un entrenamiento o una experiencia inicial. En el proceso de aprendizaje, los enlaces ponderados de las neuronas se ajustan de manera que se obtengan unos resultados específicos. Una RNA no necesita un algoritmo para resolver un problema, ya que ella puede generar su propia distribución de los pesos de los enlaces mediante el aprendizaje. También existen redes que continúan aprendiendo a lo largo de su vida, después de completado e periodo inicial de entrenamiento. La función del diseñador es únicamente la obtención de la arquitectura apropiada. No es problema del diseñador el cómo la red aprenderá a discriminar; sin embargo, si es necesario que desarrolle un buen algoritmo de aprendizaje que proporcione la capacidad de discriminar de la red mediante un entrenamiento con patrones.

72

2) Autoorganización: Las redes neuronales usan su capacidad de aprendizaje adaptativo para organizar la información que reciben durante el aprendizaje y/o la operación. Una RNA puede crear su propia organización o representación de la información que recibe mediante una etapa de aprendizaje. Esta autoorganización provoca la facultad de las redes neuronales de responder apropiadamente cuando se les presentan datos o situaciones a los que no habían sido expuestas anteriormente. 3) Tolerancia a Fallos: Comparados con los sistemas computacionales tradicionales, los cuales pierden su funcionalidad en cuanto sufren un pequeño error de memoria, en las redes neuronales, si se produce un fallo en un pequeño número de neuronas, aunque el comportamiento del sistema se ve influenciado, sin embargo no sufre una caída repentina. Hay dos aspectos distintos respecto a la tolerancia a fallos: primero, las redes pueden aprender a reconocer patrones con ruido, distorsionados, o incompleta. Segundo pueden seguir realizando su función (con cierta degradación) aunque se destruya parte de la red. La razón por la que las redes neuronales son tolerantes a fallos es que tienen su información distribuida en las conexiones entre neuronas, existiendo cierto grado de redundancia en ese tipo de almacenamiento, a diferencia de la mayoría de los ordenadores algorítmicos y sistemas de recuperación de datos que almacenan cada pieza de información en un estado único, localizado y direccionable. 4) Operación en Tiempo Real: Los computadores neuronales pueden ser realizados en paralelo, y se diseñan y fabrican máquinas con hardware especial para obtener esta capacidad. 5) Fácil inserción dentro de la tecnología existente. Debido a que una red puede ser rápidamente entrenada, comprobada, verificada y trasladada a una implementación hardware de bajo costo, es fácil insertar RNA para aplicaciones específicas dentro de sistemas existentes (chips, por ejemplo). De esta manera, las redes neuronales se pueden utilizar para mejorar sistemas de forma incremental, y cada paso puede ser evaluado antes de acometer un desarrollo más amplio.

73

Sobre aplicaciones de las Redes Neuronales Artificiales (ISASI, P. y GALVAN, I., 2004; MARTIN DEL BRIO, B., SANZ MOLINA A.,

2002; HILERA J. y MARTINEZ V., 2000; HAGAN, M., DEMUTH, H., VÉALE, M.,1996;

HAYKIN, S.,1994 )

Las redes neuronales son una tecnología computacional emergente que puede utilizarse en un gran número y variedad de aplicaciones, tanto como comerciales como militares. Hay muchos tipos diferentes de redes neuronales, cada uno de los cuales tiene una aplicación particular más apropiada. Separándolas según las distintas disciplinas algunos ejemplos de sus aplicaciones son: Biología: 

Aprender más acerca del cerebro y otros sistemas.



Obtención de modelos de la retina.

Empresa 

Reconocimiento de caracteres escritos.



Identificación de candidatos para posiciones específicas.



Optimización de plazas y horarios en líneas de vuelo.



Explotación de bases de datos.



Evaluación de probabilidad de formaciones geológicas y petrolíferas.



Síntesis de voz desde texto.

Medio Ambiente 

Analizar tendencias y patrones.



Previsión del tiempo.

Finanzas 

Previsión de la evolución de los precios.



Valoración del riesgo de los créditos.



Identificación de falsificaciones.



Interpretación de firmas.

Manufactura 

Robots automatizados y sistemas de control (visión artificial y sensores de presión, temperatura, gas, etc.)



Control de producción en líneas de proceso.

74



Inspección de calidad.



Filtrado de señales.

Medicina 

Analizadores del habla para la ayuda de audición de sordos profundos.



Diagnóstico y tratamiento a partir de síntomas y/o de datos analíticos (encefalograma, etc.).



Monitorización en cirugía.



Predicción de reacciones adversas a los medicamentos.



Lectoras de Rayos X.



Entendimiento de causa de ataques epilépticos.

Militares 

Clasificación de las señales de radar .



Creación de armas inteligentes.



Optimización del uso de recursos escasos.

Sobre software (PRESSMAN, R.;2002) El software son las instrucciones electrónicas que van a indicar al ordenador que es lo que tiene que hacer. También se puede decir que son los programas usados para dirigir las funciones de un sistema de computación o un hardware. Tipos : a.- Sistema operativo: es el software que controla la ejecución de todas las aplicaciones y de los programas de software de sistema. b.- Programas de ampliación: o también llamado software de aplicación; es el software diseñado y escrito para realizar una tarea especifica, ya sea personal, o de procesamiento. Aquí se incluyen las bases de datos, tratamientos de textos, hojas electrónicas, gráficas, comunicaciones, etc.. c.- Lenguajes de programación: son las herramientas empleadas por el usuario para desarrollar programas, que luego van ha ser ejecutados por el ordenador.

75

Sobre software de aplicación Describe programas que son para el usuario, así descrito para poder realizar casi cualquier tarea. Este es aquel cuyo que puede ser utilizado en cualquier instalación informática, independiente del empleo que vayamos a hacer de ella. Como existen muchos programas se dividen en varias categorías: a. Aplicaciones de negocios: en esta se encuentran los procesadores de palabras, hojas de cálculos, base de datos, Graficadores. b. Aplicaciones de Utilería c. Aplicaciones Personales d. Aplicaciones de Entretenimiento Procesadores de palabras: Estos permiten hacer cambios y correcciones con facilidad, permiten revisar la ortografía e incluso la gramática de un documento, cambiar la apariencia de la letra, agregar gráficos, fusionar listas de direcciones con cartas con envío de correo en grupo, general tablas de contenido, etc. También se puede usar para crear cualquier tipo de documento (carta de negocio, documentos legales). Hojas de cálculo: son procesadores de números tridimensionales. Se pueden crear hojas de trabajo donde puedes colocar textos, números o formulas en las celdas, obteniendo una hoja contable computarizada. También puede crear gráficas y tablas para mostrar gráficamente relaciones entre números. Graficadores: Se utilizan para crear ilustraciones desde cero (0) los; usuarios pueden pintar con dispositivos electrónicos de señalamiento en vez de lápices o brochas. Otro tipo de software para gráfico son las aplicaciones para presentaciones de gráficos con este se crean gráficas y tabla a color y de calidad profesional basados en datos numéricos de otro programa (hoja de calculo). Manejador de base de datos: Se utiliza para organizar los datos guardados en la computadora y permite buscar datos específicos de diferentes maneras. También archivan los datos en orden alfabético esto permite obtener la información que se desean más fácilmente. Sobre los pasos para el desarrollo de un software. 1. Especificación del programa. 2. Diseño del programa

76

3. Codificación del programa 4. Prueba 5. Documentación 6. Mantenimiento 1. Especificación del programa Se conoce también como definición del problema o análisis del programa. En este paso se determinan la información inicial para la elaboración del programa. Es donde se determina qué es lo que debe resolverse con el computador, de qué presupuestos se debe partir en definitiva, Del planteamiento del problema. 2 . Diseño del programa Es diseñar cualquier sistema nuevo o las aplicaciones que se requieren para satisfacer

las

necesidades.

Esta

actividad

se

debe

dividir

en:

- Operaciones de entrada/ salida - Cálculos - Lógica/ comparación - Almacenamiento/ consulta En este paso se genera una solución con técnicas de programación como diseño descendente de programas, pseudocódigos, flujogramas y estructuras lógicas. 3. Codificación del programa Es la generación real del programa con un lenguaje de programación. En esta etapa se hace uso de la lógica que desarrolló en el paso del diseño del programa para efectivamente generar un programa. Se debe seleccionar el lenguaje apropiado para resolver el problema. 4. Prueba y depuración del programa Depurar es correr el programa en una computadora y corregir las partes que no funcionan. En esta fase se comprueba el funcionamiento de cada programa y esto se hace con datos reales o ficticios. Cuando los programas están depurados, se prueban. 5. Documentación del programa

77

Consiste en describir por escrito a nivel técnico los procedimientos relacionados con el programa y su modo de uso. También se debe documentar el programa para que sea más entendible. 6. Mantenimiento del programa Es el paso final del desarrollo del software. Alrededor del 75% del costo total del ciclo de vida de un programa se destina al mantenimiento. El propósito del mantenimiento es garantizar que los programas en uso estén libres de errores de operación y sean eficientes y efectivos. Sobre software de redes neuronales artificiales (Extraído de las páginas Web de las empresas fabricantes) Neuroshell Trader de NeuroShell La herramienta más completa y laureada para el análisis de los mercados financieros utilizando redes neuronales, análisis fractal y algoritmos genéticos. Especialmente de interés para el trader es su producto “ad hoc”. Neuroshell Trader, adaptado para los que sin tener un conocimiento exhaustivo sobre la materia, estén interesados en aplicar esta disciplina en sus inversiones. Son uno de los líderes en Inteligencia Artificial hay muchas aplicaciones que se han desarrollado en campos como al medicina, psicología y otras ciencias. Lenguaje sumamente amigable que permite construir diversas redes con los datos que se tengan sin necesidad de conocer mucho de redes neuronales. Su más reciente desarrollo Turbo prop 2, permite construir arquitecturas y desarrollar sus propios programas. Para programar usa los Lenguajes C++, C# ó Visual Basic, y permite trabajar con cuatro tipos de algoritmos que son los del Predictor, Classifier, GRNN y PNN.

Figura 25. Logotipo NeuroShell

78

NeuroSolutions de NeuroDimension NeuroSolutions es una herramienta gráfica para el desarrollo de redes neuronales, que combina una interfaz de diseño modular y basada en iconos con la implementación de procedimientos de aprendizaje avanzados y optimización genética. El resultado es un entorno prácticamente ilimitado para el diseño de redes neuronales para investigación y para la resolución de problemas reales. Permite trabajar con arquitecturas de Pereptrón Multicapa, Redes de Elman y Jordan, Mapas Auto organizados, Redes de Base radial, Redes Probabilísticas (PNN), Redes de regresión general gRAN, Redes Neuro Fuzzy (CANFIS), Redes con LVQ, Redes de Hopfield, Redes Recurrentes. Tiene una interfase de usuario muy amigable que permite fácilmente realizar trabajos con redes neuronales, pero no permite programar, ni entrar a la lógica de sus programas.

Figura 26. Logotipo NeuroSolutions

MATLAB de Mathworks Es un entorno de computación y desarrollo de aplicaciones totalmente integrado orientado para llevar a cabo proyectos en donde se encuentren implicados elevados cálculos matemáticos y la visualización gráfica de los mismos. MATLAB integra análisis numérico, cálculo matricial, proceso de señal y visualización gráfica en un entorno completo donde los problemas y sus soluciones son expresados del mismo modo en que se escribirían tradicionalmente, sin necesidad de hacer uso de la programación tradicional. Pero también permite hacer programación si se requiere. MATLAB dispone también en la actualidad de un amplio abanico de programas de apoyo especializados, denominados Toolboxes, que extienden significativamente el número de funciones incorporadas en el programa principal. Estos Toolboxes cubren en la actualidad prácticamente casi todas las áreas principales en el mundo de la ingeniería y la simulación, destacando entre ellos los Toolboxes de proceso de imágenes, señal, control robusto,

79

estadística, análisis financiero, matemáticas simbólicas, redes neuronales, lógica difusa, identificación de sistemas, simulación de sistemas dinámicos, etc. es un entorno de cálculo técnico, que se ha convertido en estándar de la industria, con capacidades no superadas en computación y visualización numérica. Asimismo, permite poder programas desarrollar programas, modificar programas aplicativos de redes neuronales y simular un conjunto muy grande de redes neuronales y de comandos matemáticos y estadísticos relacionados.

Figura 27. Logotipo Matlab

SPRIN N de AERN Principalmente hace predicciones en mercados de capitales mediante redes neuronales. El programa SprinN permite la utilización de diversos indicadores técnicos. La utilidad de los indicadores técnicos radica en la posibilidad de incluir en los proyectos o redes neuronales series derivadas de la original a través de las variables. Hace predicciones , entre otros de índices bursátiles, valores, futuros, opciones, acciones, fondos de inversión, tipos de interés, materias primas, mercados de divisas, renta variable, mercados derivados, ... cualquier activo financiero en cualquier mercado de capitales. Utiliza técnicas de Inteligencia Artificial, redes neuronales Sistema dinámico que adapta su arquitectura al problema planteado, el motor de predicción, desarrollado por AERN

aplicaciones

empresariales

con

redes

neuronales,

adapta

dinámicamente su arquitectura según la definición de cada proyecto predictivo. Permite comprobar la bondad de las predicciones escoger el riesgo, adaptándose a su perfil inversor operaciones a corto y a largo (short - long) medir correlaciones entre distintos valores o activos financieros definir el horizonte temporal de su inversión incorporar las comisiones, corretajes, costes de intermediación considerar indicadores del análisis técnico trabajar

80

con series temporales derivadas de las originales considerar otro tipo de series temporales, por ejemplo series de opinión exportar los resultados obtenidos SprinN contempla los indicadores siguientes: media móvil simple y exponencial,

desviación

móvil

y

exponencial,

momento,

incremento,

incremento respecto a medias móviles, volatilidad , grado de volatilidad , indicador estocástico , medias del indicador estocástico, MACD simple e incremental, RSI , ROC, Williams, desviación estándar simple y exponencial, oscilador simple y exponencial , oscilador relativo, índice de Gumbel.

SprinN Figura 28. Logotipo SprinN

81

1.3. Marco Conceptual El Marco Conceptual de la Tesis comprende los siguientes conceptos: ALGORITMOS Los algoritmos son secuencias de operaciones u acciones a realizar para resolver determinado problema. En informática se utiliza el concepto para describir un método de resolución de un problema que es adecuado para su implementación como programa de computadora. APRENDIZAJE DE UNA RED NEURONAL ARTIFICIAL RNA El aprendizaje de una RNA es un proceso de modificación de los pesos de las conexiones, hasta que la respuesta de la RNA acaba por reproducir las propiedades buscadas. Ello luego se puede utilizar para resolver otros problemas iguales o similares. CALIDAD La calidad es el conjunto de características que tienen un producto o servicio que permiten satisfacer a los clientes. Ello implica cumplir con las especificaciones establecidas en el diseño para satisfacer las necesidades de los clientes. Un producto o servicio es de buena calidad cuando satisface las necesidades de los clientes, cuanto más satisface a los clientes se entiende que es de mejor calidad. INTELIGENCIA ARTIFICIAL IA La IA tiene por objeto el estudio del comportamiento inteligente en las máquinas. El comportamiento inteligente supone percibir, razonar, aprender, comunicarse y actuar en entornos complejos. En el largo plazo, una de las metas de la IA es el desarrollo de máquinas que puedan hacer todas estas cosas igual o quizá incluso mejor que los humanos. MEJORAMIENTO DE LA CALIDAD Es el conjunto de actividades que se realizan en una empresa u organización para mejora la satisfacción de los clientes. Estas actividades están relacionadas con la mejora del diseño inicial del producto o con la mejora de los procesos que se siguen para transformar las entradas en el producto o servicio final. En el mundo competitivo actual estamos obligados a mejorar la calidad de manera permanente.

82

REDES NEURONALES ARTIFICIALES Las Redes Neuronales Artificiales (RNA) son sistemas de procesamiento de la información cuya estructura y funcionamiento están inspirados en las redes neuronales biológicas. Consisten en un conjunto de elementos simples de procesamiento llamados nodos o neuronas artificiales conectadas entre sí por conexiones que tienen un valor numérico modificable llamado peso. La actividad que una neurona artificial realiza, consiste en sumar los valores de las entradas (inputs) por sus pesos, respectivos, que recibe de otras unidades conectadas a ella; dicha sumatoria ingresa a una función de activación, la misma que permite obtener salidas (ontput).

Una RNA es

entrenada para realizar una determinada tarea, mediante un proceso de aprendizaje. REDES NEURONALES (BIOLÓGICAS) Son la base del funcionamiento del sistema nervioso de los animales y del ser humano. Son conjuntos de neuronas articuladas entre sí mediante conexiones, y que recepcionan

estímulos, los procesan y transmiten la

información procesada. El sistema nervioso y hormonal, en conexión con los órganos de los sentidos y los órganos efectores (músculos, glándulas), recogen información, la transmiten y elaboran, en parte también la almacenan y la envían de nuevo en forma elaborada. El sistema de información neuronal se compone de tres partes: los receptores, el sistema nervioso y los órganos efectores. El elemento estructural y funcional más esencial, en el sistema de comunicación neuronal, es la célula nerviosa o neurona. Las neuronas están conectadas entre sí formando redes. SISTEMAS EXPERTOS SE Son una rama

de la IA que hace un amplio uso del conocimiento

especializado para resolver problemas como un especialista humano. Es un sistema de cómputo

que emula la habilidad de tomar decisiones de un

especialista humano. El concepto básico de un SE, es que el usuario aporta los hechos al SE y recibe consejo como respuesta. SOFTWARE Conjunto de instrucciones detalladas que controlan la operación de un sistema computacional, de manera que pueda resolver problemas específicos.

83

Comprende programas de cualquier tamaño y arquitectura, documentos que comprenden formularios virtuales e impresos y datos que combinan números y texto y también incluyen representaciones de información de audio, video e imágenes. Los Software de IA hacen uso de algoritmos no numéricos para resolver problemas complejos para los que no son adecuados el cálculo o el análisis directo. SOFTWARE - PASOS PARA DESARROLLAR UN SOFTWARE. Dependen del tipo de software que se construye. Por lo general comprende: Especificación del programa, Diseño del programa, Codificación del programa, Prueba, Documentación y Mantenimiento.

84

1.4.

Marco Filosófico

ANTECEDENTES Los filósofos griegos Platón, Sócrates y Aristóteles, se consideran como los precursores sobre la Inteligencia Artificial; es así que entre sus diversos escritos se pueden citar: Platón que cita un diálogo en el que Sócrates le pregunta a Eutidemo (359 A.C.) “Desearía saber cuál es la característica de la piedad que hace que una acción se pueda considerar como pía... y así la observe y me sirva de norma para juzgar tus acciones y las de otros”. Allí Sócrates deseaba un algoritmo que permita diferenciar entre la piedad e impiedad. Por su parte Aristóteles concibió un sistema informal de silogismos para el razonamiento adecuado y que no todas las partes de la mente estaban gobernadas por procesos lógicos. Es así que en un inicio se considera la existencia de un conjunto de reglas sobre el funcionamiento de la mente. Posteriormente Descartes (1596-1650) introduce la diferencia entre mente y materia. Asimismo, plantea que si la mente fuera puramente física no cabría el “libre albedrío”. Para superar este problema introduce la noción de dualismo: que existe algo aparte de la mente que está al margen de la influencia de las leyes físicas: el alma o espíritu. Luego el materialismo de Leibnitz (1646-1716) considera que todo: mente y cerebro, funciona sujeto a leyes físicas. Nuevos filósofos más actuales, como Lewis, Putman, Rorty y otros sostienen una posición intermedia, con variantes, que sostiene que la mente tiene una base física, pero rechaza que esta pueda explicarse reduciéndola a un mero proceso físico. Por otra parte, a lo largo de los últimos años la filosofía configuró una tradición de que la mente era un dispositivo físico que básicamente funcionaba por razonamiento manejando el conocimiento en él depositado. Entonces, surge el problema sobre la fuente de conocimiento. El movimiento empírico, iniciado por Bacon (1561-1626) y Locke (1632-1704) sostiene “Nada existe en la mente que no haya pasado antes por los sentidos”. Hume (1711-1776) en su Tratado de la Naturaleza Humana propone el principio de la inducción: las reglas generales se obtienen por contacto con repetidas asociaciones entre

85

sus elementos. Rusell (1872-1970) introduce el positivismo lógico, sosteniendo que el conocimiento se puede caracterizar mediante teorías relacionadas (oraciones de observación que corresponden a entradas sensoriales. Es posible comprobar o rechazar toda aseveración significativa sea analizando el significado de las palabras o llevando a cabo experimentos). Luego Carnap y Hempel, introducen la teoría de la confirmación para intentar definir el tipo de conexión entre oraciones de observación y otras teorías de carácter más general (comprender cómo se puede obtener conocimiento a partir de la experiencia). Otro elemento de la descripción filosófica de la mente es la relación que existe entre conocimiento y acción (sólo al comprender cómo se justifican determinadas acciones se puede entender cómo construir un agente cuyas acciones sean justificables o racionales). Al respecto trata Aristóteles en su Ética Nicomaquea (... nadie cuestiona su fin. Este se da por sentado y se considera el cómo y los medios para alcanzarlo... pero si resultara que algo es imposible, se renunciaría a su obtención..). Este enfoque de Aristóteles fue retomado por Newell y Simon (Solucionador General de Problemas,1961), donde los principales métodos el SGP conjuntan la heurística del análisis de medios y fines. Aquí se enlazan el fin con los medios necesarios (uno a continuación de otro), usando una argumentación basada en el sentido común. La limitación es que no se puede definir que hacer cuando existen varias acciones mediante la cuáles se puede obtener lo mismo o cuando no hay una acción que permita obtener lo que se desea. Las grandes interrogantes de los filósofos relacionadas con la IA son: ¿Qué permite al cerebro funcionar, cómo funciona el intelecto humano y es posible que los seres no humanos tengan intelectos? Por un lado un lado muchos filósofos de la ciencia sostienen las máquinas son capaces de hacer todo lo que pueden hacer los humanos; sin embargo otros, entre los que están los teólogos, sostienen que la elección moral, el amor y la investigación creativa, rebasa el ámbito de cualquier máquina (Dreyfus, 1972). Para comprender mejor estos temas es útil considerar lo propuesto por Searle, 1980, la diferencia entre IA débil y fuerte.

86

La IA débil o prudente: considera a los computadores como poderosos instrumentos para el estudio de la mente, que permiten formular y comprobar hipótesis de un modo más rigurosos y preciso; las máquinas actúen como si fuesen inteligentes. La IA fuerte: considera que el computador programado de manera apropiada es realmente una mente al poder pensar y tener otros estados cognitivos; las máquinas actúan de manera inteligente. Sobre el razonamiento y la percepción.Las teorías que aceptan ciertos supuestos sobre la relación cerebro - mente: fisicalismo, materialismo y naturalismo biológico (la mente es producto del cerebro: Searle). Sostienen que la inteligencia y los fenómenos mentales son productos del funcionamiento del sistema físico de neuronas y sus respectivas células y estructuras de apoyo. Los estados mentales no sino estados cerebrales. Diversos estados cerebrales corresponden a un mismo estado mental, siempre y cuando sean del mismo tipo. El Funcionalismo: en su versión neuronal, plantea que lo importante son las características de entrada y salida de las neuronas y no sus propiedades físicas. Estas propiedades de entrada/ salida pueden obtenerse desde diversos artefactos físicos, incluidos los dispositivos de silicio; como consecuencia, los sistemas de IA que estén dotados de la estructura adecuada tienen la posibilidad de estar dotados de estados mentales reales. Seguidamente se presenta la necesidad de explicar como es que el cerebro produce la mente. Lo cual se puede conseguir considerando que los sistemas lógicos, un razonamiento tras otro, tienen la posibilidad de funcionar sin necesidad de tener que experimentar una regresión infinita. Así se puede lograr que una máquina pueda operar como sistema de razonamiento para manifestar una conducta inteligente. Los estados intencionales (tipo de estados mentales) que comprenden el creer, saber, desear, temer, etc. pueden explicarse a través de las posturas intencionales, son un recurso de cálculo que permite predecir la conducta de la entidad. Ejemplo: se puede informar a un termostato el deseo de mantener la temperatura de una habitación dentro de cierto rango y creer al mismo tiempo que la habitación está demasiado fría en ese momento y que al encender el calor aumentará la temperatura respectiva; por tanto, es

87

razonable asignar estados intencionales sin ello permite obtener el modelo de la explicación más sucinta de la conducta de la entidad. Sin embargo la creencia del termostato de que la habitación está demasiado fría no es idéntica a la respectiva de una persona. La persona tiene una comprensión de aspectos adicionales como habitación, calor, etc. que no posee la máquina; y asimismo, la máquina tiene la limitación de no poder considerar las intuiciones. La Teoría de la Correspondencia de la creencia sostiene que la estructura interna de un agente es un candidato razonable para representar una proposición; donde la estructura se forma al obtener evidencia sensorial de la validez de la proposición, deja de existir al obtener evidencia de la falsedad de la proposición; y desempeña un papel causal adecuado en la selección de acciones. Es decir, la estructura interna funciona como un indicador correlacionado con la proposición externa. En la teoría de al correspondencia se da el elemento crucial de la fundamentación de las creencias del agente, basado en la experiencia sensorial del mundo. Al respecto hay dos puntos de vista sobre la representación interna; el contenido amplio (la representación interna intrínsecamente se refiere a un determinado aspecto del mundo externo, conexión entre la representación interna y externa del mundo) y el contenido restringido (no existe tal conexión). Cerebro colocado dentro de un recipiente: para deslindar lo anterior, se usa esta prueba. Imagine que ha usted al nacer le sacaron su cerebro y lo pusieron dentro de un recipiente; el recipiente sostiene su cerebro lo que permite su crecimiento y maduración. Al mismo tiempo, desde una computadora que simula un mundo totalmente ficticio son enviadas señales electrónicas a su cerebro y las señales motoras que genera su cerebro se interceptan y son usadas para modificar la simulación según corresponda. Con base a ello se refuta la postura fisicalista. Ocurre que el estado de un cerebro dentro de un recipiente puede ser el mismo que el de la persona que está comiendo una pan; sin embargo, en uno de los casos la hamburguesa realmente existe y en el otro no. En el caso del contenido restringido para la diferenciación se recurre a la teoría de las Qualía o experiencias intrínsecas, que permite explicar la diferencia entre las experiencias de comer un pan. Así la teoría de la

88

correspondencia

explica

conductas

verbales

o

de

diferenciar

que

corresponden a creencias como “el foco es rojo” o “el foco es verde”, pero no diferencia las experiencias de en que consiste ver rojo o verde , lo cual si se explica con las qualía. Sobre el comportamiento inteligente.¿Son capaces de pensar las máquinas?. El primer obstáculo para responder a ello es entender el sentido de la palabra “pensar”. Si definimos pensar como tomar decisiones o deliberar a través de un cerebro orgánico y natural, entonces, las computadoras no pueden pensar; aunque ello no nos dice gran cosa sobre las capacidades de las máquinas. Turing (1950) plantea que en lugar de hacerse la pregunta anterior debemos preguntarnos si las máquinas tienen la capacidad para pasar una prueba conductual

de

inteligencia

(Prueba

de

Turing);

programándose

una

computadora para sostener una conversación con alguien que la interrogase por 5 minutos, teniendo la probabilidad de 30% de hacer creer al cuestionador que la máquina sometida a prueba era un humano. Turing, en sus estudios refuta lo sostenido por Lovelace sobre la máquina analítica de Babbage que decía “ No pretende crear nada. Es capaz de hacer todo aquello que sabemos ordenarle que ejecute”. Ello se refutó afirmando que podemos ordenar a la computadora a aprender a partir de su propia experiencia. Sin embargo, Turing afirma que las máquinas no serán capaces de ser amables, polifacéticas, hermosas, amigables, tener iniciativa, distinguir entre lo bueno y lo malo y otras actividades similares: características de tipo conductual.

Figura 29. Alan Turing

89

Asimismo, Turing (1936) y Godel (1931) plantearon que existen ciertas preguntas que ningún sistema formal puede responder adecuadamente (la objeción matemática). Una de ellas es el problema de la interrupción:¿llegará a pararse finalmente la ejecución de un programa P, o ésta ejecución se realizará eternamente?. Turing demostró que para todo algoritmo H que afirma resolver los problemas de paro siempre habrá un Programa Pi para el cual H no será capaz de responder al programa de paro correctamente. Esta limitación del paro de las máquinas se ha demostrado que también la pueden presentar los seres humanos. Lucas (1961) afirma que esta limitación pone en situación de inferioridad a los humanos quienes siempre podrán saltar fuera de la lógica limitante para determinar si el problema en cuestión es válido o no. Lucas basa su argumento en el teorema de la incompletes de Godel que sostiene que en todo sistema formal no trivial F (un lenguaje formal y un conjunto de axiomas y reglas de inferencia) es posible construir lo que se denomina “Oración de Godel” G(F) a partir de las siguientes propiedades: G(F) es una oración de F pero no puede demostrarse dentro de F; si F es congruente, entonces G(F) es verdadera. Lucas afirma que las computadoras aplicando su sistema formal pueden llegar a estar frente a situaciones cuya verdad no es posible establecer; mientras que para los seres humanos no se presenta esta limitación aplicando el teorema de Godel. Sin embargo estos argumentos han sido rebatidos ya que al igual que los matemáticos pueden ir de formalismo en formalismo hasta encontrar uno que permita resolver el problema, ello también lo puede hacer la computadora. Recientemente, con el resurgimiento la objeción matemática, Roger Penrose en su texto “La nueva mente del Emperador”, sostiene que cuando se consideran las facultades mentales que utilizan los matemáticos para producir nuevas proposiciones matemáticas y sus respectivas demostraciones, no es posible hacer válida la afirmación de que F es compleja. Ello debido a que cuando se encuentra un nuevo resultado por lo general es muy sencillo que un matemático lo comunique a otro y aportar convincentes pruebas mediante una serie de pasos sencillos. Sostiene que el algoritmo que utilizan los matemáticos para decidir la verdad matemática es tan complicado u obscuro

90

que nunca nos será posible conocer su verdadera validez; asimismo, sostiene que nunca será posible que la percepción matemática sea algorítmica. Si bien es cierto Penrose cuestiona que la percepción Godeliana sea formalizable, ello no lo explica. Uno de los principales aportes de Penrose es sostener que nada de nuestra actual comprensión física del funcionamiento del cerebro podría indicar que cuenta con aspectos no algorítmicos; es decir, la simulación de su funcionamiento mediante una computadora, en principio es posible de acuerdo con la física moderna. Aunque concluye con el comentario que el cerebro debe utilizar principios físicos que aún no se han descubierto, que serían no algorítmicos.

Figura 30. Roger Penrose

Sobre la Informalidad.Una de las mayores críticas a la IA es la de Turing: “argumento que surge de la informalidad del comportamiento”. Afirma que la conducta del ser humano es demasiado compleja para expresarla a través de un simple conjunto de reglas y que no puede producir una conducta tan inteligente como al de los seres humanos. Esto ha sido apoyado por el filósofo Dreyfus en una serie de documentos (1972-92). Ellos critican a la BAIA (la buena y anticuada IA). La BAIA supone que es posible expresar todo tipo de conducta inteligente mediante un sistema que razones lógicamente a partir de un conjunto de hechos y reglas que describan el dominio. Es de destacar que la IA es mucho más que la BAIA, que sólo es la inferencia lógica. Dreyfus critica el racionalismo, y en especial una particular manera de programar a las computadoras. Critica el suponer que los primeros éxitos de la BAIA puedan justificar la creencia que se tendrá éxito para generalizar hacia la Inteligencia humana. Sostiene que muchos de los éxitos de la década del 60 y 70 se referían a micromundos (con mucha información) y no aspectos macro más complejos y de interpretación del lenguaje. 91

Otro aspecto de crítica a la IA de parte de Dreyfus se refiere a que el hombre tiene razonamientos conscientes e inconscientes, y el sentido común, lo cual no se da en la IA. Sin embargo en términos prácticos no se considera importante esta diferenciación, ya que pueden existir mecanismos para obtener experiencias. Dreyfus (en Mind Over Matter, 1986) propone un procedimiento de 5 pasos para adquirir experiencia , empezando por el procesamiento basado en reglas y terminando con la habilidad par escoger instantáneamente las respuestas correctas. Sostiene “hemos visto que las computadoras en realidad razonan las cosas de manera bastante simple, pero sólo con una mayor experiencia humana se logra el conocimiento, una manera superior, holística, intuitiva de abordar problemas y que no puede ser imitada por las computadoras basadas en el seguimiento de reglas”. La primera explicación de Dreyfus de cómo funciona este conocimiento consiste en resolver problemas por analogía, recurriendo a una vasta biblioteca de casos. Posteriormente propuso las redes neuronales como posible implantación de la fase final del conocimiento. Seguidamente, plantea “Si los mecanismos de la IA no funcionan ¿qué mecanismos propondría en su lugar para lograr un desempeño como el humano”, y su respuesta es que los humanos recurren a un determinado método de aprendizaje. Ello no es nuevo en la IA. Desde los experimentos de Samuel y Friedberg, los investigadores han propuesto el empleo del aprendizaje por máquina como un método para lograr niveles más elevados de rendimiento y para evitar las dificultades de la codificación manual. El problema es ¿cuál es la representación meta del proceso de aprendizaje?. Dreyfus opta por las redes neuronales porque pueden alcanzar el nivel de inteligencia sin necesidad de representaciones explícitas del conocimiento simbólico. Al respecto formula dos observaciones: 1) no es posible lograr una buena generalización a partir de ejemplos sin contar con una buena base de conocimiento y sin embargo, nadie tiene una idea de cómo incorporar el conocimiento de base en el proceso de aprendizaje de la red neuronal; y 2) el aprendizaje por red neuronal es una forma de aprendizaje supervisado para el cual se requiere la identificación previa de todas las entradas relevantes y de

92

las salidas correctas, por lo tanto, no puede operar de manera autónoma sin la ayuda de un entrenador humano.

Figura 31. Hubert Greyfus

Con relación a la primera objeción, el desarrollo actual de las redes neuronales presenta varias formas mediante las cuales el conocimiento de base permite mejorar la capacidad de un sistema para generalizar. Pero estas técnicas se apoyan en la disponibilidad del conocimiento de manera explícita, lo cual Dreyfus rechaza tajantemente. Según expertos en IA, lo anterior es una razón que justifica el rediseño serio de los modelos actuales del procesamiento neuronal de manera que puedan aprovechar el conocimiento aprendido previamente. Al respecto se han realizado algunos avances. Con relación a la segunda objeción, ello tiene que ver con el aprendizaje por refuerzo, en el que el sistema de aprendizaje recibe recompensas positivas o negativas ocasionales, en vez de que se le esté diciendo en cada ocasión cuál es la acción correcta. Si cuenta con suficiente experiencia, el agente de aprendizaje por refuerzo puede inducir una función de utilidad en las situaciones o bien una correlación de pares situación acción de los valores esperados; esto se aplica actualmente en varios sistemas de redes neuronales. Sobre el aprendizaje por refuerzo Dreyfus señala que su principal problema consiste en cómo generalizar de situaciones particulares a tipos de situaciones más generales: el problema total del aprendizaje inductivo. Por tanto el aprendizaje por refuerzo se reduce a un aprendizaje inductivo ordinario, para el cual se cuenta ya con algunas técnicas bien desarrolladas. Por otro lado Dreyfus también plantea el problema del aprendizaje dentro de un contexto caracterizado por una gran cantidad de rasgos potencialmente relevantes. Una posible solución es apegarse a un conjunto finito y pequeño de rasgos, y añadir nuevos conforme éstos se necesiten. Pero al respecto Dreyfus señala que no se conoce ningún procedimiento para añadir nuevos 93

rasgos si el conjunto actual resulta inadecuado para explicar los hechos aprendidos. Otro problema del aprendizaje por refuerzo surge cuando las entradas disponibles no logran caracterizar de manera completa una situación. En tales casos se debe diseñar variables de estado interno adicionales, en términos de las cuáles se puedan aprender correlaciones de salida. Dreyfus sostiene al respecto que ”puesto que nadie sabe cómo incorporar de manera adecuada los estados internos, es necesario realizar una verdadera innovación”. Otro problema al que se refiere Dreyfus en “What Computers Still Can´t Do” es cómo controlar la adquisición de los datos de percepción sensorial. Señala que el cerebro tiene capacidad para dirigir sus sensores para buscar información relevante y procesarla. Sin embargo, en la actualidad el campo de la percepción visual activa, a través de la teoría del valor de la información, se ocupa exactamente del mismo problema y en los robots ya se incorporan los resultados obtenidos; ello está en avance. Según Rusell y Norvig, 1996, el hecho que la IA haya logrado reducir el problema de la producción de una inteligencia a nivel humano a un conjunto de problemas técnicos relativamente bien definidos podría considerarse ya como un avance. Con relación a los problemas observados ya están proponiéndose soluciones. En resumen los argumentos en contra de la IA débil, progresivamente están siendo superados. Con relación a la intencionalidad y conciencia. Se vienen dando críticas a la prueba de Turing al afirmar que no basta con saber como funciona una máquina, y que también es necesario conocer sus estados mentales internos. Este asunto fue previsto por Turing y lo menciona Jefferson al sostener “No será sino hasta cuando una máquina puede escribir un soneto o componer un concierto debido a las emociones que experimente, y no solo mediante una aleatoria disposición de símbolos, podremos estar de acuerdo en que la máquina está a la altura del cerebro; es decir, no sólo deberá ser capaz de escribir algo, sino también estar consciente de que lo ha hecho”; es decir, la máquina debe estar consciente de su estado mental y sus acciones. Otros enfocan sus críticas en el para qué de las supuestas creencias, deseos, de la máquina. Turing responde a esta objeción con la

94

siguiente pregunta: ¿por qué insistir en un estándar más elevado para las máquinas que el de los seres humanos?. Al respecto Turing observa que no hay evidencia que las personas cotidianamente están conscientes. Jefferson señala lo difícil que es definir una prueba objetiva para la conciencia. Turing señala que el asunto de la conciencia no se puede descartar a la ligera, pero que tampoco cree que primero haya que resolver este misterio antes de proceder a responder la pregunta de ¿son capaces de pensar las máquinas?. Por otro lado, Searle afirma que los experimentos de “la sala china” y “la prótesis cerebral” refutan la tesis de una IA fuerte. La sala China En el caso de “la sala China”, la idea consiste en describir un sistema hipotético que evidentemente ejecuta un programa y pasa la prueba de Turing, pero también de manera evidente (según Searle) no entiende en lo absoluto sus entradas y sus salidas. La conclusión sería que mediante la ejecución del programa adecuado no es condición suficiente para que se considere la existencia de un intelecto. El sistema está formado por un ser humano, que entiende sólo el idioma inglés, provisto de un libro de reglas, escrito en inglés, varios paquetes de papel, algunos en blanco, otros con inscripciones indescifrables. El sistema se encuentra dentro de una habitación

que está conectada con el exterior

mediante una pequeña abertura. A través de esta a parecen papeletas que contienen símbolos indescifrables El humano localiza en el libro de reglas los símbolos que correspondan a los de las papeletas y

sigue las

instrucciones que se le dan. Estas pueden ser el describir símbolos en nuevas papeletas, encontrar símbolos en los paquetes, volver a

ordenar los

paquetes, etc. Las instrucciones llevarán a la transcripción de uno o varios símbolos en un pedazo de papel que es enviado al mundo externo a través del a abertura. Lo anterior es aceptado; pero visto desde el exterior, vemos un sistema cuyas entradas están expresadas en forma de oraciones chinas y que produce respuestas en chino que están expresadas en forma de oraciones chinas que son tan inteligentes como las de la conversación imaginada por Turing.

95

Searle, argumenta que la persona que está en la habitación no entiende el chino; igualmente se tiene que la ejecución del programa adecuado no necesariamente produce una comprensión. Sin embargo, las observaciones en este aspecto de Searle también son refutadas, mediante la siguiente analogía con la sala china: si el ser humano como tal tiene comprensión ello no significa que las células que los componen tengan que tener comprensión. En 1992 Searle en su texto The Rediscovery of the Mind afirma que la conciencia es una propiedad

emergente

de

sistemas de

neuronas

adecuadamente dispuestos. Esto no es aceptado por la IA fuerte. La pregunta que surge es ¿qué propiedades de las neuronas son importantes para la conciencia?; ¿cuáles son las propiedades funcionales relacionadas con el procesamiento de la información?. Ello trasladado a la Sala China; implica afirmar empíricamente que el único medio físico que puede alojar la conciencia es el medio neuronal.

Figura 32. John Searle

Searle, por otro lado, sostiene que es posible que existan otros medios capaces de albergar la conciencia, entre ellos el silicio; que sería un sistema consciente en virtud de las propiedades físicas del medio y no del programa que estuviera ejecutándose.

Para este efecto, para refutar se usa el

argumento de la sala china, para refutar la IA fuerte: un sistema aparente inteligente al ejecutar el programa adecuado del que puede demostrarse que es consciente; para ello usa el argumento de partes no concientes por tanto todo no puede ser consciente ( lo cual no es valido). Finalmente Searle llega a querer refutar mediante la intuición la propuesta de la sala china. Con relación a este tema es de destacar lo logrado por Wohler en 1848 al sintetizar urea, ya que partiendo de elementos inorgánicos se llega a elementos orgánicos; asimismo, los edulcorantes artificiales que son edulcorantes, la inseminación artificial que es una inseminación, etc. Al respecto Searle plantea que los programa de la IA son en el mejor de los casos simulaciones de la inteligencia,

96

pero que no implican la existencia de propiedades intrínsecas: Nadie creerá que la simulación por computadora de una tormenta nos dejará empapados; lo mismo ocurre con la simulación por computadora de los procesos mentales, en los cuales no están presentes verdaderos procesos mentales; lo cual abre otro campo de debate, ya que estos argumentos son rebatibles: puede simularse una lluvia que si nos deje empapados, se puede simular por computadora una multiplicación o un juego, etc. que sean válidos. El experimento de la prótesis cerebral, es ejemplo del proceso del pensamiento. Consiste en lo siguiente: Supongamos que los avances de la neurofisiología son tales que permiten comprender perfectamente la conducta de entada y salida y la conectividad de todas las neuronas el cerebro; además supongamos, que somos capaces de construir dispositivos electrónicos microscópicos capaces de imitar esta conducta y que es posible conectarlos fácilmente con el tejido neuronal. Finalmente supongamos que mediante una técnica quirúrgica son reemplazadas neuronas individuales por su respectivo dispositivo electrónico sin interrumpir el funcionamiento del cerebro. El experimento consiste en reemplazar gradualmente todas las neuronas por dispositivos electrónicos y luego invertir el proceso para devolver el sujeto a su estado biológico normal. Este asunto ha creado otra controversia; por un lado Moravec (1988) considera que la conciencia de esta persona no se afectaría; pero Searle considera que la conciencia se esfumaría, la conducta observable sería la misma pero su experiencia consciente se reduciría. Sobre este asunto, en los últimos años, también se han desarrollado diversos debates. Patricia Churcland (1986) señala que los aspectos funcionales que operan al nivel de las neuronas también pueden operar a nivel de cualquier unidad funcional mayor: un grupo de neuronas… e incluso todo el cerebro. Ello implica que si se acepta que el experimento de la prótesis cerebral muestra que el reemplazo del cerebro es consciente, también se debe aceptar que la conciencia se conserva al reemplazar todo el cerebro por un circuito que correlaciona entradas y salidas mediante una enorme tabla de consulta. Lo cual es desconcertante para muchos, el debate está abierto. Las oportunidades sobre investigaciones son muchas.

97

Como se ha podido apreciar, el debate filosófico sobre la IA se mantiene y tiene muchos aspectos por dilucidar, aunque es cada vez menor la refutación a la IA débil. MARCO FILOSÓFICO DE LA INVESTIGACIÓN: La investigación sobre mejora de la calidad de diseño de procesos mediante la aplicación de redes neuronales artificiales RNA se considera que está en el campo de la IA; que su desarrollo en la actualidad se ubica en lo referente a la denominada IA débil o prudente. Las RNA son una herramienta que procesadas en una computadora ayudan a la mente humana a procesar información, pero que no es la inteligencia humana, no son el cerebro – mente. Las RNA permiten procesar mucha información y en corto tiempo, a fin de tomar adecuadas decisiones con respecto a la calidad de los procesos. Las RNA

que se espera desarrollar en esta investigación se considera deben

permitir reemplazar a otras herramientas debido a que permitirá ahorrar tiempo y tener mayor precisión y certeza. No se espera reemplazar al ser humano en su trabajo por la calidad, sino por el contrario complementarlo, para ello es fundamental la información de entrada que se le de las RNA, y las metas que se quieren lograr, que es lo que quiere el consumidor. Las RNA aprenden con base a la información que se les proporciona, y que la recuerdan. Las operaciones que se realizan dentro de las RNA son las que el investigador considera conveniente para lograr la meta propuesta y distan de ser similares a las operaciones de las RN biológicas, que por otro lado, no sabemos con precisión en qué consisten.

Sin embargo, cuanto más nos

acerquemos a conocer cómo funcionan las operaciones de creación de conocimiento, percepción y razonamiento en el ser humano, el aplicarlo de manera creativa a las RNA ayudará a tener resultados cada vez mejores. Por tanto, no nos ubicamos en la corriente de la IA débil o prudente; y rescatamos los muy acertados aportes de Lewis, Putman, Rorty, Turing, Godel, Samuel, Friedberg, Lucas, Searle y Dreyfus, entre otros. Concluyendo en lo que sostienen Rusell y Norvig de que el hecho que la IA haya logrado reducir el problema de la producción de una inteligencia a nivel humano a un conjunto de problemas técnicos relativamente bien definidos podría considerarse ya

98

como un avance, y que los argumentos contra la IA débil o prudente progresivamente están siendo superados.

99

1.5. Marco Epistemológico ANTECEDENTES

A. Thomas Kuhn, 1962, en la “La estructura de las revoluciones científicas “, sostiene entre otros: Paradigmas: Los paradigmas son realizaciones científicas universalmente reconocidas que, durante cierto tiempo, proporcionan modelos de problemas y soluciones a una comunidad científica. Puede haber cierto tipo de investigación científica sin paradigma o, al menos, sin los del tipo tan inequívoco y estrecho. La investigación científica normal va dirigida a la articulación de aquellos fenómenos y teorías que ya proporciona el paradigma.

Figura 33. Thomas Kuhn

El conjunto de ilustraciones recurrentes y casi normalizadas de diversas teorías en sus aplicaciones conceptuales, instrumentales y de observación; son los paradigmas que las comunidad revela en sus libros de texto. A falta de un paradigma o de algún candidato a paradigma, todos los hechos que pudieran ser pertinentes para el desarrollo de una ciencia dada tienen probabilidades de parecer igualmente importantes. Para ser aceptada como paradigma una teoría debe parecer mejor que sus competidoras; pero no necesita explicar y, en efecto nunca lo hace, todos los hechos que se puedan confrontar con ella. La ciencia normal puede determinarse en parte por medio de la inspección directa de los paradigmas. Estudio de la ciencia: El estudio de los paradigmas es lo que prepara principalmente al estudiante para entrar a formar parte como miembro de la comunidad científica particular con la que trabajará más tarde.

100

La investigación científica: Hay tres focos normales para la investigación científica fáctica: hechos que el paradigma ha demostrado que son particularmente reveladores de la naturaleza de las cosas; predicciones de la teoría del paradigma; y el trabajo para articular la teoría del paradigma, resolviendo algunas de sus ambigüedades residuales. Crisis de paradigmas: La transición de un paradigma en crisis a otro nuevo del que pueda surgir una nueva tradición de ciencia normal, está lejos de ser un proceso de acumulación, al que se llegue por medio de una articulación o una ampliación del antiguo paradigma. Es más bien una reconstrucción del campo, a partir de nuevos

fundamentos,

reconstrucción

que

cambia

algunas

de

las

generalizaciones teóricas más elementales del campo, así como también muchos de los métodos y aplicaciones del paradigma. Revoluciones científicas Se inician con un sentimiento creciente, también a menudo restringido a una estrecha subdivisión de la comunidad científica, de que un paradigma existente ha dejado de funcionar adecuadamente en la exploración de un aspecto de la naturaleza, hacia el cual el mismo paradigma había previamente mostrado el camino. La ciencia no se desarrolla por medio de la acumulación de descubrimientos e inventos individuales. Las transformaciones de los paradigmas son revoluciones científicas y la transición sucesiva de un paradigma a otro por medio de una revolución es el patrón usual de una ciencia madura. Puede haber revoluciones tanto grandes como pequeñas, algunas afectan sólo a los miembros de una sub especialidad profesional. B. René Descartes en el “Discurso del método”, sostiene entre otros: Sobre el método: El verdadero método para llegar al conocimiento de todas las cosas de que mi espíritu fuera capaz: 1° No admitir jamás como verdadero cosa alguna sin conocer la evidencia que lo era; es decir, evitar cuidadosamente la precipitación y la prevención y

101

comprender, en mis juicios, nada más que lo que se presentase a mi espíritu tan clara y distintamente que no tuviese motivo alguno para ponerlo en duda. 2° Dividir cada una de las dificultades que examinare en tantas partes como fuese posible y en cuantas requiriese su mejor solución. 3° Conducir ordenadamente mis pensamientos, comenzando por los objetos más simples y más fáciles de conocer, para ir ascendiendo poco a poco, como por grados, hasta el conocimiento de los más compuestos; y suponiendo un orden aún entre aquellos que no se preceden naturalmente unos a otros. 4° Hacer en todo enumeraciones tan completas y revisiones tan generales que estuviera seguro de no omitir nada.

Figura 34. René Descartes

Sobre la diferencia entre el hombre y las máquinas: Por más que estas máquinas hicieran muchas cosas tan bien o acaso mejor que nosotros, se equivocarían infaliblemente en otras, y así se descubriría que no obraban por conocimiento, sino tan sólo por la disposición de sus órganos; pues mientras la razón es un instrumento universal que puede servir en todas las ocasiones, éstos órganos necesitan de alguna disposición especial para cada acción particular; de donde resulta que es moralmente imposible que haya en una máquina los resortes suficientes para hacerla obrar en todas las circunstancias de la vida del mismo modo como nos hace obrar nuestra razón. Sobre la razón: En fin, despiertos o dormidos no debemos dejarnos persuadir nunca si no es por la evidencia de la razón. Y adviértase que digo de la razón, no de la imaginación o de los sentidos. Del mismo modo, porque veamos el sol muy claramente, no debemos por ello juzgar que sea del tamaño que lo vemos; y muy bien podemos imaginar distintamente una cabeza de león pegada al cuerpo de una cabra sin que por eso haya que concluir que en el mundo existe esa quimera: la razón no nos dice que lo que así vemos o imaginamos sea verdadero. 102

C. Karl Popper, en su vasta obra, la cual ha sido compilada por David Miller, en

“Popper: Escritos selectos”, 1995, y en su texto “La lógica de la

investigación científica” , 1967, entre otros sostiene: El problema de la inducción: Se conoce con el nombre del problema de la inducción la cuestión acerca de si están justificadas las inferencias inductivas, o de bajo qué condiciones lo están. El problema de la inducción puede formularse, asimismo, como la cuestión sobre cómo establecer la verdad de los enunciados universales basados en la experiencia –como son las hipótesis y los sistemas teóricos de las ciencias empíricas-.

Figura 35. Kart Popper

Sobre teoría del conocimiento. La tradición racionalista, la tradición de la discusión crítica, representa el único medio practicable para ampliar nuestro conocimiento – el conocimiento conjetural o hipotético, por supuesto. No existe otra manera de hacerlo. Existen en última instancia sólo dos maneras en que las teorías pueden ser superiores a otras: pueden explicar más, y pueden probarse mejor. Sobre la contrastación Presentada a título provisional una nueva idea, sea una anticipación, una hipótesis, un sistema teórico o lo que se quiera-, se extraen conclusiones de ella por medio de una deducción lógica; estas conclusiones se comparan entre sí y con otros enunciados pertinentes, con objeto de hallar las relaciones lógicas (tales como equivalencia, deductibilidad, compatibilidad, etc.) que existan entre ellas. Podemos distinguir cuatro procedimientos de llevar a cabo la contrastación de una teoría: 1) la comparación lógica de las conclusiones unas con otras: con lo cual se somete a contraste la coherencia interna del sistema. 2) el estudio de la forma lógica de la teoría, con objeto de determinar su carácter: si es una teoría empírica –científica- o si, por ejemplo, es tautológica. 3) la comparación con otras teorías, que tiene por principal mira la de averiguar si la teoría examinada 103

constituiría un adelanto científico en caso de que sobreviviera a las diferentes contrastaciones a que la sometemos. 4) contrastarla por medio de la aplicación empírica de las conclusiones que pueden deducirse de ella. Sobre las teorías Da una lista no sistemática de seis tipos de casos por los que se puede dictaminar que una teoría t1 ha sido superada por t2, en el sentido de que t2 parece – hasta donde sepamos – corresponder mejor a los hechos que t1, en algún sentido. 1) t2 hace aseveraciones más precisas que t1, y estas aseveraciones más precisas soportan pruebas más precisas. 2) t2 toma en cuenta y explica más hechos que t1 (que incluirían, por ejemplo, el caso anterior, y en la que, siendo iguales otros factores, las aseveraciones de t2 son más precisas). 3) t2 describe o explica los hechos con mayor detalle que t1. 4) t2 ha pasado pruebas en las que t1 ha fracasado. 5) t2 ha sugerido nuevas pruebas experimentales, no consideradas antes de que se diseñara t2 (y que no sugirió t1, y quizá, incluso inaplicables a t1); y t2 ha pasado bien estas pruebas. 6) t2 ha unificado o conectado entre sí varios problemas hasta entonces inconexos o no relacionados. La falsabilidad como criterio de demarcación: El criterio de demarcación inherente a la lógica inductiva equivale a exigir que todos los enunciados de la ciencia empírica sean susceptibles de una decisión definitiva con respecto a su verdad y a su falsedad; podemos decir que tienen que ser “decidibles de modo concluyente”, es criticado por Popper; para él el criterio de demarcación que es el de la

falsabilidad de los sistemas. Un

enunciado científico debe ser susceptible de selección en un sentido negativo por medio de contrastes o pruebas empíricas, ha de ser posible refutar por la experiencia un sistema científico empírico. Sobre el Método Científico: Sobre la comprobación deductiva de las teorías; sostiene que el método para probar críticamente las teorías y para seleccionarlas de acuerdo con los resultados de las pruebas, procede siempre de esta manera: a partir de una

104

nueva idea, propuesta tentativamente y aún no justificada en ninguna forma – una anticipación, una hipótesis, un sistema teórico o lo que se desee - se obtienen conclusiones mediante la deducción lógica. Luego se comparan estas deducciones unas con otras, y con otras afirmaciones pertinentes, para averiguar qué relaciones lógicas existen entre ellas, tales como: al equivalencia,

la

posibilidad

de

derivación,

la

compatibilidad

o

la

incompatibilidad. D.

Imre Lakatos en su texto “La Metodología de los Programas de

Investigación Científica PIC, 1975; entre otros, sostiene: Sobre el avance de la ciencia: El problema de la evolución objetiva del crecimiento científico se da en términos de cambios progresivos y regresivos de problemáticas de series de teorías científicas. Las más importantes de tales series en el crecimiento de la ciencia se caracterizan por cierta continuidad que relaciona a sus miembros. Esta continuidad se origina en un programa de

investigación genuino

concebido en el comienzo. El programa consiste en reglas metodológicas: algunos nos dicen las rutas de investigación que deben seguirse . Incluso la ciencia como conjunto puede ser considerada como un enorme programa de investigación dotado de la suprema regla heurística de Popper: “diseña

conjeturas

que

tengan

más

contenido

empírico

que

sus

predecesoras”.

Figura 36. Imre Lakatos

Sobre los Programas de Investigación Científica PIC: Sostienen que es claro que mientras una teoría científica tenga algo a su favor no conviene eliminarla hasta que se posea una teoría mejor; de hecho, debe dársele un tiempo para que se modifique de manera de poderse enfrentar mejor a las anomalías que la afectan. Sobre esta base Lakatos propone que el punto de comparación no deben ser teorías aisladas sino más bien conjuntos de teorías, generados por modificaciones sucesivas de sus predecesores, que

105

de todos modos se conservan. A estos conjuntos de teorías afines Lakatos los denomina "Programas de Investigación Científicos PIC". En efecto, cada uno de esos programas está formado por tres capas concéntricas de entidades dialécticas: 1) el núcleo central, que reúne los supuestos básicos y esenciales del programa, o sea todo aquello que es fundamental para su existencia; 2) este núcleo central está celosamente protegido de las peligrosas avanzadas de la falsificación por un cinturón protector llamado heurístico negativo, un principio metodológico que estipula que los componentes del núcleo central no deben abandonarse a pesar de las anomalías, constituido por múltiples elementos variables, como hipótesis auxiliares, hipótesis observacionales, diferentes condiciones experimentales, etc.; 3) la capa más externa del programa científico de investigación se conoce como heurístico positivo y está representada por directivas generales para explicar fenómenos ya conocidos o para predecir nuevos fenómenos. Naturalmente, existe una jerarquía de acceso a los tres niveles estructurales de los Programas lakatosianos de investigación. La confrontación inicial de la teoría científica (cualquiera que ésta sea) con nuevos datos experimentales ocurre primero con la periferia conceptual del sistema y sólo tiene tres opciones: 1) está de acuerdo con los principales hechos de observación conocidos y anticipados, en cuyo caso se refuerza el núcleo central del programa; 2) registra diferencias no explicables con el sistema, pero solamente al nivel del cinturón protector o heurístico positivo, que es fácilmente modificable para incorporar los nuevos datos sin que el núcleo central se afecte; 3) presenta información que afecta gravemente la vigencia central del sistema, al grado de amenazar (y algunas veces hasta lograr) cambiarlo por otro núcleo diferente. La heurística positiva del programa impide que el científico se pierda en el océano de anomalías; la atención del científico se concentra en la construcción de sus modelos según las instrucciones establecidas en la parte positiva de su programa, ignora los contraejemplos. Sobre los Tipos de PIC:

106

Lakatos propone que sólo existen dos clases de programas científicos de investigación, los progresistas y los degenerativos. La manera de distinguir entre estas dos clases es, en sus propias palabras, la siguiente: Se dice que un programa de investigación es progresista siempre que su crecimiento teórico anticipe su crecimiento empírico, o sea, mientras continúe prediciendo hechos nuevos con cierto éxito ("cambio progresivo del problema"); se considera que el programa está estancado (que es degenerativo) cuando su crecimiento teórico está rezagado en relación con su crecimiento empírico, o sea, mientras sólo ofrezca explicaciones post hoc, sea de descubrimientos accidentales o de hechos predichos por otro programa rival ("cambio degenerativo del programa"). Cuando un programa de investigación explica progresivamente más que otro rival, lo supera, y entonces el rival puede eliminarse (o, si se prefiere, almacenarse). Para Lakatos (1970) las teorías que constituyen un programa de investigación pueden presentar “cambios progresivos” o “cambios degenerativos”. Una cadena de teorías T1, T2, ... es progresiva si satisface las siguientes condiciones: - Tn tenga un contenido empírico excedente sobre Tn-1, Tn predice hechos nuevos, improbables e incluso prohibidos por Tn-1. - Tn explique el éxito previo de Tn-1, todo contenido no refutado de Tn-1 está contenido en Tn. - Tn tenga corroborado algo o todo el exceso de contenido. Si no ocurre lo anterior, el cambio es degenerativo. En la metodología de los programas de investigación científica (MPIC) las revoluciones científicas no se analizan como cambios bruscos, que decía Kuhn, sino como el reemplazamiento progresivo de PIC. La aparición de anomalías no invalida los PIC mientras tengan fuerza, es decir, no sean eliminados por otros con mayor contenido excedente. Por tanto el número de anomalías no es el elemento crucial en la comparación de teorías o programas, sino que la evaluación requiere la comparación con otro cuyo núcleo central sea incompatible y de ello se valorará, como se ha comentado, el contenido excedente suplementario.

107

Sobre la dialéctica de los PIC: La dialéctica de los programas de investigación, mencionaremos tres variantes típicas: 1) Imagine que cada una de las tres primeras versiones consecutivas, H1, H2, H3, predice con éxito algunos hechos nuevos y otros sin éxito; esto es, cada nueva versión queda corroborada y refutada a la vez. Finalmente se propone H4, que predice algunos hechos nuevos y resiste las contrastaciones más severas. El cambio de problemática es progresivo y además encontramos en este caso una maravillosa sucesión de conjeturas y refutaciones. Podemos admirar este caso como un ejemplo clásico de trabajo teórico y experimental conjunto. 2) Otra posibilidad sería imaginar a un investigador solitario elaborando H1, H2, H3, H4 pero que por razones de autocrítica no publica hasta H4. Después se contrasta H4 y toda la evidencia se convierte en corroboraciones de H4 la primera hipótesis publicada ( y la única). En este caso el teórico va por delante del experimentador: autonomía relativa del progreso teórico. 3) Imagine que toda la evidencia empírica mencionada en estos tres modelos está disponible en el momento de invención de H1, H2, H3, H4 no representa en cambio progresivo de problemática y por ello, auque toda la evidencia apoye a sus teorías, el científico debe continuar trabajando para probar el valor científico de su programa. Ello puede originarse bien porque el programa de investigación más antiguo, ya había producido tales hechos o por que hay mucho dinero público destinado a la recopilación de hechos sobre las líneas del espectro y hubo mercenarios que tropezaron con tales datos. Sobre el requisito del crecimiento continuo y los experimentos cruciales: Los experimentos cruciales no existen, al menos si nos referimos a experimentos que puedan destruir instantáneamente a un programa de investigación. De hecho, cuando un programa de investigación es vencido y superado por otro, podemos, retrospectivamente, llamar crucial a un experimento si resulta que ha suministrado un ejemplo corroborador

108

espectacular a favor del programa victorioso y una derrota para el programa vencido. Pero si un científico del campo derrotado propone unos años más tarde una explicación científica del experimento supuestamente crucial, acorde con el programa supuestamente derrotado, el título honorífico puede ser retirado y el “experimento crucial” puede convertirse en una victoria del programa. Sobre el método científico: Lakatos escribe que existen varias metodologías flotando en la filosofía de la ciencia contemporánea, todas ellas muy diferentes de lo que se entendía por "metodología" en el siglo XVII y hasta en el XVIII. Entonces se esperaba que la metodología les proporcionara a los científicos un libro de recetas mecánicas para resolver problemas. Hoy ya se ha abandonado tal esperanza: las metodologías modernas o "lógicas del descubrimiento" consisten simplemente en un grupo de reglas (posiblemente no muy coherentes y mucho menos mecánicas) para la apreciación de teorías ya establecidas y articuladas... Estas reglas tienen una doble función: en primer lugar, sirven como un código de honestidad científica, cuya violación es intolerable; en segundo lugar, representar) la esencia de programas de investigación historiográfica normativa. En otras palabras, la búsqueda de una metodología científica satisfactoria no es para contestar a la pregunta ¿cómo se hace la ciencia?, sino para establecer cómo debería hacerse y para investigar históricamente si así se ha hecho, cuándo y por quién. En mi opinión, no existe razón alguna en contra de que se estudie, tan extensa y profundamente como sea posible, la manera como se han hecho en el pasado todas las ciencias; al mismo tiempo, aplaudo la sugestión de Lakatos de que sería muy útil establecer cómo debería trabajarse en las diferentes ciencias. Pero su esquema de los programas de investigación científica no parece estar diseñado para comprender a la ciencia de hoy, la que hacemos los que nos dedicamos a ella. Lakatos analiza la historia y pretende obtener de ella lecciones para el futuro; de lo que ocurre en nuestros días con la investigación científica, no tiene nada que decirnos. La ciencia en su conjunto puede ser considerada como un enorme programa de investigación dotado de la regla heurística de Popper de diseñar supuestos

109

que tengan más contenido empírico que sus predecesoras: “La historia de la ciencia es la historia de los programas de investigación, más que la historia de las teorías”. E. Ruiz y Ayala en su texto: “El método de las ciencias”, 1998, sostienen: Es una idea común pero falsa de que al ciencia avanza por “acumulación de hechos experimentales y extrayendo una teoría de ellos”. El método inductivo no logra explicar el proceso real de la ciencia. Los científicos trabajan con proyectos preconcebidos, de acuerdo con el tipo de fenómeno a observar; escogen para sus estudios objetos o sucesos que en su opinión es probable les proporcionen las respuestas a preguntas de su interés. Las hipótesis y teorías científicas son formuladas en términos abstractos, que no ocurren en la descripción de los sucesos empíricos. Es así que Mendel observa plantas y formula su hipótesis sobre los genes. Las hipótesis científicas más interesantes y fructíferas no son simples generalizaciones, sino son creaciones de la mente, sugerencias imaginativas de lo que podría ser cierto. Método hipotético deductivo: la validez de una idea científica (hipótesis) se establece derivando (deducción) sus consecuencias con respecto al mundo real, y procediendo a averiguar si al predicción derivada es correcta o no. De Jacob, premio Nobel por sus trabajos en biología molecular, rescata “ el progreso científico comienza con la invención de un mundo posible, o un fragmento de él, que es comparado por la experimentación con un mundo real. Este constante diálogo entre la imaginación y la experimentación permite a uno formar una concepción cada vez más refinada de lo que llamamos realidad”. Ruiz-Ayala sostienen la ciencia es una compleja actividad que consiste esencialmente de dos episodios interdependientes, uno imaginativo o creativo y otro crítico. Las hipótesis y otras conjeturas imaginativas son el estado inicial de la investigación científica. Las hipótesis guían la observación y la experimentación. Se requiere formular una hipótesis osada asociada con experimentos inteligentemente diseñados. Sobre Darwin señalan que era un excelente practicante del método hipotético deductivo, que avanzaba en hipótesis y las sometía a contrastación empírica. Establecía un punto como probable por inducción y lo aplicaba como una

110

hipótesis a otras para ver si las resuelve. Sobre propuestas erróneas apoyadas por alguna evidencia no ocasionan gran daño ya que todo el mundo encuentra un sano placer en probar su falsedad, se cierra el camino hacia el error y al mismo tiempo se abre el camino hacia la verdad.

Figura 37. Charles Darwin

Asimismo, Ruiz –Ayala, 1998, sostienen que la ciencia es progresiva, las teorías que son aceptadas en un momento dado pueden ser rechazadas después. Ejemplo de ello las teorías de Newton y Einstein, del flogisto y Lavoisier, etc. Mencionan a Toulmin (1975), por su aporte sobre la evolución orgánica y la evolución conceptual; que enfoca su análisis a los procesos de transformación del conocimiento. Dichos procesos sonde carácter gradual y por ello propone una epistemología evolutiva, que explica la modificación del saber humano. Sostiene que puede establecerse analogía entre el desarrollo del conocimiento y la evolución de los seres vivos. El conocimiento avanza gradualmente a partir de la selección de variantes teóricas. También mencionan la concepción epistemológica e Hull, 1990, que plantea que el desarrollo del conocimiento científico se da a partir de la elaboración de una analogía entre la evolución biológica y la evolución conceptual. La ciencia, considera, debe ser tratada como algo natural, una forma de conocimiento sobre la cual se pueden hacer afirmaciones parecidas a leyes. No obstante reconoce que el intento de formular leyes acerca de los procesos de selección en general parece atrevido, dado que las generalizaciones elaboradas por los biólogos

evolucionistas

tienen

problemas,

por

ejemplo,

no

pueden

considerarse definitivas.

111

MARCO EPISTEMOLÓGICO DE LA INVESTIGACIÓN: La investigación sobre mejora de la calidad de diseño de procesos mediante la aplicación de redes neuronales artificiales RNA se considera que está en el campo de la ciencia y que por tanto debe seguir el método que proponen los epistemólogos mas destacados en la actualidad como son Kuhn, Popper, Darwin y Lakatos, según se apreciar en los antecedentes presentados. Con relación al tema de estudio de la calidad de diseño de procesos se considera que en la actualidad se está en una situación de crisis de los paradigmas vigentes, tal como lo plantea Kuhn; y que se vienen desarrollando diversos movimientos para resolver la crisis presente, de manera progresiva, uno de dichos movimientos es el de las redes neuronales artificiales. Las cuáles deben desarrollarse inicialmente en una subdivisión de la comunidad científica, según lo propuesto por Kuhn, y luego se puede ampliar a más campos del conocimiento (pueden haber revoluciones tanto grandes como pequeñas, algunas afectan sólo a los miembros de una sub especialidad profesional); y ello dentro de un Programa de Investigación Científica PIC, que se rescata existe de los avances que se presentan en las diversas publicaciones, congresos, Universidades y Centros de Investigación que tratan el tema de la IA y la calidad, lo cual se presenta en el Marco Teórico del presente trabajo. Con relación a la metodología en la presente investigación, se han tomado los aportes de Descartes del “Discurso el Método” referidos a que se requiere investigar por partes una situación compleja, a ir de los más simple a lo más compuesto. Rescatamos los muy acertados aportes sobre el avance progresivo de la ciencia y los Programas de Investigación Científicos, PIC; el método hipotético deductivo propuesto por Popper y las características adicionales que plantean sobre el por un lado Lakatos, y por otro Darwin con relación a la no existencia de una tabla de pasos a seguir y el papel de la inducción y la creatividad para proponer hipótesis y conjeturas. Asimismo, tomaremos en cuenta los criterios de sobre el avance de la ciencia de Lakatos a través de los PIC y la comparación de teorías y de la contrastación que presentan tanto Lakatos como Popper.

112

CAPÍTULO II. PLANTEAMIENTO METODOLÓGICO

2.1. Enunciado del Problema ¿Una Red Neuronal Artificial específicamente diseñada para la mejora de la calidad de diseño de procesos, dará mejores resultados que los obtenidos con los análisis estadísticos tradicionales para los diseños experimentales y las RNA ya existentes, para los casos que se trabaje con varias variables dependientes e independientes y en los que sus relaciones no sean lineales?

2.2. Objetivo Desarrollar una Red Neuronal Artificial específica para la mejora de la calidad de diseño de procesos, que dé mejores resultados que los obtenidos con los diseños experimentales y las RNA ya existentes, para los casos que se trabaje con varias variables dependientes e independientes y en los que sus relaciones no sean lineales.

2.3. Hipótesis, variables e indicadores Hipótesis Planteada: “Las Redes Neuronales Artificiales con Función de Base Radial, que utilizan la distancia de Mahalanobis, aplicadas a los diseños de experimentos para mejora de la calidad de procesos dan mejores resultados que los obtenidos mediante los métodos de análisis estadísticos tradicionales y del Perceptrón Multicapa con aprendizaje Backpropagation”.

Las Variables Independientes son: Las Redes Neuronales Artificiales con Función de Base Radial, que utilizan la distancia Euclídea. Las Redes Neuronales Artificiales con Función de Base Radial, que utilizan la distancia de Mahalanobis. Las Redes Neuronales Artificiales tipo Perceptrón Multicapa con aprendizaje Backpropagation.

113

Métodos de Análisis Estadístico Tradicional de diseño de experimentos para mejora de calidad de procesos (análisis de variancia, modelo de regresión y predicción). Los indicadores de las variables independientes: De las RNA: número de variables de entrada, número de neuronas, número de capas, funciones de activación, pesos, umbrales y número de variables de salida. Del Análisis Estadístico Tradicional: número de variables de entrada, tipo de relación entre variables de entrada y salida, número de variables de salida.

Las Variables Dependientes son: Los resultados obtenidos mediante la aplicación de las metodologías. Los mismos que deben corresponder a la calidad de diseño de procesos. Los indicadores de las variables dependientes: Error de resultados con valores dados (diferencia entre valores obtenidos y esperados). Error en determinación de valores de salida deseados (calidad deseada), previa determinación de valores de entrada optimizados.

2.4. Diseño Metodológico En la presente investigación se encontró un nuevo tipo de redes neuronales artificiales para aplicar en los trabajos de mejora de la calidad; para tal efecto la Población que se estudió la constituyeron el conjunto de metodologías de mejora de la calidad, y a través de una primera discriminación

gruesa

(muestreo) sobre las más importantes; se seleccionó una Muestra de las más relevantes, que fueron las de ingeniería de la calidad como son: análisis estadístico para el diseño de experimentos y redes neuronales artificiales. Seguidamente se consideró como Unidad de Análisis a los niveles de error en la determinación de los parámetros de mejora, y en un primer momento se tuvo en cuenta aspectos teóricos y luego experiencias aplicativas de otras investigaciones y procesos concretos.

114

Metodología Empleada. La metodología sigue los pasos necesarios para demostrar la aceptación o rechazo de la hipótesis planteada. Para ello luego de obtener y analizar la información respectiva, se trabaja con la variable independiente Redes Neuronales Artificiales RNA. Se analizan las RNA existentes y sus ventajas para aplicar en la mejora de calidad de procesos, con base a dicha información se desarrolla una RNA para aplicar en los análisis de datos para la mejora de la calidad de procesos, la misma que es evaluada con relación a otras RNA y las técnicas estadísticas tradicionales de mejora de la calidad de procesos (análisis estadísticos), a fin de evaluar su desempeño a través del error de sus resultados. El estudio de las RNA se efectuó con base a indicadores como son número de variables de entrada, número de neuronas y de capas, funciones de activación, pesos, umbrales y número de variables de salida. Las RNA seleccionadas fueron las de Función de Base Radial, de Diseño Exacto, con Distancia Euclídea y con Distancia de Mahalanobis. La Red desarrollada fue del tipo de Función de Base radial, del tipo de Diseño Exacto con Distancia de Mahalanobis (aplica el algoritmo de Mahalanobis para el cálculo de las distancias entre los centros y los vectores de entrada). Se seleccionaron siete experimentos de autores y publicaciones reconocidas a nivel internacional en el campo de la calidad, en los cuales se utiliza el diseño de experimentos para la mejora de la calidad de procesos; y se aplica a los mismos

las

RNA

tanto

de

Perceptrón

Multicapa

con

aprendizaje

Backpropagation, como las de Función de Base Radial de tipo GRNN, de Diseño Exacto con Distancia Euclídea y la Red Desarrollada que es una RNA de Diseño Exacto con Distancia de Mahalanobis.

Asimismo, también, se trabajó con valores deseados. Es decir, que se cambian los valores de entrada de tal manera que permitan obtener el óptimo deseado por los clientes. Para ello, se siguió un proceso ajustado, que consiste en: 1º Dados datos de entrada y de salida actuales, y datos deseados de salida.

115

2º Construir Red Inversa: 1) Encontrar la RNA que con los datos de salida actuales del proceso como entradas y con los datos de entrada como supervisores (objetivo), permita obtener los valores de salida; es la Red Inversa. 2) A la Red Inversa obtenida se aplican los datos deseados de salida para obtener los valores de entrada optimizados. Es decir se obtienen los valores que deben tener las entradas para obtener la calidad deseada. 3º Red Directa: 3) Con los datos de entrada y salida actuales se obtiene la Red respectiva que los relaciona, es la Red Directa. 4) A la Red Directa obtenida se aplican los datos de entrada optimizados (obtenidos en 2.), se obtienen nuevos datos de salida que sean los más cercanos a los datos de salida deseados. Esta nueva red, tendrá la particularidad de poder predecir el desempeño futuro del proceso, es decir, dados unas entradas determina los valores de salida. Por otro lado también se tienen los valores de entrada del proceso que han sido optimizados. Los experimentos seleccionados corresponden a casos tipos de diseño de experimentos para la mejora de la calidad de procesos, los mismos que se presentan en los numerales 3.2, 3.3, 3.4 y 3.5.; los cuales fueron: 1) Del artículo “Modified Desirability Functions for Multiple Response Optimization”, escrito por Del Castillo et al.; publicado en el Journal of Quality Technology, vol.28, Nº3. (ver numeral 3.2.) 2) Del Artículo “Design of Experiments. Improve Molded Part Quality”, escrito por Vasconcelos et al.; publicado en Quality Progress, Nº 7 del 2003. (ver numeral 3.2.) 3) Del texto “Diseño y Análisis de Experimentos”, Capítulo 9, Ejemplo 9-2, escrito por Montgomery, D., publicado por Editorial Iberoamericana, 2003. (ver numeral 3.3.) 4) Del texto “Understanding Industrial Designed Experiments”, Caso Estudio 8-23. escrito por Schmidt, R y Launsby , R., publicado por Air Academy Press, 1994. (ver numeral 3.3.)

116

5) Del texto “Taguchi Techniques for Quality Engineering” ejemplo del Apéndice G7, escrito por Ross, P., publicado por McGraw Hill, 1988. (ver numeral 3.3.) 6) Del artículo “How to Formulate the Ultimate Margarita: A Tutorial on Experiments with Mixtures”, escrito por Montgomery, D y Bowles, M. y publicado en el Quality Engineering, volumen 10(2), páginas 239-253. (ver numeral 3.4.) 7) Del artículo “Improving Parafin Wax Yield Through Process Optimization Using Taguchi’s Method of Experimentation”, escrito por Anand, K. y publicado en el Quality Engineering, volumen 6(1), páginas 39-56. (ver numeral 3.5.)

Se obtuvieron los Resultados, se realizó la Discusión de los resultados obtenidos y se establecieron las Conclusiones y Recomendaciones. Finalmente se procedió a la redacción del informe final.

Instrumentos y técnicas de recolección de

datos, fueron el ingreso a

diversas bases de datos científicas, tanto tesis, como investigaciones, en bases de datos como las de la IEEE The Institute of Electrical and Electronics Engineering, ACM American for Computing Machinery, ASQ American Society for Quality, MIT Massachusetts Institute of Technology, entre otras. Técnicas de procesamiento, análisis e interpretación de datos, fueron fundamentalmente de tipo matemático y estadístico, relacionadas con optimización y aproximación de funciones.

117

CAPÍTULO III DESARROLLO DE LA RED, SU APLICACIÓN Y RESULTADOS OBTENIDOS 3.1. Análisis de las características de las Arquitecturas de Redes Neuronales y sus posibilidades de aplicar para la Mejora de la Calidad de procesos.

En la Tabla 10 que se presenta a continuación se aprecia el análisis efectuado de las características de las Redes Neuronales Perceptrón, Adaline y Pereptrón Multicapa.

En la Tabla 11 que se presenta en la página 121 se aprecia el análisis efectuado de las características de las Redes Neuronales de Base Radial, Recurrentes y de Aprendizaje no Supervisado.

118

Tabla 10. Análisis de las características de las Redes Neuronales Perceptrón, Adaline y Pereptrón Multicapa. A.1. Arqui tectura

A.2. Apren dizaje

Perceptrón

Adaline

Es una estructura monocapa en la que hay un conjunto de neuronas de entrada y una o varias neuronas de salida. Cada una de las neuronas de entrada tiene conexiones con todas las células de salida

Idéntica al Perceptrón, pero es capaz de realizar un mejor aprendizaje. Porque es un elemento combinador adaptativo, que recibe un conjunto de entradas y las combina para producir una salida.

Perceptrón Multicapa Tiene las posibilidades de las capas ocultas en una red. Así se puede resolver el problema XOR que no puede resolver el Perceptrón simple debido a la capa oculta que se añade. Es un perceptrón multicapa que utiliza el algoritmo backpropagation para el aprendizaje

Sea x un patrón de entrenamiento y S(x) su clase asociada, tomando valores en (-1,1), el proceso de aprendizaje (con limitaciones) se puede describir así: 1) Empezar con valores aleatorios para los pesos y el umbral. 2) Seleccionar un vector de entrada x del conjunto de ejemplos de entrenamiento. 3) Si Y  S(x), la red da una respuesta incorrecta. Modificar Wi de acuerdo con:  Wi = S(x) Xi (Regla de aprendizaje del Perceptrón) 4) Si no se ha cumplido el criterio de finalización, volver a 2. Como el umbral es equivalente a un peso adicional, al que se denota por Wo cuya entrada es siempre 1 (Xo = 1), la ecuación anterior se puede extender para el umbral de la siguiente manera: Wi = S(x) Xi; i = 0,...,n

La regla de aprendizaje del PERCEPTRON no permite producir salidas reales, debido a que su función de activación: escalón; sólo permite salidas binarias: 1, -1. El procedimiento de aprendizaje definido por la regla Delta será : 1.Inicializar los pesos de forma aleatoria 2.Introducir un patrón de entrada 3. Calcular la salida de la red, compararla con la esperada ó deseada y obtener la

Usa el algoritmo Backpropagation. Los pasos a seguir son: 1) Se inicializan los pesos y umbrales de la red. Valores aleatorios, alrededor de cero. 2)Se toma un patrón n del conjunto de entrenamiento, (X(n), S(n)), y se propaga hacia la salida de la red el vector de entrada X(n) utilizando las ecuaciones: a) activación de las neuronas de la capa de entrada b) activación de las neuronas de la capa oculta c c) activación de las neuronas de la capa c-1 Obteniéndose así la respuesta de la red para dicho vector de entrada, Y (n) 3) Se evalúa el error cuadrático cometido por la red para el patrón n utilizando la ecuación 4) Se aplica la regla delta generalizada para modificar los pesos y umbrales de la red. Para ello se siguen los siguientes pasos: 4.1.) Se calcula los valores de  para todas las neuronas de la capa de salida. 4.3.) Se modifican pesos y umbrales de la red siguiendo las siguientes ecuaciones para los pesos y umbrales de la capa de salida: 5) Se repiten los pasos 2, 3 y 4 para todos los patrones de entrenamiento, completando así una iteración o ciclo de aprendizaje. 6) Se evalúa el error total E cometido por la red, mediante la ecuación siguiente:

diferencia: ( s  y ) 4.Para todos los pesos, multiplicar dicha diferencia por la entrada correspondiente, y ponderarla por una tasa de ap 5.Modificar el peso restando del valor antiguo la cantidad obtenida en 4 Si no se ha cumplido el criterio de convergencia, regresar a 2; si se han acabado todos lo patrones, empezar de nuevo a introducir patrones. p

p

119

N

E = 1/N

 e( n )

; donde N es el número de patrones y

n 1

A3. Limita ciones /Venta jas

No funciona para relaciones entrada y salida no lineales

de

No funciona para relaciones de entrada y salida no lineales. Utiliza la regla delta de aprendizaje, por ello es superior al perceptrón.

e(n) es el error cometido por la red para el patrón (entrada) n. Dicho error también recibe el nombre de error de entrenamiento, pues se calcula utilizando los patrones de entrenamiento. 7) Se repiten los pasos 2,3,4,5 y 6 hasta alcanzar un mínimo del error de entrenamiento, para lo cual se realizan m ciclos de aprendizaje. Funciona para relaciones de entrada y salida no lineales. Utiliza la regla delta generalizada para el aprendizaje y el algoritmo backpropagation, al tener varias capas y por lo menos una oculta. Son aproximadores universales. Son una posibilidad a utilizar para optimizar procesos productivos.

120

Tabla 11. Análisis de las características de las Redes Neuronales Base Radial, Recurrentes y De Aprendizaje no Supervisado.

R.N. Base Radial A.1. Arqui tectura

Son redes multicapa con conexiones hacia delante, al igual que el perceptrón multicapa. Las redes de base radial se caracterizan porque están formadas por una única capa oculta y cada neurona de esta capa posee un carácter local, en el sentido de que cada neurona oculta de la red se activa en una región diferente del espacio de patrones de entrada. Este carácter local viene dado por el uso de las llamadas funciones de base radial, generalmente la función gausiana, como funciones de activación. Las neuronas de la capa de salida de las redes de base radial simplemente realizan una combinación lineal de las activaciones de las neuronas ocultas. Las redes neuronales de base radial están formadas por tres capas de neuronas, una de entrada, una única oculta y una de salida.

R.N. Recurrentes

RN De Aprendizaje no Supervisado

Crean bucles en las neuronas de la red mediante el uso de las llamadas conexiones recurrentes, pudiendo aparecer en la red conexiones de una neurona con ella misma, conexiones entre neuronas de una misma capa o conexiones de las neuronas de una capa a la capa anterior. Implica, generalmente, un aumento del número de pesos o parámetros ajustables en la red, lo cual permite que aumente la capacidad de representación, pues en las redes de neuronas artificiales la información se representa de manera distribuida en los pesos de las conexiones y/o en las propias neuronas. Sin embargo, el aumento de parámetros ajustables, complica el aprendizaje de las redes recurrentes La activación de una neurona con conexiones recurrentes ya no depende sólo de las activaciones de las neuronas en la capa anterior, sino que depende también del estado o activación de cualquier otra neurona de la red conectada a ella, o incluso de su propia activación. En las redes de neuronas recurrentes es necesario incluir la variable tiempo en la activación o estado de una neurona Red de Hopfield Es un modelo de memoria asociativa de patrones o muestras, que es capaz de recuperar patrones almacenados a partir de información incompleta sobre los patrones o incluso a partir de patrones con ruido.

No necesitan de un profesor o supervisor externo para realizar su aprendizaje. Regla de Hebb “Cuando un axón de una célula A está bastante cerca para excitar a una célula B y repetida o presistentemente dispara, entonces se produce algún proceso de desarrollo o cambio metabólico de tal forma que la eficiencia del disparo de A hacia B aumenta”. Redes de Hopfield y Kohonen Modelo de interacción lateral. La red puede adaptar sus respuestas de tal forma que la posición de la neurona que produce la respuesta pasa a ser específica de una determinada característica de la señal de entrada. Esta especificidad se da en el mismo orden topológico para la red que el que existe entre las características de las señales de entrada. Esto significa que la estructura topológica de la red absorbe a su vez aquella que se produce entre las características de los datos, y por tanto el sistema no sólo es capaz de realizar una clasificación de estímulos, sino que además pondrá de relieve y conservará las relaciones existentes entre las diferentes clases obtenidas. Cada neurona está conectada con otras de su entorno de manera que produce una excitación en las más próximas y una inhibición en las más alejadas. Tanto la excitación como la inhibición laterales son gradualmente más débiles a medida que nos alejamos de la neurona en cuestión. Este mecanismo hace que cuando un estímulo produce una reacción en una célula, las células de su inmediato entorno se vean influenciadas por dicha reacción, de una manera positiva las más cercanas, y negativa las más alejadas. Igualmente, a medida que la señal se aleja de la célula que la produjo, esa influencia va progresivamente debilitándose. La arquitectura de una red de neuronas artificial con aprendizaje competitivo es la siguiente. Existen dos capas

121

A.2. Apren dizaje

Se resume en los siguientes pasos: 1) Se inicializan todos los parámetros de la red. En el caso de las amplitudes, pesos y umbrales, esta inicialización suele hacerse de manera aleatoria con valores cercanos a cero. Para los centros es, generalmente, preferible inicializarlos aleatoriamente a patrones de entrada o a la salida de un algoritmo de clasificación aplicado en el espacio de entrada. 2) Se toma un patrón del conjunto de patrones disponibles (X(n),S(n)) y se calcula al salida de la red, Y(n), para el patrón de entrad X(n). 3) Se evalúa el error e(n) cometido pro la red para dicho patrón, con la

Tienen dos fases de operación, almacenamiento y recuperación. Fase de almacenamiento: se van a determinar los valores que deben tomar los pesos de la red para almacenar un conjunto de patrones, y en la fase de recuperación describe el mecanismo para recuperar la información almacenada a partir de información incompleta. De acuerdo con la regla de Hebb para almacenar patrones, el peso de la conexión de la neurona j a la neurona i en la red de Hopfield viene dado por : p

w ji   x j (k )xi (k )    i  j k 1

Fase de recuperación

denominadas F1 y F2. La capa F1 es la llamada capa de entrada y recibe los datos de entrada (señales de entorno). La capa F2 es la capa de competición y se encarga de producir la salida. Cada célula de la capa F1 está conectada con todas las células de la capa F2 a través de conexiones ponderadas variables. Por su parte la capa F2, además de recibir las entradas de la capa F1 tiene conexiones laterales inhibitorias entre todas las células de su capa, excepto consigo misma, en que la conexión es excitatoria. Las conexiones existentes en la capa F2 son fijas y el valor es asignado en el momento de creación de la red. Esta arquitectura es un sistema de interacción lateral en el que la función de interacción de cada neurona sólo toma valores positivos para un radio de cero, es decir, para la propia neurona, y valores negativos constantes para el resto de neuronas. Cada neurona se refuerza a sí misma, realimenta su valor de activación para compensar las inhibiciones que provienen del resto de la neuronas de su capa Aprendizaje competitivo. Es un tipo de aprendizaje no supervisado que sirve de base para varios modelos de Redes de Neuronas Artificiales. El objetivo de estas redes es categorizar los datos de entrada. Así los datos parecidos deben ser clasificados como pertenecientes a la misma categoría. En estos modelos de red suele haber una capa de clasificación compuesta de tantas neuronas como categorías pueda haber en los datos. Cada categoría está representada por un prototipo cuyas características son una especie de compendio de las características de los datos pertenecientes a esa misma categoría. En la capa de clasificación, cada neurona corresponde a un prototipo. El sistema debe relacionar cada neurona, prototipo, con los datos de entrada que representa. Es decir, es agrupa los datos de entrada en categorías, por similitud, y se asigna a cada categoría un prototipo, que más tarde será utilizado para clasificar datos nuevos y

122

ecuación:

Sea r

e(n) = ½

 (s K 1

k

(n)  y k (n)) 2

donde Y(n) = (y 1 (n),..., y r (n)) y S(n) = (s 1 (n),..., s r (n)) los vectores de salida de la red y salida deseada para el patrón de entrada X(n), respectivamente. 4) Se modifican los pesos, umbrales, centros y amplitudes de la red. 5) Se repiten los pasos 2, 3 y 4 para todos los patrones de entrenamiento. 6) Se repiten los pasos 2, 3, 4 y 5 hasta conseguir la convergencia, es decir, hasta que la suma de los errores para todos los patrones se estabilice, según la ecuación: N

E = 1/N

 e( n ) n 1

en este momento se alcanza un mínimo de dicha función.

x  ( x1 , x2 ,..., xn ) un patrón de prueba,

diferente a los patrones almacenados en la fase anterior. Dicho patrón representa, generalmente, una versión de algún patrón almacenado x(k) con información incompleta o ruido. Mediante esta fase, la red de Hopfield va a recuperar el patrón almacenado más parecido al patrón de prueba x. Para ello, sigue el siguiente procedimiento : Se inicializan los estados de las n neuronas de la red utilizando dicho patrón x, es decir : Se calculan los estados de la red en los siguientes instantes de tiempo utilizando las ecuaciones de s i (t  1) , sng vi (t  1)  y de

vi (t  1) hasta conseguir un punto estable

o punto fijo de la red, entendiendo como punto estable aquel en el que los estados de todas las neuronas de la red permanecen invariantes con el tiempo

desconocidos. Cuando se recibe una entrada en la capa F!, ésta se propaga hasta la capa F2, cuyas neuronas tendrán un valor de activación proporcional al valor de la entrada propagada. Esta proporción vendrá dada por los valores de la conexiones entre F1 y F2 (W ij ). Una vez que las neuronas de F2 han sido activadas por la capa F1, ésta deja de actuar, y la señal es propagada, de forma asíncrona, a través de la capa F2, de manera que todas las neuronas tratarán de impedir que las demás tengan un valor de activación alto, gracias a las conexiones inhibitorias con todas sus vecinas; a la vez que intentarán tener ellas mismas un valor de activación alto, gracias a las conexiones reflexivas excitatorias. El algoritmo que describe el funcionamiento de la red es el siguiente : 1.Se recibe el estímulo en F1. 2.Se propaga la señal hasta F2 y se calcula el valor de excitación para cada neurona de F2. 3.Se inhiben las conexiones entre la capa F1 y la F2. 4.Se propaga la señal por la capa F2, calculándose los nuevos valores de excitación de las neuronas. Cuando sólo haya una célula (célula ganadora) con un valor de salida mayor que cero, ir al paso 5. 4.Ir al paso 3. 5. Restablecer las conexiones entre las capas F1 y F2 Calcular los nuevos valores para los pesos de las conexiones entre la capa F1 y la célula neurona ganadora en el paso 3 La capa F2 se ha estabilizado cuando todas las salidas de las neuronas tienen un valor de cero, excepto una, que será la que al principio ha recibido la entrada más alta de la capa F1, ya que será la que habrá inhibido en mayor grado al resto y también habrá reforzado a sí misma en mayor grado. Las neuronas de la capa F2 compiten por la entrada, de

123

A3. Limita ciones /Venta jas

Estructura similar al Perceptrón multicapa, pero con una única capa oculta; cada neurona de la capa oculta posee un carácter local; es decir se activa en una región diferente del espacio de patrones de entrada. Se usa la función gausiana: funciones de base radial en la capa oculta. Estas redes también son aproximadores universales por lo que son una posibilidad a utilizar para optimizar procesos productivos.

Estas tienen la características de tener total o parcialmente la recurrencia o bucle, incluyen las que consideran el tiempo, las que son asociativas como la de Hopfield, las que son parcialmente recurrentes como las de Elman y Jordan y las que tienen aprendizaje en tiempo real, todas ellas por su particularidad de funcionamiento son más apropiadas para usos distintos al que nos interesa de mejora de la calidad de procesos, especialmente en el diseño del proceso, que es lo fundamental. Estas redes podrían ser más útiles para identificar patrones, identificar características e incluso ajustar procesos, previamente diseñados y para hacer mejoras en tiempo real.

ahí el nombre del método. La neurona que gana la competición: neurona ganadora. Esta representa al prototipo que se asigna al dato de entrada. La siguiente vez el mismo dato de entrada hará activarse aún más a su prototipo relacionado, para cada dato de entrada se realiza un ciclo de aprendizaje. Las conexiones entra la capa F1 y la neurona ganadora son reforzadas. Este aprendizaje sólo modifica las conexiones de la neurona ganadora. Redes del tipo no supervisado, que se han desarrollado a partir de los estudios antes mencionados son las de Mapas Autoorganizativos de Kohonen y las de Teoría de la Resonancia Adaptativa ART. Este tipo de redes por la limitación de no tener el patrón o modelo a lograr (supervisor) es que no son de utilidad para el objetivo que buscamos de mejora de la calidad a través del diseño de los procesos; en todo caso podrían utilizarse en un trabajo inicial de desarrollo de nuevos productos en los que no se conozca lo que se va a obtener o lo que se persigue y se toma en cuenta lo que se tienen, durante la elaboración del producto o desarrollo del proceso. Por otro lado para el buen cálculo de resultados con este tipo de redes se requiere de la redundancia, que es no nuestro caso.

En conclusión de lo revisado sobre las principales redes neuronales artificiales que en la actualidad se conocen, son el Perceptrón Multicapa con aprendizaje de backpropagation, y las Redes Neuronales de Base Radial las más adecuadas para desarrollar una red neuronal artificial específica para la mejora de la calidad de diseño de procesos, que dé mejores resultados que los obtenidos con los diseños experimentales y las RNA ya existentes, para los casos que se trabaje con varias variables dependientes e independientes y en los que sus relaciones no sean lineales.

124

3.2. Desarrollo de una Arquitectura de Red Neuronal para Mejora de la Calidad de procesos. Teniendo en cuenta que el concepto mayoritariamente aceptado sobre calidad es que la calidad la da el cliente, es que podemos considerar que en los casos de mejora de la calidad debemos conocer que es lo que quieren los clientes, y con ello se tiene la información que debe servir de patrón a lograr por las redes neuronales que queremos construir. Es decir, se trata de un aprendizaje supervisado. Para el desarrollo de la arquitectura de la RNA se ha trabajado en 3.2.1. la selección del Shell, en 3.2.2. el desarrollo del programa; en 3.2.3. lo referente al Perceptrón Multicapa con Backpropagation y los métodos estadísticos en comparación con la Red desarrollada y en 3.2.4. lo referente a las Redes Neuronales de Base Radial y los métodos estadísticos en comparación con la Red desarrollada 3.2.1. Selección del Shell a utilizar. Se consideró en el análisis de la selección del shell apropiado para la investigación los siguientes programas de computación: a. MATLAB - NEURAL NETWORK TOOLBOX. b. NEUROSHELL c. NEUROSOLUTIONS d. SPRINN

Los criterios considerados fueron: 1) Ser especializado en Redes Neuronales Artificiales. 2) Elaborado para aplicación a diversos campos de actividad. 3) Trabajo con diversos tipos de Redes Neuronales, entre las que deben estar Perceptrón Multicapa con aprendiaje Backpropagation y Redes Neuronales de Función de Base Radial. 4) Capacidad de permitir al usuario elaborar programas de computación, que puedan interactuar con los que tiene el software. 5) Se haya aplicado a diversos trabajos de investigación. 6) Presentación de parámetros de las redes y de resultados 7) Interconectado con programa de simulación.

125

Cada criterio se calificó con tres niveles: 3 para lo mejor, 2 para nivel intermedio, 1 para nivel reducido y 0 para no aplicación.

A continuación se presenta la tabla de selección desarrollada: Tabla 12. Selección del Shell a utilizar Shell MATLAB NEUROSHELL NEURO SOLUTIONS Criterio 1)Especializado 3 3 3 2)Diversos cam- 3 3 3 pos de actividad 3)Diversos Tipos 3 2 3 Redes 4)Programación 3 2 1 5)Diversas 3 3 2 investigaciones 6)Presenta 3 2 2 parámetros de las redes. 7)Interconewxión 3 2 1 con programa simulación TOTAL 21 17 15

SPRINN

3 1 1 1 1 1

1

9

Como resultado de la evaluación realizada se seleccionó el Shell MatlabNeural Network Tooolbox; versión 7.2 de Matlab (R2006a), con el toolbox: Neural networks; especialmente desarrollado por Mathworks para el trabajo con redes neuronales. 3.2.2 Desarrollo del Programa de computación. a. REQUISITOS DEL PROGRAMA. La RNA desarrollada en el presente trabajo, es una variación de las RNA de base Radial, donde la distancia Euclídea es modificada mediante el cálculo de la distancia de Mahalanobis. Donde se introduce el factor K en lugar de la desviación d. Siendo K la inversa de la matriz de la covariancia de los vectores de entrada. Se trata de un ajuste al cálculo de las distancias con el objeto de obtener mejores resultados. Resultados que expresan mejor la relación entre las entradas y las salidas.

126

Por tanto en lugar de la expresión:

 (r )  e

(

 ( x c ) 2 2 i2

)

Se utiliza la expresión: ( x  c )T K ( x  c )

 (r )  e

donde K es: K=[E(x-m)(x-m)T]-1 m= el vector medio calculado considerando todos los vectores de entrada. T= símbolo de la transpuesta de la matriz. C=los centros de la función de base radial. K=Distancia de Mahalanobis.

Por tanto el programa desarrollado calcula los parámetros de la Red con base a la Distancia de Mahalanobis, y entrenada la Red permite simular el valor de salida, dado un valor de entrada.

b. BASE DE CONOCIMIENTO. b.1. Arquitectura de la RNA de Función de Base Radial, seleccionada: Número de capas: 3, una de entrada, una oculta y una de salida. Número de neuronas de la capa de entrada: igual al número de vectores de entrada. Número de neuronas de la capa oculta: igual al número de neuronas de entrada. Número de neuronas de la capa de salida: igual al número de vectores de salida. Neuronas de la capa de entrada con vectores de entrada.

Neuronas de la capa oculta con función de transferencia: función de Gauss, con Distancia de Mahalanobis entre centros y vectores de entrada (equivalen a los pesos de entrada: w1) y con amplitudes (equivalen a los umbrales: b1) Neuronas de la capa de salida: con función de transferencia lineal; que recibe las salidas de la capa oculta Ø y se ponderan por los pesos entre la capa oculta

127

(w2) y la capa de salida más los umbrales de las neuronas de la capa de salida (b2).

Tabla 13. Tabla de Arquitectura: Entradas Xi

pesos W1=x1

Capa de .entrada

Capa oculta Distancia Función centros radial b1 Umbrales: amplitud

Capa oculta, radial Centros, Dist.

Pesos W2

b2:umbrales

Capa de salida, lineal Pesos

Entrada 1

Entrada 2

Salida 1 1

1

1

2

2

2 2

.o o o

.o o o

m

p

.o o o

Entrada n

Salida Sumatoria

n

Salida 2

Salida p

Figura 38. Modelo de la Red Neuronal Desarrollada

Teniendo en cuenta los datos entrada si son presentados como vector o como matriz. En el primer caso se utiliza el programa 14 r y en el segundo el 15 r. INICIO

INGRESAR DATOS DE ENTRADA

SON UN VECTO

NO SI

APLICAR PROGRAMA 14r. FASES 1 Y 2

APLICAR PROGRAMA 15r FASES 1 Y 2

FIN

FIGURA 39. FLUJOGRAMA DE SELECCIÓN DE PROGRAMA DE RED DESARROLLADA

b.2. PROGRAMA 14r : PARA DATOS DE ENTRADA Y SALIDA COMO UN VECTOR.

128

FASE I. ENTRENAMIENTO DE LA RED Dados los datos iniciales: Valores de Entrada: p Valores de Salida: t Amplitud d (sc, en Matlab).

Se obtendrá como salidas los valores de: Peso de Entrada: w1 Umbral de entrada b1 Peso de Salida: w2 Umbral de salida: b2 Inversa de la matriz de covariancia: K

Diagrama de Flujo de Entrenamiento de la Red:

129

INICIO

P1.INGRESAR DATOS

P2.DETERMINAR DIMENSIONES DE P Y T

P3. DETERMINAR PESOS W1

P4. CALCULAR UMBRALES B1

P5. CALCULAR LAS DISTANCIAS Z

P6. CALCULAR SALIDAS CAPA OCULTA A.

P7. CALCULAR MATRIZ SEUDOINVERSA

P8. CALCULAR PESOS W2

P9. CALCULAR UMBRALES B2

P10. MOSTRAR RESULTADOS

FIN

FIGURA 40. ENTRENAMIENTO DE LA RED. PROGRAMA 14 r. FASE I.

PASO 1. INGRESAR LOS DATOS DE P Y T.

PASO 2. DETERMINAR LAS DIMENSIONES DE P Y T. Determinar dimensiones del los vectores de entrada (p) vectores de salida (t)

130

PASO 3. DETERMINAR PESOS W1. Determinar valores de pesos iniciales w1

PASO 4. CALCULAR UMBRALES B1.Calcular los valores de los umbrales de las neuronas de la capa oculta. b1.

PASO 5. CALCULAR LAS DISTANCIAS Z. Calcular las distancias de los pesos w1 a los vectores de entrada p: Z, aplicando la distancia de Mahalanobis. Para ello se calcula primero la distancia Euclídea, que se obtiene con un comando de Matlab y se multiplica por la constante K que es la inversa de la matriz de covariancia de los vectores de entrada.

PASO 6. CALCULAR SALIDAS CAPA OCULTA A. Calcular los valores de salida de las neuronas de la capa oculta, mediante la función de Gauss aplicada a los valores obtenidos por el producto entre la distancia calculada Z (obtenidos en el paso 5) por los umbrales b1 (obtenidos en el paso 4)

PASO 7. CALCULAR MATRIZ SEUDOINVERSA .Calcular mediante el método de la seudo inversa, la matriz que contiene los pesos w2 entre la capa oculta y la de salida y umbrales de la capa de salida b2. Para ello se iguala los valores a los de la salida dados inicialmente (t). [w2, b2]*[A;ones]= t; y wb=t/[P; ones(1,Q)].Donde A es el vector de salida de las neuronas de la capa oculta. Por el método de la seudo inversa se tiene: wb=A\T’.

PASO 8 .CALCULAR LOS PESOS W2.Calcular los valores de los pesos de la capa oculta a la capa de salida w2. Con base a la matriz obtenida en el paso anterior.

PASO 9. CALCULAR UMBRALES B2. Calcular los valores del umbral de las neuronas de la capa de salida b2.Con base a la matriz obtenida en el paso 7.

PASO 10. MOSTRAR RESULTADOS. Mostrar los parámetros de la Red. Comandos en Matlab, del Programa:

131

Valores de Entrada: p,t,sc. function [w1,b1,w2,b2,K] = newrbfcev14r(p,t,sc) %Paso 1 [r,q] = size(p); [s2,q] = size(t); %Paso 2 w1 = p'; %Paso 3 b1 = ones(q,1)*sqrt(-log(0.5))/sc; %Paso 4 m=sum(p)/q; H=(p-m)*(p-m)'; K=pinv(H); D=dist(w1,p); Z=K*D; %Paso 5 a1=radbas(Z.*(b1*ones(1,q))); %Paso 6 x=t/[a1; ones(1,q)]; %Paso 7 w2=x(:,1:q); %Paso 8 b2=x(:,q+1);

Valores de salida: w1,b1,w2,b2, K.

FASE II. SIMULACIÓN. Dados los datos iniciales: Valores de Entrada: pe Peso de Entrada: w1 Umbral de entrada b1 Peso de Salida: w2 Umbral de salida: b2 Amplitud d (sc, en Matlab). Por default=1.

Se obtendrá como salidas los valores de: Salida de la red: ts

132

Diagrama de Flujo de Simulación: INICIO

P1.INGRESAR DATOS

P2.DETERMINAR DIMENSIONES DE PE y W1

P3: r

~=

P4. CALCULAR LAS DISTANCIAS Z

FIN

P5. CALCULAR SALIDAS CAPA OCULTA A.

P6. CALCULAR SALIDA POR EL PESO

P7. CALCULAR SALIDA ts

P8. MOSTRAR RESULTADOS

FIN

FIGURA 41. SIMULACIÓN DE LA RED. PROGRAMA 14r. FASE II.

PASO 1. INGRESAR DATOS. Ingresar parámetros de la Red calculados en la fase I.

PASO 2. DETERMINAR LAS DIMENSIONES DE PE Y W1. Determinar dimensiones de los valores de entrada (pe) cuya correspondiente salida se busca y de W1 Pesos obtenidos en fase 1.

133

PASO 3. VERIFICAR DATOS. Se verifica que el número de columnas de W1 sea igual al número de filas de p, para poder continuar. En caso de no serlo se envía mensaje de error y termina el programa.

PASO 4. CALCULAR LAS DISTANCIAS Z. Calcular las distancias de los pesos w1 a los vectores de entrada pe: Z, aplicando la distancia de Mahalanobis; cuya forma de cálculo es similar a la fase 1.

PASO 5. CALCULAR SALIDAS CAPA OCULTA A. Calcular los valores de salida de las neuronas de la capa oculta, mediante la función de Gauss aplicada a los valores obtenidos por el producto entre la distancia calculada Z (obtenidos en el paso 4) por los umbrales b1 (obtenidos en la fase I).

PASO 6. CALCULAR LA SALIDA POR EL PESO. Calcular el producto de los pesos w2 entre la capa oculta y la de salida y las salidas de la capa oculta (obtenida en el Paso 5).

PASO 7. CALCULAR LA SALIDA. Se obtiene sumando el valor obtenido en el paso 6 al valor del umbral b2 que es dato de entrada.

PASO 8. MOSTRAR RESULTADOS. Mostrar la salida calculada de la Red

Comandos en Matlab, del Programa: Valores de entrada: Parámetros obtenidos en la fase I: Peso de Entrada: w1 Umbral de entrada b1 Peso de Salida: w2 Umbral de salida: b2

Valor cuya salida se busca Pe. En el programa se puso p, por simplicidad. function [ts] = simnewrbfcev14r(w1,b1,w2,b2,p)

134

%Paso 1. [s,r] = size(w1); [r2,q] = size(p); %Paso 2. if(r~=r2),error('matriz interna de dimensiones que no concuerdan.'), end %Paso 3. m=sum(p)/q; H=(p-m)*(p-m)'; K=pinv(H); D=dist(w1,p); Z=K*D; a1=radbas(Z.*(b1*ones(1,q))); ts=(w2*a1)+b2;

Nota: Como información complementaria se adjunta el programa de Computación de Matlab que permite calcular la Distancia Euclídea entre dos puntos, y que se ejecuta a través del Comando distç(x,y) de Matlab.

DATOS DE ENTRADA: W Y P. function z = dist(w,p) [S,R] = size(w); [R2,Q] = size(p); if (R ~= R2), error('Inner matrix dimensions do not match.'),end z = zeros(S,Q); if (Q> p=[ 4 5 6]; >> t=[1.5 3.6 6.7]; >> sc=1; >> net=newrbe(p,t); >> pe=4.5; >> ts=sim(net,pe) ts = 2.0967 >> [w1,b1,w2,b2,K]=newrbfcev14r(p,t,sc); >> [ts]=simnewrbfcev14r(w1,b1,w2,b2,pe) ts = 2.7248

De lo anterior se aprecia que el resultado de la Red que trabaja con la Distancia EuclÍdea se obtiene 2.0967 mientras que con el programa desarrollado se obtiene 2.7248. En el siguiente gráfico y explicación se aprecia el mejor desempeño del resultado obtenido con el programa nuevo propuesto. p 4.

5

6

2

3 .

t 1.

4

5

6 .

7

Si se aprecian los puntos se tiene que en el caso de p=4.5 corresponde al valor medio entre 4 y 5; asimismo se ve que en t hay una tendencia a aumentar las distancias frente a similares aumentos de p. Así la distancia entre (3.61.5)>(6.7-3.6) ello significa que a un valor medio entre 4 y 5, debe corresponder un valor que va más a la derecha de la distancia media entre 1.5 y 3.6 (=2.55); 2.7248 está a la derecha de 2.55 mientras que 2.0967 a la izquierda. Es decir que el cálculo hecho con la distancia de Mahalanobis, con el programa preparado da una mejor resultado que el que utiliza la distancia EuclÍdea.

137

b.3. PROGRAMA 15r: PARA DATOS DE ENTRADA Y SALIDA

COMO

MATRIZ.

FASE I. ENTRENAMIENTO DE LA RED Dados los datos iniciales: Matriz de Entrada: p Matriz de Salida: t Amplitud d (sc, en Matlab).

Se obtendrá como salidas los valores de: Peso de Entrada: w1 Umbral de entrada b1 Peso de Salida: w2 Umbral de salida: b2 Inversa de la matriz de covariancia: K.

Diagrama de Flujo de Entrenamiento de la Red:

138

INICIO

P1.INGRESAR DATOS

P2.DETERMINAR DIMENSIONES DE P Y T

P3. DETERMINAR PESOS W1

P4. CALCULAR UMBRALES B1

P5. CALCULAR LAS DISTANCIAS Z

P6. CALCULAR SALIDAS CAPA OCULTA A.

P7. CALCULAR MATRIZ SEUDOINVERSA

P8. CALCULAR PESOS W2

P9. CALCULAR UMBRALES B2

P10. MOSTRAR RESULTADOS

FIN

FIGURA 42. ENTRENAMIENTO DE LA RED.PROGRAMA 15r.FASE I

PASO 1. INGRESAR DATOS DE P Y T. Ingresar datos de P y T como matriz.

PASO 2. DETERMINAR LAS DIMENSIONES DE P Y T. Determinar las dimensiones de la matriz de entrada (p) y matriz de salida (t)

139

PASO 3. DETERMINAR PESOS W1. Determinar valores de pesos iniciales w1

PASO 4. CALCULAR UMBRALES B1.Calcular los valores de los umbrales de las neuronas de la capa oculta. b1.

PASO 5. CALCULAR LAS DISTANCIAS Z. Calcular las distancias de los pesos w1 a los vectores de la matriz de entrada p: Z, aplicando la distancia de Mahalanobis. Para ello se calcula primero la distancia Euclídea, que se obtiene con un comando de Matlab y se multiplica por la constante K que es la inversa de la matriz de covariancia de los vectores de la matriz entrada.

PASO 6. CALCULAR LAS SALIDAS DE LA CAPA OCULTA A. Calcular los valores de salida de las neuronas de la capa oculta, mediante la función de Gauss aplicada a los valores obtenidos por el producto entre la distancia calculada Z (obtenidos en el paso 5) por los umbrales b1 (obtenidos en el paso 4)

PASO 7. MATRIZ SEUDOINVERSA .Calcular mediante el método de la seudo inversa, la matriz que contiene los pesos w2 entre la capa oculta y la de salida y umbrales de la capa de salida b2. Para ello se iguala los valores a los de la salida dados inicialmente (t). [w2, b2]*[A;ones]= t; y wb=t/[P; ones(1,Q)].Donde A es la matriz de salida de las neuronas de la capa oculta. Por el método de la seudo inversa se tiene: wb=A\T’.

PASO 8 .Calcular los valores de los pesos de la capa oculta a la capa de salida w2.Con base a la matriz obtenida en el paso anterior.

PASO 9. Calcular los valores del umbral de las neuronas de la capa de salida b2.Con base a la matriz obtenida en el paso 7.

PASO 10. MOSTRAR RESULTADOS. Mostrar los parámetros de la Red. Comandos en Matlab, del Programa:

140

Valores de Entrada: p,t,sc. function [w1,b1,w2,b2,K] = newrbfcev15r(p,t,sc) %Paso 1 [r,q] = size(p); [s2,q] = size(t); %Paso 2 w1 = p'; %Paso 3 b1 = ones(q,1)*sqrt(-log(0.5))/sc; %Paso 4 m=sum(p)/r; copies=zeros(1,r); M = m(1+copies,:),1; H=(p-M)'*(p-M); K=pinv(H); D=dist(w1,p); Z=K+D; %Paso 5 a1=radbas(Z.*(b1*ones(1,q))); Paso 6 x=t/[a1; ones(1,q)]; Paso 7 w2=x(:,1:q); Paso 8 b2=x(:,q+1);

Valores de salida: w1,b1,w2,b2, K.

FASE II. SIMULACIÓN . Dados los datos iniciales: Valores de Entrada: pe Peso de Entrada: w1 Umbral de entrada b1 Peso de Salida: w2 Umbral de salida: b2 Amplitud d (sc, en Matlab). Por default=1.

Se obtendrá como salidas los valores de: Salida de la red: ts

141

Diagrama de Flujo de Simulación: INICIO

P1.INGRESAR DATOS

P2.DETERMINAR DIMENSIONES DE PE y W1

P3: r

~=

P4. CALCULAR LAS DISTANCIAS Z

FIN

P5. CALCULAR SALIDAS CAPA OCULTA A.

P6. CALCULAR SALIDA POR EL PESO

P7. CALCULAR SALIDA ts

P8. MOSTRAR RESULTADOS

FIN

FIGURA 43. SIMULACIÓN DE LA RED. PROGRAMA 15. FASE II.

PASO 1. INGRESAR DATOS. Igresar parámetros de la Red calculados en la fase I PASO 2. DETERMINAR LAS DIMENSIONES DE PE Y W1. Determinar dimensiones de los valores de entrada (pe) cuya correspondiente salida se busca y de W1 Pesos obtenidos en fase I.

142

PASO 3. VERIFICAR DATOS. Se verifica que el número de columnas de W1 sea igual al número de filas de p. En caso de no serlo se envía mensaje de error y termina el programa.

PASO 4. CALCULAR LAS DISTANCIAS Z. Calcular las distancias de los pesos w1 a los de la matriz de entrada pe: Z, aplicando la distancia de Mahalanobis; cuya forma de cálculo es similar a la fase I.

PASO 5. CALCULAR LAS SALIDAS DE LA CAPA OCULTA A. Calcular los valores de salida de las neuronas de la capa oculta, mediante la función de Gauss aplicada a los valores obtenidos por el producto entre la distancia calculada Z (obtenidos en el paso 4) por los umbrales b1 (obtenidos en la fase I).

PASO 6. CALCULAR LA SALIDA POR EL PESO. Calcular el producto de los pesos w2 entre la capa oculta y la de salida y las salidas de la capa oculta (obtenida en el Paso 5).

PASO 7. CALCULAR LA SALIDA. Se obtiene sumando el valor obtenido en el paso 6 al valor del umbral b2 que es dato de entrada.

PASO 8. MOSTRAR RESULTADOS. Mostrar la salida calculada de la Red.

Comandos en Matlab, del Programa: Valores de entrada: Parámetros obtenidos en la fase 1: Peso de Entrada: w1 Umbral de entrada b1 Peso de Salida: w2 Umbral de salida: b2

143

Valor cuya salida se busca Pe. En el programa se puso p, por simplicidad.

function [ts] = simnewrbfcev15rr(w1,b1,w2,b2,p) [s,r] = size(w1); [r2,q] = size(p); if(r~=r2),error('matriz interna de dimensiones que no concuerdan.'), end m=sum(p)/r; copies=zeros(1,r); M = m(1+copies,:),1; H=(p-M)'*(p-M); K=pinv(H); D=dist(w1,p); Z=K+D; a1=radbas(Z.*(b1*ones(1,q))); ts=(w2*a1)+(b2*ones(1,q));

INTERFASES DEL PROGRAMA 15r. Vista de interfase de Matlab con el programa 15r: Se aprecian las ventanas Workspace; Command History y Command Window:

144

EJEMPLO DE COMPORTAMIENTO DEL PROGRAMA DE COMPUTACIÓN. COMPARACIÓN CON RED NEURONAL DE BASE RADIAL, TRADICIONAL DEL PROGRAMA 15r Teniendo como Matriz de Entrada p: p= Columns 1 through 12 75

75

75

40

40

40

75

75

75

40

40

40

45

45

45

45

45

45

25

25

25

25

25

25

235 235 235 235 235 235 235 235 235 235 235 235 45

45

45

25

3

3

3

25

25

25

25

25

25

25

5

2

25

25

25

25

25

3

3

3

2

2

25

25

10

10

10

10

5

5

2

2

5

5

5

25

45

45

45

10

10

2

25

25

Columns 13 through 24 75

75

75

40

40

40

75

75

75

40

40

40

45

45

45

45

45

45

25

25

25

25

25

25

145

205 205 205 205 205 205 205 205 205 205 205 205 45

45

45

2

2

2

10

10

10

5

5

5

25 3

25 3

10 25

25

25

25

25

45

2

2

2

3

3

10

25

25

25

25

3 10

25

25

25

25

25

5

45

45

25

25

3

5

5

como matriz de Salida t: t= Columns 1 through 7 64.3300 73.4300 70.9500 42.7700 41.1500 39.4900 71.6200 Columns 8 through 14 78.4400 73.9600 65.5100 62.4800 59.0500 63.0200 64.1200 Columns 15 through 21 62.6700 44.1200 46.4600 32.3300 68.5900 70.8900 71.5300 Columns 22 through 24 41.0400 44.0200 41.8900 Con sc=1, como amplitud;

CON LA RED NEWRBE DE MATLAB: >> net=newrbe(p,t); >> v=sim(net,p) CON LA ENTRADA DE p SE OBTIENEN LOS VALORES DE t: v= Columns 1 through 7 69.5700 69.5700 69.5700 41.1367 41.1367 41.1367 74.6733 Columns 8 through 14

74.6733 74.6733 62.3467 62.3467 62.3467 63.2700 63.2700 Columns 15 through 21 63.2700 40.9700 40.9700 40.9700 70.3367 70.3367 70.3367 Columns 22 through 24 42.3167 42.3167 42.3167 CON 1 VECTOR DE pe SE OBTIENE UN VALOR DE t: >> pe=[75;45;235;45;3;25;25];

146

>> v=sim(net,pe); v = 69.5700 Si pe1= [75;45;245;45;3;25;25]; >> v=sim(net,pe); v = 42.3167 CON LA RED NEWRBFCEV15r DESARRROLLADA PARA APLICAR CON MATLAB COMO SHELL: >> [w1,b1,w2,b2,K]=newrbfcev15r(p,t,sc); >> [ts]=simnewrbfcev15r(w1,b1,w2,b2,p) CON LA ENTRADA DE p SE OBTIENEN LOS VALORES DE t: ts = Columns 1 through 7 69.5700 69.5700 69.5700 41.1367 41.1367 41.1367 74.6733 Columns 8 through 14 74.6733 74.6733 62.3467 62.3467 62.3467 63.2700 63.2700 Columns 15 through 21 63.2700 40.9700 40.9700 40.9700 70.3367 70.3367 70.3367 Columns 22 through 24 42.3167 42.3167 42.3167 CON 1 VECTOR DE pe SE OBTIENE UN DE t: >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pe) ts = 69.5700 Si pe1= [75;45;245;45;3;25;25]; >> [ts]= 74.6733 Si se calcula la salida y con la ecuación de regresión, ver 3.2.4.1., se obtiene 72.04. El cálculo con la distancia de Mahalanobis, con la RND Desarrollada da un mejor resultado que la distancia Euclidea; con Newrbe se obtiene 42.3167, con la RND 74.6733 y con la ecuación de regresión 72.04; estos dos últimos valores están ceranos a lo correcto. En el Anexo se adjunta informe de Experto Consultado, que corrobora las cualidades de la red desarrollada con el programa y un listado completo de la entrada y salidas de Pogramas newrbfcev15r y simnewrbfcev15rr.

3.2.3. Red Desarrollada comparada con Perceptrón Multicapa Backpropagation y Análisis Estadístico Tradicional, para valores deseados.

147

Datos Caso sobre cálculo de parámetros deseados de un proceso. Se presenta datos de ejemplo del artículo “Modified Desirability Functions for Multiple Response Optimization” de Del Castillo, et al, 1996, publicado en el Journal de Quality Technology, vol.28,Nº 3; que trata sobre parámetros para una faja metálica transportadora para calentamiento y adhesión de conductores de circuitos integrados en placas de plástico. El calentamiento se da en un proceso continuo a través de una corriente de aire caliente a temperatura (x1), de la faja metálica a la temperatura (x2), y de un bloque de calentamiento a alta temperatura (x3). Se busca obtener la placa de plástico con los circuitos adheridos, pero las placas deben tener determinadas temperaturas. Si se sobrepasa demasiado dichas temperaturas (valores objetivos) las placas se pueden dañar. Estas condiciones de temperatura deben alcanzar las placas en diversos puntos (valores objetivos) son: Y1, Y2, Y3, Y4, Y5, Y6. Los datos de entrada X y salida Y se presentan a continuación en la tabla 14: Tabla 14. Datos caso Diseño de Experimentos, Del Castillo, et al. X1

40

120

40

120

40 120

40 120

80

80

80

80

80

80

X2

200

200

450

450

325 325

325 325

200

450 200 450

325 325 325

X3

250

250

250

250

150 150

350 350

150

150 350 350

250 250 250

Y1

139

140

184

210

182 170

175 180

132

206 183 181

172 190 180

Y2

103

125

151

176

130 130

151 152

108

143 141 180

135 149 141

Y3

110

126

133

169

122 122

153 154

103

138 157 184

133 145 139

Y4

110

117

147

199

134 134

143 152

111

176 131 192

155 161 158

Y5

113

114

140

169

118 118

146 150

101

141 139 175

138 141 140

Y6

126

131

147

171

115 115

164 171

101

135 160 190

145 149 148

Los datos obtenidos se han hecho con base al diseño experimental desarrollado por Box Behnken; para 3 factores y 2 niveles para cada factor. Del Castillo et al, 1996 desarrollaron una nueva función de deseabilidad.

148

80

Luego de trabajar los datos con la Red Desarrollada, con la Red Perceptrón Multicapa con aprendizaje backpropagation y teniendo en cuenta lo obtenido por Del Castillo, et al, se obtuvo los resultados que se presentan en la tabla 15.

Tabla 15. Comparación Red Desarrollada - Perceptrón Multicapa con Backpropagation y Análisis Estadístico Tradicional, para valores deseados. Con Datos del artículo “Modified Desirability Functions for Multiple Response Optimization” de Del Castillo, et al, publicado en el Journal de Quality Technology, vol.28,Nº 3 Indicadores

Análisis

Red Desarrollada, Perceptrón

Estadístico

4.2.2.

Multicapa

con Backpropagation

Tradicional, Del Castilo, et al Error

al

No hacen este

simular

la

cálculo

de

96.86

0

40.30

24.31

666.00

entrada 1 Error simulación global** Red

Directa

-

3 capas;

3 capas;

RD. Nº capas;

15



c.entrada

neuronas

capa

de

entrada

neuronas 3 neuronas c.entrada 3

neuronas

capa

15 neuronas capa oculta

y

oculta

oculta RD Nº capas; Nº

-

neuronas

Inversa

RI. Nº capas;

3 capas;

6 neuronas capa 6 neuronas capa salida

capa de salida Red

3 capas;

salida -

3 capas; 15

3 capas; neuronas 6 neuronas c.entrada

149



neuronas

capa

c.entrada

de

neuronas

capa

15 neuronas capa oculta

entrada

oculta

RI. Nº capas; Nº

6

-

neuronas

3 capas;

3 capas;

3 neuronas capa 3 neuronas capa salida

capa de salida

salida

Entradas

84.1500

70.0000

72.8493

optimizadas

450.0000

450.0000

469.2229

para

329.8000

350.0000

349.9482

valores

deseados Salidas

com

186.9000

190.0000

189.0000

valores

173.0000

183.0000

171.3987

optimizados

170.1000

181.5000

171.5801

190.0000

185.5000

181.0353

170.9000

173.0000

163.6635

182.4000

177.0000

177.9065

*Suma de las diferencias de grados de 6 valores de temperatura deseados, ver cálculos detallados en 4.2.3.1 y 4.2.3.2. **Suma de errores al cuadrado/n entradas En esta tabla se puede apreciar el menor error obtenido por la Red Desarrollada, 0 por simular la primera entrada y 24.31 por simular el conjunto de los valores de entrada; mientras que con Perceptrón Mulcticapa con backpropagation se tiene 40.3 y 666, respectivamente, y con el análsis estadístico tradicional, sólo se calcula el error global 96.86. Los valores que se obtienen de entradas optimizadas son bastante similares; por ello se puede decir que el desempeño de las Redes es aceptable, siendo mejor la Red Desarrollada. A continuación se presenta el detalle de los cálculos y procedimientos seguidos para elaborar la Tabla 15.

3.2.3.1. Con el Análisis Estadístico Tradicional.

150

Del Castillo et al, luego de aplicar su metodología funciones de desabilidad modificada para optimización multirespuesta; llega a las siguientes ecuaciones (en términos de funciones codificadas):

Yˆ1  174.93  23.38 x 2  3.62 x3  19.00 x 2 x3 Yˆ2  141.00  6.00 x1  21.02 x 2  14.12 x3 Yˆ3  139.53  7.25 x1  16.00 x 2  19.75 x 2 x3 Yˆ4  154.90  10.10 x1  30.60 x 2  6.30 x3  11.20 x12  11.30 x1 x 2 Yˆ5  139.29  4.63x1  19.75 x 2  16.13x3  5.41x12  7.00 x1 x 2 Yˆ6  146.86  4.87 x1  15.62 x 2  27.00 x3  3.98 x12  4.75 x1 x 2 Asimismo, aplicando sus ecuaciones para valores específicos que desea obtener (190; 185; 185; 190; 185; 185) llega a obtener que sus valores de entrada deben ser: (84.1500, 450.0000, 329.8000), lo que permite obtener (186.9000, 173.0000, 170.1000, 190.0000, 170.9000, 182.4000).

3.2.3.2. Red Desarrollada: Explicación de la Arquitectura, Interfase, Comandos y Cálculos Con base a los datos de entrada y salida; se trabaja con la Red de Base Radial Desarrollada para construir la red, la red Newrbfcev15r; con la arquitectura 1515-6 para la red directa y 15-15-3 para la red inversa. La Interfase es Matlab – Neural Networks, que se presenta a continuación:

151

Comandos del procedimiento y resultado obtenido fue el siguiente: >>%Construcción y Entrenamiento de Red. Para representar las x de entrada se utiliza los vectores p y la Y de salida con los vectores t y se trabaj con sc(amplitud)=1. >> [w1,b1,w2,b2,K]=newrbfcev15r(p,t,sc); >>%Simulación: >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,p) Obteniéndose: ts = Columns 1 through 7 139.0000 140.0000 184.0000 210.0000 182.0000 170.0000 175.0000 103.0000 125.0000 151.0000 176.0000 130.0000 130.0000 151.0000 110.0000 126.0000 133.0000 169.0000 122.0000 122.0000 153.0000 110.0000 117.0000 147.0000 199.0000 134.0000 134.0000 143.0000 113.0000 114.0000 140.0000 169.0000 118.0000 118.0000 146.0000 126.0000 131.0000 147.0000 171.0000 115.0000 115.0000 164.0000

152

Columns 8 through 14 180.0000 132.0000 206.0000 183.0000 181.0000 180.6667 180.6667 152.0000 108.0000 143.0000 141.0000 180.0000 141.6667 141.6667 154.0000 103.0000 138.0000 157.0000 184.0000 139.0000 139.0000 152.0000 111.0000 176.0000 131.0000 192.0000 158.0000 158.0000 150.0000 101.0000 141.0000 139.0000 175.0000 139.6667 139.6667 171.0000 101.0000 135.0000 160.0000 190.0000 147.3333 147.3333 Column 15 180.6667 141.6667 139.0000 158.0000 139.6667 147.3333 Lo cual comparado con la matriz de valores de t, permite obtener una suma de errores al cuadrado entre en número de vectores de entrada t (15) igual a 24.31. >>%Aplicando la red para el primer conjunto de valores de p, se obtiene: Pe1=[40; 200; 250]; [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pe1) ts = 139.0000 103.0000 110.0000 110.0000 113.0000 126.0000 Lo cual equivale a un error de cero(0).

>> Para valores deseados (siguiendo el proceso descrito en la metodología): >> %RED INVERSA: cambiar p por t y viceversa. >>%Construcción y Entrenamiento de Red >> sc=1;

153

>> [w1,b1,w2,b2,K]=newrbfcev15r(t,p,sc) >>%Simulación, corrida con valores deseados >> pe=[190;185;185;190;185;185]; >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pe) >>%Obtención de valores optimizados >> ts ts = 70.0000 450.0000 250.0000 >>%RED DIRECTA; volver a valores íniciales de p y t. >>%Construcción y Entrenamiento de Red >> [w1,b1,w2,b2,K]=newrbfcev15r(p,t,sc) >>% Simulación, corrida con valores optimizados >> pe=[70.0000; 450.0000; 250.0000]; >> [ts]=simnewrbfcev15r(w1,b1,w2,b2,pe) >> ts ts = 190.0000 183.0000 181.5000 185.5000 173.0000 177.0000 Cálculo del Error con valores deseados. Comparando los valores deseados y los obtenidos con las nuevas entradas se tiene la tabla 16.

154

Tabla 16. Valores deseados y obtenidos con las nuevas entradas Valores Deseados

Valores Obtenidos

Error

Valores

de

entrada, obtenidos 190

190.5000

0.0000

70.0000

185

183.0000

-2.0000

450.0000

185

181.5000

-3.5000

350.0000

190

185.5000

-4.5000

185

173.0000

-12.0000

185

177.0000

-8.000 -30.0*

*Suma Error Total 3.2.3.3. Perceptrón multicapa con aprendizaje backpropagation: Explicación de la Arquitectura, Interfase, Comandos y Cálculos con Backpropagation Para este caso se siguieron las recomendaciones del artículo de Lee-Ing Tong y Kun-Lin Sheik “A Novel mean of Applying Neural Networks to Optimize the Multiresponde Problem”, publicado en el Quality Engineering Vol. 13, Nº 1. Con base a los datos de entrada y salida; se trabaja con Backpropagation BP; 3-6-6 para la red directa y con la arquitectura 6-6-3 para la red inversa. ARQUITECTURA Red Con datos iniciales Para el caso del perceptrón multicapa con aprendizaje backpropagation se tiene que se requiere de mínimo una capa oculta; por otro lado dada la arquitectura propia del perceptrón multicapa, se tiene que deberían de haber en la capa de entrada tantas neuronas como variables de entrada al proceso y en la capa de salida tantas neuronas como características de calidad de la salida que se desea obtener. Por el tipo de algoritmo que tiene se requiere que la función de activación de la capa oculta permita optimizar y que la función de activación de la capa de salida sea lineal a fin de poder obtener valores reales y no sólo dentro del rango de 1 y -1. Dada las características de las diversas funciones de activación, se tiene que las más adecuadas para la capa oculta son la sigmoidal y la tangente hiperbólica; pero como la sigmoidal trabaja con un rango continuo entre 0 y 1, mientras que la tangente hiperbólica trabaja en el rango de -1 y 1, se considera 155

que esta última es la más conveniente, ya que se pueden presentar casos en los que se tengan valores negativos. Esto es una primera diferenciación de los Perceptrón Multicapa típicos, que trabajan con la función sigmoidal. Por otro lado, está el hecho de que las redes neuronales artificiales trabajan con valores de entrada para obtener valores de salida dados; y lo que se varían son los pesos y umbrales; sin embargo en nuestro caso lo que interesa cambiar son los valores de entrada de tal manera que permitan obtener el óptimo deseado por los clientes. Por tanto, se requiere seguir un proceso ajustado, que se presentó en la metodología, que es el siguiente: Con valores deseados Dados datos de entrada y de salida actuales, y datos deseados de salida: Red Inversa: Para ello primero se encuenntra la RNA que con los datos de salida actuales del proceso como entradas y con los datos de entrada como supervisores (objetivo), que permita obtener los valores de salida; es la Red Inversa. A esta Red obtenida se aplican los datos deseados de salida para obtener los valores de entrada optimizados. Red Directa: Para ello con los datos de entrada y salida actuales se obtiene la Red respectiva que los relaciona, es la Red Directa. A esta Red obtenida se aplican los datos de entrada optimizados (obtenidos con la Red Inversa), obteniendose nuevos datos de salida que sean los más cercanos a los datos de salida deseados. La Interfase es Matlab – Neural Networks,s egún se presenta a continuación:

156

Comandos del procedimiento y resultado obtenido fue el siguiente: >> %RED INVERSA: cambiar p por t y viceversa. >>%Preparación de datos >> [pn,ps1]=mapstd(p); >> [ptrans,ps2]=mapstd(pn,0.000001); >> [tn,ts]=mapstd(t); >> [R,Q]=size(ptrans) R= 6 Q= 15 >> iitst=5:5:Q; >> iitr=[1:5:Q 2:5:Q 3:5:Q 4:5:Q]; >> test.P=ptrans(:,iitst); test.T=tn(:,iitst); >> ptr=ptrans(:,iitr); ttr=tn(:,iitr); >>%Construcción de Red

157

>> net=newff(minmax(ptr),[6 3],{'tansig' 'purelin'},'traingd'); >> net.trainParam.lr=0.01; >> net.trainParam.epochs=3000; >>%Entrenamiento de Red >> [net,tr]=train(net,ptr,ttr,[],[],[],test); TRAINGD-calcgrad, Epoch 0/3000, MSE 2.37536/0, Gradient 2.26181/1e-010 TRAINGD-calcgrad,

Epoch

3000/3000,

MSE

0.219477/0,

Gradient

0.0824798/1e-010 TRAINGD, Maximum epoch reached, performance goal was not met. >> net.trainParam.epochs=1000; >> [net,tr]=train(net,ptr,ttr,[],[],[],test); TRAINGD-calcgrad, Epoch 0/1000, MSE 0.219477/0, Gradient 0.0824798/1e010 TRAINGD-calcgrad, Epoch 1000/1000, MSE 0.15487/0, Gradient 0.077184/1e010 TRAINGD, Maximum epoch reached, performance goal was not met. >>%Simulación >> an= sim(net,ptrans); >> a=mapstd('reverse',an,ts); >> for i=1:3 [m(i),b(i),r(i)]=postreg(p(i,:),t(i,:)); end >> r r= 0.4628

0.9306

0.9716

>> %Corrida con valores deseados >> pnew=[190;185;185;190;185;185]; >> pnewn=mapstd('apply',pnew,ps1); >> pnewtrans=mapstd('apply',pnewn,ps2); >> Y=sim(net,pnewtrans); >> Ys=mapstd('reverse',Y,ts); >>%Obtención de valores optimizados >> Ys

158

Ys = 72.8493 469.2229 349.9482

>>%RED DIRECTA; volver a valores íniciales de p y t. >> %preparación de datos >> [pn,ps1]=mapstd(p); >> [ptrans,ps2]=mapstd(pn,0.000001); >> [tn,ts]=mapstd(t); >> [R,Q]=size(ptrans) R= 3 Q= 15 >> iitst=5:5:Q; >> iitr=[1:5:Q 2:5:Q 3:5:Q 4:5:Q]; >> test.P=ptrans(:,iitst); test.T=tn(:,iitst); >> ptr=ptrans(:,iitr); ttr=tn(:,iitr); >>%Construcción de Red >> net=newff(minmax(ptr),[3 6],{'tansig' 'purelin'},'traingd'); >> net.trainParam.lr=0.01; >> net.trainParam.epochs=3000; >>%Entrenamiento de Red >> [net,tr]=train(net,ptr,ttr,[],[],[],test); TRAINGD-calcgrad, Epoch 0/3000, MSE 1.33643/0, Gradient 1.0066/1e-010 TRAINGD-calcgrad,

Epoch

3000/3000,

MSE

0.155164/0,

Gradient

0.0282053/1e-010 TRAINGD, Maximum epoch reached, performance goal was not met. >> net.trainParam.epochs=1000; >> [net,tr]=train(net,ptr,ttr,[],[],[],test); TRAINGD-calcgrad, Epoch 0/1000, MSE 0.155164/0, Gradient 0.0282053/1e010

159

TRAINGD-calcgrad,

Epoch

1000/1000,

MSE

0.146765/0,

Gradient

0.0320263/1e-010 TRAINGD, Maximum epoch reached, performance goal was not met. >>% Simulación >> an= sim(net,ptrans); >> a=mapstd('reverse',an,ts); >> for i=1:6 [m(i),b(i),r(i)]=postreg(a(i,:),t(i,:)); end >> r r= 0.8170

0.9288

0.9398

0.8423

0.9511

0.9353

>>%Corrida con valores optimizados >> pnew2=[72.8493; 469.2229; 349.9482]; >> pnew2n=mapstd('apply',pnew2,ps1); >> pnew2trans=mapstd('apply',pnew2n,ps2); >> Y=sim(net,pnew2trans); >> Ys=mapstd('reverse',Y,ts); >> Ys Ys = 189.0000 171.3987 171.5801 181.0353 163.6635 177.9065 Cálculo del Error con valores deseados. Comparando los valores deseados y los obtenidos con las nuevas entradas se tiene la tabla 17.

160

Tabla 17. Valores deseados y obtenidos con las nuevas entradas PMC-BK Valores Deseados

Valores Obtenidos

Error

Valores

de

entrada, obtenidos 190

189.0000

-1.0000

72.8493

185

171.3987

-13.6013

469.2229

185

171.5801

-13.4199

349.9482

190

181.0353

-8.9647

185

163.6635

-21.3365

185

177.9065

-7.0935 -65.4159*

*Suma Error Total

3.2.4. Red Desarrollada en comparación con la Red de base radial Tipo GRNN; la Red Perceptrón Multicapa con Backpropagation y algoritmo LevenbergMarquardt, y con el Análisis Estadístico Tradicional. Datos: Se utilizó el ejemplo de Diseño de experimentos del artículo de Vasconcelos et al, “Design of Experiments. Improve Molded Part Quality”, publicado en Quality Progress, Nº 7 del 2003,

donde se busca establecer los parámetros de

proceso de un envase plástico elaborado por moldeo de inyección, cuyos parámetros de proceso del diseño son los de la Tabla 18. Tabla 18. Parámetros de proceso del Caso de Vasconcellos, et al. Factores del proceso

Nivel bajo

Nivel alto

A. Velocidad de inyección (%)

40

75

B. Temperatura de moldeo ºC

25

45

C. Temperatura de mezcla ºC

205

235

D. Presión de trabajo, bar

25

45

E. Tiempo de trabajo

2

3

F. Tiempo de enfriamiento

10

25

G. Velocidad de eyección %

5

25

Luego de trabajar los datos con la Red Desarrollada, con la Red de base radial Tipo

GRNN;

con

la

Red

Perceptrón

Multicapa

con

aprendizaje

161

backpropagation–Algoritmo de Levenberg-Marquardt y teniendo en cuenta lo obtenido por Vasconcelos, et al, se obtuvo los resultados que se presentan en la Tabla 19. Tabla 19. Comparación Red Desarrollada - Perceptrón Multicapa con Backpropagation –Algoritmo de Levenberg-Marquardt y Análisis Estadístico Tradicional, para valores deseados. Con Datos del artículo, “Design of Experiments. Improve Molded Part Quality”, de Vasconcelos et al, publicado en Quality Progress, Nº 7 del 2003. * Indicadores

Red

Perceptrón

Análisis

Desarrollada,

Multicapa

Estadístico

4.2.2.

con

Tradicional,

Backpropaga

Vasconcelos,

tion con L-M

et al

Error

al 0

simular

la

GRNN

0

2.07

0.300

9.16

13.96

12.27

3 capas

3 capas

RD. Nº capas; 24 neuronas

24 neuronas

7 neuronas



24 neuronas

7 neuronas

RD Nº capas; 3 capas

3 capas

3 capas



1 neurona

1 neurona

3 capas

3 capas

RI. Nº capas; 1 neurona

1 neurona

1 neurona



24 neuronas

7 neuronas

entrada p1 Error

de 9.16

simulación global Red

Directa 3 capas,

neuronas 24 neuronas

capa

-

de

entrada

y

oculta

neuronas 1 neurona

-

capa de salida Red

capa

Inversa 3 capas

neuronas 24 neuronas

-

de

162

entrada

y

coulta RI. Nº capas; 3 capas

3 capas

3 capas



24 neuronas

7 neuronas

neuronas 24 neuronas

-

capa de salida Entradas

96.4900

73.7378

61.5384

optimizadas

25.3424

30.3067

34.2308

para

valores

236.8544

227.1482

221.1538

deseados (85)

11.3201

31.0274

35.00

3.4994

2.7022

2.5

18.1457

16.7815;

16.9231

14.5591

14.7630.

15.7692

-

*Detalle de cálculos ver en 4.2.4.1, 2, 3 y 4 En esta Tabla se aprecia el menor error de las dos Redes de Función de Base Radial (0 en la simulación de la primera entrada y 9.16 en el error global), con respecto al Perceptrón Multicapa (2.07 y 13.96; respectivamente) y al Análisis Estadístico(0.300 y 12.27 respectivamente). Los valores de entradas optimizadas son bastante similares, por tanto, nuevamente se puede decir que la Red Desarrolada se desempeña mejor. A continuación se presenta el detalle de los cálculos y procedimientos seguidos para elaborar la Tabla 19. 3.2.4.1. Análisis Estadístico Tradicional El diseño de experimentos incluye 8 combinaciones a 2 niveles de acuerdo a un diseño factorial fraccional 2III7-4 , haciendo 3 réplicas para cada tratamiento; se mide la fuerza necesaria para abrir el sello del envase, lo datos se presentan en la Tabla 20.

Tabla 20. Diseño Experimental del Caso de Vasconcellos, et al. Corrida

FACTORES

FZA PARA ABRIR

A

B

C

D

E

F

G

Y1

Y2

Y3

1

1

1

1

1

1

1

1

64.33

73.43

70.95

2

-1

1

1

-1

-1

1

-1

42.77

41.15

39.49

3

1

-1

1

-1

1

-1

-1

71.62

78.44

73.96

4

-1

-1

1

1

-1

-1

1

65.51

62.48

59.05

163

5

1

1

-1

1

-1

-1

-1

63.02

64.12

62.67

6

-1

1

-1

-1

1

-1

1

44.12

46.46

32.33

7

1

-1

-1

-1

-1

1

1

68.59

70.89

71.53

8

-1

-1

-1

1

1

1

-1

41.04

44.02

41.89

Análisis de resultados mediante el cálculo de el efecto medio para identificar los factores más significativos, análisis gráfico con diagrama de pareto y ploteo de efectos promedios, y con análisis de variancia ANVA. La parte gráfica no se toma en cuenta debido a que no es muy exacta y por tanto no sirve para nuestro propósito. Se obtuvo los resultados de la Tabla 21. Tabla 21. Respuestas promedio y efecto de cada factor del proceso Respuesta promedio y efecto de cada factor del proceso Factor

RESPUESTA PROMEDIO NIVEL

BAJO

DEL NIVEL

ALTO

EFECTO DEL

FACTOR

FACTOR

A

46.69

69.46

22.77

B

62.42

53.74

-8.68

C

54.22

61.93

7.71

D

56.78

59.38

2.6

E

59.27

56.88

-2.39

F

60.32

55.84

-4.48

G

55.35

60.81

5.46

Los valores negativos significan que sube el nivel del factor y a pesar de ello baja el efecto del factor; es así que para el factor B la temperatura de moldeo sube de 25ºC a 45ºC y el efecto disminuye de 62.42 a 53.74. Similar ocurre con los factores E y F. El ANVA da los resultados de la tabla 22. Tabla 22. Análisis de Variancia ANVA del caso de vasconcellos et al. Fuente de Variación

Suma de Cuadrados

Grados de Libertad

Cuadrado Medio

Fo

A

3110.84

1

3110.84

226.34*

B

452.23

1

452.23

32.90*

C

356.51

1

356.51

25.94*

D

40.46

1

40.46

2.94

164

E

34.27

1

34.27

2.49

F

120.15

1

120.15

8.74*

G

178.65

1

178.65

13*

Residuo/Error

219.90

16

13.74

Total

4513.01

23

*( valor de p > Construcción de Red NEWRBFCEV15r >> [w1,b1,w2,b2,K]=newrbfcev15r(p,t,sc); >> %Simulación Para la primera entrada de datos: >> Pe=[75;45;235;45;3;25;25]; >> [ts]=simnewrbfcev15r(w1,b1,w2,b2,Pe) v= 69.5700 >> %valor similar al obtenido mediante Perceptrón Multicapa, Diseño de Experimentos y la Red GRNN.

De igual manera se puede proceder para todas las demás entradas, obteniéndose las 24 salidas respectivas:

[ts]=simnewrbfcev15r(w1,b1,w2,b2,p)

167

ts = Columns 1 through 7 69.5700 69.5700 69.5700 41.1367 41.1367 41.1367 74.6733 Columns 8 through 14 74.6733 74.6733 62.3467 62.3467 62.3467 63.2700 63.2700 Columns 15 through 21 63.2700 40.9700 40.9700 40.9700 70.3367 70.3367 70.3367 Columns 22 through 24 42.3167 42.3167 42.3167 Que permiten obtener los valores de predicción con menor error que en los otros casos. En este caso se repite lo de la Red GRNN, de facilidad y rapidez de cálculos con las Redes de Base Radial, y se puede calcular los valores para todas las combinaciones y ya no sólo con los valores de los 8 experimentos (factorial fraccional), cosa impensable realizar con los otros métodos; es así que tenemos: Factorial Completo.Comandos y procedimiento con factorial completo. Red NEWRBFCEV15r. La combinación de todos los factores, y con ello 2 7=128 experimentos, que serían los siguientes (el factorial completo); obteniéndose los mismos resultados. >> sc=10; >> [w1,b1,w2,b2,K]=newrbfcev15r(p,t,sc); >> [ts]=simnewrbfcev15r(w1,b1,w2,b2,p); ts = Columns 1 through 7 69.5700 69.5700 69.5700 41.1367 41.1367 41.1367 74.6733 Columns 8 through 14 74.6733 74.6733 62.3467 62.3467 62.3467 63.2700 63.2700 Columns 15 through 21 63.2700 40.9700 40.9700 40.9700 70.3367 70.3367 70.3367 Columns 22 through 24 42.3167 42.3167 42.3167

168

>>Con el factorial completo >> [ts]=simnewrbfcev15r(w1,b1,w2,b2,d2’); ts = Columns 1 through 7 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 Columns 8 through 14 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 Columns 15 through 21 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 Columns 22 through 28 42.3167 42.3167 42.3167 42.3167 62.3467 42.3167 42.3167 Columns 29 through 35 42.3167 52.3317 42.3167 42.3167 42.3167 41.6433 42.3167 Columns 36 through 42 42.3167 42.3167 40.9700 42.3167 42.3167 42.3167 42.3167 Columns 43 through 49 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 Columns 50 through 56 42.3167 41.1367 42.3167 42.3167 42.3167 41.7267 42.3167 Columns 57 through 63 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 Columns 64 through 70 42.3167 42.3167 42.3167 42.3167 70.3367 42.3167 42.3167 Columns 71 through 77 42.3167 56.3267 42.3167 42.3167 42.3167 42.3167 42.3167 Columns 78 through 84 42.3167 42.3167 42.3167 74.6733 42.3167 42.3167 42.3167 Columns 85 through 91 74.6733 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 Columns 92 through 98 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 Columns 99 through 105 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 52.7933

169

Columns 106 through 112 42.3167 42.3167 42.3167 52.7933 42.3167 42.3167 42.3167 Columns 113 through 119 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 42.3167 Columns 120 through 126 42.3167 42.3167 42.3167 42.3167 55.9433 42.3167 42.3167 Columns 127 through 128 42.3167 69.5700 >> U=max(ts) U= 74.6733 En este caso a partir de los datos de un factorial fraccional, de 8 experimentos se ha proyectado los resultados para las 128 combinaciones. En este caso en el Matlab se trabajo con la Red de Base Radial Newrbfcev15r en el software comando newrbfcev15r, al igual que en el anterior, y además con un spread de 10 a fin de poder cubrir todo tipo de entradas.

Comandos y procedimiento con valores deseados y Red newrbfcev15r. A continuación se procederá a probar con deseabilidad; para nuestro ejemplo, y al igual que antes, suponiendo que se trata de un envase para productos farmacéuticos y que el nivel de fuerza para abrirlo deba ser mayor, se considera que un valor mayor sería mejor; pero tampoco demasiado alto; es así que asumimos que se desea un valor de 85 (cosa que no se puede calcular con el diseño de experimentos tradicional); se tendría lo siguiente: >>%Aplicando la metodología con valores de calidad deseados: >> %Red Inversa: con las salidas como entradas >> [w1,b1,w2,b2,K]=newrbfcev15r(p,t,sc); >> [ts1]=simnewrbfcev15rr(w1,b1,w2,b2,t);

ts 1= Columns 1 through 7 72.9809 74.6154 74.3609 40.0841 40.2833 39.9933 75.7472 45.9205 44.2860 33.1156 41.3361 32.5085 44.9646 26.1838 218.8712 236.3671 220.5289 231.8170 215.7643 234.9391 219.5381 170

47.3286 44.2838 33.1871 29.2381 37.1249 25.0155 26.1055 2.4279

3.0372

2.4997

2.0828

2.6294

2.0032

2.5048

16.7842 25.0720 25.4308 26.5237 24.6741 24.9827 16.2497 15.4089 25.5886 26.2392

2.7653

4.8825

5.0427 12.5327

Columns 8 through 14 74.9990 75.1893 39.1446 49.1605 39.9737 78.0787 78.6841 24.9995 25.3436 22.9373 32.6174 24.9595 43.3327 48.0131 235.0016 234.3487 240.3091 224.0130 235.0689 207.2298 214.0828 24.9986 25.3453 43.0827 47.5737 44.9779 41.2721 46.1221 3.0000

2.9821

2.1380

1.9314

2.0010

10.0004

9.9557 11.6683

5.0001

4.6894 27.7630 19.3287 25.0236

2.1148

2.4193

9.2760 10.0173 11.2412 16.5334 4.2424 11.6180

Columns 15 through 21 61.7515 39.4947 40.0094 39.9989 75.4963 74.4099 75.3948 36.8284 34.7619 45.0500 45.0007 25.8239 33.8973 26.7450 216.3000 202.8962 204.9682 205.0014 203.1458 220.4588 219.7484 44.2891 35.5751 24.9735 25.0018 25.7559 33.9058 26.7668 1.9888

3.0991

9.7121 16.5754

2.9998

3.0000

1.9542

2.5005

2.5001

9.9636 10.0007 24.5101 26.3425 17.2132

12.1078 17.2126 25.0348 25.0036 23.8826 27.4952 14.0872 Columns 22 through 24 39.8253 40.4962 39.8043 34.7541 36.6433 29.9880 220.3107 207.9416 211.3708 35.8241 32.8143 39.4628 2.4869

2.8799

2.8190

25.5881 17.6653 24.0373 4.5485 13.8395

6.7184

>>Entradas optimizadas. La red con el valor deseado (85), permite obtener las nuevas entradas optimizadas para dicho valor deseado: >> [ts2]=simnewrbfcev15rr(w1,b1,w2,b2,85);

ts2 = 96.4900 171

25.3424 236.8544 11.3201 3.4994 18.1457 14.5591 >> %Red Directa: con las nuevas entradas para obtener la red directa se tiene: >>%Para los valores de t: t= Columns 1 through 7 64.3300 73.4300 70.9500 42.7700 41.1500 39.4900 71.6200 Columns 8 through 14 78.4400 73.9600 65.5100 62.4800 59.0500 63.0200 64.1200 Columns 15 through 21 62.6700 44.1200 46.4600 32.3300 68.5900 70.8900 71.5300 Columns 22 through 24 41.0400 44.0200 41.8900 >>%Simulando con t 24 y la simnewrbfcev15rr: >> ts24 ts 24= Columns 1 through 7 69.5700 69.5700 69.5700 41.1367 41.1367 41.1367 74.6733 Columns 8 through 14 74.6733 74.6733 62.3467 62.3467 62.3467 63.2700 63.2700 Columns 15 through 21 63.2700 40.9700 40.9700 40.9700 70.3367 70.3367 70.3367 Columns 22 through 24 42.3167 42.3167 42.3167

>>%Con base a lo anterior se construye la nueva red obteniéndose ts20 (con base a p) y ts24(con base a t) >> ts20=[ 73.7378; 73.7378; 73.7378; 30.3067; 30.3067; 30.3067; 227.1482; 227.1482; 227.1482; 31.0274; 31.0274; 31.0274; 2.7022; 2.7022; 2.7022;

172

16.7815; 16.7815; 16.7815; 14.7630; 14.7630; 14.7630;14.7630; 14.7630; 14.7630]; >>ts24 = [64.3300;73.4300;70.9500;42.7700;41.1500;39.4900;71.6200;78.4400 ; 73.9600;65.5100;62.4800;59.0500;63.0200;64.1200;62.6700;44.1200;46.4600; 32.3300; 68.5900;70.8900;71.5300;41.0400;44.0200;41.8900]; >> [w1,b1,w2,b2,K]=newrbfcev15r (ts20,ts24,sc); >> %Es la nueva red para obtener 85 de salida, y lo hace con las entradas de ts10 = 96.4900; 25.3424; 236.8544; 11.3201;

3.4994; 18.1457; 14.5591.

Las mismas que corresponden a las siguientes variables de entrada. Ver Tabla 24. Tabla 24. Valores de factores para obtener un valor deseado Factores del proceso

Nivel bajo

Nivel alto

Valores para obtener 85

A. Velocidad de inyección (%)

40

75

96.4900

B. Temperatura de moldeo ºC

25

45

25.3424

C. Temperatura de mezcla ºC

205

235

236.8544

D. Presión de trabajo, bar

25

45

11.3201

E. Tiempo de trabajo

2

3

3.4994

F. Tiempo de enfriamiento

10

25

18.1457

G. Velocidad de eyección %

5

25

14.5591

Se puede ver que el desempeño de la Red de Base Radial Desarrollada, tanto con la red directa, sin valores de deseabilidad como con el proceso con valores deseados de calidad, tiene importantes ventajas y el proceso es relativamente corto y además la reducción de errores es superior. 3.2.4.3. Red Tipo GRNN Red de Regresión Generalizada. Para el caso de las Redes Neuronales de Base Radial, se tiene que lo más utilizado y recomendable para nuestro caso es el aprendizaje híbrido; es decir, que tienen una fase inicial no supervisada y la siguiente, y última, supervisada. Para la fase no supervisada, en la capa oculta no requieren aprendizaje similar al del Perceptrón Multicapa, sino que básicamente se requiere determinar los

173

centros y amplitudes, a nivel de su fase supervisada el aprendizaje puede ser por mínimos cuadrados o por el método de la matriz seudoinversa. Se requiere por lo menos tantas neuronas de la capa oculta como variables de entrada al proceso se tengan y por otro lado tantas neuronas en la capa de salida como características de calidad de salida que se desea obtener. Al igual que para el Perceptrón Multicapa, y por el tipo de algoritmo que tiene se requiere que las funciones de activación de la red oculta permita optimizar y que la funciones de activación de la capa de salida sea lineal a fin de poder obtener valores reales y no sólo dentro del rango de 1 y -1. Dada las características de las diversas funciones de activación, se tiene que las más adecuada es la función gausiana; la otras también utilizadas como la función inversa cuadrática y la función inversa multicuadrática no tienen las características propias de la función de gauss, por lo que se seleccionó esta función. Dado el tipo de trabajo de mejora de la calidad que nos interesa, y que se conoce con cierta aproximación las variables, efectos en el caso del diseño de experimentos y sus valores cercanos (niveles), se estableció el siguiente procedimiento: a. Se calculan los centros y amplitudes con base a los datos de entrada; probándose inicialmente con centros similares o muy cercanos a los valores de entrada. De ser compleja la determinación se puede utilizar el algoritmo de K- medias para determinar los centros. b. Las amplitudes se determinan con base a las distancias euclídeas de los centros, a los centros más cercanos. c. Se determinan los pesos y umbrales de la capa de salida con base a los valores objetivos de calidad que se persiguen, aplicando el método de mínimos cuadrados o el de la matriz inversa, dependiendo de las herramientas informáticas con que se cuente. Se modifican los pesos y umbrales hasta conseguir la convergencia.

Con esta red, se podrá predecir el desempeño futuro del proceso, es decir, dados unas entradas determina los valores de salida. Por otro lado también se podrá obtener valores de entrada del proceso que han sido optimizados. Con

174

base a lo antes mencioando se seleccionó y aplicó al Red de Fundicón de Base Radial de tipo GRNN de Regresión Generalizada. Con base a los datos de entrada y salida; se trabaja con la Red GRNN; con la arquitectura 24-24-1 para la red directa. Interfase: Matlab – Neural Networks

Comandos del procedimiento y resultado obtenido fue el siguiente: Si se utiliza el Red GRNN, se tiene: >> Construcción de Red GRNN >> net=newgrnn(p,t,sc); >> %Simulación Para la primera entrada de datos: >> Pe=[75;45;235;45;3;25;25]; >> v=sim(net,Pe) v= 69.5700 >> %valor similar al obtenido mediannte Perceptrón Multicapa y Diseño de Experimentos

175

De igual manera se puede proceder para todas las demás entradas, obteniéndose: v=sim(net,p) v= Columns 1 through 7 69.5700 69.5700 69.5700 41.1367 41.1367 41.1367 74.6733 Columns 8 through 14 74.6733 74.6733 62.3467 62.3467 62.3467 63.2700 63.2700 Columns 15 through 21 63.2700 40.9700 40.9700 40.9700 70.3367 70.3367 70.3367 Columns 22 through 24 42.3167 42.3167 42.3167 Que permiten obtener los valores de predicción con menor error que en los otros casos. Dada la facilidad y rapidez de cálculos con las Redes de Base Radial, se puede calcular los valores para todas las combinaciones y ya no sólo con los valores de los 8 experimentos(factorial fraccional), cosa impensable realizar con los otros métodos; es así que tenemos: Factorial Completo.Comandos y procedimiento con factorial completo. Red GRNN. La combinación de todos los factores, y con ello 2 7=128 experimentos, que serían los siguientes (el factorial completo):

p= 40

25 205

25

2

10

5

40

25 205

25

2

10

25

40

25 205

25

2

25

5

40

25 205

25

2

25

25

40

25 205

25

3

10

5

40

25 205

25

3

10

25

40

25 205

25

3

25

5

40

25 205

25

3

25

25

40

25 205

45

2

10

5 176

40

25 205

45

2

25

25

40

25 205

45

2

25

5

40

25 205

45

2

25

25

40

25 205

45

3

10

5

40

25 205

45

3

25

25

40

25 205

45

3

25

5

40

25 205

45

3

25

25

40

25 235

25

2

10

5

40

25 235

25

2

25

25

40

25 235

25

2

25

5

40

25 235

25

2

25

25

40

25 235

25

3

10

5

40

25 235

25

3

25

25

40

25 235

25

3

25

5

40

25 235

45

3

25

25

40

25 235

45

2

10

5

40

25 235

45

2

10

25

40

25 235

45

2

25

5

40

25 235

45

2

25

25

40

25 235

45

3

10

5

40

25 235

45

3

10

25

40

25 235

45

3

25

5

40

25 235

25

3

25

25

40

45 205

25

2

10

5

40

45 205

25

2

10

25

40

45 205

25

2

25

5

40

45 205

25

2

25

25

40

45 205

25

3

10

5

40

45 205

25

3

10

25

40

45 205

25

3

25

5

40

45 205

25

3

25

25

40

45 205

45

2

10

5

40

45 205

45

2

10

25

40

45 205

45

2

25

5 177

40

45 205

45

2

25

25

40

45 205

45

3

10

5

40

45 205

45

3

10

25

40

45 205

45

3

25

5

40

45 205

45

3

25

25

40

45 235

25

2

10

5

40

45 235

25

2

10

25

40

45 235

25

2

25

5

40

45 235

25

2

25

25

40

45 235

25

3

10

5

40

45 235

25

3

10

25

40

45 235

25

3

25

5

40

45 235

25

3

25

25

40

45 235

45

2

10

5

40

45 235

45

2

10

25

40

45 235

45

2

25

5

40

45 235

45

2

25

25

40

45 235

45

3

10

5

40

45 235

45

3

10

25

40

45 235

45

3

25

5

40

45 235

45

3

25

25

75

25 205

25

2

10

5

75

25 205

25

2

10

25

75

25 205

25

2

25

5

75

25 205

25

2

25

25

75

25 205

25

3

10

5

75

25 205

25

3

10

25

75

25 205

25

3

25

5

75

25 205

25

3

25

25

75

25 205

45

3

10

5

75

25 205

45

2

10

25

75

25 205

45

2

25

5

75

25 205

45

2

25

25

75

25 205

45

3

10

5 178

75

25 205

45

3

10

25

75

25 205

45

3

25

5

75

25 205

45

3

25

25

75

25 235

25

3

10

5

75

25 235

25

2

10

25

75

25 235

25

2

25

5

75

25 235

25

2

25

25

75

25 235

25

3

10

5

75

25 235

25

3

10

25

75

25 235

25

3

25

5

75

25 235

25

3

25

25

75

25 235

45

3

10

5

75

25 235

45

2

10

25

75

25 235

45

2

25

5

75

25 235

45

2

25

25

75

25 235

45

3

10

5

75

25 235

45

3

10

25

75

25 235

45

3

25

5

75

25 235

45

3

25

25

75

45 205

25

3

10

5

75

45 205

25

2

10

25

75

45 205

25

2

25

5

75

45 205

25

2

25

25

75

45 205

25

3

10

5

75

45 205

25

3

10

25

75

45 205

25

3

25

5

75

45 205

25

3

25

25

75

45 205

45

3

10

5

75

45 205

45

2

10

25

75

45 205

45

2

25

5

75

45 205

45

2

25

25

75

45 205

45

3

10

5

75

45 205

45

3

10

25

75

45 205

45

3

25

5 179

75

45 205

45

3

25

25

75

45 235

25

3

10

5

75

45 235

25

2

10

25

75

45 235

25

2

25

5

75

45 235

25

2

25

25

75

45 235

25

3

10

5

75

45 235

25

3

10

25

75

45 235

25

3

25

5

75

45 235

25

3

25

25

75

45 235

45

3

10

5

75

45 235

45

2

10

25

75

45 235

45

2

25

5

75

45 235

45

2

25

25

75

45 235

45

3

10

5

75

45 235

45

3

10

25

75

45 235

45

3

25

5

75

45 235

45

3

25

25

>> sc=10; >> net=newgrnn(p,t,sc); >> v=sim(net,p) v= Columns 1 through 7 69.5701 69.5701 69.5701 41.1379 41.1379 41.1379 74.6728 Columns 8 through 14 74.6728 74.6728 62.3449 62.3449 62.3449 63.2705 63.2705 Columns 15 through 21 63.2705 40.9703 40.9703 40.9703 70.3363 70.3363 70.3363 Columns 22 through 24 42.3172 42.3172 42.3172

>> v=sim(net,d2')

180

v= Columns 1 through 7 42.0222 41.0489 42.3033 41.6576 42.0220 41.0481 42.3032 Columns 8 through 14 41.6524 42.3281 42.4350 42.3172 42.4350 42.3279 42.4331 Columns 15 through 21 42.3172 42.4331 46.3280 57.4582 41.4359 57.4582 46.3326 Columns 22 through 28 57.4578 41.4363 62.3107 61.9476 62.3449 55.9393 62.3108 Columns 29 through 35 61.9459 62.3449 55.9200 57.4578 40.9932 40.9703 41.2684 Columns 36 through 42 40.9736 40.9931 40.9703 41.2686 40.9736 42.2701 41.0335 Columns 43 through 49 42.3118 41.3160 42.2665 41.0329 42.3117 41.3155 41.1632 Columns 50 through 56 45.4883 41.1379 41.4146 41.1632 45.4820 41.1379 41.4147 Columns 57 through 63 45.9951 62.0359 41.4192 57.5975 45.9950 62.0354 41.4193 Columns 64 through 70 57.5991 69.3207 70.3292 70.2677 70.3363 69.3283 70.3292 Columns 71 through 77 70.2680 70.3363 63.3693 68.7155 64.6396 70.2381 63.3693 Columns 78 through 84 68.7155 64.6362 70.2381 74.6728 74.5768 74.6627 73.1732 Columns 85 through 91 74.6728 74.5772 74.6628 73.1773 74.5828 70.6352 73.4829 Columns 92 through 98 69.6324 74.5828 70.6366 73.4831 69.6324 63.3791 68.3937 Columns 99 through 105 64.9008 70.2240 63.3791 68.3893 64.9009 70.2238 63.2705 Columns 106 through 112 63.3969 63.2806 65.3633 63.2705 63.3974 63.2807 65.3692 Columns 113 through 119 181

74.5628 70.7298 73.1000 69.6315 74.5628 70.7299 73.1055 Columns 120 through 126 69.6316 69.9720 69.5718 69.5891 69.5701 69.9720 69.5718 Columns 127 through 128 69.5897 69.5701 >> u=max(v) u =74.6728 En este caso a partir de los datos de un factorial fraccional, de 8 experimentos se ha proyectado los resultados para las 128 combinaciones. En este caso en el Matlab se trabajo con la Red de Base Radial GRNN: en el software comando newgrnn, al igual que en el anterior, y además con un spread de 10 a fin de poder cubrir todo tipo de entradas.

Comandos y procedimiento con valores deseados y Red GRNN A continuación se procederá a probar con deseabilidad; para nuestro ejemplo, y al igual que antes, suponiendo que se trata de un envase para productos farmacéuticos y que el nivel de fuerza para abrirlo deba ser mayor, se considera que un valor mayor sería mejor; pero tampoco demasiado alto; es así que asumimos que se desea un valor de 85 (cosa que no se puede calcular con el diseño de experimentos tradicional); se tendría lo siguiente: >>%Aplicando la metodología con valores de calidad deseados: >> %Red Inversa: con las salidas como entradas >> net=newgrnn(t,p,sc);

>> v10=sim(net,t)

v10 = Columns 1 through 7 65.9731 70.7157 69.6819 40.9308 40.5765 40.3492 69.9765 34.0366 32.3256 32.7982 37.5757 37.7098 37.8579 32.6701 221.3126 223.2927 222.6390 216.0503 216.0761 216.1091 222.8066 38.3858 34.7313 35.7388 32.8568 32.5659 32.3133 35.4621 2.3317

2.4898

2.4416

2.6165

2.6212

2.6237

2.4545

15.9115 17.2907 17.0344 20.2025 20.4105 20.5211 17.1157 182

17.4212 17.1444 17.3563 11.1520 10.9593 10.8700 17.3098 Columns 8 through 14 72.3627 70.9171 66.7726 64.5265 60.9248 64.9771 65.8218 31.4073 32.2256 33.8224 34.3676 34.9883 34.2713 34.0744 224.8539 223.4439 221.5165 220.9917 220.2618 221.0872 221.2767 32.9070 34.5233 37.9594 38.9538 39.4502 38.8037 38.4572 2.5869

2.5002

2.3476

2.3128

2.3069

2.3175

2.3292

17.4053 17.3289 16.1329 15.5865 15.2248 15.6764 15.8727 16.3771 17.0847 17.4608 17.3082 16.8672 17.3483 17.4117 Columns 15 through 21 64.6880 41.3743 42.6232 40.0365 68.5454 69.6550 69.9376 34.3337 37.4637 37.2450 38.8120 33.2483 32.8097 32.6873 221.0256 216.0564 216.1925 215.7789 222.1034 222.6244 222.7837 38.9027 33.1574 33.8742 31.2073 36.7235 35.7637 35.4991 2.3144

2.6096

2.5872

2.6400

2.3979

2.4405

2.4528

15.6175 19.9450 19.2950 19.9728 16.6866 17.0267 17.1053 17.3230 11.3969 12.0173 11.6905 17.4597 17.3601 17.3165 Columns 22 through 24 40.5578 41.3357 40.7185 37.7191 37.4722 37.6479 216.0784 216.0546 216.0617 32.5481 33.1327 32.6914 2.6214

2.6102

2.6194

20.4209 19.9669 20.3284 10.9501 11.3761 11.0341 >>Entradas optimizadas. La red con el valor deseado (85), permite obtener las nuevas entradas optimizadas para dicho valor deseado:

>> v20=sim(net,85) V20 = 73.7378 30.3067 227.1482 31.0274 183

2.7022 16.7815 14.7630 >> %Red Directa: con las nuevas entradas para obtener la red directa se tiene: >>%Los nuevos valores de t: >> t24 t 24= Columns 1 through 7 64.3300 73.4300 70.9500 42.7700 41.1500 39.4900 71.6200 Columns 8 through 14 78.4400 73.9600 65.5100 62.4800 59.0500 63.0200 64.1200 Columns 15 through 21 62.6700 44.1200 46.4600 32.3300 68.5900 70.8900 71.5300 Columns 22 through 24 41.0400 44.0200 41.8900

>>%Simulando con t 24 y la GRNN:

>> v24 v 24= Columns 1 through 7 69.5701 69.5701 69.5701 41.1379 41.1379 41.1379 74.6728 Columns 8 through 14 74.6728 74.6728 62.3449 62.3449 62.3449 63.2705 63.2705 Columns 15 through 21 63.2705 40.9703 40.9703 40.9703 70.3363 70.3363 70.3363 Columns 22 through 24 42.3172 42.3172 42.3172

>>%Con base a lo anterior se construye la nueva red obteniéndose v20 ( con base a p) y t24(con base a t) >> v20=[ 73.7378; 73.7378; 73.7378; 30.3067; 30.3067; 30.3067; 227.1482; 227.1482;

227.1482; 31.0274; 31.0274; 31.0274; 2.7022; 2.7022; 2.7022;

184

16.7815; 16.7815; 16.7815; 14.7630; 14.7630; 14.7630;14.7630; 14.7630; 14.7630];

>>24 = [64.3300;73.4300;70.9500;42.7700;41.1500;39.4900;71.6200;78.4400; 73.9600;65.5100;62.4800;59.0500;63.0200;64.1200;62.6700;44.1200;46.4600; 32.3300;68.5900;70.8900;71.5300;41.0400;44.0200;41.8900];

>> net=newgrnn(v20,t24,sc); >> %Es la nueva red para obtener 85 de salida, y lo hace con las entradas de v10 =73.7378; 30.3067; 227.1482; 31.0274; 2.7022;

16.7815; 14.7630.

Obteniémdose un vaor de salidad de 74.67. Las mismas que corresponden a las siguientes variables de entrada. Ver Tabla 25.

Tabla 25. Valores de factores para obtener un valor deseado, Red GRNN Factores del proceso

Nivel bajo

Nivel alto

Valores para obtener 85

A. Velocidad de inyección (%)

40

75

73.7378

B. Temperatura de moldeo ºC

25

45

30.3067

C. Temperatura de mezcla ºC

205

235

227.1482

D. Presión de trabajo, bar

25

45

31.0274

E. Tiempo de trabajo

2

3

2.7022

F. Tiempo de enfriamiento

10

25

16.7815;

G. Velocidad de eyección %

5

25

14.7630.

Se puede ver que el desempeño de las Redes de Base Radial, tanto con la red directa, sin valores de deseabilidad como con el proceso con valores deseados de calidad, tiene importantes ventajas y el proceso es relativamente corto y además la reducción de errores es superior. Por tanto se procede a continuación a profundizar sobre el funcionamiento de la red de base radial. Para ello se presenta el detalle de los cálculos de la Red de Base Radial,

185

considerando las metodologías, con mínimos cuadrados y con matriz seudoinversa. En el Anexo 4. se presentan los cálculos que se dan para una Red Neuronal RN con funciones de base radial, tanto para el caso de

RN Diseño

Exacto(newrbe de Matlab) como en el de RN de Regresión Generalizada.

3.2.4.4. Perceptrón multicapa con aprendizaje backpropagation con algoritmo Levenberg-Marquardt: Explicación de la Arquitectura, Interfase, Comandos y Cálculos con Backpropagation Explicación del porqué se utlizó el algoritmo Levenberg-Marquardt. Se puede apreciar que los valores obtenidos con la red multicapa con aprendizaje backpropagation no es muy cercana a los valores deseados y por otro lado que se han tenido que hacer un conjunto de transformaciones; es decir los cálculos son bastante trabajosos. Ello se puede mejorar con las diversas variantes de backpropagation BP, es decir, con variaciones a las funciones de transferencia y al algoritmo de aprendizaje. Es así que se tienen las siguientes posibilidades de funciones de optimización que pueden trabajar con BP:  Gradiente Básico Descendente (El que hemos usado en 3.2.3.a) MODIFICACIONES HEURISTICAS  Gradiente Básico Descendente con momentum  Tasa de aprendizaje variable VLBP OTRAS TECNICAS DE OPTIMIZACION NUMERICA  Gradiente Conjugado  Levenberg-Marquardt  Método Newton, De la información revisada, sobre el funcionamiento de las redes neuronales y su uso, se tiene que las Redes de Gradiente Descendente tiene es el algoritmo mas simple pero tienen el inconveniente que su convergencia es muy lenta. En la Redes con modificaciones heurísticas se tienen que no llegan a valores muy exactos porque trabajan con criterios heurísticos, globales.

186

De las técnicas de optimización numérica con el método Quasi Newton tiene que es muy complicado su cálculo porque requiere obtener la matriz Hessiana, que implica el cálculo de la segunda derivada, lo cual es una desventaja frente a los demás métodos de optimización. Asimismo, de la información diversa sobre las variantes de Gradiente Conjugado( scaled, Powell-Beale, FlectcherPowell, Polak-Ribiere) se tiene que no tienen un desempeño tan adecuado para la aproximación de funciones (que es lo que buscamos) como las Redes que usan el algoritmo de

Levenberg-Marquardt.

En la información que

proporciona Matlab en sus diversos manuales se aprecia la ventaja del algoritmo de Levenberg-Marquardt. Por otro lado Hagan et al, 1996, sostienen que estas Redes se adaptan bien cuando el índice de desempeño es el cuadrado medio del error, que es justamente lo que se usa para evaluar los diseños de experimentos para fijar parámetros de procesos. En la práctica este algoritmo es una variación del método de Newton, con la diferencia, que ha sido diseñado para minimizar funciones que son sumas de cuadrados de otras funciones no lineales. Por tanto este, tipo de red se ha seleccionado para el tipo de

cálculos que requerimos de establecer parámetros que permitan

optimizar procesos. Con base a los datos de entrada y salida; se trabaja con Backpropagation BP con algoritmo Levenberg-Marquardt; con la arquitectura 6-6-3 para la red directa. Interfase: Matlab – Neural Networks

187

Comandos del procedimiento y resultado obtenido fue el siguiente: Si se utiliza el algoritmo Levenberg-Marquardt:, y considerando sólo los factores significativos, se tiene: >> [pn,ps1]=mapstd(p); >> [ptrans,ps2]=mapstd(pn,0.000001); >> [tn,ts]=mapstd(t); >> [R,Q]=size(ptrans) R= 7 Q= 24 >> iitst=3:3:Q; >> iitr=[1:3:Q 2:3:Q]; >> test.P=ptrans(:,iitst); test.T=tn(:,iitst); >> ptr=ptrans(:,iitr); ttr=tn(:,iitr); >> net=newff(minmax(ptr),[7 1],{'tansig' 'purelin'},'trainlm');

188

>> net.trainParam.lr=0.01; >> net.trainParam.epochs=3000; >> [net,tr]=train(net,ptr,ttr,[],[],[],test); TRAINLM-calcjx, Epoch 0/3000, MSE 2.51586/0, Gradient 4.43813/1e-010 TRAINLM-calcjx, Epoch 7/3000, MSE 0.0257978/0, Gradient 4.51195e-015/1e010 TRAINLM, Minimum gradient reached, performance goal was not met. >> an= sim(net,ptrans); >> a=mapstd('reverse',an,ts); >> for i=1:1 [m(i),b(i),r(i)]=postreg(a(i,:),t(i,:)); end >> r r= 0.9706 >> pnew=[75;45;235;45;3;25;25]; >> pnewn=mapstd('apply',pnew,ps1); >> pnewtrans=mapstd('apply',pnewn,ps2); >> Y=sim(net,pnewtrans); >> Ys=mapstd('reverse',Y,ts); >> Ys Ys = 68.8800; valor cercano al obtenido con diseño de experimentos. >> Para los 24 valores se tiene >> pn=mapstd('apply',p,ps1); >> pntrans=mapstd('apply',pn,ps2); >> Y=sim(net,pntrans); >>Ys=mapstd('reverse',Y,ts); >> Ys Ys = Columns 1 through 7 68.8800 68.8800 68.8800 41.9600 41.9600 41.9600 75.0300 Columns 8 through 14

189

75.0300 75.0300 63.9950 63.9950 63.9950 63.5700 63.5700 Columns 15 through 21 63.5700 45.2900 45.2900 45.2900 69.7400 69.7400 69.7400 Columns 22 through 24 42.5300 42.5300 42.5300 Con el algoritmo general de Backpropagation, y sino se aplica el algoritmo de Levenberg-Marquardt ; para los mismos datos, se obtiene: >> Ys 68.8822; valor similar al obtenido con RNA con Backpropagation con algoritmo algoritmo de Levenberg-Marquardt. Por tanto el error si no se usa LevenbergMarquardt es de : -4.5522, 4.5478 y 2.0678 dando una suma total de 2.0634; y si se usa el error es de:-4.55, 4.55 y 2.07 dando una suma total de 2.07.

Con valor deseado: A continuación se procederá a probar con deseabilidad; para nuestro ejemplo, suponiendo que se trata de un envase para productos farmacéuticos y que el nivel de fuerza para abrirlo deba ser mayor, se considera que un valor mayor sería mejor; pero tampoco demasiado alto; es así que asumimos que se desea un valor de 85 (cosa que no se puede calcular con el diseño de experimentos tradicional); trabajando con los factores significativos, se tendría lo siguiente: >> Red Inversa >> %cambiando p por t y viceversa: >> [pn,ps1]=mapstd(p); >> [ptrans,ps2]=mapstd(pn,0.000001); >> [tn,ts]=mapstd(t); >> [R,Q]=size(ptrans) R= 1 Q= 24 >> iitst=3:3:Q; >> iitr=[1:3:Q 2:3:Q]; >> test.P=ptrans(:,iitst); test.T=tn(:,iitst);

190

>> ptr=ptrans(:,iitr); ttr=tn(:,iitr); >> net=newff(minmax(ptr),[1 5],{'tansig' 'purelin'},'trainlm'); >> net.trainParam.lr=0.01; >> net.trainParam.epochs=3000; >> [net,tr]=train(net,ptr,ttr,[],[],[],test); TRAINLM-calcjx, Epoch 0/3000, MSE 1.52185/0, Gradient 0.735645/1e-010 TRAINLM-calcjx, Epoch 6/3000, MSE 0.894444/0, Gradient 2.60874e-012/1e010 TRAINLM, Minimum gradient reached, performance goal was not met. >> an= sim(net,ptrans); >> a=mapstd('reverse',an,ts); >> for i=1:5 [m(i),b(i),r(i)]=postreg(a(i,:),t(i,:)); end >> r r= 0.0861 -0.0861

0.0861

0.0861

0.0861

>> pnew=[85]; >> pnewn=mapstd('apply',pnew,ps1); >> pnewtrans=mapstd('apply',pnewn,ps2); >> Y=sim(net,pnewtrans); >> Ys=mapstd('reverse',Y,ts); >> Ys Ys = 61.5385 34.2308 221.1538 16.9231 15.7692 %Para filas 4 y 5 se puede considerar el promedio. Es decir fila 4: 2.5 y fila 5:35. >> Red Directa >> %cambiando p por t y viceversa:

191

>> [pn,ps1]=mapstd(p); >> [ptrans,ps2]=mapstd(pn,0.000001); >> [tn,ts]=mapstd(t); >> [R,Q]=size(ptrans) R= 5 Q= 24 >> iitst=3:3:Q; >> iitr=[1:3:Q 2:3:Q]; >> test.P=ptrans(:,iitst); test.T=tn(:,iitst); >> ptr=ptrans(:,iitr); ttr=tn(:,iitr); >> net=newff(minmax(ptr),[5 1],{'tansig' 'purelin'},'trainlm'); >> net.trainParam.lr=0.01; >> net.trainParam.epochs=3000; >> [net,tr]=train(net,ptr,ttr,[],[],[],test); TRAINLM-calcjx, Epoch 0/3000, MSE 2.40105/0, Gradient 4.01543/1e-010 TRAINLM-calcjx, Epoch 5/3000, MSE 0.534856/0, Gradient 1.51558e-015/1e010 >> an= sim(net,ptrans); >> a=mapstd('reverse',an,ts); >> for i=1:1 [m(i),b(i),r(i)]=postreg(a(i,:),t(i,:)); end >> r r= 0.1117 -0.0861

0.0861

0.0861

0.0861

>> pnew2=[ 61.5385 34.2308 221.1538 16.9231 15.7692]; >> pnew2n=mapstd('apply',pnew2,ps1); >> pnew2trans=mapstd('apply',pnew2n,ps2); >> Y=sim(net,pnew2trans); >> Ys=mapstd('reverse',Y,ts); >> Ys Ys = 192

68.6721

Se puede ver que el desempeño de backpropagation, incluso con el aprendizaje del algoritmo Levenberg-Marquardt, tanto con la red directa, sin valores de deseabilidad como con el proceso con valores deseados de calidad, con relación al metodología tienen algunas ventajas sin embargo el proceso es largo y además la reducción de errores tiene limitaciones, aún, por tanto se procede a continuación a probar y analizar la red de base radial. En el Anexo 3, se presenta el detalle de los cálculos del Perceptrón Multicapa con aprendizaje Backpropagation.

3.3. Prueba de Comparación de la Red Neuronal desarrollada con otras Arquitecturas de Redes Neuronales de Función de Base Radial y con técnicas estadísticas tradicionales de mejora de la calidad de procesos Para la comparación de la Red Neuronal desarrollada con Redes Neuronales de Función de Base Radial y con técnicas tradicionales de mejora de la calidad de procesos, se han tomado tres casos, que se presentan a continuación.

a.

Del texto “Diseño y Análisis de Experimentos” de Montgomery, D sobre Diseño Factorial 2K, Capítulo 9, Ejemplo 9-2 sobre la taza de filtración de un producto químico; en la actualidad se tiene una tasa de 75 gal/h y se tarta de reducir; los factores son: A Temperatura, B Presión, C Concentración de Reactivos y D Rapidez de mezclado, se trabajan con 2 niveles: 1 y 2, se presenta los resultados en la Tabla 26.

Tabla 26. Diseño Experimento y salida de caso de Montgomery Nº corrida

Factor A

Factor B

Factor C

Factor D

Tasa filtrac

1

1

1

1

1

45

2

2

1

1

1

71

3

1

2

1

1

48

4

2

2

1

1

65

5

1

1

2

1

68

6

2

1

2

1

60

gal/h

193

7

1

2

2

1

80

8

2

2

2

1

65

9

1

1

1

2

43

10

2

1

1

2

100

11

1

2

1

2

45

12

2

2

1

2

104

13

1

1

2

2

75

14

2

1

2

2

86

15

1

2

2

2

70

16

2

2

2

2

96

Donde se llega a una ecuación de regresión del proceso de filtración para la corrida 1, de 46.22 cuando el valor observado es 45, es decir un error de 1.22 b. Del texto “Understanding Industrial Designed Experiments” de Schmidt, R y Launsby , R. sobre Diseño de Experimentos con factores y niveles, sobre Moldeado por Inyección de una parte plástica; Caso Estudio 8-23, que presenta los datos de la Tabla 27

Tabla 27. Niveles de los Factores del Caso de Schmidt FACTORES A.

Velocidad

NIVEL 1 de 1

NIVEL 2 2

inyección B Tiempo enfriamiento

40 seg

50 seg

C. Zonas de barril

1, Baja temperatura

2, Alta temperatura

D. Temperatura molde

100

150

E. Presión de proceso

200

1100

F. Contra presión

50

150

Con los siguientes resultados, aplicando Métodos Taguchi un AO L8, se obtienen la Tabla 28.

194

Tabla 28. Resultados de Experimento de Caso de Schmidt Ensayo Longitud

Ancho

1

000*

005

000

000

005

375

560

570

585

590

2

075

090

070

065

065

650

640

640

640

645

3

045

050

045

045

045

545

545

545

550

540

4

100

105

105

110

105

630

625

625

635

635

5

105

110

105

120

100

555

560

560

555

560

6

045

055

065

050

050

580

550

550

540

545

7

150

140

155

150

145

600

585

585

590

585

8

055

065

055

055

060

565

565

565

565

560

*se presentan diez milésima; siendo el valor 14.5, en longitud y 9.38 en ancho. Obteniéndose los siguientes resultados con base a los efectos: Longitud: A1ó2, B1ó2, C1,D1 , E1; F 1 o 2 Ancho: A1,B1 ó 2, C1ó2, D1, E2, F 1 o 2. Final: A1, B1, C1, D1, E1, F1 ó 2. c. Del texto “Taguchi Techniques for Quality Engineering” de Ross, P., sobre Diseño de Experimentos con factores y niveles, sobre soldadura de punto; Apéndice G, que presenta los datos de la Tabla 29.

Tabla 29. Niveles de los Factores del Caso de Ross FACTORES

NIVEL 1

NIVEL 2

A. Prog. Soldado

1

2

B Grosor de sellado

3 mm

5 mm

C.

Secuencia

de 1: 1-2-3-4-5

2: 1-5-2-4-3

de 20 mm

30 mm

E. Ancho de reborde

10 mm

15 mm

F. Grosor L

.75 mm

1.00 mm

G. Grosor I

1.00 mm

1.5 mm

soldado D.

Espaciamiento

soldado

195

Con los siguientes resultados, aplicando Métodos Taguchi un AO L8, se obtienen la Tabla 30. Tabla 30. Resultados de Experimento de Caso de Ross Ensayo Lado Izquierdo

Lado Derecho

1

100*

97

76

87

80

82

71

59

68

58

2

61

66

62

60

73

51

56

56

52

56

3

79

72

74

65

67

81

82

78

78

74

4

96

102

116

111

108

103

106

109

124

99

5

75

89

73

79

67

75

88

68

71

67

6

95

102

89

88

84

97

100

85

94

80

7

109

115

107

109

110

113

111

94

106

106

8

98

125

90

109

108

74

94

70

103

110

*Desviación en mmx100 Obteniéndose el respectivo ANVA y un estimado de la media de 59.65 y la mejor combinación A1,B1,G2, que corresponde a la segunda corrida. Aplicando las RN Desarrolalda y las de Base Radial Exacta (newrbe) y de Regresión Generalizada (GRNN), para los 3 casos seleccionados se tiene lo siguiente:

3.3.1. Para el experimento a, se llegó a los resultados que se presentan en la Tabla 31.

Tabla 31. Comparación de Red Desarrollada con Redes Neuronales de Función de Base Radial. Con Datos del Del texto “Diseño y Análisis de Experimentos” de Montgomery, D. sobre Diseño Factorial 2K, Capítulo 9, Ejemplo 9-2 sobre la taza de filtración de un producto químico * Indicadores

Red

Red de F.B. Red

de

F.B. Análisis

Desarrollada,

Radial

Radial

Estadísticos

4.2.2.

GRNN

NEWRBE

Tradicionales, Montgomery

Error

al 0

simular

la

2.9556

0

1.22

196

entrada p1 Error

de 0

11.0169

0

3 capas

3 capas

RD. Nº capas; 4 neuronas

4 neuronas

4 neuronas



16 neuronas

16 neuronas

RD Nº capas; 3 capas

3 capas

3 capas



1 neurona

1 neurona

3 capas

3 capas

RI. Nº capas; 1 neurona

1 neurona

1 neurona



16 neuronas

16 neuronas

RI. Nº capas; 3 capas

3 capas

3 capas



4 neuronas

4 neuronas

22.44

simulación global Red

Directa 3 capas,

neuronas 16 neuronas

capa

-

de

entrada

y

oculta

neuronas 1 neurona

-

capa de salida Red

Inversa 3 capas

neuronas 16 neuronas

capa

-

de

entrada

y

oculta

neuronas 4 neuronas

-

capa de salida Entradas

1.0389

1.0000

1.0389

optimizadas

0.9121

1.2361

0.9121

valores 1.9601

1.0000

1.9601

1.7639

0.9141

para

deseados (35)

0.9141

-

*Detalle de cálculos ver en 4.3.1. 1, 2, 3 y 4.

En esta Tabla se aprecia el menor error de las Redes Desarrollada y NEWRBE frente a la GRNN y al Análisis Estadístico. Los valores de entradas optimizadas son bastante similares entre la Red Desarrollada y la NEWRBE, por tanto, se puede decir que la Red Desarrollada y la NEWRBE se desempeñan

197

ligeramente mejor frente a la Red GRNN y mucho mejor que el Análsis Estadístico Tradicional..

3.3.1.1. Con la Red Desarrollada Se aplicaron los datos a la Red Desarrollada, red newrbfcev15r en el Shell de Matlab Neural Networks con la interfase que se presenta a continuación y se obtuvieron los resultados siguientes: >>%Construcción de red y simulación: >>sc=1; >> [w1,b1,w2,b2,K]=newrbfcev15r(pea',tea',sc); >> [ts]=simnewrbfcev15r(w1,b1,w2,b2,pea') ts = Columns 1 through 7 45.0000 71.0000 48.0000 65.0000 68.0000 60.0000 80.0000 Columns 8 through 14 65.0000 43.0000 100.0000 45.0000 104.0000 75.0000 86.0000 Columns 15 through 16 70.0000 96.0000 >> %En la simulación se obtienen todos los valores de salida con error 0. >> %Caso de simular dado un valor de entrada: >> Pea1=[1;1;1;1]; >> [ts]=simnewrbfcev15r(w1,b1,w2,b2,Pea1) ts = 45.0000 >> %Con valores deseados, t=35 >> %Inversa >> [w1,b1,w2,b2,K]=newrbfcev15r(tea',pea',1); >> [ts1]=simnewrbfcev15r(w1,b1,w2,b2,35) >> Entrada optimizada ts1 = 1.0389 0.9121 1.9601 0.9141 198

Interfase de Red Desarrollada para 4.2.3.a.1.

3.3.1.2 . Con Red NEWRBE Se aplicaron los datos a la Red NEWRBE en el Shell de Matlab Neural Networks y se obtuvieron los resultados siguientes: >>%Construcción de red y simulación: >> neta=newrbe(pea',tea'); >> v=sim(neta,pea') v= Columns 1 through 7 45.0000 71.0000 48.0000 65.0000 68.0000 60.0000 80.0000 Columns 8 through 14 65.0000 43.0000 100.0000 45.0000 104.0000 75.0000 86.0000 Columns 15 through 16 70.0000 96.0000

199

>> %En la simulación se obtienen todos los valores de salida con error 0. >> %Caso de simular dado un valor de entrada: >> pea1=[1 1 1 1]; >> v=sim(neta,pea1') v= 45.0000 >> %Con valores deseados, t=35 gal/hr >> %Inversa >> net=newrbe(tea',pea'); >> v10=sim(net,35) v10 = 1.0389 ;

0.9121;

1.9601;

0.9141

>>% Así se obtuvieron las netradas optimizadas para obtenre 35 gal/hr de salida. 3.3.1.3 . Con Red GRNN Se aplicaron los datos a la Red GRNN en el Shell de Matlab Neural Networks y se obtuvieron los resultados siguientes: >>%Construcción de red y simulación: >> netag=newgrnn(pea',tea'); >> v=sim(netag,pea') v= Columns 1 through 7 61.8025 69.3086 62.7160 69.8395 66.8642 70.3580 68.3951 Columns 8 through 14 71.7160 64.9753 76.0247 65.7284 76.9383 70.1358 76.8642 Columns 15 through 16 71.0494 78.2840 >> %En la simulación se obtienen valores muy distintos a los esperados, error muy elevado. >> %Caso de simular dado un valor de entrada: >> v=sim(netag,pea1') v= 61.8025

200

>>%Error muy elevado= 61.8025-45.0000=16.8025 >>%Como no se desempeña bien la red con sc=1; se probó sc=0.5 >> sc=0.5; >> netag=newgrnn(pea',tea',sc); >> v=sim(netag,pea') v= Columns 1 through 7 47.9556 70.2789 50.5435 66.4850 67.3418 62.7663 76.3252 Columns 8 through 14 67.1861 48.1651 94.6073 49.7752 97.8364 73.3056 85.0499 Columns 15 through 16 70.7644 92.6136 >> v=sim(netag,pea1') v= 47.9556 >>%Desempeño mucho mejor; error de: 47.9556-45.0000=2.9556 >> %Con valores deseados, t=35 gal/hr >> %Inversa >> net=newgrnn(tea',pea'); >> sc=5; >> net=newgrnn(tea',pea',sc); >> v10=sim(net,35) v10 = 1.0000 1.2361 1.0000 1.7639 3.3.1.4. Con Análisis Estadístico Tradicional Se trata de un diseño factorial 2k, cuyo análisis de variancia desarrollado en el texto de Montgomery es el siguiente:

201

Tabla 32. Análisis de variancia de caso sobre velocidad de filtración Fuente

de Suma

de Grados

de Media

de Fo

variación

cuadrados

libertad

Cuadrados

A

1870.56

1

1870.56

83.36*

C

390.06

1

390.06

18.38*

D

855.56

1

855.56

38.13*

AC

1314.06

1

1314.06

58.56*

AD

1105.56

1

1105.56

49.27*

CD

5.06

1

5.06

%Construcción de red y simulación: >>sc=1; >> [w1,b1,w2,b2,K]=newrbfcev15r(peb',teb',sc); >> [ts]=simnewrbfcev15r(w1,b1,w2,b2,peb') >> [w1,b1,w2,b2,K]=newrbfcev15r(peb',teb',sc); >> [ts1]=simnewrbfcev15rr(w1,b1,w2,b2,peb') ts1 = Columns 1 through 7 2.0000 73.0000 46.0000 105.0000 108.0000 53.0000 148.0000 536.0000 643.0000 545.0000 630.0000 558.0000 553.0000 589.0000 Column 8 58.0000 564.0000

Interfase de la Red Desarrollada:

205

>>%Con la primera entrada peb1 se poprbó obtener la salida respectiva. >> peb1=[100;1;1;40;200;50]; >> [ts1]=simnewrbfcev15rr(w1,b1,w2,b2,peb1) ts1 = 1.9989 535.9996 >>%Que es prácticamente el valor esprado de 2 y 536. >>%Con valor deseado; suponiendo que se busca obtener 0 y 800. >> %Con la Red Inversa, se tiene. >> [w1,b1,w2,b2,K]=newrbfcev15r(teb',peb',sc); >> teb1=[0 800]; >> [ts1]=simnewrbfcev15r(w1,b1,w2,b2,teb1') ts1 = 1.0e+003 * 0.1000 0.0010

206

0.0010 0.0500 1.1000 0.1500 >>%Que son los valores de entrada optimizados para obtener 0 y 800 de salida, >> %y corresponde a los factores D,C,A,B,E,F, respectivamente. 3.3.2.2. Con la Red NEWRBE >>Construcción de la red y simulación >> netb=newrbe(peb',teb'); >> v=sim(netb,peb') v= Columns 1 through 7 2.0000 73.0000 46.0000 105.0000 108.0000 53.0000 148.0000 536.0000 643.0000 545.0000 630.0000 558.0000 553.0000 589.0000 Column 8 58.0000 564.0000 >>%Con la primera entrada peb1 se poprbó obtener la salida respectiva. >> peb1=[100;1;1;40;200;50]; >> v=sim(net,peb1) v= 1.9989 535.9996 >> %Para obtener un valor deseado exacto, buscar entradas optimizadas. >> %newrbe, inversa >> net=newrbe(teb',peb'); >> teb1=[000 800]; >> v10=sim(net,teb1')

v10 = 100.0000 1.0000 1.0000 40.0000 207

200.0000 50.0000 >> %Que corresponde a los factores D,C,A,B,E,F, respectivamente. 3.3.2.3. Con la Red NEWGRNN >>Construcción de la red y simulación >> netbg=newgrnn(peb',teb'); >> v=sim(netbg,peb') v= 2

73

46 105 108

53 148

58

536 643 545 630 558 553 589 564 >>%Con la primera entrada peb1 se poprbó obtener la salida respectiva. >> peb1=[100;1;1;40;200;50]; >> v=sim(net,peb1) v= 2 536 >> %Para obtener un valor deseado exacto, buscar entradas optimizadas. >> %newgrnn, inversa >> net=newgrnn(teb',peb'); >> teb1=[000 800]; >> v10=sim(net,teb1') v10 = 0 0 0 0 0 0 >>%No obtiene una respeuesta esperada, razonable. No se desempeña bien. Por >>%tanto, se procedió a modificar los sc, se porbó con sc=0.5 y 5.0 >> sc=0.5; >> net=newgrnn(teb',peb',sc); >> teb1=[000 800];

208

>> v10=sim(net,teb') v10 = 1.0e+003 * Columns 1 through 7 0.1000

0.1000

0.1000

0.1000

0.1500

0.1500

0.1500

0.0010

0.0010

0.0020

0.0020

0.0010

0.0010

0.0020

0.0010

0.0010

0.0031

0.0031

0.0031

0.0031

0.0010

0.0400

0.0500

0.0400

0.0500

0.0400

0.0500

0.0400

0.2000

1.1000

0.2000

1.1000

1.1000

0.2000

1.1000

0.0500

0.1500

0.1500

0.0500

0.0500

0.1500

0.1500

Column 8 0.1500 0.0020 0.0010 0.0500 0.2000 0.0500 >> v10=sim(net,teb1') v10 = 0 0 0 0 0 0 >> sc=5; >> net=newgrnn(teb',peb',sc);

>> v10=sim(net,teb') v10 = 1.0e+003 * Columns 1 through 7 0.1000

0.1000

0.1021

0.1000

0.1500

0.1479

0.1500

0.0010

0.0010

0.0020

0.0020

0.0010

0.0011

0.0020 209

0.0010

0.0010

0.0031

0.0031

0.0031

0.0031

0.0010

0.0400

0.0500

0.0404

0.0500

0.0400

0.0496

0.0400

0.2000

1.1000

0.2000

1.1000

1.1000

0.2000

1.1000

0.0500

0.1500

0.1500

0.0500

0.0500

0.1484

0.1500

Column 8 0.1500 0.0020 0.0010 0.0500 0.2000 0.0517 >> v10=sim(net,teb1') v10 = 0 0 0 0 0 0

3.3.2.4. Con Análisis Estadístico Tradicional El autor del texto, aplica un Arreglo Ortogonal de los Métodos Taguchi, el AO L8 con 6 factores, luegode la experimentación respectiva se obtieen los resultados que se mostraron en la tabla inicial. Seguidamente construye la Tabla de Promedios de los efectos, buscando los mejores de resultados de ancho y largo, los cuales se presentan en la siguiente tabla.

Tabla 34. Tabla de resultados, de mejor desempeño para largo y ancho Factor*

Longitud

Ancho

D

100

100

C

1

1ó 2

E

200

1100

210

A

1ó2

1

B

1ó2

50

F

1ó2

1ó2

*Orden de factores, es el que se presenta en texto original Finalmente, luego del análisis de aspectos diversos, entre ellos el econóimico, s decide por la mejor combinación: D1(100); C1(1), E2(1100); A1(1), B2(50), F1(50). F1=50 se prefiere por menor impacto, por ser presión , el otro valor es de 150. En el presente caso se vuelve a apreciar la superioridad de las RN con función de base radial, sobre el diseño de experimentos, obteniéndose, con la Red Desarrollada y con la Newrbe los valores similares a los objetivos, error de cero; y con la Red de Regresión Generalizada GRNN, da los valores similares con error cero. Sin emabargo,para el caso de obtener el valor deseado, se probó con los valores objetivo de largo y ancho, y se llega a valores de los factores con la Red Desarrollada y con la Newrbe, más no así con los de la Red Newgrnn. En el caso de los Análisis Estadísiticos Tradicionales, se aprecia sus limitaciones, sin embargo es de destacar que los aspectos cualitativos de criterio en mabos casos se pueden aplicar.

3.3.3. Para el experimento c, se llegó a los resultados que se presentan en la Tabla 35.

Tabla 35. Comparación de Red Desarrollada con Redes Neuronales de Función de Base Radial. Del texto “Taguchi Techniques for Quality Engineering” de Ross, P., sobre Diseño de Experimentos con factores y niveles, sober soldadura de punto; Apéndice G.*

211

Indicadores

Red

Red de F.B. Red de F.B. Análisis

Desarrollada, Radial

Radial

Estadísticos

4.2.2.

NEWRBE

Tradicionales,

GRNN

Ross Error al simular 0

1.9803

0

No calcula;

la entrada p1

1.0770

0

Compara

0

promedios de efectos Error

de 0

0

0

Red Directa RD. 3 capas,

3 capas

3 capas



Nº 8 neuronas

8 neuronas

8 neuronas

capa 8 neuronas

8 neuronas

8 neuronas

RD Nº capas; Nº 3 capas

3 capas

3 capas

neuronas

2 neuronas

2 neuronas

Red Inversa RI. 3 capas

3 capas

3 capas



Nº 2 neurona

2 neurona

2 neurona

capa 8 neuronas

8 neuronas

8 neuronas

RI. Nº capas; Nº 3 capas

3 capas

3 capas

neuronas

6 neuronas

6 neuronas

77.47

simulación global

capas;

neuronas de

entrada

-

y

oculta

capa 2 neuronas

-

de salida

capas;

neuronas de

entrada

-

y

oculta

capa 6 neuronas

-

de salida Entradas

A:2

0

2

2

optimizadas

B:5

0

5

5

valores C:1

0

1

1

de D:20

0

20

20

E:15

0

15

15

F:1

0

1

1

para

deseados salida (0 y 0)

212

G:1

0

1

1

0

0

0

No

0

No calcula

0

No calcula

No respondió Error con mejor 0 corrida

(64.4-

54.2) Error con salida 0 mínima

respondió

aceptable(51,51) Error con salida 0

Sólo acierta

máxima

2 salidas de

aceptable(73,73)

7

*Detalle de cálculos ver en 4.3.3. 1, 2, 3 y 4.

De la revisión de los valores de la tabla se aprecia que el desempeño de las Redes Desarrollada y NEWRBE son mejores al GRNN y al Análisis Estadístico. En la simulación de la primera entrada Las Redes Desarrolalda y NEWRBE tienen error 0, mientras que la Red GRNN da errores de (1.9803, 1.0770) y la red GRNN no da valores de entradas optimizadas para las salidas (0,0) ni para (51,51) y da 5 valores errados para (73,73). En esta Tabla se aprecia el error muy similar de las Redes Desarrollada y NEWRBE y GRNN en error con mejor corrida y cuadrado medio del error; el Análisis Estadístico desarrolla un trabajo principalmente cualitativo de selección de factores con base a promedios y también da mejor corrida. Por tanto, se puede decir que la Red Desarrollada y la Red NWERBE se desempeñan mejor que la Red GRNN y que el Análisis Estadístico Tradicional no realiza cálculos con valores deseados. 3.3.3.1. Con la Red Desarrollada Se aplicaron los datos a la Red Desarrollada, red newrbfcev15r en el Shell de Matlab Neural Networks con la interfase que se presenta a continuación y se obtuvieron los resultados siguientes: >>%Construcción de red y simulación:

213

>> %Datos de entrada, considerando AO L8 y valores promedios de salida. >> pec pec = 1.0000

3.0000

1.0000 20.0000 10.0000

0.7500

1.0000

1.0000

3.0000

1.0000 30.0000 15.0000

1.0000

1.5000

1.0000

5.0000

2.0000 20.0000 15.0000

1.0000

1.5000

1.0000

5.0000

2.0000 30.0000 10.0000

0.7500

1.0000

2.0000

3.0000

2.0000 20.0000 10.0000

0.7500

1.5000

2.0000

3.0000

2.0000 30.0000 15.0000

1.0000

1.0000

2.0000

5.0000

1.0000 20.0000 15.0000

1.0000

1.0000

2.0000

5.0000

1.0000 30.0000 10.0000

0.7500

1.5000

>> tec tec = 88.0000 67.6000 64.4000 54.2000 71.4000 78.6000 106.6000 108.2000 76.6000 73.8000 91.6000 91.2000 110.0000 106.0000 106.0000 90.2000

Interfase para aplicar la Red Desarrollada:

214

>> sc=1; >> [w1,b1,w2,b2,K]=newrbfcev15r(pec',tec',sc); >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pec') ts = Columns 1 through 7 88.0000 64.4000 71.4000 106.6000 76.6000 91.6000 110.0000 67.6000 54.2000 78.6000 108.2000 73.8000 91.2000 106.0000 Column 8 106.0000 90.2000 >>%Con el primer valor de entrada >> pec1=[ 1.0000

3.0000

1.0000 20.0000 10.0000

0.7500

1.0000];

>> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pec1') ts = 88.0000 67.6000

215

>> %Para obtener el valor deseado >> %Red Inversa >> [w1,b1,w2,b2,K]=newrbfcev15r(tec',pec',sc); >>Con el mejor valor propuesto por el autor; segunda corrida: 64.4 y 54.2 >>tec3=[64.4;54.2]; >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,tec3) ts = 1.0003 3.0005 1.0000 29.9974 15.0000 1.0000 1.4999 >>Que

corresponde

a

lo

obtenido

por

el

autor,

la

combinación:

>>A1,B1,C1,D2,E2,F2,G2. > >%Con el más bajo de los valores aceptados que es 51- 51 y el más >> % alto de los valores aceptados es 73 -73; ello implica entradas de: >> tec1=[51 51]; >> tec2=[73 73]; >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,tec1') ts = 2.0000 5.0000 1.0000 19.9999 15.0001 1.0000 1.0000

>> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,tec2') ts = 2.0000 4.9998 216

1.0001 19.9999 14.9997 1.0000 1.0000 >>%Este tipo de cálculos no se puede hacer con el Análsis Estadístico Tradicional. >>%Asimismo, con la salida tec4= [0 0], se obtiene la siguiente combinación >> tec4=[0;0]; >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,tec4) ts = 2.0000 5.0000 1.0000 19.9999 15.0001 1.0000 1.0000

3.3.3.2. Con la Red NEWRBE Construcción de la Red y simulación: >> netc=newrbe(pec',tec'); >> v=sim(netc,') >> v=sim(netc,pec') v= Columns 1 through 7 88.0000 64.4000 71.4000 106.6000 76.6000 91.6000 110.0000 67.6000 54.2000 78.6000 108.2000 73.8000 91.2000 106.0000 Column 8 106.0000 90.2000 >> Simulación con el primer valor de entrada: >> v=sim(netc,pec1')

217

v= 88.0000 67.6000 >> %Para obtener un valor deseado exacto >> %Newrbe inversa >> netc=newrbe(tec',pec'); >> v=sim(netc,tec') v= Columns 1 through 7 1.0000

1.0000

1.0000

1.0000

2.0000

2.0000

2.0000

3.0000

3.0000

5.0000

5.0000

3.0000

3.0000

5.0000

1.0000

1.0000

2.0000

2.0000

2.0000

2.0000

1.0000

20.0000 30.0000 20.0000 30.0000 20.0000 30.0000 20.0000 10.0000 15.0000 15.0000 10.0000 10.0000 15.0000 15.0000 0.7500

1.0000

1.0000

0.7500

0.7500

1.0000

1.0000

1.0000

1.5000

1.5000

1.0000

1.5000

1.0000

1.0000

Column 8 2.0000 5.0000 1.0000 30.0000 10.0000 0.7500 1.5000 > >%Con el más bajo de los valores aceptados que es 51- 51 y el más >> % alto de los valores aceptados es 73 -73; ello implica entradas de: >> tec1=[51 51]; >> tec2=[73 73];

>> v=sim(netc,tec1') v= 2.0000 5.0000 1.0000 218

19.9999 15.0001 1.0000 1.0000 >> v=sim(netc,tec2') v= 2.0000 4.9998 1.0001 19.9999 14.9997 1.0000 1.0000

>>%Probando con el mejor valor del experimento, la segunda corrida, se tiene: >> tec3=[64.4 54.2]; >> v=sim(netc,tec3’) v= 1.0000 3.0000 1.0000 30.0000 15.0000 1.0000 1.5000 >>%Justo lo mismo que obtuvo Roos: A1, B1, C1, D2, E2, F2, G2. >>%Si queremos un error de [0,0] y conocemos la red inversa, podemos obtener:

>> tec1=[0 0];

>> v=sim(netc,tec1') v= 2.0000 219

5.0000 1.0000 19.9999 15.0001 1.0000 1.0000 >>%Que corresponde a la combinación A2, B2, C1, D1, E2, F2, G1; resultado >>que no se puede obtener con los Métodos Taguchi.

3.3.3.3. Con la Red NEWGRNN Construcción de la Red y simulación: >> netcg=newgrnn(pec',tec'); >> v=sim(netcg,pec') v= Columns 1 through 7 86.0197 69.1248 78.1051 106.4958 78.5803 86.8752 103.2949 68.6770 60.6272 83.3596 105.0733 72.7230 84.7729 101.2404 Column 8 106.1042 93.3267 >> %primer valor. >> pec1=[ 1.0000

3.0000

1.0000 20.0000 10.0000

0.7500

1.0000];

>> v=sim(netcg,pec1') v= 86.0197 68.6770 >>Red Inversa >> netcg=newgrnn(tec',pec');

>> v=sim(netcg,tec') v= Columns 1 through 7 1.0000

1.0000

1.0000

1.0000

2.0000

2.0000

2.0000

3.0000

3.0000

5.0000

5.0000

3.0000

3.0000

5.0000 220

1.0000

1.0000

2.0000

2.0000

2.0000

2.0000

1.0000

20.0000 30.0000 20.0000 29.9999 20.0000 30.0000 20.0001 10.0000 15.0000 15.0000 10.0001 10.0000 15.0000 14.9999 0.7500

1.0000

1.0000

0.7500

0.7500

1.0000

1.0000

1.0000

1.5000

1.5000

1.0000

1.5000

1.0000

1.0000

Column 8 2.0000 5.0000 1.0000 30.0000 10.0000 0.7500 1.5000 > >%Con el más bajo de los valores aceptados que es 51- 51 y el más >> % alto de los valores aceptados es 73 -73; ello implica entradas de: >> tec1=[51 51]; >> tec2=[73 73]; >> v=sim(netcg,tec1') v= 1.0e-025 * 0.0073 0.0220 0.0073 0.2196 0.1098 0.0073 0.0110

>> v=sim(net,tec2') v= 2.0000 3.0000 2.0000 20.0000 221

10.0000 0.7500 1.5000 >>%Probando con el mejor valor del experimento, la segunda corrida, se tiene: >> tec3=[64.4 54.2]; >> v=sim(net,tec3) v= 1.0000 3.0000 1.0000 30.0000 15.0000 1.0000 1.5000 >>%Justo lo mismo que obtuvo Roos: A1, B1, C1, D2, E2, F2, G2. >>%Si queremos un error de [0,0] y conocemos la red inversa, podemos obtener: >> tec4=[0 0]; >> v=sim(netcg,tec4’) v= 0;

0;

0;

0;

0;

0;

0

3.3.2.4. Con Análisis Estadístico Tradicional El autor del texto, aplica un Arreglo Ortogonal de los Métodos Taguchi, el AO L8 con 7 factores, luego de la experimentación respectiva se obtieen los resultados que se mostraron en la tabla inicial. Seguidamente construye la Tabla de Promedios de los efectos y Análisis de Variancia, buscando los mejores de resultados a la izquierda y derecha de la soldadura, la misma que se presenta en la siguiente tabla.

222

Tabla 36. Tabla de resultados, de mejor desempeño lado izquierdo y derecho de soldadura Fuente variación

de Suma cuadrados

de Grados de

Media

de Fo

P

Cuadrados

libertad A

3537.81

1

3537.81

45.66

12.18

B

8988.81

1

8988.81

116.02

31.37

C

42.06

1

42.06

0.54

D

510.06

1

510.06

6.58

E

72.19

1

72.19

0.93

F

768.81

1

768.81

9.92

2.43

G

7411.25

1

7411.25

95.66

25.81

Error

4958.38

64

77.47

Total

28409.38

1.52

Luego del análisis de aspectos diversos, entre ellos el factor ruido, se obtiene la estimaciónde la media = ˆ  A1  B1  G2  2T = 59.65; y se decide por la mejor combinación: A1(1); B1(3); C1(1); D2(30); E2(15); F2(1); G2(1.5); y la mejor combinación está en la segunda corrida.

En el presente caso se vuelve a apreciar la superioridad de las RN con función de base radial, sobre el diseño de experimentos, obteniéndose, con la Red Desarrollada y Newrbe las que dan los valores similares a los objetivos, error de cero; y con la Red de Regresión Generalizada, da los valores cercanos a los valores objetivos. Para el caso de obtener el valor deseado, se probó con los

223

valores objetivos de desviación cero, y se llega a valores de los factores con la Red Deseada y Newrbe, más no así con los de la Red Newgrnn. Ver Tabla 35.

224

3.4. Aplicación de la Red Neuronal Desarrollada a un caso de mejora de la calidad de diseño de procesos. En este caso se aplicó la RN de Función de Base Radial al proceso que se presenta en el documento: “How to Formulate the Ultimate Margarita: A Tutorial on Experiments with Mixtures”, escrito por Montgomery,D y Bowles, M. y publicado en el Quality Engineering, volumen 10(2), páginas 239-253. Se trata de la optimización de la formulación de un producto, es decir, el diseño del producto. Se tienen 4 ingredientes, o factores, y se busca la mejor formulación: A :Margarita Mix, B:Tequila, C: Triple Sec y D: Lime Juice. Las salidas, variables de respuesta son: Y1: Nivel dentro de Ranking, de 1 a 15, porque son 15 las corridas, muestras; e Y2: Nivel de agradable, calificado de 1 a 10, siendo 10 lo mejor. Los datos se presentan en la Tabla 37.

Tabla 37. Valores de los Factores y Respuestas del Caso de Montgomery y Bowles Corrida

Factores, Componentes % A

B

C

D

Respuestas Y1 Prom. Y2 Prom. Ranking

Agradable

1

49

25

16

10

9.33

5.14

2

51

31

8

10

9.17

4.43

3

55

28

13

4

9.57

3.96

4

55

25

10

10

3.67

6.29

5

55

29

8

8

7.33

5.07

6

51

31

8

10

9.00

4.12

7

55

25

10

10

5.33

6.21

8

52

28

16

4

12.33

4.21

9

52

25

16

7

8.67

5.54

10

49

28

13

10

6.50

4.92

11

55

25

16

4

8.00

4.60

12

55

29

8

8

7.17

5.79

13

55

31

10

4

7.50

4.60

225

14

49

31

13

7

7.67

4.99

15

49

31

16

4

9.17

2.79

Para el trabajo del experimento se trabajó con los valores transformados a nivel de seudocomponentes, haciendo la transformación con la fórmula: Xi =(xi-Li)/(1-Σ Li); siendo los Li para A:49; B:25;C:8;D:4; la Σ Li=86. Llegándose a los siguientes valores de las variables de entrada, factores, que se presenta en la Tabla 38.

Tabla 38. Valores Transformados de los Factores Corrida

Factores, componentes A

B

C

D

1

0.0000

0

.5714

.4286

2

.1429

.4286

0

.4286

3

.4286

.2143

.3571

0

4

.4286

0

.1429

.4286

5

.4286

.2857

0

.2857

6

.1429

.4286

0

.4286

7

.4286

0

.1429

.4286

8

.2143

.2143

.5714

0

9

.2143

0

.5714

.2143

10

0

.2143

.3571

.4286

11

.4286

0

.5714

0

12

.4286

.2857

0

.2857

13

.4286

.4286

.1429

0

14

0

.4286

.3571

.2143

15

0

.4286

.5714

0

226

Se obtuvo como resultado la mezcla de: A. Margarita Mix: 55%, Tequila B: 25.67%, C Triple Sec: 9.33%, D Lima Juice: 10.0% Aplicando las Redes Desarrollada, NEWRBE y consierando los resultados del diseño de experimentos se llegó a los resultados que se presentan en la Tabla 39.

Tabla 39. Comparación de Red Desarrollada con la Red NEWRBE y Análisis Estadísticos Tradicionales. Del artículo “How to Formulate the Ultimate Margarita: A Tutorial on Experiments with Mixtures”, escrito por Montgomery, D y Bowles, M., publicado en el Quality Engineering, volumen 10(2), páginas 239-253..* Indicadores

Red

Red

de

F.B. Análisis

Desarrollada,

Radial

Estadísticos

4.2.2.

NEWRBE

Tradicionales, Montgomery

Error

al

simular

la 0

0

0.6

0

0

0.1

simulación 0

0

0.6

entrada p1 Error de global

0.1

Red Directa RD. Nº 3 capas,

3 capas

capas; Nº neuronas 15 neuronas

15 neuronas

capa de entrada y 15 neuronas

15 neuronas

-

oculta RD



neuronas

capas; capa

Nº 3 capas

3 capas

de 2 neuronas

2 neuronas

-

salida Red Inversa RI. Nº 3 capas

3 capas

capas; Nº neuronas 2 neurona

2 neurona

capa de entrada y 15 neuronas

15 neuronas

-

oculta RI.



neuronas

capas; capa

Nº 3 capas

3 capas

de 4 neuronas

4 neuronas

-

227

salida Entradas optimizadas A:55

51.8582

55.00

para

29.6904

25.67

deseados de salida C:10

8.3577

9.33

(4.7 y 5.9)

10.0938

10.00

valores B:25

D:10

*Detalle de cálculos ver en 4.4.1. y 4.4.2.

3.4.1. Con la Red Desarrollada Se aplicaron los datos a la Red Desarrollada, red newrbfcev15r en el Shell de Matlab Neural Networks con la interfase que se presenta a continuación y se obtuvieron los resultados siguientes: >>%Construcción de red y simulación: >> %Datos de entrada, >> pet pet = 49

25

16

10

51

31

8

10

55

28

13

4

55

25

10

10

55

29

8

8

51

31

8

10

55

25

10

10

52

28

16

4

52

25

16

7

49

28

13

10

55

25

16

4

55

29

8

8

55

31

10

4

49

31

13

7

49

31

16

4

228

>> tet tet = 9.3300

5.1400

9.1700

4.4300

9.5700

3.9600

3.6700

6.2900

7.3300

5.0700

9.0000

4.1200

5.3300

6.2100

12.3300

4.2100

8.6700

5.5400

6.5000

4.9200

8.0000

4.6000

7.1700

5.7900

7.5000

4.6000

7.6700

4.9900

9.1700

2.7900

Interfase para aplicar la Red Desarrollada:

229

>> sc=1; >> [w1,b1,w2,b2,K]=newrbfcev15r(pet',tet',sc); >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pet') ts = Columns 1 through 7 9.3300

9.0850

9.5700

4.5000

7.2500

9.0850

4.5000

5.1400

4.2750

3.9600

6.2500

5.4300

4.2750

6.2500

Columns 8 through 14 12.3300

8.6700

6.5000

8.0000

7.2500

7.5000

7.6700

4.2100

5.5400

4.9200

4.6000

5.4300

4.6000

4.9900

Column 15 9.1700 2.7900

230

>> Simulando el primer valor de entrada >>pet1=[49 25 16 10]; [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pet1') ts = 9.3300 5.1400 >> Con la red inversa para obtener valores deseados >> sc=0.5; >> [w1,b1,w2,b2,K]=newrbfcev15r(tet',pet',sc); >> Con valor de salida optimizado:4.7 , 5.9 >> tet13=[4.7 5.9]; >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,tet13') ts = 55.0000 25.0000 10.0000 10.0000 >> Con valor de salida:4 , 6 >> tet11=[4 6]; >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,tet11') ts = 55.0000 25.0000 10.0000 10.0000

4.4.2. Con la Red NEWRBE

>> netpto=newrbe(pet',tet'); >> v=sim(netpto,pet') v= Columns 1 through 7 9.3300

9.0850

9.5700

4.5000

7.2500

9.0850

4.5000

5.1400

4.2750

3.9600

6.2500

5.4300

4.2750

6.2500 231

Columns 8 through 14 12.3300

8.6700

6.5000

8.0000

7.2500

7.5000

7.6700

4.2100

5.5400

4.9200

4.6000

5.4300

4.6000

4.9900

Column 15 9.1700 2.7900

%Con valores transfomados >> v=sim(netptot,pett') v= Columns 1 through 7 9.3300

9.0850

9.5700

4.5000

7.2500

9.0850

4.5000

5.1400

4.2750

3.9600

6.2500

5.4300

4.2750

6.2500

Columns 8 through 14 12.3300

8.6700

6.5000

8.0000

7.2500

7.5000

7.6700

4.2100

5.5400

4.9200

4.6000

5.4300

4.6000

4.9900

Column 15 9.1700 2.7900

El resultado es idéntico que sin transformación, por tanto el uso de RN no requiere la transformación que se hacen con las técnicas que aplican los autores Montgomery y Bowles.

>> Simulando el primer valor de entrada >>pet1=[49 25 16 10]; [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pet1') ts = 9.3300 5.1400 >> Con el valor de salida optimizado:4.7 y 5.9 >>tet13=[4.7 5.9];

>> net=newrbe(tet',pet'); 232

>> v=sim(net,tet13') v= 51.8582 29.6904 8.3577 10.0938

Pero calculando un óptimo, mejorado con relación a los criterios que aplican los investigadores Montgomery y Bowles (ellos aplican menor de 5 en el ranking y mayor de 5 en nivel de agradable, por ejemplo, Menor de 4 en el ranking y mayor de 6 en agradable), se obtiene:

>> netpto=newrbe(pet',tet'); >> tet1=[4 6]; >> netpto=newrbe(tet',pet');

>> v=sim(netpto,tet1') v= 54.8727 25.6497 9.4778 9.9998 Es decir, se obtiene los valores siguientes: A: 54.8727; B: 25.6497; C:9.4778; D:9.9998; que también es muy similar al resultado del trabajo realizado por Montgomery y Bowles A: 55%, B: 25.67%, C:9.33%, D:10.0%; con la diferencia que es mucho más rápida su obtención.

3.4.3. Con Análisis Estadístico Tradicional Montgomery-Bowles trabajaron con valores transformados, obteniendo las siguientes ecuaciones de regresión, con valores transformados: Para el nivel de aceptación: Nivel= 6.091*A + 2.249*B + 4.073*C + 6.927*D; con CME=0.10 Para el ranking: Ranking^2 =2.016*A + 4.415*B + 3.877*C + 1.713*D 4.306*BC; con CME=0.06 233

La metodología que siguen los autores es la de trabajar con cada una de las salidas por separado; elaborando las respectivas tablas de ANVA. Análisis de Variancia. En el caso de trabajar con las Redes Neuronales se obtienen los mismos resultados que trabajando juntas las 2 variables de salida, por tanto no se requiere hacer este paso adicional que si se hace con el procedimiento que siguen los autores Montgomery y Bowles. El valor máximo que llegan aplicando su metodología corresponde a salidas de 4.7 en ranking y 5.9 en aceptación. Se puede apreciar que las corridas 4 y 7 son las mejores, lo cual es correcto ya que son iguales y corresponden a A: 55%,B:25%,C:10% y D:10%; teniendo en cuenta que lo mejor en la propuesta de cálculo del trabajo de Montgomery y Bowles, luego de diversas y tediosas transformaciones llegan a A: 55%, B: 25.67%, C:9.33%, D:10.0%; que también se obtienen con Red Desarrollada.

3.5. Aplicación de la Red Neuronal seleccionada a un caso de mejora de la calidad de un proceso. En este caso se aplicó la RN de Función de Base Radial al proceso que se presenta en el documento: “Improving Parafin Wax Yield Through Process Optimization Using Taguchi’s Method of Experimentation”, escrito por Anand, K. y publicado en el Quality Engineering, volumen 6(1), páginas 3956. Se trata del proceso de manufactura de cera de parafina, donde los factores son: A. Temperatura en la válvula de entrada de agua, B: Tiempo en min. a la presión de 1100 lb/pul2, C: Tiempo en min. a la presión de 1550 lb/pul2, D: Tiempo en min. a la presión de 1800 lb/pul2, E: Tiempo en min. a la presión de 2100 lb/pul2. Las salidas son Y1: Rendimiento, e Y2: Contenido de aceite de la cera, que se obtuvo de 2 muestras. Los factores y niveles que se propusieron se presentan en la Tabla 40.

234

Tabla 40. Valores de los Factores y Niveles del Caso de Anand FACTORES

N1

N2

N3

A

65

55

-

B

20

28

-

C

10

7

-

D

6

3

-

E

0

1

2

Obteniéndose los resultados que se presentan en la Tabla 41. Tabla 41. Resultados del Caso de Anand Nº

FACTORES

Y1

A

B

C

D

E

1

65

20

10

6

0

2

65

20

7

6

3

65

28

7

4

65

28

5

65

6

Y2 1

2

63.00

2.80

3.05

1

64.79

2.85

3.19

3

0

61.77

2.70

3.10

10

3

1

60.93

2.70

2.90

28

10

6

2

60.00

2.55

2.80

65

28

7

6

1

61.65

2.90

3.10

7

65

20

7

3

2

63.27

2.95

3.19

8

65

20

10

3

1

62.82

2.76

3.15

9

55

20

10

6

0

67.89

3.53

3.73

10

55

20

7

6

1

72.02

3.28

3.45

11

55

28

7

3

0

75.13

3.45

3.20

12

55

28

10

3

1

70.10

3.28

3.06

13

55

28

10

6

2

67.67

3.12

2.95

14

55

28

7

6

1

72.40

3.12

3.25

15

55

20

7

3

2

70.47

3.19

3.32

16

55

20

10

3

1

66.67

3.40

3.25

Obteniéndose una combinación óptima de A2 (55),B2(28),C2(7),D2(3),E1(0) y como resultado esperado: Y1=74.33 e Y2=3.2.

235

Aplicando las Redes Desarrollada, NEWRBE y considerando los resultados del diseño de experimentos se llegó a los resultados que se presentan en la Tabla 42.

Tabla 42. Comparación de Red Desarrollada con la Red NEWRBE y Análisis Estadísticos Tradicionales Del artículo “Improving Parafin Wax Yield Through Process Optimization Using Taguchi’s Method of Experimentation”, escrito por Anand, K. y publicado en el Quality Engineering, volumen 6(1), páginas 39-56.* Indicadores

Red

Red

de

F.B. Análisis

Desarrollada,

Radial

Estadísticos

4.2.2.

NEWRBE

Tradicionales, Anand

Error

al

simular

la 0

0

0.6

0

0

0.02

simulación 0

0

0.6

entrada p1 Error de global

0.02

Red Directa RD. Nº 3 capas,

3 capas

capas; Nº neuronas 16 neuronas

16 neuronas

capa de entrada y 16 neuronas

16 neuronas

-

oculta RD



neuronas

capas; capa

Nº 3 capas

3 capas

de 2 neuronas

2 neuronas

-

salida Red Inversa RI. Nº 3 capas

3 capas

capas; Nº neuronas 2 neurona

2 neurona

capa de entrada y 16 neuronas

16 neuronas

-

oculta RI.



neuronas

capas; capa

Nº 3 capas

3 capas

de 5 neuronas

5 neuronas

-

salida Entradas optimizadas A:55.0

55.0

para

27.9054

valores B:27.8941

No calcula

236

deseados de salida C:7.0145

7.0145

(80 y 1)

D:2.9906

2.9907

E:0

0

Entradas optimizadas A:55.0002

55.00

55

para

29.2070

28

deseados de salida C:6.8483

6.8432

7

(74.3 y 3.2)

D:3.1456

3.1458

3

E:0.1305

0.1306

0

valores B:29.2058

*Detalle de cálculos ver en 4.5.1. y 4.5.2.

3.5.1. Con la Red Desarrollada Se aplicaron los datos a la Red Desarrollada, red newrbfcev15r en el Shell de Matlab Neural Networks con la interfase que se presenta a continuación y se obtuvieron los resultados siguientes:

>>%Construcción de red y simulación:

>> %Datos de entrada,

>>pep = 65

20

10

6

0

65

20

7

6

1

65

28

7

3

0

65

28

10

3

1

65

28

10

6

2

65

28

7

6

1

65

20

7

3

2

65

20

10

3

1

55

20

10

6

0

55

20

7

6

1

55

28

7

3

0

55

28

10

3

1

55

28

10

6

2

55

28

7

6

1 237

55

20

7

3

2

55

20

10

3

1

>>tep = 63.0000

2.9250

64.7900

3.0200

61.7700

2.9000

60.9300

2.8000

60.0000

2.6750

61.6500

3.0000

63.2700

3.0700

62.8200

2.9550

67.8900

3.6300

72.0200

3.3650

75.1300

3.3250

70.1000

3.1700

67.6700

3.0350

72.4000

3.1850

70.4700

3.2550

66.6700

3.3250

Interfase para aplicar la Red Desarrollada:

238

>> sc=1; >> [w1,b1,w2,b2,K]=newrbfcev15r(pep',tep',sc) >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pep') ts = Columns 1 through 7 63.0000 64.7900 61.7700 60.9300 60.0000 61.6500 63.2700 2.9250

3.0200

2.9000

2.8000

2.6750

3.0000

3.0700

Columns 8 through 14 62.8200 67.8900 72.0200 75.1300 70.1000 67.6700 72.4000 2.9550

3.6300

3.3650

3.3250

3.1700

3.0350

3.1850

Columns 15 through 16 70.4700 66.6700 3.2550

3.3250

239

>>%Para obtener el primer valor de salida >>pep1=[65 20 10 6 0]; >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,pep1') ts = 63.0000 2.9250 >> max(ts) ans = Columns 1 through 7 63.0000 64.7900 61.7700 60.9300 60.0000 61.6500 63.2700 Columns 8 through 14 62.8200 67.8900 72.0200 75.1300 70.1000 67.6700 72.4000 Columns 15 through 16 70.4700 66.6700 >> max(max(ts)) ans = 75.1300 >> % Corresponde a Y2=3.3250; >>%Con la matriz inversa >> [w1,b1,w2,b2,K]=newrbfcev15r(tep',pep',sc) >> % Si se desea obtener el mayor rendimiento, por ejemplo 80%, y la menor cantidad de aceite en la cera, por ejemplo 1%, tep11=[80 1]; >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,tep11') ts = 55.0000 27.8941 7.0145 2.9906 -0.0109 Que equivale a: los siguientes valores de los factores A=55.00; B=27.8941; C=7.0145; D=2.9906; y E=0. Ello corresponde a los niveles A2,B2,C2,D2,E1

240

Si se considera el óptimo del autor, 74.3 y 3.2, se obtiene: >> tepop=[74.3 3.2]; >> [ts]=simnewrbfcev15rr(w1,b1,w2,b2,tepop') ts = 55.0002 29.2058 6.8483 3.1456 0.1305 Ello también corresponde a los niveles A2,B2,C2,D2,E1

3.5.2. Con la Red NEWRBE Se aplicaron los datos a la Red NEWRBE en el Shell de Matlab Neural Networks y se obtuvo lo siguiente: >> netpso=newrbe(pep',tep'); >> v=sim(netpso,pep') v= Columns 1 through 7 63.0000 64.7900 61.7700 60.9300 60.0000 61.6500 63.2700 2.8250

2.7750

2.7000

2.6250

2.7250

2.9250

2.8550

Columns 8 through 14 62.8200 67.8900 72.0200 75.1300 70.1000 67.6700 72.4000 3.1450

3.4050

3.3650

3.3650

3.2000

3.1200

3.1550

Columns 15 through 16 70.4700 66.6700 3.2950

1.7000

>> max(v) Y1= 75.1300, que corresponde a Y2=3.3650

>>%Para obtener el primer valor de salida. >> pep1=[65 20 10 6 0];

>> v=sim(net,pep1') 241

v= 63.0000 2.9250 >> % Si se desea obtener el mayor rendimiento, por ejemplo 80%, y la menor cantidad de aceite en la cera, por ejemplo 1%. >> %Con la red inversa >> net=newrbe(TEP',PEP'); >> TEP1=[80 1]; >> V=sim(net,TEP1') V= 55.0000 27.9054 7.0131 2.9907 -0.0099

Que equivale a: los siguientes valores de los factores A=55.00; B=27.9054; C=7.0131; D=2.9907; y E=0. Ello corresponde a los niveles A2,B2,C2,D2,E1 Si se considera el óptimo del autor, 74.3 y 3.2, se obtiene: >>tepop=[74.3 3.2]; >> v=sim(net,tepop')

v= 55.0002 29.2070 6.8482 3.1458 0.1306 Ello también corresponde a los niveles A2,B2,C2,D2,E1 3.5.3. Con Análisis Estadístico Tradicional Anand trabajó con cada una de las salidas por separado; elaborando las respectivas tablas de ANVA. Análisis de Variancia. En el caso de trabajar con las Redes Neuronales se obtienen los mismos resultados que trabajando juntas las 2 variables de salida, por tanto no se requiere hacer este paso adicional que 242

si se hace con el procedimiento que siguen Anand. El valor máximo que llegan aplicando su metodología corresponde a salidas de 74.3 en Y1 rendimiento y 3.2 en contenido de aceite en la cera. Obteniendo las siguientes ecuaciones de regresión: Para el rendimiento: Y1= Efecto promedio A2B2C2 + Ef. Prom. E1- Media Total; con CME=0.60 Para el contenido ed aceite Y2 = Efecto promedio A2 +Ef.Prom. B2 – Media Total; con CME=0.02 Se puede apreciar que las corridas 11 es la mejor, lo cual es correcto ya que corresponden a A2: 55, B2:28, C2:7, D2:3 y E1=0 teniendo en cuenta que lo mejor en la propuesta de cálculo del trabajo de Anand, luego de diversas y tediosas operaciones al nivel óptimo de A2 B2 C2 D2 y E1; que también se obtienen con la Red Desarrollada y con al NEWRBE.

Aquí nuevamente se aprecia la superioridad de uso de las Redes Neuronales con Función de Base radial, tanto NEWRBE como la Desarrollada, que tienen aprendizaje híbrido, no supervisado para la capa de oculta y supervisado para la capa de salida; en la medida que permiten obtener valores diversos de acuerdo a la entrad que se aplique a la Red.

243

CAPÍTULO IV ANÁLISIS DE RESULTADOS 1. En conclusión de lo revisado sobre las redes neuronales artificiales RNA Perceptrón, Adaline, Perceptrón Multicapa, RNA de Función de Base Radial, RNA Recurrentes y RNA de Aprendizaje no Supervisado, son las RNA Perceptrón Multicapa con aprendizaje de backpropagation, y las Redes Neuronales de Base Radial (ver tablas 10 y 11) las más adecuadas para desarrollar una red neuronal artificial específica para la mejora de la calidad de diseño de procesos, que dé mejores resultados que los obtenidos con los diseños experimentales y las RNA ya existentes, para los casos que se trabaje con varias variables dependientes e independientes y en los que sus relaciones no sean lineales. Tanto la RNA Perceptrón Multicapa con aprendizaje backpropagation como las RNA de Función de Base Radial se caracterizan por ser aproximadores universales, ello explica porque responden mejor, ya que pueden aproximar cualquier función continua sobre un conjunto compacto de Rn. Las RNA Perceptrón Multicapa con aprendizaje backpropagation son aproximadores de carácter global; mientras que las RNA de Función de Base Radial son aproximadores de de carácter local.

2. Las características principales de la Red Neuronal Artificial de Base Radial, Desarrollada, son: a. Arquitectura con tres capas: capa de entrada, capa oculta y capa de salida. La capa de entrada tiene neuronas que reciben las señales del exterior, que la transmiten a la siguiente capa: capa oculta, sin realizar ningún proceso. Las conexiones de la capa de entrada a la oculta no están asociadas a algún peso. Las conexiones de la capa oculta a la de salida si van asociadas a un peso. La capa oculta tiene igual número de neuronas que vectores de entrada y la capa de salida con igual número de vectores que salidas requeridas.

244

Capa de .entrada

Capa oculta

Capa de salida

Entrada 1

1

φ

1

Salida 1

Entrada 2

2

φ

2 2

Salida 2

.o o o

.o o o

φ

p

.o o o

Entrada n

n Centro-Entr-K: Distancias Mahalanobis

Pesos w2 Función Gauss φ y umbral b1

Salida p

Función Lineal y umbral b2

Figura 44. Red Neuronal de Base Radial

b. En la capa oculta el aprendizaje es no supervisado, en cada neurona se da una activación local: se aplica una función de base radial que es la de Gauss. En dicha activación ingresa el vector de entrada y se calcula su distancia del centro (el peso en la práctica de la neurona de capa oculta). Se calculan las distancias de Mahalanobis entre dichos centros (pesos) y los valores de entrada. Dichas distancias son las distancias euclídeas ajustadas por la constante K que es la inversa de la matriz de la covariancia de los vectores de entrada. A las distancias de mahalanobis, se suman los umbrales para luego aplicar la función de activación. Su ecuación es :

 (r )  e

 1  T    2 d  x  ci  K  x  ci   i  

Donde K es la matriz inversa de la covariancia de los vectores de entrada:



K  E x  mx  m



T 1

Siendo: x los vectores de entrada, c los vectores que definen los centros de la función de base radial y m el vector medio tomado del conjunto de los vectores de entrada. di= desviación o amplitud de la función de base radial La Función Gaussiana, que es la base de la propuesta es:

 (r )  e

(



r 2

2

)

245

c. En la capa de salida se da un aprendizaje supervisado aplicando mínimos cuadrados para obtener los valores de salida de la red, buscando que el error de la salida de la red con relación al vector inicialmente dado como dato de salida sea lo más pequeño. Su ecuación es: pesos:

w

ik

(n)  wik (n  1)  1 (sk (n)  yk (n))i (n)

umbrales: u k (n)  u k (n  1)  1 (s k (n)  y k (n))

para k = 1,2,..., r y para i = 1,...,m Siendo: wik= los pesos de la capa oculta a la capa de salida. uumbrales de la capa de salida. si=salida deseada, de los datos yk(n)= salidas de la capa de salida.

d. La activación de las neuronas de salida para el patrón de entrada viene dada por la siguiente expresión: yk(n) =  wiknu para k = 1,2,…,r

Siendo: wik= los pesos de la capa oculta a la capa de salida. nes la salida de la capa oculta uumbrales de la capa de salida. yk(n)= salidas de la capa de salida.

3. La RNA Desarrollada corresponde a una RNA de función de base radial del tipo de Diseño Exacto. Que es una variante de las RNA de función de base radial, que se caracteriza por:

a. Para construir la RNA se inicia con los valores de P y T. b. Con base a P y T se calcula pesos (centros), que son iguales a los vectores de entrada; y los para umbrales de la capa oculta, se considera el valor de 0.8326/SPREAD, siendo el spread (amplitud) por defecto igual a uno, y que

246

puede variar de acuerdo al tipo de datos y distancia entre los centros. Se aplica la Función de Base Radial de gauss a las distancias de Mahalanobis entre los centros y los vectores de entrada.

c. Luego de obtener la salida de la capa oculta, se determinan los pesos de la capa oculta a la capa de salida y los umbrales de la capa de salida. Se determinan siguiendo el método de mínimos cuadrados, o el de la matriz seudoinversa, para resolver la ecuación: Para la Seudoinversa: Wb = A(1)+T; donde A(1) es la salida de la capa oculta y T es la salida dada como dato inicial. Para mínimos cuadrados: El aprendizaje supervisado que se da entre la capa oculta y la de salida se aplican las ecuaciones de 2c. 4. El Shell seleccionado para realizar los trabajos fue el de Matlab – Neural Networks, debido a las facilidades que ofrece para programar y para trabajar con comandos de diversos aplicativos desarrollados en Matlab. Asimismo, es de destacar, la existencia de diversos trabajos en la literatura sobre redes neuronales elaborados utilizando Matlab y también, la existencia de diversos manuales y guías para utilizar Matlab con redes neuronales.

5. La metodología a seguir para obtener la RNA de la Función de Base Radial de Diseño Exacto Desarrollada comprende los siguientes pasos generales :

5.1. RNA de FBR Función de Base Radial, Directa. Dados pares de datos de entrada y de salida reales; que son independientes de la Red.

d. Se calculan los centros y amplitudes con base a los datos de entrada. Inicialmente se prueba con los centros iguales o muy cercanos a los valores

247

de entrada. De ser compleja la determinación se puede utilizar el algoritmo de K- medias para determinar los centros, de agrupaciones. e. Las amplitudes se determinan con base a las distancias de Mahalanobis de los centros a los vectores de entrada. f. Se determinan los pesos y umbrales de la capa de salida con base a los valores objetivos de calidad que se persiguen, aplicando el método de mínimos cuadrados o el de la matriz inversa, dependiendo de las herramientas informáticas con que se cuente; en nuestro caso se trabajó con el Shell de Matlab Neural networks. Se modifican los pesos y umbrales hasta conseguir la convergencia. Con esta red, se puede predecir el desempeño futuro del proceso, es decir, dados unas entradas determinar los valores de salida. Por otro lado también se puede obtener valores de entrada del proceso que han sido optimizados en función de una salida deseada. Con esta metodología, se puede predecir el desempeño futuro del proceso, es decir, dados unas entradas determina los valores de salida.

5.2. RNA de FBR Función de Base Radial, Inversa. Se construye de manera similar a la Red de FBR Directa, pero considerando las Entradas como Salidas y viceversa.

5.3. Redes de FBR Función de Base Radial para poder determinar valores de entrada que permitan obtener una salida deseada (Calidad deseada).

Son dos Redes, una Inversa y otra Directa; construidas como sigue:

a. Dados pares de datos de entrada y de salida reales; valores que son independientes de la Red. b. Construir una RNA Inversa que tiene los datos de salida reales (iniciales) como entradas y los datos de entrada reales como salida (supervisores u objetivo); es decir, se obtiene una Red Inversa. c. Obtenida la red inversa (entrenada) se aplican los datos de salida (deseados ó calidad deseada) para obtener los valores de entrada

248

optimizados. Es decir se obtienen los valores que deben tener las entradas para obtener la calidad deseada. d. Construir una RNA Directa que tiene los datos de entrada reales como entradas y los datos de salida reales como salida; es decir, se obtiene la Red Directa con los datos iniciales. e. Obtenida la Red Directa, allí se pueden aplicar los datos obtenidos en c. (valores de entrada optimizados), para obtener la salida deseada (calidad deseada). Con esta metodología se tienen los valores de entrada del proceso que han sido optimizados, dadas una salidas deseadas. Ello de acuerdo a lo que esperan los clientes, para el caso de la calidad.

6. La RNA Perceptrón Multicapa con aprendizaje Backpropagation tuvo un buen desempeño, dentro de todas sus variantes la que mejor trabajó fue la de aprendizaje con el algoritmo Levenberg-Marquardt (vert tablas 14 y 17), tanto con la red directa, sin valores de deseabilidad como con el proceso con valores deseados de calidad. Con relación a la metodología se apreciaron algunas ventajas; sin embargo, el proceso es largo y además la reducción de errores tiene limitaciones. Por otro lado, por su forma de elaboración no se puede volver a obtener parámetros iguales con los mismos datos de entrada-salida, ya que se empiezan con pesos al azar, los cuales se van ajustando.

7. El desempeño de las RNA de Función de Base Radial fue mejor que las demás RNA, dentro de ellas las de Diseño Exacto, tanto la Red NEWRBE como la RNA Desarrollada. Dicho desempeño fue mejor que las RNA de Regresión Generalizada GRNN; en especial por tener menor error. La Red Desarrollada tuvo mejor desempeño que la Red NEWRBE de Matlab Neural Networks. 8. El detalle de los cálculos de las RNA con Función de Base Radial, del tipo de Diseño Exacto Desarrollada es:

249

DETALLE DE CÁLCULOS CON REDES NEURONALES CON FUNCIONES DE BASE RADIAL Encontrar la red neuronal: de Función de Base Radial con aprendizaje híbrido; capa oculta aprendizaje no supervisado y capa de salida con aprendizaje supervisado que permite obtener la salida T dados las entradas P. CÁLCULO DE LOS PESOS DE LA CAPA OCULTA En la capa se crean tantas neuronas como vectores de entrada P. Los valores para este tipo de red son los de la transpuesta de los vectores de entrada P’. CÁLCULO DEL UMBRAL DE LA CAPA OCULTA En la capa se crean tantos umbrales como neuronas se tiene en la capa. Los valores para este tipo de red son los que permite que cuando se calcula la función de transferencia (función de base radial) se obtenga 0.5 bajo la curva, por tanto sus valores son iguales entre si y son de 0.8326 en cada caso (radbas (0.8326)=0.5). CÁLCULO DE SALIDA DE CAPA OCULTA a1: a1 = f1 ║dist. Mahalanobis║) ; donde f1 es la función de Gauss. Por otro lado dist. Mahalanobis, es la distancia entre los centros y los valores de entrada P, ajustada con la constante K que es la inversa de la matriz de la covariancia de los vectores de entrada. En este caso, en la práctica, los centros son los pesos de la capa. El cálculo la distancia de Mahalanobis, restando cada valor del peso menos la entrada P, este valor se multiplica por su transpuesta y se ajusta con la constante K. La constante K que se calcula mediante la diferencia entre los vectores de entrada y el vector medio de todos los vectores de entrada; ello se multiplica por su transpuesta y para el resultado se calcula la matriz inversa. Se calcula la sumatoria, elemento a elemento de las matrices de umbrales y dist de Mahalanobis (Ver ecuaciones de este capítulo en el numeral 2.b.) Seguidamente se calcula la función de Gauss de los valores obtenidos. Así se obtiene la matriz completa de salidas de la capa oculta.

CÁLCULO DE PESOS Y UMBRAL DE LA CAPA DE SALIDA Para ello se toman en cuenta las igualdades siguientes: [net.lw{2,1} b{2}] * [A; ones) = T ; y que wb =T/[P; ones (1,Q)].

250

Y resolviendo por el método de la seudoinversa. Se calcula w=A1\T' Obteniéndose los valores de los pesos y umbral respectivamente.

9. Se ha trabajado con 7 casos de Diseño de Experimentos y en todos la RNA Desarrollada ha dado mejores resultados. a. Del artículo de Del Castillo et al,,”Modified Desirability Functions for Multiple Response Optimization”, publicado en el Journal de Quality Tecnology, vol.28,Nº3 de 1996. En la Tabla 15 se aprecia el mejor desempeño de la Red Desarrollada, que tiene error de cero al simular la primera entrada y 24.31 por simular el conjunto de los valores de entrada; mientras que con Perceptrón Mulcticapa con backpropagation tiene errores de 40.3 y 666, respectivamente, y con el análisis estadístico tradicional, sólo se calcula el error global obteniendo 96.86. Los valores de entradas optimizadas que se obtienen son bastante similares, por lo que donde se puede concluir en el mejor desempeño de la Red Desarrollada, con relación a la Red Neuronal Perceptrón Multicapa con aprendizaje Backpropagation y el diseño de experimentos tradicional, ello tanto en los casos en que se tienen entradas y se buscan salidas, como para los casos en que se tienen salidas deseadas y se buscan las entradas que permitan obtener dichas salidas, valores deseados. b. Del artículo de Vasconcelos et al, “Design of Experiments. Improve Molded Part Quality”, publicado en Quality Progress, Nº 7 del 2003. En la Tabla 19 se puede ver que el desempeño de las Redes de Base Radial (la Desarrollada y la de Tipo GRNN), tanto con la red directa, sin valores de deseabilidad como con el proceso con valores deseados de calidad, tiene importantes ventajas y el proceso es relativamente corto y además la reducción de errores es superior. Es así que ambas Redes de base radial tienen errores de simulación para la primera entrada de cero y global de 9.16; mientras que la Red de Tipo GRNN tiene errores de 2.07 y 13.96, respectivamente; y con el Análisis Estadístico Tradicional los errores son de 0.300 y 12.27, respectivamente. Por tanto, la arquitectura de la Red Desarrollada que es la de Redes Neuronales con Funciones de Base 251

Radial, con aprendizaje híbrido; aprendizaje no supervisado en la capa de entrada, con función de base radial de Gauss y con aprendizaje supervisado en la capa de salida, con función de mínimos cuadrados, es la más conveniente. Asimismo, se encontró que la distancia entre los errores de la Red Desarrollada y la que produce el Perceptrón Multicapa se acorta cuando usa el algoritmo de Levenberg-Marquart; ya que la diferencia entre los errores se acorta de 666/24.31 (Tabla 15) a 13.96/9.16 (Tabla 19). c.

Del Texto: “Diseño y Análisis de Experimentos” de Montgomery, D sobre Diseño Factorial 2K, Capítulo 9, Ejemplo 9-2 sobre la taza de filtración de un producto químico. En la Tabla 31 se aprecia la superioridad de las RN con función de base radial de tipo Exacto (la desarrollada y la NEWRBE) , sobre la de tipo GRNN y sobre el diseño de experimentos. Las Redes de Tipo Exacto (Desarrollada y NEWRBE) dan errores de 0 para simular la primera entrada y de 0 a nivel global; mientras que la Red tipo GRNN tienen errores de 2.9556 y 11.0169 respectivamente; y mediante al Análisis Estadístico Tradicional se tienen errores de 1.22 y 22.44, respectivamente. Con relación a las entradas optimizadas para obtener 35 gal/h de velocidad de filtración se aprecia diferencia entre los resultados de las Redes de tipo Exacto y las de tipo GRNN; en el caso de las primeras todos los factores son del nivel 1 excepto el tercero que es de nivel 2, y en la GRNN todos los factores son nivel 1 excepto el cuarto que es de nivel 2.

d. Del texto “Understanding Industrial Designed Experiments” de Schmidt, R y Launsby , R. sobre Diseño de Experimentos con factores y niveles, sobre Moldeado por Inyección de una parte plástica; Caso Estudio 8-23. En la tabla 33 se aprecia la superioridad de las RN con función de base radial, Red Desarrollada y Red Newrbe, sobre la de Tipo GRNN y sobre el diseño de experimentos. Las Redes Desarrollada y Red Newrbe dan errores de 0.0011 y 0.0004 para simular la primera entrada y de cero para; y con la Red de Regresión Generalizada, da error de 0 tanto para simular la primera entrada como la global. Para el caso de obtener el valor deseado, se probó con los valores objetivo de largo y ancho, y se llega a valores de los seis

252

factores con la Red Desarrollada y con la Red Newrbe, más no así con los de la Red Newgrnn; esta última Red da 0 de valor para los 6 parámetros. e. Del texto “Taguchi Techniques for Quality Engineering” de Ross, P., sobre Diseño de Experimentos con factores y niveles, sobre soldadura de punto; Apéndice G. En la Tabla 35 se aprecia la superioridad de las RN con función de base radial, Red Desarrollada y Red Newrbe, sobre la del Tipo GRNN y el diseño de experimentos. La Red Desarrollada y la Red Newrbe dan errores de 0 para la simulación de la primera entrada y para la simulación global, y con la Red GRNN de Regresión Generalizada, da errores de 1.9803 y 1.0770 para la simulación de la primera entrada y de 0 para la simulación global. Para el caso de obtener el valor deseado, se probó con los valores óptimo del diseño de experimentos y las tres Redes probadas dan error de cero; sin embargo, cuando se prueba con al salida mínima (51,51) la Red Tipo GRNN no arroja resultados, mientras que la Red Desarrollada y la Newrbe dan cero de error; en el caso de la salida máxima (73,73) la Red Desarrollada y la Newrbe dan errores de cero (aciertan las 7 salidas) y la de Tipo GRNN sólo acierta 5 de las 7 salidas . f. Del artículo “How to Formulate the Ultimate Margarita: A Tutorial on Experiments with Mixtures”, escrito por Montgomery,D y Bowles, M. y publicado en el Quality Engineering, volumen 10(2), páginas 239-253. En la tabla 39 se aprecia que la Red Desarrollada y la Red Newrbe dan errores de cero para la simulación de la primera entrada y para la simulación global, mientras que con el Análisis de Experimentos Tradicional los errores son 0.6 y 0.1, para la simulación de la primera entrada y para la global.

Asimismo, con relación a las entradas optimizadas para obtener un óptimo, Montgomery y Bowles

luego de un largo proceso de transformaciones

llegan a una combinación de factores: A: 55%, B: 25.67%, C:9.33%, D:10.0%, ello para un nivel de 4.7 y 5.9 (menor de 5 en ranking y mayor de 5 en agradable); mientras que con al Red Desarrollada se obtiene para un nivel mejorado de menor de 5 en el ranking y mayor de 6 en agradable la combinación de A:55, B:25, C:10 y D:10. En el caso de la Red Newrbe la 253

combinación es de: A:51.8582, B:29.6904, C:8.3577 y D:10.0938. En este caso se puede ver que el desempeño de la Red Desarrollada es ligeramente mejor que la de Tipo Newrbe. g. Del artículo “Improving Parafin Wax Yield Through Process Optimization Using Taguchi’s Method of Experimentation”, escrito por Anand, K. y publicado en el Quality Engineering, volumen 6(1), páginas 39-56. En la tabla 42 se aprecia que la Red Desarrollada y la Red Newrbe dan errores de cero para la simulación de la primera entrada y para la simulación global, mientras que con el Análisis de Experimentos Tradicional los errores son 0.6 y 0.02, para la simulación de la primera entrada y para la global. Asimismo, con relación a las entradas optimizadas para obtener un óptimo, Anand, calcula la combinación óptima para las entradas de 74.3 y 3.2; obteniendo para los factores A:55, B:28, C:7, D:3 y E:0 ; la Red Desarrollada obtienen valores de

A:55.0002, B:29.2058, C:6.8483,

D:3.1456 y E:0.1305, y la Red Newrbe: A:55.00, B:29.2070, C:6.8432, D:3.1458 y E:0.1306. Para el caso de una salida superior a la anterior (80 y 1) el Análisis de Experimentos Tradicional no calcula y con la Red Desarrollada se obtienen A:55.0, B:27.8941, C:7.0145, D:2.9906 y E:0; mientras que con la Red Newrbe se obtiene A:55.0, B:27.9054, C:7.0145, D:2.9907 y E:0.

CONTRASTACIÓN DE HIPÓTESIS. Por los resultados obtenidos se puede apreciar que ha quedado demostrada la hipótesis planteada en la investigación que sostiene que las Redes Neuronales Artificiales con Función de Base Radial, que utilizan la distancia de Mahalanobis, que es la Red Desarrollada, aplicadas a los diseños de experimentos para mejora de la calidad de procesos dan mejores resultados que los obtenidos mediante los métodos de análisis estadísticos tradicionales y del Perceptrón Multicapa con aprendizaje Backpropagation.

254

CAPITULO V DISCUSIÓN DE RESULTADOS

Al comparar las cualidades de las Redes Neuronales Artificiales RNA y el Análisis Estadístico Tradicional, que para nuestro caso específico de mejora de calidad de procesos es el Diseño de Experimentos Factorial DEF; debe tenerse presente que el diseño de experimentos factorial se fundamenta, como lo sostiene Lawson, Madrigal y Erjavec (1992), en que “cuando se quiere predecir los resultados es necesario expresar el comportamiento de la variable dependiente por medio de una ecuación matemática. Así, para el caso de un factorial 2k, este modelo es: Yˆ  bo  b1 X 1  b2 X 2  ...  bk X k  b12 X 1 X 2  b13 X 1 X 3  ...  bk 1,k X k i X k  b123 X 1 X 2 X 3  ...

Donde Yˆ es el valor estimado de Y, Xi es el valor codificado del factor i y las incógnitas son los valores b, coeficientes. Esta ecuación se resuelve con un conjunto de ecuaciones, tantas como incógnitas o información exista; dicho conjunto de ecuaciones es justamente el diseño de experimentos. Cuando se trabaja con los diseños de experimentos fraccionados, se requiere menos ecuaciones (experimentos) debido a que hay valores pequeños que se no se toman en cuenta, y ello es parte del error. En general podemos apreciar que los cálculos se basan en algoritmos lineales y por ello tienen limitaciones para obtener los parámetros de calidad de un proceso debido a que en la mayoría de los casos la relación entre las diversas variables no es lineal. Con relación a los Métodos Taguchi,

Kuehl(2001)

sostiene que el análisis que realizan

“procede en forma sencilla con el análisis de varianza para la razón señal de ruido que determina los factores de control que afectan esta razón, luego continúa con el análisis de variancia para la media de Y, que comprueba qué factores de control tienen impacto en la respuesta media, y por lo tanto, los niveles de los factores que se deben establecer para lograr la respuesta buscada”; es decir, la parte de los métodos Taguchi que se ocupa de diseño de parámetros (Ingeniería de Calidad) se basa en relaciones fundamentalmente lineales.

255

Por otro lado la Red Neuronal Artificial RNA por su forma de construcción permite obtener relaciones no lineales. Es así que Wasserman (1993) sostiene “Las RNA realizan esencialmente la misma función: aceptan un conjunto de inputs y producen un correspondiente conjunto de outputs, mediante una operación llamada vector de interrelación. Todas las aplicaciones de RNA son casos especiales del vector de interrelación”. Isasi y Galvan (2004) sostienen “la habilidad del perceptrón multicapa para aprender a partir de un conjunto de ejemplos, aproximan relaciones no lineales, filtran ruido en los datos, etc. hace que sea un modelo adecuado para abordar problemas reales, sin que esto indique que sean los mejores aproximadores universales”. Es decir, los diversos métodos de aprendizaje de las RNA, permiten desarrollar relaciones muy complejas con base a las capas de neuronas, funciones de activación, umbrales, los ciclos de aprendizaje y los algoritmos de aprendizaje; así por ejemplo, para el caso de los pesos, umbrales y funciones de activación, son típicos los algoritmos de aprendizaje que sigue el Perceptrón Multicapa con aprendizaje backpropagation. Donde, según Isasi y Galvan (2004) los pesos (w) y umbrales (u) de la capa de salida se calculan con los siguientes algoritmos: pesos:

wCji 1 (n)  wCji1 (n  1)   iC (n)a Cj 1 (n) ; para j = 1,2,...,n C 1 ; i = 1,2,..., n C umbrales:

u Cji (n)  uiC (n  1)   iC (n) ; para i = 1,2,..., n C donde:

 iC (n)  ( si (n)  yi (n)) y i (n)(1  yi (n)) donde: w=pesos de cualquier capa, varía según subíndices. u=umbrales de cualquier capa, varía según subíndices. C=se refiere a la capa de salida, que equivale al número de capas de la red. c=se refiere a capa oculta cualquiera n=se refiere al número de patrón de entrada =razón o taza de aprendizaje.   256

=constante creada para simplificar el cálculo. a=activación, varía según subíndices. s=salida deseada para el patrón n de entrada. y=vector de salida de la red. Con base a este tipo de algoritmos se calculan los valores de salida de la red neuronal, donde se aprecia el tipo de relaciones siguientes: yi =

a

C i

nC 1

= f (  wCji 1a Cj 1  uiC ) para i = 1,2, ..., n C j 1

donde las funciones de transferencia f que existen en las neuronas por lo general son no lineales. Entre otras se utilizan por ejemplo, funciones sigmoideas, tangentes hiperbólicas, radiales como la de Gauss, funciones de optimización no lineal y otras. Asimismo, en las funciones de base radial se utiliza como función de transferencia de las neuronas de la capa oculta la función de Gauss:

 (r )  e

(

r 2 ) 2

y ello permite tener una serie de características adicionales. Por tanto desde un inicio se puede apreciar que por definición las RNA tienen la ventaja que buscan desarrollar funciones no lineales, por lo general. En todo caso las funciones lineales se pueden comportar como un caso especial del caso general no lineal de las RNA. Por otro lado tenemos, que hay RNA que por construcción son aproximadores universales, es decir, que permite obtener una relación entre datos de entrada y salida “sí o sí”, aunque con distinto nivel de aproximación. Todo ello se ha podido apreciar en los siete casos presentados en el Capítulo III, numerales 3.2, 3.3, 3.4. y 3.5., donde en todos los casos las RNA y en especial la RNA Desarrollada

se

comportó

mejor

que

los

Análisis

de

Experimentos

Tradicionales, es así, que los errores obtenidos se presentan en la siguiente Tabla.

257

Tabla 43. Errores obtenidos en los casos analizados. Caso

Error

al Red

simular

Desarro-

entrada 1

llada Análisis

a

b

c

d

E

f

g

3.2.3.

3.2.4.

3.3.1

3.3.2.

3.3.3

3.4

3.5

0

0

0

0.0011

0

0

0

0

0

0.0004

No

0.300

1.22

Sólo*

No

0.6

0.6

de Exp. hace

compara

calcula 0.1

0.2

Tradic.

promedios

0

0

0

0

0

0.6

0.6

0.1

0.2

este cálculo

Error

de Red

24.31

9.16

0

0

simulación Desarroglobal

llada Análisis

96.,86

12.27

22.44

Sólo

de Exp.

compara

Tradic.

promedios

77.47

*En este caso no calcula el error, sólo compara promedios y permite obtener niveles de factores recomendados.

Lo que se aprecia en la Tabla 43, demuestra que lo que se planteó en la hipótesis es verdadero.

Por el tipo de funciones que están en la base de la construcción de la Red Desarrollada, es que prácticamente sus errores de simulación son cero; hecho que no ocurre con el diseño de experimentos, que da valores aproximados, con un determinado error.

Con relación a las ventajas de las RNA con FBR Función de Base Radial sobre las RNA con Perceptrón Multicapa y Aprendizaje BackPropagation, al respecto Isasi y Galvan (2004) sostienen que “la principal diferencia entre las redes de base radial y el Perceptrón Multicapa radica en la función de activación de las neuronas ocultas de la Red. Las primeras utilizan funciones de base radial y las segundas funciones de activación sigmoidales, entre otras.” Por otro lado Rao y Srinivas (2007) sostienen que “las RNA de Función de Base Radial, que fueran

258

propuestas por Bromead y Lowe en 1988 y después difundidas por Chen (1991), tienen como base teórica central la teoría de interpolación. La interrelación permite obtener como salida la función: p  X  Ci  f ( X )   wi    i 1  i 

donde X E Rr, ψ es la función de activación que interrelaciona el intervalo real no negativo semiinfinito a la línea real, los Ci son valores de vectores llamados centros, las σ son valores positivos de forma de parámetros para la activación de las funciones y Wi son escalares de los pesos de las conexiones entre los nodos de la capa oculta a los nodos de salida.” Es decir, las FBR son justamente funciones que se desarrollan alrededor de un centro de allí su nombre; por lo tanto, son funciones de carácter local (aproximaciones locales), por ejemplo, el caso más usado es la función de activación de Gauss, donde se consideran las distancias euclídeas entre los centros y las entradas:  ( x c ) 2   2   2 

 (r )  e

Mientras que en el caso del Perceptrón Multicapa tenemos funciones que abarcan todo el espacio, yendo incluso hasta el infinito (aproximaciones globales); por ejemplo, se utiliza la función sigmoidea:

f 1 ( x) 

1 1  e x

Al respecto, Howlett y Jain (2001) sostienen “Las redes de Funciones de Base Radial están ganando aceptación en los últimos años. Esto es debido a sus propiedades deseables para aplicaciones en clasificación y aproximación funcional, acompañadas por un entrenamiento más rápido que muchas otras técnicas de redes neuronales”.

Como se puede apreciar, en el caso b. de Vasconcelos presentado en 3.2.4 (Tabla 19), el error al simular la primera entrada con el Perceptrón Multicapa el error obtenido es de 2.07, mientras que en el de la RNA con FBR Desarrollada dicho error es cero. En el caso del error global la Red Desarrollada da un error de 9.16 y la del Perceptrón Multicapa mejorada con el algoritmo de Levenber259

Marquardt da un error de 13.96; ello porque las funciones de base radial por ser de carácter local tienen mayor precisión en su aproximación que las que usa el perceptrón multicapa por tener una cobertura mucho más grande; es así que los cambios de pesos y umbrales, mecanismo de aprendizaje de las RNA con FBR, se dan dentro de espacios más reducidos, cosa que no ocurre con las funciones que utiliza el perceptrón multicapa. Esta ventaja que apreciamos en las RNA, en los últimos años se viene estudiando de manera muy intensa en lo que se refiere a las funciones de optimización, es así que se vienen desarrollando diversas funciones de optimización de base radial, y se vienen aplicando en diversos campos, en especial en la estadística. Sin embargo, debe tenerse presente lo planteado por Isasi y Galvan (2004), que sostienen “cada una de las clases de aproximadores tienen sus propias características, se conocen ciertas condiciones bajo las cuales un método es preferible a otro, pero en ningún caso se puede decir que un método sea absolutamente mejor. Serán las consideraciones prácticas de cada problema las que determinan la elección de un aproximador u otro.”

Con relación al mejor desempeño de las RNA de FBR de Diseño Exacto, la Red Desarrollada y la de Tipo Newrbe, frente a las RNA de FBR de Regresión Generalizada GRNN, debe tener se presente lo que mencionan Howlett y Jain (2001) que sostienen que “Las investigaciones en Redes Neuronales de FBR se han concentrado en mejorar los algoritmos de entrenamiento y las variaciones de la arquitectura básica para mejorar el desempeño de las redes.”

Asimismo, Demuth, Beale y Hagan (2007) presentan las redes de base radial Diseño Exacto (newrbe), Diseño Más Eficiente(newrb), Probabilística (PNN) y de Regresión Generalizada (GRNN), por definición se descartaron la red newrb porque trabaja creando una neurona a la vez, es decir, considerando una variable a la vez lo cual es distinto a lo que se busca con en el diseño de experimentos, que todas las variables se consideren a la vez. Por otro lado, también se descartaron las redes PNN comparan las distancias entre los centros y los vectores de entrada, con base a lo cual se producen los vectores 260

de probabilidades, y en ellas, finalmente una función de transferencia competitiva selecciona cada salida y la ubica, según sea el caso, en una determinada clase. Estas redes PNN se puede apreciar por definición, que son aproximadas y que básicamente buscan clasificar, por tanto no son adecuadas para el tipo de trabajo que se requiere para los diseños de experimentos. Por otro lado Wasserman (1993) sostiene “Las GRNN se basan en la teoría de regresión no lineal, técnica estadística bien establecida para estimación de funciones, que aproxima cualquier función arbitraria entre vectores de entrada y salida, desarrollándose directamente la función de estimación desde los datos de entrenamiento.”.

Se puede apreciar que entre las RNA de base radial existen diversos tipos de funciones y diversos mecanismos de aprendizaje. La más utilizada y la que mejores resultados a dado hasta la fecha es la función de Gauss, la que se utiliza para las funciones de distribución normal; es por ello que en la investigación utilizamos dos variantes de su aplicación: la de Regresión Generalizada GRNN y las de Diseño Exacto DE (la Red Desarrollada y la Newrbe), con función de Gauss como función de transferencia. Habiéndose encontrado un mejor desempeño en la Red Desarrollada y la Newrbe, es así que en los casos de 3.3.1. Montgomery (1991), 3.3.2. Schmidt y Launsby(1994) y 3.3.3. Ross (1988); se aprecia que el desempeño de la RNA de FBR de Diseño Exacto (Desarrollada y Newrbe) es mejor; en los tres casos el error global para los dos tipos de Red Radial es cero, mientras que para la Red GRNN el 3.3.1 tiene error de 11.0169 y en los otros dos su error es de cero. Con relación a los errores de la primera entrada en 3.3.1. y 3.3.3. las Redes de Diseño Exacto tienen errores de cero y la Red GRNN errores de 2.9556 en 3.3.1 y 1.9803 -1.0770 en 3.3.3. En el caso 3.3.2. GRNN da error de cero para la simulación de la primera entrada mientras que las otras redes dan 0.00110.0004, que prácticamente es cero. El error más alto de las RNA FBR GRNN se explica por lo que sostienen Demuth, Beale y Hagan (2007), que en la primera capa con iguales a las redes Newrbe de diseño exacto, pero en la segunda capa los pesos se adecuan a los valores de salida t dados inicialmente como patrones iniciales (pares de vectores entrada-salida) lo cual es distinto a las redes NEWRBE ya que éstas últimas trabajan con el error 261

entre las salidas (dadas inicialmente) y las salidas calculadas por la red, aplicando mínimos cuadrados; a ello además hay que agregar que las GRNN no tienen umbral en la capa de salida, cosa que si se da en las Newrbe. Todas estas ventajas de las Redes Newrbe se consideraron para el diseño de la Red Desarrollada.

Lo antes mencionado da a las GRNN mucha velocidad en el cálculo pero pierden en exactitud, que en nuestro caso de Diseño de Experimentos, es lo más importante. Aquí, es interesante destacar la versatilidad de la red Newrbe y al Red Desarrollada, para poder calcular los valores de entrada con la Red Inversa; es así que aumentando la amplitud, a nivel de 10 para tener mayor cobertura por parte de las RNA con los valores de entrada, y para una taza de filtración de 35 gal/h, se obtienen los valores respectivos de las 4 Variables. Si se deja la amplitud en 1 y no se aumenta la amplitud no se podría obtener valores que vayan más allá de los valores de entrada, ello por el algoritmo respectivo de construcción de las RNA de FBR.

En el caso de 3.3.2. de igual manera se aprecia la ventaja de la red Desarrollada y la Red Newrbe de Diseño Exacto sobre la GRNN y sobre el diseño de experimentos, y por el tipo elaboración de la GRNN que no toma en cuenta el error de salida vs. el resultado de la red, es que las redes GRNN no llegan a obtener los resultados que si se obtienen con la red Desarrollada y la Red Newrbe. Nuevamente se produce lo del caso anterior 3.3.1. con respecto a la amplitud; es decir, que se trabajó con amplitud de 10 para poder calcular el diseño óptimo, que concuerda con el diseño de experimentos, pero con la diferencia que da valores exactos.

En el caso de 3.3.3., también, se aprecia la ventaja de la Red Desarrollada y la Red Newrbe de Diseño Exacto sobre la Red GRNN y sobre el diseño de experimentos, y por el tipo elaboración de la GRNN que no toma en cuenta el error de salida vs. el resultado de la red, es que las redes GRNN no llegan a obtener los resultados que si se obtienen con la Red Desarrollada y la Red Newrbe. En este caso se obtienen los mismos resultados que con Métodos Taguchi obtuvo Ross, pero con la diferencia que se obtienen resultados para 262

todas las variables cosa que con Taguchi sólo se obtuvo resultados para 3 variables, las más significativas. Además con las RNA se pudo calcular, con la red inversa, los parámetros para obtener un valor superior de 0,0 de error, tanto en la salida ancho como la salida longitud; es decir algo que no está dentro de las posibilidades de los Métodos Taguchi ni ningún sistema de Análisis Estadístico para el Diseño de Experimentos tradicional.

Los resultados obtenidos en 3.3. sobre la comparación entre la RNA GRNN y las RNA Desarrollada y Newrbe de Diseño Exacto DE, concuerdan con el hecho de que la primera se ha diseñado para ser aplicada con gran cantidad de datos, pero es mucho más rápida y por ello se puede incluso aplicar para situaciones en línea; distinto de la RNA DE Desarrollada y Newrbe que son más exactas y se han desarrollado para trabajar con conjuntos de datos menores, que es en parte lo que se presenta en los trabajos de mejora de la calidad.

La más importante diferencia entre ambas está, como lo sostienen Demuth, Beale y Hagan (2007), en que los pesos y umbrales de la capa de salida en las DE se calculan con base a la salida de la capa oculta de base radial y al error entre la salida de los datos y la salida que se obtiene de la red, mientras que en la Red RGNN dichas características se toman con base a los valores de salida (de los datos) datos inicialmente proporcionados con los correspondientes datos de entrada, lo cual limita la aproximación. Lo antes mencionado hace que los cálculos que se dan en la RNA DE sean más complejos, y lentos, pero a la vez se gana en exactitud, que es lo importante para nuestra aplicación.

Con relación a la determinación de los centros, que se requieren para los cálculos en la capa oculta, Wasserman(1993) sostiene “La ubicación de los centros de los campos de recepción de las entradas es un tema crítico y allí hay muchas alternativas para su determinación. Por ejemplo, un centro y la neurona de la capa oculta correspondiente podría estar localizado en cada vector de entrada del conjunto de entrenamiento.” Al respecto Specht (1991) citado por Wasserman plantea “un simple y efectivo método de conglomeración (clustering) donde un radio r es definido primero; el primer vector de 263

entrenamiento se convierte en el centro del primer cluster y así cada vector de entrenamiento es considerado a su turno.”. Por ello se optó como la forma de trabajo para el cálculo de los centros el utilizar los datos que nos den como entradas, incluso todos, ya que por lo general son pocos, para la capacidad que tienen las RNA. El poder trabajar con todos los datos de entrada permite obtener mayor exactitud. Sin embargo de existir mayor complejidad porque hay más datos se puede usar el algoritmo de k medias; según lo indican Wasserman (1993) e Isasi y Galvan (2004) que busca minimizar las distancias euclídeas, entre los patrones de entrada y el centro más cercano, siguiendo el algoritmo: K

J  i 1

N

M n 1

in

X ( n)  C i

Donde N es el número de patrones,

es la distancia euclídea, X(n) es la

entrada y Min es la función de pertenencia. Al respecto hay diversos software que se pueden utilizar para hacer esta simplificación, entre ellos Matlab, SPSS, e incluso hay softwares expresamente diseñados para k-medias. Para los casos que se trabajaron no fue necesario utilizar este algoritmo, y se considera que en la mayoría de los casos será poco frecuente que existan tantos datos que se requiera agrupar. En el caso de Diseño de Experimentos de Vasconcelos (2003), presentado en 3.2.4. se trabajó con 8 grupos de datos reduciendo el número de vectores de entrada de 24 a 8, y se obtuvieron resultados iguales; es decir, en lugar de trabajar con las tres repeticiones del experimento se trabajó con una sola y con las salidas se calculó el promedio, y se aplicó la Red Desarrollada y la Red Newrbe, obteniéndose lo antes mencionado. En el caso sobre diseño de productos de Montgomery y Bowles (1997), presentado en 3.4., y en el de procesos de Anand (1993), presentado en 3.5. se utilizaron como centros los valores de entrada y los resultados fueron buenos tanto para la red directa que permite predecir los resultados con las variables de entrada dadas; como para la red inversa que permite determinar valores de entrada que permitan obtener valores de salida deseados de calidad, que serían los que quieren los clientes.

264

Con relación a las determinaciones relacionadas con la capa oculta: distancia de los centros, se tienen que ella es parte fundamental del exponente de la función de Gauss; lo que frecuentemente se utiliza es la distancia Euclídea. Haykin (1994) menciona la definición dada por Powell (1988) sobre las RNA FBR que presenta la distancia normal, que sostiene que generalmente es la Euclídea. Por otro lado, Haykin, con base a lo propuesto por Poggio y Girosi (1990), y Bors y Pitas(2001) proponen la distancia normal ponderada, donde se sostiene que “Una función de base radial Gaussiana G x  t i ci  centrada en ti y con una distancia normal ponderada con la matriz Ci puede ser expresada como:



G x  t i ci  exp  x  t i  donde matriz inversa

T



1

i

 x  t  1

i

i

representa una multivariancia de la distribución de

Gauss con vector medio t y matriz de covariancia Σ. Asimismo, Wasserman (1993) menciona el trabajo de Duda y Hart, para mejorar la exactitud de este tipo de función, mediante el uso de la “distancia de Mahalanobis”, que tiene la siguiente ecuación  1  T    x ci  K  x ci   2 

 (r )  e 

Donde K es la matriz inversa de la covariancia de los vectores de entrada:



K  E x  mx  m



T 1

siendo x los valores de entrada, c los vectores que definen los centros y m el vector medio tomado del conjunto de los vectores de entrada. Lo cual es similar a lo mencionado por Haykin. Dada la importancia del tema, en un primer momento se trabajó el caso de Vasconcelos(2003), presentado en 3.2.4., debido a que Matlab no tienen este tipo de red, fue necesario desarrollar nuestra propia función de cálculo con el uso del Shell de Matlab, Neural Networks; la red desarrollada se denominó newrbfcev15r y simnewrbfcev15rr, que se presentaron en detalle en 3.2.2. y el Anexo 1. La red se construye con el programa newrbfcev15r; es decir, dadas entradas p,t y amplitud (sc) se obtienen los parámetros de la Red vectores de pesos w1 y w2 , vectores de umbrales b1 y b2, y distancias de centros K. Una vez construida la red se utiliza el programa simnewrbfcev15rr para calcular las

265

salidas para un valor específico p de entrada que se tenga. Todo ello hemos denominado como al Red Desarrollada, que es una Red de Función de Base Radial de Diseño Exacto, con centros calculados aplicando la distancia de Mahalanobis, a fin de obtener mayor exactitud en los cálculos.

Aquí también, se puede mencionar la propuesta de Specht(1991) que propone que las distancia calculada como:

Di1   xk   k h

que indica no presenta cambios significativos en los resultados y si reducción en los cálculos requeridos; lo cual no es era más conveniente para el objetivo de nuestro trabajo.

Con relación a los cálculos del aprendizaje de la capa de salida con la matriz seudoinversa o con mínimos cuadrados, es importante lo mencionado por Isasi y Galvan (2004) que indican que “Debido a que la salida de la red depende linealmente de los pesos y umbrales, otro método para el cálculo de dichos parámetros es el llamado método de la seudo inversa (Broomhead y Lowe, 1988). Se trata de un método que proporciona una solución directa al problema de optimización”. Es decir se aplica la siguiente expresión matricial: 

W  G .S

donde W incluye tanto los pesos como los umbrales y G es una matriz que contiene las salidas de la capa oculta y S las salidas. Asimismo, Isasi y Galvan (2004), sostienen que en la fase supervisada (del método de aprendizaje híbrido de las Redes de Función de Base Radial) se calculan los pesos y umbrales de la neurona de la red. En este caso, el objetivo es minimizar las diferencias entre las salidas de la red y las salidas deseadas. Por tanto un método bastante simple y eficiente, que es el algoritmo e los mínimos cuadrados”. Para ello se aplican los algoritmos : Para los pesos: Wik (n)  Wik (n  1)   1 ( s k (n)  y k (n))i (n)

266

Para los umbrales: u k (n)  u k (n  1)   1 ( s k (n)  y k (n))

Para k=1,2,…r; y para i=1,2..m El cálculo de la seudoinversa es sumamente rápido cuando se cuenta con un software apropiado de lo contrario se puede volver una tarea compleja. Por otro lado el caso de los mínimos cuadrados es un procedimiento mucho más conocido y aproximado, pero con operaciones más simples, aunque más laborioso. En los trabajos realizados encontramos más práctico trabajar con la seudoinversa, en la medida que se contó con el software apropiado.

Con relación a la proyección de los resultados más allá de los valores proporcionados a la RNA, se tiene que por el carácter de los algoritmos que se utilizan en las RNA de función de base radial son aproximadores de carácter local por lo que la interpolación de los datos no se puede ir más allá de los alrededores de los datos; sin embargo modificando el Spread o la amplitud de las funciones de base radial de la capa oculta se puede ampliar la cobertura de interpolación, pero por supuesto, sin pensar que pueda ser interpolado para valores muy distantes de los usados para el cálculo; ello no es problema para los trabajos de mejora de la calidad, donde por lo general se tiene información inicial relacionada con valores cercanos a los que se busca. Por tanto el grado de interpolación que se requiere en los casos de mejora de la calidad es atendido con las redes de función de base radial.

Al respecto se tiene lo que sostienen Isasi y Galvan (2004), “Una vez determinados los centros de las funciones de base radial, las amplitudes o desviaciones de dichas funciones deben calcularse de manera que cada neurona oculta se active en una región del espacio de entrada y de manera que el solapamiento de las zonas de activación de una neurona a otra sea lo más ligero posible, para suavizar así la interpolación”. Wasserman (1993) llama a las amplitudes como diámetro de la región receptiva y plantea que están determinadas por el valor de la desviación estándar y que puede tener un efecto importante sobe la exactitud del sistema. Su objetivo es cubrir el espacio

267

de entrada con un campo de recepción tan uniforme como sea posible. Si el espacio entre los centros no es uniforme puede ser necesario que para cada neurona de la capa oculta se tenga su propio valor de desviación estándar. En nuestro caso, dadas las características de los datos, en los casos que se necesitaba interpolar más allá de los datos, se trabajó aumentando el spread o amplitud de las funciones de base radial de la capa a fin de ampliar su cobertura de interpolación, pero sin esperar que se pueda ampliar la interpolación para valores muy distantes de los usados para el cálculo; ello no es problema para los trabajos de mejora de la calidad, donde por lo general se tiene información inicial relacionada con valores cercanos a los que se busca. Es así que en los casos 3.3.1. y 3.3.2. se trabajó con spread mayores que 1, se probó, con base a los datos valores desde 2 hasta 10, para proyectar valores fuera del ámbito de los datos, obteniéndose resultados satisfactorios, aunque se pierde exactitud en la medida que se aleja del valor de amplitud de 1. Por tanto el grado de interpolación que se requiere en los casos de mejora de la calidad es atendido con las redes de función de base radial.

268

CONCLUSIONES Y RECOMENDACIONES CONCLUSIONES: 1. La Hipótesis Planteada es verdadera; es decir, las Redes Neuronales Artificiales con Función de Base Radial, que utilizan la distancia de Mahalanobis, aplicadas a los diseños de experimentos para mejora de la calidad dan mejores resultados dan mejores resultados que los obtenidos mediante los métodos de análisis estadísticos tradicionales y del Perceptrón Multicapa con aprendizaje Backpropagation. Es así que se construyó la “Red Desarrollada”, que se presentó en 3.2.2. y en el Anexo 2, que permitió demostrar lo planteado en la hipótesis.

2. Las características principales de la Red Neuronal Artificial de Función de Base Radial “Red Desarrollada”, que fue construida son:

a. Arquitectura con tres capas b. En la capa oculta el aprendizaje es no supervisado. c. En la capa de salida se da un aprendizaje supervisado

3. La Red Desarrollada tiene como Función de Base Radial la Función de Gauss, y pertenece a las Redes conocidas como de Diseño Exacto. Que es una variante de este tipo de RNA, que se caracteriza por: centros, que son iguales a vectores de entrada; y los umbrales de la capa oculta de 0.8326 y por defecto con una amplitud de 1. Los pesos de la capa oculta a la capa de salida y los umbrales de la capa de salida se determinan siguiendo el método de mínimos cuadrados, o el de la matriz seudoinversa

4. La metodologías para aplicar la RNA de Función de Base Radial de Diseño Exacto Desarrollada, o simplemente Red Desarrollada, son:

a. RNA de FBR Función de Base Radial, Directa. Con esta red, se podrá predecir el desempeño futuro del proceso, es decir, dadas unas entradas determina los valores de salida. Por otro lado también se podrá obtener valores de salida del proceso con base a valores de entrada que han sido optimizados. 269

b. RNA de FBR Función de Base Radial, Inversa. Con esta red, se puede obtener el valor de las entradas que permiten alcanzar un valor óptimo de salida. Estas entradas para el valor óptimo, luego se aplican a la red directa para obtener un valores optimizados de salida y también para predecir el desempeño futuro del proceso de la red directa. Los valores de entrada del proceso que han sido optimizados, deben ser obtenidos dadas una salidas deseadas y ello debe ser de acuerdo a lo que esperan los clientes, para el caso de la calidad.

c. Dentro de las RNA de Función de Base Radial, las de Diseño Exacto (Red Desarrollada y Red Newrbe) tuvieron un desempeño mejor que la de Regresión Generalizada; en especial por tener menor error.

d. Se ha trabajado con 7 casos de Diseño de Experimentos y en todos la Red Desarrollada de Función de Base Radial fue la que dio mejores resultados.

RECOMENDEACIONES

1. Desarrollar nuevas investigaciones en este importante campo de aplicación de las Redes Neuronales Artificiales en las actividades de calidad, especialmente en lo referente a ingeniería de calidad; aspectos como los de diseño de productos, control y mejora de procesos y en los temas de calidad requieren del uso de herramientas más exactas.

2. Para la aplicación de las metodologías de seis sigma, se debe recomendar incluir entre sus principales herramientas el uso de las RNA.

270

3. Los diversos progresos que se dan en materia de optimización y lógica difusa,

entre otros, más lo referente a RNA debe constituirse en un futuro

cercano en un campo importante de desarrollo en el tema de calidad. Para poder concretar su aplicación a los diversos casos específicos se requieren diversas investigaciones que pongan en uso práctico estas técnicas, no sólo de manera separada sino que también de manera combinada. Así por ejemplo el uso de la lógica difusa para preparar los datos, para luego aplicar RNA es un campo que requiere de muchos aportes.

4. La mejora del desempeño de las RNA de Función de Base Radial, tienen otros aspectos por investigarse, entre ellos se tienen la aplicación de diversas funciones de base radial, la amplitud, la interpolación a mayores valores, el aprendizaje no supervisado, entre otros.

271

REFERENCIAS BIBLIOGRÁFICAS BIBLIOGRAFÍA BÁSICA 1.-

BERTALANFFY, Von Ludwig. Teoría General de los Sistemas. Editorial. FCE. 1995.

2.-

BUNGE, Mario. La investigación científica. Editorial Ariel. 4° edición. 1999.

3.-

BUNGE, Mario. Vigencia de la filosofía. Editorial UIGV. 4° edición. 1999.

4.-

CARRILLO, F. Cómo hacer la tesis y el trabajo de investigación universitario. Editorial Horizonte. 1995.

5.-

DESCARTES. Discurso del Método. Editorial Alianza Editorial. 1980.

6.-

GAMUT. Introducción a la lógica. Editorial EUDEBA. 2002.

7.-

HERNANDEZ, R; FERNÁNDEZ, C Y BAPTISTA, P. Metodología de la investigación. Editorial McGrawHill. 1999.

8.-

HESSEN, J. Teoría del conocimiento. Editorial Panamericana. 1999.

9.-

IMRE LAKATOS, La metodología de los Programas de Investigación Científica. Alianza Editorial. 2003.

10.- KANT, I. Principios metafísicos de la ciencia de la naturaleza. Editorial Tecnos. 1991 11.- KUHN, T. S. La estructura de las revoluciones científicas. Editorial Fondo de Cultura Económica. 3° reimpresión.1996. 12.- PLATON. Apología de Sócrates. Editorial Mercurio. 1999. 13.- POPPER, K. Conjeturas y refutaciones. Editorial Paidos. 1972. 14.- POPPER, K. Escritos selectos. Editorial FCE. 1997. 15.- POPPER, K. Teoría Cuántica y el cisma de la física. Editorial Tecnos. 1996. 16.- PUTMAN, H. El pragmatismo. Editorial Gedisa. 1992. 17.- QUINTANILLA, M. Tecnología y Sociedad. Editorial UIGV. 1999. 18.- REA, B. Filosofía de la ciencia. Editores Amaru. 1993. 19.- RORTY, R. H. ¿Esperanzo o conocimiento? Una introducción al pragmatismo. Editorial FCE. 1997. 20.- RUIZ, R ; AYALA, F. El Método de las Ciencias. Epistemología y darwinismo. Editorial FCE. México. 2000.

272

21.- RUSSEL, B. La perspectiva científica. Editorial Sarpe. 1983. 22.- TAFUR, R. La tesis universitaria. Editorial Mantaro. 1995.

BIBLIOGRAFÍA ESPECIALIZADA 1.-

ANAND,K. Artículo “Improving Parafin Wax Yield throuhg process optimization using Taguchis’s Method of Experimentation”. Quality Engineering, 6(1), 1993.

2.-

ARAGON, Alberto. Tesis Doctoral “Métodos Evolutivos para el aprendizaje de Redes Neuronales”. Universidad de Burgos. 2002.

3.-

BESTERFIELD, D. “Control de Calidad”. Editorial Prentice Hall. 1995.

4.-

BOWLES, M Y MONTGOMERY, D. Artículo “How to formulate the ultimate Margarita: A tutorial on experiments with mixtures”. Quality Engineering 10(2). 1997.

5.-

CEVALLOS, Juan. Artículo “ Aplicación de Redes Neuronales para Optimizar Problemas Multirespuesta en Mejora de la Calidad”, publicado en Industrial Data, Volumen 7 N° 2. 2004.

6.-

CHEN,S; COWAN,C Y GRANT,P. Artículo “Orthogonal Least Squares Learning

Algorithm

for

Radial Basis

Function

Networks”.

IEEE

Transactions on Neural Networks, Vol. 2 Nº 2, Marzo 1991. 7.-

COX, M. Artículo “A Neural Netwok Metoh for Modelling the Parameters of a CUSUM Chart”. Quality Engineering 17; 197-205. 2005.

8.-

CROSBY, P. “La Calidad No Cuesta” Editorial Continental. 1987.

9.-

DELGADO; A. “Inteligencia Artificial y minirobots”. Editorial Eccoe.1998.

10.- DEMING, E. “Calidad, Productividad y Competitividad. La salida de la crisis” Ediciones Díaz de Santos. 1989. 11.-

DEMUTH,H; BEALE, M Y HAGAN,M. MATLAB. Guía de Redes Neuronales. 2007.

12.- FIGENBAUM, A. Control Total de la calidad. Editorial CECSA. 1996. 13.- FREEMAN, James A., SKAPURA, David M. Redes Neuronales. Algoritmos, Aplicaciones y Técnicas de Programación. Editorial AddisonWesly – Diaz de Santos.1993.

273

14.- GIARRATANO-RILEY. “Sistemas Expertos. Principios y programación”. Editorial Thomson. 2001. 15.- GUPTA, P. Six Sigma. Business Score Card. Editorial McGrawHill. 2007. 16.- GUTIERREZ, M. “Administrar para la calidad”. Editorial LIMUSA. 1994. 17.- HAGAN, Martín T., DEMUTH, Howard B., BEALE, Mark. Neural Network Design. Editorial Thomson. 1996. 18.-

HAYKIN,

Simon.

Neural

Networks.

Editorial

Macmillan

College

Publishing Company. 1994. 19.-

HILERA José y MARTINEZ Víctor. Redes Neuronales Artificiales. Editorial Alfaomega. 2000.

20.-

HOWLETT,R Y JAIN,L. “Radial Basis Function. Netwoks 1.” Editorial Physica-Verlag. 2001.

21.-

HSIEH, K. Y Tong, L., Artículo “Parameter Optimization for Quality Response with Linguistic Ordered Category by employing Artificial Neural Networks: A Case Study”. Universidad Nacional de Chiao Tung. Taiwán. .2000.

22.-

ISASI, Pedro y GALVAN, Inés. Redes de Neuronas Artificiales. Editorial Pearson – Prentice may. 2004.

23.-

ISHIKAWA, K. “¿Qué es el control total de Calidad? La Modalidad Japonesa”. Editorial Norma. 1996.

24.- JURAN, J.M. “Juran y el liderazgo para la calidad”. Editorial Díaz de Santos. 1989. 25.-

KAUFFMANN, Arnold, GIL ALUJA, Jaime. Grafos Neuronales para la Economía y la Gestión de Empresas. Editorial Pirámide. 1995.

26.-

KENETT, R. Y ZACKS, S. “Estadística Industrial Moderna. Diseño y control de la calidad y confiabilidad”. Editorial Thomson. 2000.

27.-

KONAK, A, KULTUREL – KONAK, S, SMITH, A y NETTLESHIP, I., Artículo “Estimation of shrinkage for near net-shape using a neural network approach”. Journal of Intelligent Manufacturing. Vol. 14,2. 2003.

28.-

KUEHL, Robert. Diseño de Experimentos. Editorial Thomson. 2001.

274

29.-

LAM, S., PETRI, L. y SMITH,A. Artículo “ Predicton and optimization of a ceramic casting process using a hierarchical hybrid system of neural networks anf fuzzy logic. IIE Transactions, vol. 32, 83-91. 2000.

30.-

LAWSON, John; MADRIGAL, José y ERJAVEC, John. Estrategias experimentales para el mejoramiento de la calidad en la industria. Editorial Iberoamérica. 1992.

31.-

LEGER, R., GARLAND, W. y POEHLMAN, W. Artículo “Fault detection and dignosis using statistical control charts and artificial neural networks”. Artificial Intelligent in Engineering. Vol. 12, 35-47. 1998.

32.-

MARTIN DEL BRIO, Bonifacio, SANZ MOLINA Alfredo. Redes Neuronales y Sistemas Difusos. Editorial Alfaomega. 2002.

33.-

MONTAÑO, Juan. Tesis Doctoral “Redes Neuronales Artificiales aplicadas al Análisis de Datos” . Universitat de les illes Balears. 2002.

34.-

MONTGOMERY, Douglas. “Diseño y análisis de experimentos”. Editorial Limusa Wiley. 2004

35.-

NASEREDDIN, M. y MOLLAGHASEMI, M. Artículo “The development of a methodology for the use of neural networks an simulation modeling in systems

design”.

Proceeedings

of

the

1999 Winter

Simulation

Conference. 1999. 36.-

NILSSON, N. “Inteligencia Artificial”. Editorial McGRaw Hill. 2001.

37.-

POGGIO, T Y GIROSI, F. Artículo”Regularization Algorithms for Learning that are Equivalent to Multilayer Networks”. Science. Vol. 247.1989.

38.-

PRAT, Albert, TORT – MARTORELL, Xavier, GRIMA, Pere y POZUETA, Lourdes. Métodos Estadísticos. Control y mejora de la calidad”. Editorial Alfaomega. 1999.

39.-

PRESSMAN, R. “Ingeniería del Software. Un enfoque práctico”. Editorial McGrawHill. 5° edición. 2002.

40.-

RAO,M. Y SRINIVAS,J. “Neural Networks”. Editorial Narosa. 2007.

41.-

ROSS, Philip. “Taguchi Techniques for Quality Engineering”. Editorial McGrawHill. 1988.

275

42.-

RUSSELL, S y NORVIG, P. “Inteligencia Artificial”. Editorial Prentice Hall. 1996.

43.-

SCHEEL, Carlos. Modelación de la Dinámica de Ecosistemas. Editorial Trillas. 2001.

44.-

SCHMIDT,S

Y

LAUNSBY,R.

“Understanding

Industrial

Designed

Experiments”. Editorial Air Academy Press. 1994. 45.-

SCHMULLER, J. “Aprendiendo UML”. Editorial Prentice Hall.2002.

46.-

TAGUCHI, Genichi, “Introduction to Quality Engineering.

Designing

Quality into Products and Proceses”, Editorial Asian Productivity Organization. 1990. 47.-

VASCONCELLOS A.; SODRE, S Y REKAB, K. Artículo “ Design of Experiments. Improve Part Quality”.2003.

48.-

WASSERMAN, P. “Advanced Methods in Neural Computing”. Editorial Van Nostrand Reinhold. 1993.

49.-

ZORRIASSATINE, F. y TANNOCK, D. Artículo “ A review of neural networks

for

statistical

process

control”.

Journal

of

Intelligent

Manufacrturing. Vol.9, 209-224. 1998.

Direcciones electrónicas: Direcciones electrónicas sobre calidad www.asq.org http://www.asq.org/manufacturing/why-quality/overview.html www.QualityWBT.com www.tandf.co.uk/journals/onlinesamples.asp www.taylorandfrancis.com www.spcstat.com www.chartrunner.com www.statgraphics.com www.statssoft.com www.amstat.org

Direcciones electrónicas sobre redes neuronales www.computer.org 276

www.ieee-cis.org www.gc.ssr.upm.es/inves/neural/ann2/anntutorial.html http://www.ieee.org/theinstitute http://technews.acm.org http://www.acm.org/careernews/ http://portal.acm.org/cacm/current/ www.monografias.com/trabajos12/redneuro/redneuro.shtml http://www.cs.utdallas.edu/ www.spectrum.ieee.org www.pace.edu www.nd.com www.neuralware.com ftp://ftp.sas.com/pub/neural/FAQ.html

277

ANEXO 1. INFORME DE EXPERTO CONSULTADO SOBRE EL PROGRAMA DE CÓMPUTO DE LA RED DESARROLLADA.

I. EL INFORME DEL EXPERTO SE PRESENTA EN LA SIGUIENTE PÁGINA. EN DICHO SE APRECIA SU OPINIÓN FAVORABLE.

278

ANEXO 2. PROGRAMA Y LISTADO COMPLETO QUE PRODUCE EL PROGRAMA DESARROLLADO DE CREACIÓN DE RED NEURONAL ARTIFICIAL Y DE SIMULACIÓN PARA APLICAR EN MEJORA DE LA CALIDAD. I. PROGRAMA DE CREACIÓN DE LA RED. CON DISTANCIA EUCLÍDEA Function [w1,b1,w2,b2 ] =designrbe(p,t,spread) [r,q] = size(p); [s2,q]= size(t); w1=p’; b1=ones(q,1)*sqrt(-log(.5))/spread; a1=radbas(dist(w1,p).*(b1*ones(1,q))); x=t/â1; ones(1,q)]; w2=x(:,1:q); b2=x(:,q+1); CON DISTANCIA MAHALANOBIS (PROGRAMA DESARROLLADO) function [w1,b1,w2,b2,K] = newrbfcev15r(p,t,sc) [r,q] = size(p); [s2,q] = size(t); w1 = p'; b1 = ones(q,1)*sqrt(-log(0.5))/sc; m=sum(p)/r; copies=zeros(1,r); M = m(1+copies,:),1; H=(p-M)'*(p-M); K=pinv(H); D=dist(w1,p); Z=K+D; a1=radbas(Z.*(b1*ones(1,q))); x=t/[a1; ones(1,q)]; w2=x(:,1:q); b2=x(:,q+1);

279

II. PROGRAMA DE DE SIMULACIÓN DE LA RED CON DISTANCIA EUCLÍDEA function [Y] = sim(w1,b1,w2,b2,K,p) [s,r]= size(w1); [r2,q] = size(p); if(r ~= r2), error('matriz interna de dimensiones que no concuerdan.'),end Z = zeros(s,q); if (q> p p= Columns 1 through 12 75 75 75 40 40 40 75 75 75 40 40 45 45 45 45 45 45 25 25 25 25 25 235 235 235 235 235 235 235 235 235 235 45 45 45 25 25 25 25 25 25 45 45 3 3 3 2 2 2 3 3 3 2 2 2 25 25 25 25 25 25 10 10 10 10 10 25 25 25 5 5 5 5 5 5 25 25 25 Columns 13 through 24 75 75 75 40 40 40 75 75 75 40 40 45 45 45 45 45 45 25 25 25 25 25 205 205 205 205 205 205 205 205 205 205 45 45 45 25 25 25 25 25 25 45 45 2 2 2 3 3 3 2 2 2 3 3 3 10 10 10 10 10 10 25 25 25 25 25 5 5 5 25 25 25 25 25 25 5 5 5

40 25 235 235 45 10

40 25 205 205 45 25

>> t t= Columns 1 through 7 64.3300 73.4300 70.9500 42.7700 41.1500 39.4900 71.6200 Columns 8 through 14 78.4400 73.9600 65.5100 62.4800 59.0500 63.0200 64.1200 Columns 15 through 21 62.6700 44.1200 46.4600 32.3300 68.5900 70.8900 71.5300 Columns 22 through 24 41.0400 44.0200 41.8900

>> [w1,b1,w2,b2,K]=newrbfcev15r(p,t,sc) w1 = 75 45 235 45 3 25 25 75 45 235 45 3 25 25 75 45 235 45 3 25 25 40 45 235 25 2 25 5 40 45 235 25 2 25 5 40 45 235 25 2 25 5 75 25 235 25 3 10 5 75 25 235 25 3 10 5 75 25 235 25 3 10 5 40 25 235 45 2 10 25 40 25 235 45 2 10 25 40 25 235 45 2 10 25

281

75 75 75 40 40 40 75 75 75 40 40 40

45 45 45 45 45 45 25 25 25 25 25 25

205 205 205 205 205 205 205 205 205 205 205 205

45 45 45 25 25 25 25 25 25 45 45 45

2 2 2 3 3 3 2 2 2 3 3 3

10 10 10 10 10 10 25 25 25 25 25 25

5 5 5 25 25 25 25 25 25 5 5 5

b1 = 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 0.8326 w2 = 1.0e+005 * Columns 1 through 7 0 0 0 0 2.8031 0 -0.0536 Columns 8 through 14 0 0 0.0328 0 0 0.3293 0 Columns 15 through 21 0 3.1373 0 0 -0.2457 0 0 Columns 22 through 24 1.4155 0 0

282

b2 = -7.4180e+005 K= 1.0e-003 * Columns 1 through 7 0.2047 0.2047 0.2047 0.2047 0.2047 0.2047 0.2047 0.2047 0.2047 -0.0199 -0.0199 -0.0199 -0.0199 -0.0199 -0.0199 -0.0199 -0.0199 -0.0199 -0.2653 -0.2653 -0.2653 -0.2653 -0.2653 -0.2653 -0.2653 -0.2653 -0.2653 -0.0633 -0.0633 -0.0633 -0.0633 -0.0633 -0.0633 -0.0633 -0.0633 -0.0633 0.0274 0.0274 0.0274 0.0274 0.0274 0.0274 0.0274 0.0274 0.0274 -0.0060 -0.0060 -0.0060 -0.0060 -0.0060 -0.0060 -0.0060 -0.0060 -0.0060 0.1245 0.1245 0.1245 0.1245 0.1245 0.1245 0.1245 0.1245 0.1245 0.0374 0.0374 0.0374 0.0374 0.0374 0.0374 0.0374 0.0374 0.0374

-0.0199 -0.0199 -0.0199 0.0922 0.0922 0.0922 0.0104 0.0104 0.0104 -0.0685 -0.0685 -0.0685 -0.0264 -0.0264 -0.0264 -0.0060 -0.0060 -0.0060 -0.0009 -0.0009 -0.0009 0.0158 0.0158 0.0158

-0.0199 -0.0199 -0.0199 0.0922 0.0922 0.0922 0.0104 0.0104 0.0104 -0.0685 -0.0685 -0.0685 -0.0264 -0.0264 -0.0264 -0.0060 -0.0060 -0.0060 -0.0009 -0.0009 -0.0009 0.0158 0.0158 0.0158

-0.0199 -0.0199 -0.0199 0.0922 0.0922 0.0922 0.0104 0.0104 0.0104 -0.0685 -0.0685 -0.0685 -0.0264 -0.0264 -0.0264 -0.0060 -0.0060 -0.0060 -0.0009 -0.0009 -0.0009 0.0158 0.0158 0.0158

-0.2653 -0.2653 -0.2653 0.0104 0.0104 0.0104 0.3658 0.3658 0.3658 0.0758 0.0758 0.0758 -0.0318 -0.0318 -0.0318 0.0021 0.0021 0.0021 -0.1446 -0.1446 -0.1446 -0.0632 -0.0632 -0.0632

Columns 8 through 14 -0.2653 -0.2653 -0.0633 -0.2653 -0.2653 -0.0633 -0.2653 -0.2653 -0.0633 0.0104 0.0104 -0.0685 0.0104 0.0104 -0.0685 0.0104 0.0104 -0.0685 0.3658 0.3658 0.0758 0.3658 0.3658 0.0758 0.3658 0.3658 0.0758 0.0758 0.0758 0.1064 0.0758 0.0758 0.1064 0.0758 0.0758 0.1064 -0.0318 -0.0318 -0.0093 -0.0318 -0.0318 -0.0093 -0.0318 -0.0318 -0.0093 0.0021 0.0021 0.0171 0.0021 0.0021 0.0171 0.0021 0.0021 0.0171 -0.1446 -0.1446 -0.0510

-0.0633 -0.0633 -0.0633 -0.0685 -0.0685 -0.0685 0.0758 0.0758 0.0758 0.1064 0.1064 0.1064 -0.0093 -0.0093 -0.0093 0.0171 0.0171 0.0171 -0.0510

-0.0633 -0.0633 -0.0633 -0.0685 -0.0685 -0.0685 0.0758 0.0758 0.0758 0.1064 0.1064 0.1064 -0.0093 -0.0093 -0.0093 0.0171 0.0171 0.0171 -0.0510

0.0274 0.0274 0.0274 -0.0264 -0.0264 -0.0264 -0.0318 -0.0318 -0.0318 -0.0093 -0.0093 -0.0093 0.0984 0.0984 0.0984 0.0104 0.0104 0.0104 -0.0547

0.0274 0.0274 0.0274 -0.0264 -0.0264 -0.0264 -0.0318 -0.0318 -0.0318 -0.0093 -0.0093 -0.0093 0.0984 0.0984 0.0984 0.0104 0.0104 0.0104 -0.0547

283

-0.1446 -0.1446 -0.0510 -0.1446 -0.1446 -0.0510 -0.0632 -0.0632 -0.0189 -0.0632 -0.0632 -0.0189 -0.0632 -0.0632 -0.0189 Columns 15 through 21 0.0274 -0.0060 -0.0060 0.0274 -0.0060 -0.0060 0.0274 -0.0060 -0.0060 -0.0264 -0.0060 -0.0060 -0.0264 -0.0060 -0.0060 -0.0264 -0.0060 -0.0060 -0.0318 0.0021 0.0021 -0.0318 0.0021 0.0021 -0.0318 0.0021 0.0021 -0.0093 0.0171 0.0171 -0.0093 0.0171 0.0171 -0.0093 0.0171 0.0171 0.0984 0.0104 0.0104 0.0984 0.0104 0.0104 0.0984 0.0104 0.0104 0.0104 0.0843 0.0843 0.0104 0.0843 0.0843 0.0104 0.0843 0.0843 -0.0547 -0.0248 -0.0248 -0.0547 -0.0248 -0.0248 -0.0547 -0.0248 -0.0248 -0.0068 -0.0777 -0.0777 -0.0068 -0.0777 -0.0777 -0.0068 -0.0777 -0.0777 Columns 22 through 24 0.0374 0.0374 0.0374 0.0374 0.0374 0.0374 0.0374 0.0374 0.0374 0.0158 0.0158 0.0158 0.0158 0.0158 0.0158 0.0158 0.0158 0.0158 -0.0632 -0.0632 -0.0632 -0.0632 -0.0632 -0.0632 -0.0632 -0.0632 -0.0632 -0.0189 -0.0189 -0.0189 -0.0189 -0.0189 -0.0189 -0.0189 -0.0189 -0.0189 -0.0068 -0.0068 -0.0068 -0.0068 -0.0068 -0.0068 -0.0068 -0.0068 -0.0068 -0.0777 -0.0777 -0.0777 -0.0777 -0.0777 -0.0777 -0.0777 -0.0777 -0.0777 0.0253 0.0253 0.0253

-0.0510 -0.0510 -0.0189 -0.0189 -0.0189

-0.0510 -0.0510 -0.0189 -0.0189 -0.0189

-0.0547 -0.0547 -0.0068 -0.0068 -0.0068

-0.0547 -0.0547 -0.0068 -0.0068 -0.0068

-0.0060 -0.0060 -0.0060 -0.0060 -0.0060 -0.0060 0.0021 0.0021 0.0021 0.0171 0.0171 0.0171 0.0104 0.0104 0.0104 0.0843 0.0843 0.0843 -0.0248 -0.0248 -0.0248 -0.0777 -0.0777 -0.0777

0.1245 0.1245 0.1245 -0.0009 -0.0009 -0.0009 -0.1446 -0.1446 -0.1446 -0.0510 -0.0510 -0.0510 -0.0547 -0.0547 -0.0547 -0.0248 -0.0248 -0.0248 0.1483 0.1483 0.1483 0.0253 0.0253 0.0253

0.1245 0.1245 0.1245 -0.0009 -0.0009 -0.0009 -0.1446 -0.1446 -0.1446 -0.0510 -0.0510 -0.0510 -0.0547 -0.0547 -0.0547 -0.0248 -0.0248 -0.0248 0.1483 0.1483 0.1483 0.0253 0.0253 0.0253

0.1245 0.1245 0.1245 -0.0009 -0.0009 -0.0009 -0.1446 -0.1446 -0.1446 -0.0510 -0.0510 -0.0510 -0.0547 -0.0547 -0.0547 -0.0248 -0.0248 -0.0248 0.1483 0.1483 0.1483 0.0253 0.0253 0.0253

284

0.0253 0.0253 0.0960 0.0960 0.0960

0.0253 0.0253 0.0960 0.0960 0.0960

0.0253 0.0253 0.0960 0.0960 0.0960

>> [ts]=simnewrbfcev15r(w1,b1,w2,b2,p) ts = Columns 1 through 7 69.5700 69.5700 69.5700 41.1367 41.1367 41.1367 74.6733 Columns 8 through 14 74.6733 74.6733 62.3467 62.3467 62.3467 63.2700 63.2700 Columns 15 through 21 63.2700 40.9700 40.9700 40.9700 70.3367 70.3367 70.3367 Columns 22 through 24 42.3167 42.3167 42.3167 >> [ts]=simnewrbfcev15r(w1,b1,w2,b2,pe) ts = 67.5782

285

ANEXO 3 Detalle de cálculos en Perceptrón Multicapa con aprendizaje Backpropagation

A continuación se presentan los cálculos que se dan para una red perceptrón multicapa con aprendizaje backpropagation y seguidamente el detalle para la metodología presentada: En

un

caso

simple

se

perceptrón

multicapa

con

aprendizaje

backpropagation:

Dados: Entrada de 4 vectores p = [-1 -1 2 2; 0 5 0 5]; y salida t = -1 -1 1 1 ] Encontrar la red neuronal: perceptron multicapa con backpropagation que permite obtener la salida t dados las entradas p. Para el primer ciclo se tiene los siguiente trabajando con Matlab Neural Networks(/); y corroborando resultados con calculadora de mano: /net= newff(minmax(p),[3,1],{‘tansig’,’purelin’},’traingd’); La arquitectura de la red se presenta en la Figura 39.

286

 W11 X1W31 W12 W32 W21 W22 X2 W23 W13

 W33

Figura 45: Arquitectura de la Red Perceptrón Multicapa

/minmax(p) /= -1 2; 0 5 /net.IW{1,1} /= -1.2071 0.6452; 1.6014 -0.1324; -0.9043 -0.8040 Pesos de capa de entrada a capa oculta, calculados por Matlab al azar /net.lW{2,1} /= 0.6924 0.0503 -0.5947 Pesos de capa oculta a la capa de salida, calculados por Matlab al azar /net.b{1} / = 1.4154 ; 0.0503; -0.5947 Umbrales de capa de oculta, calculados por Matlab al azar /net.b{2} / = 0.3443 Umbral de capa de salida, calculado por Matlab al azar Comandos en Matlab para el entrenamiento: /net.trainParam.show=1; /net.trainParam.lr=0.1; /net.trainParam.goal=0.001; /net.trainParam.epochs=1; /[net,tr]= train(net,p,t)

/TRAINGD-calcgrad,Epoch0/1,MSE 2.45005/0.001,Gradient 3.98344/1e-010

287

/TRAINGD-calcgrad,Epoch0/1,MSE 2.45005/0.001,Gradient 3.98344/1e-010 /tr= /epoch: [0 1] /perf: [2.4500 1.1329] /vperf: [NaN NaN] /tperf: [NaN NaN] /gradient: [3.9834 2.6367] Como resultado de haberse ejecutado el primer ciclo o epoch los nuevos pesos y umbrales son: /net.IW{1,1} /= -1.1914 0.6399; 1.6016 -0.1335; -0.9297 -0.8007 Pesos de capa de entrada a capa oculta, calculados por Matlab al azar /net.lW{2,1} /= 0.4330 0.2491 -0.5168 Pesos de capa oculta a la capa de salida, calculados por Matlab al azar /net.b{1} / = 1.4216 ; -0.4701; 0.0571 Umbrales de capa de oculta, calculados por Matlab al azar /net.b{2} / = 0.1335 /a= sim(net,p) /a= -0.0702 0.8339 0.5475

1.3148

Cálculos con calculadora o con Matlab, pero sin el Neural Networks; para apreciar los cálculos que se dan al interior de un ciclo de este tipo de red y de esa forma poder desarrollar nuestro propio software: CALCULO DE LOS PESOS DE LA CAPA OCULTA

A LA CAPA DE

SALIDA Cálculo de salida de capa oculta a1: a1 = f1 (W 1 p + b1) ; donde f1 es tansig (función tg hiperbólica) Producto de los pesos por entrada W 1 p

X1 = [ -1.2071

0.6452 ] [-1 -1 2 2]

1.6014

-0.1324

-0.9043

-0.8040

0 5 0 5

288

X1 = [ 1.2071

4.4331

-2.4142

0.8118 ]

-1.6014

-2.2634

3.2028

2.5408

0.9043

-3.1157

-1.8086

-5.8286

Al producto anterior sumar umbrales en capa oculta b1: X2 = [x1 ]+ [ 1.4154

X2 =

1.4154

1.4154

1.4154 ]

-0.4697 -0.4697

-0.4697

-0.4697

0.0372

0.0372

0.0372

0.0372

[ 2.6225 5.8485

-0.9988

2.2272 ]

-2.0711

-2.7331

2.7331

2.0711

0.9415

-3.0785

-1.7714

-5.7914

Aplicando la función de activación de la capa oculta: tangente hiperbólica a x2 (tansig): a1 = f1 (W 1 p + b1) X3 =

[ 0.9895 1.0000

-0.7611

0.9770 ]

-0.9687

-0.9916

0.9916

0.9687

0.7359

-0.9958

-0.9438

-1.0000

Cálculo de la salida de la capa de salida a2: a2 = f2 (W 2 a1 + b2); donde f2 es purelin (función lineal) w21= [0.6924 0.0503 -0.5947]; a21 = [ 0.9895; -0.9687;0.7359]; a31= [ w21 ] * [ a21 ] = 0.1988 a31 final= 0.1988 + 0.3443 = 0.5431

w21= [0.6924 0.0503 -0.5947]; a22 = [ 1.0000; -0.9916;-0.9958]; a32= [ w21 ] * [ a22 ] = 1.2347

a32 final= 1.2347 + 0.3443 = 1.5790

w21= [0.6924 0.0503 -0.5947];

289

a23 = [ -0.7611; 0.9916; -0.9438]; a33= [ w21 ] * [ a23 ] = 0.0842 a33 final= 0.0842 + 0.3443 = 0.4285

w21= [0.6924 0.0503 -0.5947]; a24 = [0.9770; 0.9687; -1.0000]; a34= [ w21 ] * [ a24 ] = 1.3199 a34 final= 1.3199 + 0.3443 = 1.6642 Cálculo del Cuadrado Medio del Error: MSE de la epoch 0/ 1= suma(t-a2)2 t = [-1 -1 1 1 ]; a2= [0.5431 1.5790

0.4285

1.6642]

m= suma ([ t] - [a2]) 2 (-1-0.5431 )2 + (-1-1.5790 )2 +(1-0.4285 )2 + (1-1.6642 )2 = (-1.5431 )2 + (-2.5790 )2 +(0.5715 )2 + (-0.6642 )2 = 9.8002 m/4 = 9.8002/4 = 2.4501 (valor de matlab, calculado con calculadora) Siguiendo con el cálculo de los nuevos pesos para t+1 de la capa oculta a la capa de salida tenemos: W2(t+1)=w2(t)+*(-2)/(4)*(F.2(n2)(t objetivo – a2 salida red)* a1 salida capa oculta); donde (F.2(n2)= 1 para la función lineal; s2 = (-2)  (F.2(n2)(t objetivo – a2 salida red) Que es la unión de las dos ecuaciones, respectivas, de los pasos 4.1 y 4.3 presentadas anteriormente en el Marco Teórico, donde C se ha reemplazado por el superíndice 2. = 0. 6924 - 0.1/4*2 *suma([ -1.5431 -2.5790 0.5715 -0.6642 ] * [0.9895] ) 1.0000 -0.7611 0.9770 = 0.6924 + 0.1/4*2 suma [-1.5269] = 0.6924 +0.1/4*2*(-5.1898) -2.5790 -0.4350 -0.6489

290

= 0.6924 – 0.2594 = 0.4330 Con matlab operando matrices con los tres pesos: W2(t+1) = [0.6924 0.0503 -0.5947] + 0.1/4*2 *[-1.5431 -2.5790 0.5715 0.6642]*[ 0.9895 -0.9687 0.7359; 1.0000 -0.9916 -0-9958; -0.7611 0.9916 -0.9438; 0.9770 0.9687 -1.0000] = 0.4330 0.2491 -0.5168 Que son los valores obtenidos con matlab neural networks. CALCULO DEL UMBRAL DE LA CAPA DE SALIDA b2(t+1) =b2(t) - /4*(-2)*(t objetivo – a2 salida red) Que es la unión de las dos ecuaciones, respectivas, de los pasos 4.1 y 4.3 presentadas anteriormente en el Marco Teórico, donde C se ha reemplazado por el superíndice 2. =0.3443 + 0.1/4*(2) suma [ -1.5431] =0.3443 + 0.05(-4.2148] =0.1335 -2.5790 0.5715 -0.6642 CALCULO DE LOS PESOS DE LA CAPA DE ENTRADA A LA CAPA OCULTA W1(t+1)=w1(t)+/(4)*(F.1(n1)(W2)T s2 (t objetivo – a2 salida red)* pT entrada red); donde (F.1(n1)= 1 – (a)2 para la función tansig; s1 =  (F.1(n1)(W2)T s2 Que es la unión de las dos ecuaciones, respectivas, de los pasos 4.2 y 4.3 presentadas anteriormente en el Marco Teórico, donde c-1 se ha reemplazado por el superíndice 1. Operando matrices con matlab se tiene: Para -1.2071 y 0.6452: [1 – (a1) 2] (W 2)T s2 [(1 –(.9895)^2); (1 –(1)^2); (1 –(.7611)^2); (1 –(.977)^2)]*[0.6924] T[3.0862; 5.1580;-1.1430;1.3284] = 0.0446; 0; 0.3320; 0.0418 (conocido como s1) W

1

(t+1)=-1.2071 -0.1*[0.0446; 0; 0.3320; 0.0418]*[-1;-1;2;2]= -1.2071-

[+0.00446;0; -0.06658; -0.00836]/4 = -1.2071+0.0157= -1.1914 W

1

(t+1)= 0.6452 - 0.1*[0.0446; 0; 0.3320; 0.0418]*[0;5;0;5]= 0.6452 -

[0;0;0; 0.0209]/4 = 0.6452 - 0.005225= 0.6399

291

Igual para los demás pesos de la capa entrada a la capa oculta: 1.6014 para obtener 1.6016; y de -0.1324 para obtener -0.1335; Asimismo, para -0.9043 para a obtener -0.9297 y de -0.8040 para obtener 0.8007.

CALCULO DE LOS UMBRALES DE LA CAPA OCULTA b1(t+1) =b1(t) - /4 s1 Que es la unión de las dos ecuaciones, respectivas, de los pasos 4.2 y 4.3 presentadas anteriormente en el Marco Teórico, donde c-1 se ha reemplazado por el superíndice 1. Para b de la neurona 1 de la capa oculta: 1.4154: b1(t+1)=1.4154 – 0.1 /4*(0.0446+ 0 + 0.3320 + 0.0418) = 1.4216 Para b de la neurona 2 de la capa oculta: -0.4697: b1(t+1)=-0.4697 – 0.1 /4*( 0.0160 ) = -0.4701 Para b de la neurona 1 de la capa oculta: 0.0372: b1(t+1)=0.0372 – 0.1 /4*( -0.796 ) = 0.0571 Con base a los cálculos realizados se puede elaborar la programación en matlab que permita obtener los resultados, que da el neural network de matlab; ello es importante para poder desarrollar las modificaciones con base a la red neuronal que se desarrolle.

292

ANEXO 4 Detalle de cálculos con Redes Neuronales con Funciones de Base Radial A continuación se presentan los cálculos que se dan para una Red Neuronal RN con funciones de base radial, tanto para el caso de

RN

Diseño Exacto(newrbe de Matlab) como en el de RN de Regresión Generalizada, y seguidamente el detalle para la metodología presentada: En un caso simple se RN con Función de Base Radial FBR de aprendizaje híbrido: Dados: Entrada de P = [4 5 6]; y salida T = [1.5 3.6 6.7]; Encontrar la red neuronal: de Función de Base Radial con aprendizaje híbrido; capa oculta aprendizaje no supervisado y capa de salida con aprendizaje supervisado que permite obtener la salida T dados las entradas P. Para el primer ciclo se tiene lo siguiente trabajando con Matlab Neural Networks; y corroborando resultados con calculadora de mano o con operaciones con matrices en computadora: / P=[ 4 5 6]; / T=[1.5 3.6 6.7]; / net=newrbe(P,T); La arquitectura de la red es, ver siguiente Figura:

293

C.Entrada

C.Oculta

C.Salida

Si W No W

FBR

Figura 46. Red Neuronal de Función de Base Radial

Donde los pesos y umbrales determinados por el matlab son: / net.iw{1,1} /= 4; 5; 6 Pesos de la capa oculta, se aprecia que son por definición iguales a P / net.b{1} /= 0.8326; 0.8326; 0.8326 Umbrales de la capa oculta, se aprecia que son por definición valores que permiten obtener 0.5 de área bajo la curva radial (radbas) / net.lw{2,1} /= 0; -0.6533; 5.5467 Pesos de la capa de salida calculados con base al aprendizaje supervisado >> net.b{2} / = 1.4800 Umbral de la capa de salida calculado con base al aprendizaje supervisado Comandos en Matlab para el entrenamiento: Es muy simple, sólo se dan los valores de Entrada P y Salida T ; y a continuación se procede a construir la Red.

294

Aspectos importantes de la Red así construida son: architecture: numInputs: 1 numLayers: 2 biasConnect: [1; 1] inputConnect: [1; 0] inputs: {1x1 cell} of inputs layers: {2x1 cell} of layers outputs: {1x2 cell} containing 1 output targets: {1x2 cell} containing no targets biases: {2x1 cell} containing 2 biases inputWeights: {2x1 cell} containing 1 input weight layerWeights: {2x2 cell} containing 1 layer weight weight and bias values: IW: {2x1 cell} containing 1 input weight matrix LW: {2x2 cell} containing 1 layer weight matrix b: {2x1 cell} containing 2 bias vectors Seguidamente se introduce una nueva Entrada y se calcula con la Red el resultado: /net=newrbe(P,T); / Pe = 4.5; /v= sim(net,Pe) /v = 2.0967

Como resultado de haberse ejecutado la simulación, los parámetros de los pesos y umbrales se mantienen. Cálculos con calculadora o con Matlab, pero sin el Neural Networks; para apreciar los cálculos que se dan al interior de este tipo de red. CALCULO DE LOS PESOS DE LA CAPA OCULTA En la capa se crean tantas neuronas como vectores de entrada P se tienen; en este caso 3; asimismo, los valores para este tipo de red son los de la transpuesta de los vectores de entrada P’. Por tanto sus valores de net.iw{1} con [4; 5 ; 6].

295

CALCULO DEL UMBRAL DE LA CAPA OCULTA En la capa se crean tantos umbrales como neuronas se tiene en la capa; en este caso 3; asimismo, los valores para este tipo de red son los que permite que cuando se calcula la función de transferencia se obtenga 0.5 bajo la curva, por tanto sus valores son iguales y son net.b{1} con [0.8326; 0.8326; 0.8326}. Cálculo de salida de capa oculta a1: a1 = f1 ║dist║) ; donde f1 es la función de Gauss; aunque, también podría er la inversa cuadrática o la inversa multicuadrática, según el caso. Lo más utilizado es la función de Gauss. Por otro lado dist es la distancia entre los centros y los valores de entrada P; en este caso los centros son los pesos de la capa Calculo de la distancia con el comando dist de matlab / dist(net.iw{1,1},P) /= 0

1

2

1

0

1

2

1

0

Se calcula la distancia Euclidea, que en este caso equivale a restar cada valor del peso menos la entrada P, calculando el valor absoluto y se obtienen los nueve valores. /F1=dist(net.iw{1,1},P) /F1 =0

1

2

1

0

1

2

1

0

Con el commando netprod se calculan los productos elemento a elemento: /netprod(F1(2,:),net.b{1}') /= 0.8326

0

0.8326

/netprod(F1(1,:),net.b{1}')

/ =0

0.8326

1.6651

/netprod(F1(2,:),net.b{1}') / = 0.8326

0

0.8326

296

/netprod(F1(3,:),net.b{1}') /=.6651

0.8326

0

Seguidamente se calcula la function de Gauss con el commando radbas de matlab: /radbas(netprod(F1(1,:),net.b{1}')) / =1.0000

0.5000

0.0625

/radbas(netprod(F1(2,:),net.b{1}')) /= 0.5000

1.0000

0.5000

/radbas(netprod(F1(3,:),net.b{1}')) / = 0.0625

0.5000

1.0000

Seguidamente se tiene la matriz completa de salidas de la capa oculta: A=[radbas(netprod(F1(1,:),net.b{1}'));radbas(netprod(F1(2,:),net.b{1}'));radba s(netprod(F1(3,:),net.b{1}'))] A =1.0000

0.5000

0.0625

0.5000

1.0000

0.5000

0.0625

0.5000

1.0000

Calculo de pesos y umbral de la capa de salida Para ello se toman en cuenta las igualdades siguientes: [net.lw{2,1} b{2}] * [A; ones) = T ; y que wb =T/[P; ones (1,Q)], con Q=3 para este caso. Entonces se tiene: /A1=[A ones(3,1)] /A1 =1.0000

0.5000

0.0625

1.0000

0.5000

1.0000

0.5000

1.0000

0.0625

0.5000

1.0000

1.0000

Y resolviendo por el método de la seudoinversa, o comando \ en matlab se tiene: / w=A1\T' /w = 0; -0.6533; 5.5467; 1.4800 Que son los valores de los pesos y umbral respectivamente.

Obtención del valor de la simulación, teniendo en cuenta que el valor de Entrada nuevo es Pe=[4.5] y se obtiene 2.0967, se tiene: /dist(net.iw{1,1},Pe)

297

/ =0.5000 0.5000 1.5000 /netprod(dist(net.iw{1,1},Pe),net.b{1}) /= 0.4163 0.4163 1.2488 /radbas(netprod(dist(net.iw{1,1},Pe),net.b{1})) /= 0.8409 0.8409 0.2102 /Z=[0;-0.6533;5.5467]; /R=radbas(netprod(dist(net.iw{1,1},Pe),net.b{1})); /Y=netprod(R,Z) /=

0

-0.5494 1.1661 /sum(Y) /= 0.6167 /Ys=sum(Y)+net.b{2} /Ys =2.0967

Detalle de cálculos de la Red de Regresión Generalizada, para los mismos datos. Seguidamente procedemos a obtener el detalle de los cálculos. Empezamos con la construcción de la Red. Las principales características son: >> net=newgrnn(P,T) architecture: numInputs: 1 numLayers: 2 biasConnect: [1; 0] inputConnect: [1; 0] inputs: {1x1 cell} of inputs

298

layers: {2x1 cell} of layers outputs: {1x2 cell} containing 1 output targets: {1x2 cell} containing no targets biases: {2x1 cell} containing 1 bias inputWeights: {2x1 cell} containing 1 input weight layerWeights: {2x2 cell} containing 1 layer weight weight and bias values: IW: {2x1 cell} containing 1 input weight matrix LW: {2x2 cell} containing 1 layer weight matrix b: {2x1 cell} containing 1 bias vector Donde la simulación permite obtener: v=sim(net,Pe) v =3.0111 Los parámetros son: /net.iw{1,1} ans = 4 5 6 /net.b{1} ans = 0.8326 0.8326 0.8326 /net.lw{2,1} ans = 1.5000

3.6000

6.7000

/ net.b{2} ans = [] Los parámetros de pesos y umbrales son por definición daos en los datos de entrada y salida. El umbral de la capa de salida no existe por definición Los cálculos para obtener el valor simulado son:

299

/ F1=dist(net.iw{1,1},Pe) /F1 = 0.5000 0.5000 1.5000 / radbas(netprod(F1(1,:),net.b{1}(1,1)')) ans = 0.8409 / radbas(netprod(F1(2,:),net.b{1}(2,1)')) ans = 0.8409 /radbas(netprod(F1(3,:),net.b{1}(3,1)')) ans = 0.2102 /A=[radbas(netprod(F1(1,:),net.b{1}(1,1)'));radbas(netprod(F1(2,:),net.b{1}(2,1)') );radbas(netprod(F1(3,:),net.b{1}(3,1)'))] A= 0.8409 0.8409 0.2102 / Aout=normprod(net.lw{2,1},A) Aout = 3.0111

300

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.