ESTUDIO DE TÉCNICAS ICA PARA LA SEPARACIÓN DE MEZCLAS DE SEÑALES ACÚSTICAS Incluye aplicacion de descargas parciales

July 15, 2017 | Autor: Carlos Boya | Categoría: Audio Signal Processing, Procesamiento De Señales, Analisis de componentes independientes, Separacion ciega de fuentes, Descargas parciales

Share Embed

Laporkan tautan ini

Descripción

UNIVERSIDAD CARLOS III DE MADRID ESCUELA POLITECNICA SUPERIOR

MÁSTER EN INGENIERÍA ELÉCTRICA, ELECTRÓNICA Y AUTOMÁTICA

TESIS DE MÁSTER

ESTUDIO DE TÉCNICAS ICA PARA LA SEPARACIÓN DE MEZCLAS DE SEÑALES ACÚSTICAS

AUTOR: Carlos Allan Boya Lara

TUTOR: Marta Ruiz-Llata

Leganés, 18 de junio de 2011

1

AGRADECIMIENTOS Agradezco a mi familia, que sin su apoyo no hubieran cumplido este objetivo. Doy gracias a la Secretaria Nacional de Ciencia, Tecnología e Innovación (SENACYT) y al Instituto para la Formación y Aprovechamiento de Recursos Humanos (IFARHU), dos importantes instituciones del Gobierno de la Panamá, las cuales han creído en mí y me han apoyado económicamente. A mi tutora Marta Ruiz-Llata que me ha apoyado en todo, ha tenido mucha paciencia, desde el primer momento ha creído en mis ideas y me ha enseñado a investigar. Por último, agradezco el apoyo de todos mis amigos. No menciono el nombre de ninguno porque no quiero dejar a nadie fuera.

2

RESUMEN En este trabajo se realiza un estudio sobre técnicas que enfrentan el problema de la separación ciega de mezclas acústicas. El estudio se centra en el enfoque dado por Análisis de Componentes Independientes o ICA (siglas en ingles, de Independent Component Analysis) donde se asume que las fuentes que forman la mezcla son mutuamente independientes. Para comprender las bases fundamentales de ICA se realizará un estudio teórico enfocado en dos tipos de mezclas: instantáneas y convolutivas. Aquí se describe el funcionamiento de los algoritmos más importantes utilizados en ICA: FASTICA e INFOMAX tomando en cuenta sus virtudes y limitaciones. Para analizar la operación de los algoritmos FASTICA e INFOMAX se realizaran pruebas utilizando mezclas sintéticas, lo que nos permitirá evaluar su rendimiento utilizando varios índices de evaluación. parámetros iniciales.

Además, se estudiará el efecto de los

Las conclusiones de estas pruebas nos ofrecerán un marco

operativo de los algoritmos que nos servirán para enfrentar la separación de señales provenientes de mezclas reales. Seguido a las evaluaciones presentadas, se realizaran pruebas con mezclas de audio grabadas en un cuarto y mezclas de señales ultrasónicas emitidas por descargas parciales con el objetivo de probar los algoritmos en entornos reales.

3

NOTACIÓN A continuación se muestran los símbolos más utilizados:

A

Matriz de mezclado con elementos aij

A(z)

Matriz de mezclado de filtros con elementos Aij ( z )

D

Matriz diagonal

D(. .)

Divergencia Lullback-Leibler

E[.]

Valor esperado o expectación

g(.)

Función de transformación no lineal

H(.)

Entropía

I

Matriz identidad

I(.)

Información mutua

J(.)

Negentropía

M

Número de fuentes

N

Numero de mezclas o sensores

P(.)

Probabilidad

p(.)

Función de densidad de probabilidad

s(t)

Vector de fuentes independientes s(t)= [s1 (t ), s2 (t ),..., sM (t )]T

t

Índice de tiempo o muestra

u(t)

Vector de fuentes estimadas u(t)= [u1 (t ), u2 (t ),..., uM (t )]T

w

Vector de pesos

W

Matriz de pesos

X

Variable aleatoria con limitados estados

x(t)

Vector de mezclas x(t)= [x1 (t ), x2 (t ),..., xN (t )]T

y(t)

Vector

de

salidas

de

la

red

neuronal

y(t)= [y1 (t ), y2 (t ),..., yM (t )]T

ϕ(.)

Función de activación

ϕ(u)

Matriz de transformaciones por la función de activación

ϕ(u) = [ϕ( u1 ), ϕ( u2 ),...ϕ( uM )]T Operador de norma 4

CONTENIDO AGRADECIMIENTOS .................................................................................................... 2 RESUMEN ....................................................................................................................... 3 NOTACION ..................................................................................................................... 4 1.

CAPITULO. PROBLEMA Y OBJETIVOS ......................................................... 7 1.1

PLANTEAMIENTO DEL PROBLEMA DE INVESTIGACION .................... 7

1.2

MOTIVACION .................................................................................................. 9

1.3

OBJETIVOS .................................................................................................... 10

1.4

ESTRUCTURA DEL DOCUMENTO ............................................................ 10

2.

CAPITULO. ALGORITMOS PARA ICA.......................................................... 12 2.1

ANALISIS DE COMPONENTES INDEPENDIENTES................................ 12

2.1.1

DESCRIPCION GENERAL DE ICA ...................................................... 12

2.1.2

INDEPENDENCIA ESTADISTICA ....................................................... 15

2.2

ALGORITMOS PARA ICA ............................................................................ 15

2.2.1

FASTICA ................................................................................................. 16

2.2.2

INFOMAX ............................................................................................... 20

2.3

ICA PARA MEZCLAS CONVOLUTIVAS ................................................... 26

2.3.1

MODELO ICA PARA MEZCLAS CONVOLUTIVAS ......................... 27

2.3.2

ALGORITMO INFOMAX PARA MEZCLADO CONVOLUTIVO ..... 28

2.4 3.

RESUMEN Y CONCLUSIONES ................................................................... 32 CAPITULO. METODOLOGIA .......................................................................... 35

3.1

HERRAMIETAS PARA EL ESTUDIO DE LOS ALGORITMOS. .............. 35

3.2

INDICES DE EVALUACION ........................................................................ 35

3.2

SEPARACION DE MEZCLAS SIMULTÁNEAS ......................................... 37

3.2

EVALUACION DEL ALGORITMO FASTICA ........................................ 38

3.3

EVALUACION DEL ALGORITMO INFOMAX ...................................... 50

5

3.3

MEZCLAS CONVOLUTIVAS ...................................................................... 58

3.4.1 3.4 4.

EVALUACION DEL ALGORITMO TORKKOLA ............................... 58 CONCLUSIONES ........................................................................................... 61

CAPITULO. APLICACIONES DE ICA EN ENTORNOS REALES ............... 63 4.1

SEPARACION DE SEÑALES DE AUDIO ................................................... 63

4.2

SEPARACION DE SEÑALES ULTRASONICAS EN UN EXPERIMENTO

DE SIMULACION ACUSTICA GENERADAS POR DESCARGAS PARCIALES 68 4.2.1

DESCRIPCION DEL BANCO DE ENSAYOS ...................................... 69

4.2.2

ADQUISICION DE LAS SEÑALES DE REFERENCIA. ..................... 70

4.2.3

RESULTADOS ........................................................................................ 71

4.3 5

CONCLUSIONES ........................................................................................... 76

CAPITULO. CONCLUSIONES Y TRABAJO FUTURO ..................................... 77 5.1

CONCLUSIONES ........................................................................................... 77

5.2

TRABAJO FUTURO ...................................................................................... 78

REFERENCIAS ............................................................................................................. 80

6

1. CAPITULO. PROBLEMA Y OBJETIVOS 1.1

PLANTEAMIENTO DEL PROBLEMA DE INVESTIGACION

En este trabajo se realiza un estudio sobre técnicas que enfrentan el problema de la separación ciega de mezclas de señales acústicas. Por separación ciega se entiende que no se tiene conocimiento de las fuentes que forman la mezcla y tampoco de los parámetros de mezclados. El estudio se centra en el enfoque dado por Análisis de Componentes Independientes o ICA (siglas en ingles, de Independent Component Analysis) donde se asume que las fuentes son mutuamente independientes. El problema típico es el llamado: “coctail-party problem.”. Es uno de los problemas insignia que abarca el área de separación ciega de señales o BSS[1] (siglas en inglés de Blind Signal Separation) donde se establecen principios, métodos y técnicas que tienen como objetivo encontrar fuentes originales latentes en mezclas, sin información a priori de las fuentes o de cómo se realizó ésta. Por ejemplo, si tenemos en un cuarto a tres personas conversando simultáneamente y grabamos la conversación con el objetivo posterior de separar cada una de sus voces (Figura 1.1), tendríamos que tener información sobre cada una de estas voces o información sobre el canal. En el coctail party problem, se describe el problema de extracción o separación, pero sólo utilizando la información suministra por los micrófonos. Es decir, obtener las fuentes con poca o ninguna información sobre ellas o del canal.

7

Figura 1.1. Tres personas conversando y siendo grabadas por tres micrófonos. Donde si son las fuentes y mezclas.

xi

las

BSS no sólo enfrenta el problema de mezclado voz, sino cualquier situación donde exista un mezclado se señales y se necesite extraer o separar las fuentes que han formado la mezcla. En la bibliografía, se han identificado cuatro enfoques para BSS[2]: -Uso de la estructura temporal de las fuentes. -Separar a través de características de las señales como: espacio, tiempo y frecuencia. -No estacionalidad de las señales. -Medición de la independencia estadística de las señales. De estos cuatro enfoques el más utilizado es el que explota la independencia estadísticas de las señales. Su principal ventaja es que puede tratar con señales no gaussianas, y de esta forma, afrontar el problema de BSS de manera mucho más general. Este enfoque fue propuesto por Pierre Common en 1994[3] y es llamado Análisis de componentes independientes o ICA (Siglas en ingles, Independent Component Analysis).

En su propuesta introdujo una manera para separar mezclas en sus

componentes estadísticamente independientes. El enfoque ICA ha sido utilizado para una gran cantidad de áreas y aplicaciones, tales como[4]: separación o extracción de voces (coctail party problem), extracción de características o patrones, procesamiento de señales en biomédica, análisis acústicos en ambientes industriales, detección de señales sísmicas, predicción de series en el tiempo en finanzas, mejoramiento de señales en telecomunicaciones, etc.

8

1.2

MOTIVACION

Como hemos discutido anteriormente, el problema de obtener fuentes originales a partir de mezclas es difícil de enfrentar y seria muy valioso solucionarlo. Con este objetivo en mente, podemos utilizar Análisis de Componentes Independientes (ICA) que propone una solución muy general al problema de mezclado. ICA es base fundamental de algoritmos que tienen una sólida base matemática, que los hace muy robustos para enfrentar todo tipo de problema de mezclado de señales. Análisis de Componentes Independientes ofrece soluciones cuando se trabaja con poca información sobre un fenómeno que se desea medir. En el caso de señales acústicas ha sido utilizado con éxito en muchas aplicaciones prácticas. Como un ejemplo de aplicación para ICA podemos utilizarlo para solucionar problemas presentados en uno de los proyectos del grupo de investigación de optoelectrónica y tecnología laser (GOTL) de la Universidad Carlos III de Madrid. Dentro del grupo se está realizando un proyecto de investigación sobre la detección e identificación de descargas parciales en los transformadores. En el marco de este proyecto se ha creado un entorno que emula la cuba de un transformador y puntos de generación de descargas parciales. Estos puntos generan ondas acústicas ultrasónicas que se propagan por toda la cuba y que son medidas por sensores externos. Esta situación es similar al coctail party problem. Cuando se realizan las medidas, lo que se capta es una copia distorsionada de las fuentes debido a la interferencia entre las múltiples señales generadas. ICA puede ser aplicada en este entorno y solucionar este problema separando las mezclas en sus fuentes acústicas originales.

9

1.3

OBJETIVOS

-Realización de un estudio teórico sobre la separación de fuentes utilizando algoritmos basados en ICA. -Implementar un banco de ensayos de algoritmos basados en ICA enfocados a la separación de mezclas de señales acústicas donde se consideren dos situaciones: la primera en la que no hay retardos entre las señales (mezclas instantáneas) y la segunda en la puedan existir retardos entre las señales (mezclas convolutivas), - Evaluar el desempeño de los algoritmos mediante mezclas de señales sintéticas y realizar un estudio de la optimización de los parámetros tanto de las señales (tales como la frecuencia de muestreo o su duración del intervalo de tiempo) como de los algoritmos (tales como tasa de aprendizaje, función de activación, etc) -Evaluar el desempeño de los algoritmos en mezclas de señales reales de audio y ultrasónicas.

1.4

ESTRUCTURA DEL DOCUMENTO

En el capítulo 2 desarrollaremos un estudio teórico sobre ICA y los algoritmos más importantes utilizados con este enfoque. Iniciaremos explicando que es Análisis de componentes independientes; revisaremos algunos conceptos básicos de teoría de la información fundamentales para la comprensión de los algoritmos; describiremos los algoritmos para ICA con sus virtudes y sus limitaciones; y terminaremos con una revisión de publicaciones sobre aplicaciones de estos algoritmos. En el capítulo 3 se describirá la implementación de los algoritmos FASTICA e INFOMAX para mezclas sintéticas y convolutivas. Para analizar su operación en la separación las mezclas serán creadas de manera sintética a partir de fuentes acústicas independientes, lo que nos permitirá evaluar su rendimiento utilizando índices de evaluación. Además, se estudiará como afecta la operación diferentes valores en los parámetros iniciales como: la tasa de aprendizajes, funciones de aproximación y activación, tipo de señales fuentes y de mezclados. Este estudio nos ofrecerá un marco operativo de los algoritmos para luego enfrentarnos a señales provenientes de mezclas reales.

10

Una vez implementados los algoritmos FASTICA e INFOMAX y evaluadas sus prestaciones se utilizaran estas implementaciones para la separación de mezclas provenientes de entornos reales. Se probaran sobre mezclas de audio grabadas en un cuarto y para separar mezclas de señales ultrasónicas generadas por descargas parciales simuladas Estas aplicaciones y sus resultados se describen en el capítulo 4. Finalmente en el capitulo 5 se expondrán las conclusiones finales sobre el trabajo y se propondrán líneas futuras de investigación.

11

2. CAPITULO. ALGORITMOS PARA ICA 2.1

ANALISIS DE COMPONENTES INDEPENDIENTES

2.1.1 DESCRIPCION GENERAL DE ICA

Para entender el funcionamiento de ICA, realizamos un análisis asumiendo un mezclado simultáneo. En esto caso, estudiamos el coctail party problem, despreciando los ecos y reverberaciones.

En este caso sólo tendríamos en cada micrófono una

combinación ponderada de cada señal de voz, es decir, la intensidad de cada señal dependerá de la distancia entre cada fuente y sensor. De esta manera, podemos modelar matemáticamente esta situación como: x1 (t ) = a11s1 (t ) + a12 s2 (t ) + a13 s3 (t ) x2 (t ) = a21s1 (t ) + a22 s2 (t ) + a23 s3 (t )

(2.1)

x3 (t ) = a31s1 (t ) + a32 s2 (t ) + a33 s3 (t )

Donde x1 (t ) , x2 (t ) y x3 (t ) son las grabaciones en cada instante t tomadas por los micrófonos, las cuales llamaremos mezclas xi (t ) ; s1(t) s2 (t) y s3 (t) son las señales provenientes de cada individuo que llamaremos fuentes si (t ) . Para generalizar este problema no limitaremos las señales emitidas por las fuentes, sólo a voces sino a cualquiera señal que puede sufrir los efectos de mezclado. De esta manera no sólo mediremos con micrófonos, sino con cualquier otro tipo de sensor. Los coeficientes aij con i, j = 1, 2,3 , se denominan parámetros de mezclado y representan la contribución de cada fuente a cada mezcla xi (t ) . El valor de estos parámetros dependerá de la distancias entre los individuos y los sensores. Podemos simplificar la ecuación (2.1) utilizando notación matricial, de manera que el proceso de mezclado lo expresamos como:

(2.2)

x(t) = As(t)

12

Donde

x (t ) = [ x1 (t ), x2 (t ),..., xN (t )]T ,

s(t ) = [ s1 (t ), s2 (t ),..., sM (t )]

T

 a11 … a1N  Y A =  ⋮ ⋱ ⋮  a   M 1 ⋯ aMN 

Y M y N representan el número de fuentes y de mezclas respectivamente. Si los parámetros de mezclado aij fueran conocidos, el sistema de ecuaciones lineales sería resuelto invirtiendo el sistema de la siguiente forma s (t ) = A−1 x (t )

(2.3)

Sin embargo, estos parámetros no se conocen, ni tampoco las fuentes.

El

desconocimiento de las fuentes y los parámetros de mezclados se conoce con el término “blind” o ciego (en español). Para resolver este problema Análisis de Componentes Independientes (ICA) utiliza una transformación lineal W , tal que:

u(t ) = Wx (t )

(2.4)

Donde u(t ) = [u1 (t ),..., uM (t )]T es una estimación de s (t ) y  w11 … w1N    W = ⋮ ⋱ ⋮  .es una matriz de pesos w   M 1 ⋯ wMN 

En el caso donde las estimaciones son iguales las fuentes, u (t ) = s (t ) ) entonces W = A −1 . ICA no puede garantizar esta igualdad ya que se desconoce el orden exacto y

la amplitud de las fuentes, sin embargo puede proporcionar unas formas de onda las cuales tienen la información que nos interesa. Para conseguir este objetivo, en ICA se 13

asume que las fuentes son independientes. De esta manera se adapta la matriz de pesos W por medio de una regla de adaptación que busca la independencia estadística entre

las salidas ui (t ) . En el caso óptimo obtenemos: W = ΛPA −1

Donde Λ es una matriz diagonal no singular, P es matriz permutación y A−1 es la inversa de la matriz de mezclado. Así obtenemos las formas de onda de las fuentes en diferente orden al que fueron mezclas y escaladas. Para estimar W , la regla de búsqueda de independencia puede estar enfocada en alguno de los siguientes criterios: -Maximización de la No gaussianidad. -Estimación de la máxima verosimilitud. -Análisis no lineal de componentes principales. -Métodos tensoriales -Minimización de la mutua información. -Maximización de la información Todos estos criterios están relacionados entre sí y su operación puede ser expresado mediante la siguiente expresión [5]:

Método ICA = función objetivo + algoritmo de optimización

Donde la función objetivo es alguna regla o función que mide la independencia y que se busca maximizar o minimizar bajo algún tipo de restricción.

El algoritmo de

optimización es algún método como gradiente descendiente, natural o Newton para buscar esta maximización o minimización. Todos estos métodos buscan como objetivo general la independencia estadística entre las salidas, y su elección depende de las propiedades estadísticas de la función objetivo y de la velocidad de convergencia, requerimientos de memoria, estabilidad numérica, etc., que ofrece el algoritmo de optimización escogido.

14

2.1.2 INDEPENDENCIA ESTADISTICA

Un concepto clave que constituye el fundamento de ICA es la independencia estadística, la cual es definida en términos de densidades de probabilidad. Si tenemos dos variables aleatorias x y y , se dicen que son independientes si y sólo si[6]:

p ( x, y ) = p ( x ) p ( y )

(2.5)

Donde p ( x, y ) es la densidad de probabilidad conjunta de x y y ; p ( x ) y p ( y ) la densidades marginales de x y y , respectivamente. En otras palabras, la densidad conjunta p ( x, y ) debe ser factorizable en los productos de sus densidades marginales p ( x ) y p ( y ) para que las dos variables sean consideradas independientes entre si.

Una manera mas práctica para entender la independencia es expresada así: “Si una variable no da ninguna información que permita conocer otra variable se dice que son totalmente independientes”. En otras palabras dos variables son independientes si no tienen ninguna relación entre ellas. Esta relación no sólo debe ser lineal, sino tener en el ámbito de la no linealidad. De esta manera, si se logra eliminar correlaciones lineales no basta para decir que son independientes, ya que existen otras correlaciones no lineales que podrían no ser cero. Aquí es donde el enfoque ICA es tan robusto, pues la búsqueda de independencia va más allá de una decorrelación lineal.

2.2

ALGORITMOS PARA ICA

En nuestra revisión bibliográfica hemos encontrado que los algoritmos FASTICA e INFOMAX, basados en ICA son los mas representativos y populares para aplicaciones con mezclas reales. Además de esto son los que han sido llevados a aplicaciones embebidas[7].

15

2.2.1 FASTICA

El algoritmo FASTICA fue desarrollado en el Laboratorio de Información y Ciencias Computacionales de la Universidad Tecnológica de Helsinki, por Hugo Gvert, Jarmo Hurri, Jaakko Srel y Aapo Hyvarinen. Este algoritmo busca la independencia basándose en la medida de la no gaussianidad. Según el teorema de límite central[8] si mezclamos dos o mas señales independientes, la mezcla resultante será mas gaussiana que las señales originales. Recordando el coctail party problem, los micrófonos grababan mezclas de señales de voz. Estas mezclas son más gaussianas que las señales originales. El algoritmo FASTICA lo que busca es revertir este proceso de mezclado. Recordando la ecuación (2.4)

u(t)= Wx(t)

Donde x(t) son las mezclas, u(t) son las estimaciones y W la matriz de pesos. FASTICA busca que Wx (t) sea lo menos gaussiano posible cambiando los pesos W . Al hacerlo menos gaussiano logramos encontrar los componentes independientes, lo cuales son las estimaciones de nuestras fuentes. Para ello se utiliza una función que mide la no gaussianidad. Esta función es llamada Negentropía y se puede considerar como una medida de distancia entre la densidad de probabilidad de una variable gaussiana de referencia y la densidad de la variable a comprar. La Negentropía esta definida como[9]:

J (u) = H (ugauss ) − H (u)

(2.6)

Donde H (ugauss ) es la entropía de un vector gaussiano con igual varianza que el vector

u , H ( u) es la entropía de u .y donde hemos obviado el índice de tiempo. La Negentropía es siempre positiva, y es cero sólo cuando u tiene una distribución gaussiana. En FASTICA se toma la Negentropía de u y se verifica su distancia con respecto a la variable gaussiana. El objetivo es encontrar unos pesos que lleven al máximo de esta

16

distancia. Los pesos encontrados son los que conducen a los componentes independientes y a nuestras estimaciones de las fuentes. 2.2.2.1 EL ALGORITMO FASTICA

El algoritmo FASTICA no estima todos los componentes a la vez si no que lo hace secuencialmente. En la Figura 2.1 se muestra un esquema de como realiza la búsqueda de los componentes. En este ejemplo tenemos tres mezclas. Estas mezclas sufren un preproceso que será explicado más delante. Seguido las mezclas son multiplicadas por un vector de pesos, produciendo las estimaciones u . Este vector es utilizado para buscar el máximo de la Negentropía y generar unos nuevos pesos. Este proceso se repite hasta encontrar los pesos óptimos.

Figura 2.1. Proceso llevado a cabo por FASTICA para la búsqueda de un componente independiente.

El vector de pesos encontrados corresponde al primer componente independiente y es el primer máximo de la Negentropía.

Para encontrar los siguientes componentes,

utilizamos este mismo proceso pero debemos asegurarnos que no coincidamos con el peso previamente encontrado. Para lograr esto se hace un proceso llamado ortogonalización. Este proceso asegura que el siguiente vector de pesos sea ortogonal al encontrado previamente y de esta forma diferente e independiente. De esta manera el proceso descrito en el esquema se repite hasta encontrar todos pesos. En la Tabla 2.1 mostramos todos los pasos utilizados por el algoritmo FASTICA para encontrar los pesos y los componentes independientes.

17

Tabla 2.1. Pasos del algoritmo FASTICA

1

Centrar los datos para hacer su media cero

2

Crear un nuevo vector z al blanquear los datos

3

Iniciar búsqueda de los componentes desde p → 1 hasta M , donde p es el índice del componente y M la cantidad de componentes Escoger un vector aleatorio w p con norma unitaria

4 5

Iniciar un contador de iteraciones y guardar el vector de peso w p antes de la actualización Realizar la operación de actualización del vector de pesos

6

w p ← E { Zg (w pT z)} − E { g '(w pT z)} w p , donde g está definida en la Tabla 2.2 Normar los pesos encontrados para mantener varianza fija en la unidad

7

wp ← wp / wp p −1

Realizar la ortogonalización w p ← w p − ∑ (w pT w j )w j donde p el índice j =1

8

del vector de pesos actual y j es el índice de los vectores de pesos previamente encontrados.

wp ← wp / wp

9 10 11

Se compara el vector de pesos antes de la actualización con el peso actual. Si la diferencia es mayor del valor de convergencia volver al paso 6 Buscar el siguiente componente haciendo p ← p + 1 y volver al paso 3

Previamente hemos dicho que hay un preprocesado que deben sufrir las mezclas. Este preprocesado esta dividido en dos pasos: centrado y blanqueado. El centrado y el blanqueado aseguran que se puedan encontrar los componentes utilizando la Negentropía como medida. El centrado consiste en extraer la media de las mezclas:

x = x − E ( x)

18

Donde E(.) es la expectación o promedio. El blanqueado es una operación sobre las mezclas que produce un vector con varianza unitaria y donde sus elementos son ortogonales unos a los otros. El blanqueado se realiza de la siguiente manera: z = Vx

Donde

(2.7)

la

matriz

−

1 2

V = ED E T

y

está

formada

por

la

matriz

diagonal

D = diag (d1 ,..., dn ) con los eigenvalores de matriz de covarianza de las mezclas y E es una matriz ortogonal sus los eigenvectores, respectivamente. El nuevo vector z es una copia escalada y rotada de las mezclas, así que no hay una alteración sobre las fuentes que la componen. Después del centrado y blanqueado se inicia la búsqueda de los componentes. Se escogen un vector de pesos de manera aleatoria y después se normaliza. Este peso se guarda para comparación después de la actualización. El siguiente paso es la actualización de los pesos por medio de una regla basada en la Negentropía. Hyvarinen desarrollo la siguiente regla de actualización de pesos [10]

w ← E { zg ( w T z )} − E { g '( w T z )} w

(2.8)

Donde g y g ′ están especificadas en la Tabla 2.2 y E es la expectación. Este paso de actualización puede variar la varianza de u , por tal razón se vuelve a normar los pesos para mantener su varianza en la unidad. Como mencionamos antes, cuando buscamos cada componente es importante asegurarnos que no coincidamos con alguno previamente encontrado. Para esto se ortogonaliza con la siguiente operación: p −1

w p ← w p − ∑ (w p T w j )w j

(2.9)

j =1

Donde es p el índice del componente actual y j es el índice de cada uno de los componentes previamente encontrados. Se vuelve a normar y se procede a compararlo

19

con el peso guardado antes de la actualización. Si la diferencia entre el peso actual y el peso antes de la actualización es menor que el valor de convergencia se guarda el peso actual y se busca peso correspondiente al siguiente componente. Si la diferencia entre el peso actual y el previo a la actualización es mayor al valor de convergencia se sigue actualizando los pesos hasta que la diferencia sea menor que el valor de convergencia. El valor de convergencia sirve para comparar el cambio entre el valor antes y después de la actualización, que en la práctica se suele escoger con valor menor a 0.0001.

Tabla 2.2. Lista de funciones para aproximar la Negentropía

g

g'

G1

tanh( u)

(1 − tanh(u))

G2

u exp(−u2 / 2)

(1 − u2 ) exp(−u2 / 2)

G3

u3

u2

2.2.2 INFOMAX

El algoritmo INFOMAX[11] fue desarrollado por Anthony Bell y Terrence Sejnowski en 1995 y se basa en el principio maximización de la información de Linsker[12]. Este principio establece criterios de optimización en el proceso de transmisión de información entre la entrada y salida de una red neuronal. El principio establece que entre la capa de entrada y de salida de una red neuronal debe existir una función, tal que maximice la mutua información entre ellas y así alcanzar una transmisión óptima de la información en la red neuronal. Bell y Sejnowski demostraron que en el caso de bajo ruido la maximización de la mutua información entre las salidas y las entradas de la red, era equivalente a la maximización de la entropía conjunta de salidas de esta red. Este hecho, según Nadal y Parga[13] implica una distribución factorial de estas salidas. En otras palabras, la maximización de la transferencia información entre la entrada y la salida de una red neuronal minimiza la mutua información entre las salidas (código factorial). Por código factorial se entiende, que la densidad de probabilidad conjunta de las salidas es factorizable y por lo tanto estas salidas serían independientes entre sí. Recordando la sección 2.1.2 si una distribución conjunta de variables es factorizable en sus densidades marginales, esto es una indicación de independencia. 20

Bell y Sejnowski, siguiendo estos conceptos propusieron un modelo neuronal capaz de tomar las mezclas y separarlas en sus componentes independientes. En la Figura 2.2 mostramos el modelo para tratar tres mezclas xi .

Figura 2.2. Modelo neuronal INFOMAX para tratar tres mezclas con la transformación no lineal de cada salida

.

En este modelo observamos que cada salida ui es transformada en una nueva variable yi = g (ui ) . Esta transformación permite maximizar la entropía conjunta de todas las salidas yi con respecto a la matriz de pesos W . La entropía conjunta de las salidas de la red neuronal es igual a: h( y ) = ∫ p ( y ) log p ( y )dy

(2.10)

= E[ p ( y )] Donde el vector y = [ y1 , y2 ,... yM ]T es el vector de salidas y E[.] la expectación.

Cuando se alcanza el máximo de la entropía conjunta se reduce la mutua información entre las salidas haciéndolas independientes entre ellas:

ârg max h( y | W )

(2.11)

A partir de esta maximización, Bell y Sejnowski desarrollaron la siguiente regla de actualización para la matriz de pesos W [14]:

21

W ←  I + ϕ(u) uT  W

(2.12)

Donde W es la matriz de pesos, I es una matriz identidad, u son las estimaciones y el término ϕ( ) es llamado función de activación. La función de activación ϕ(u) opera sobre cada variable ui de manera independiente:

ϕ(u) = [ϕ( u1 ), ϕ( u2 ),...ϕ( uM )]T La función de activación ϕ(u) está relacionada con la función de transformación yi = g (ui ) por medio de[15]:

ϕ (ui ) =

1 ∂ 2 yi ∂yi ∂u 2i ∂ui

(2.13)

La elección de yi = g (ui ) influye de manera determinante en la operación del algoritmo. La función g (ui ) es no lineal, invertible y acota en amplitud a las variables ui . Además de estas características, para que esta transformación logre un óptimo comportamiento del algoritmo, debe tener la forma de la función de distribución cumulativa de las fuentes que forman la mezcla. Al contrario que en FASTICA, en el caso de INFOMAX es necesario, al menos intuir características estadísticas de la fuente. Una función sigmoidal, como la mostrada en la grafica a) de la Figura 2.3, cumple con las características necesarias para realizar la transformación. Es invertible, acota en amplitud y es monotónica. Si esta función es derivada obtenemos la forma de la grafica b) de la Figura 2.4. Esta es la forma de la densidad de distribución de probabilidad supergaussiana. En INFOMAX la transformación debe tener la forma de la densidad cumulativa de probabilidad de las fuentes (su derivada en la densidad de distribución de probabilidad) para que el algoritmo converja.

22

Figura 2.3. a) Función sigmoidal, la cual tiene forma de la función cumulativa de fuentes supergaussianas. b) La derivada de la función sigmoidal que corresponde a la forma de la densidad de probabilidad de fuentes supergaussianas.

En casos prácticos, normalmente inferimos de los datos la forma de distribución de probabilidad. Asumimos que son gaussianos, supergaussianos, subgaussianos, etc. Por tal razón es mejor utilizar la función de distribución que la forma de la función cumulativa o función de transformación. Una manera para relacionar la función de distribución P(u) = [ P(u1 ), P(u2 ),..., P(uM )]T y la función de activación ϕ(u) es dada por Amari y Cichocki en [16]:

ϕ( ui ) = −

d log p (ui ) du

(2.14)

Donde p (ui ) es la función de distribución de probabilidad para cada estimación. Cuando el algoritmo converge tenemos p (ui ) = p ( si ) , donde p ( si ) es la distribución de probabilidad de las fuentes. Como ejemplo: Si asumimos que las fuentes son supergaussianas, (característico de las fuentes de audio) podemos tomar una función de densidad de probabilidad laplaciana

p(ui ) = exp(− ui ) ya que se puede adaptar a las forma de distribución supergaussiana. Aplicando la operación de la ecuación (2.14) obtenemos la función de activación ϕ( ui ) = Sign(ui ) . En la grafica a) de la Figura 2.4 vemos la forma de distribución laplaciana y en la grafica b) la forma de su función de activación.

23

Figura 2.4. a) Función de distribución laplaciana. Esta distribución puede ser asumida para señales supergaussianas como las de audio. b) Función de activación derivada de la función de distribución laplaciana. Como se puede observar en una función signo

En la Figura 2.5 se muestran dos ejemplos de densidades para señales de voz y música. Comparando la función laplaciana con estas densidades podemos decir que son similares y que gracias a esto podemos utilizar la función de activación en este caso para estimar una mezcla de este tipo de fuentes. En la Tabla 2.3 [16] mostramos varias funciones de distribución de probabilidad

y sus funciones de activación,

respectivamente.

Figura 2.5. Izquierda: Distribución de una señal de voz. Derecha: Distribución de una señal de música.

24

Tabla 2.3. Funciones de densidad de probabilidad y sus funciones de activacion, respectivamente. El simbolo refiera a la varianza de la señal.

Nombre

Función de distribución

Función de

de probabilidad p (u )

activación ϕ (u )

2

Laplaciana

Cauchy Coseno Hiperbólico Sigmoidal

u 1 exp(− ) 2σ σ

Sign(u )

1

1 πσ 1 + (u / σ ) 2

2u σ + u2

1 π cosh(u / σ 2 )

tanh(u / σ 2 )

σ 2

1−

2 1 + exp(−u / σ )

2 tanh(u / σ )

1 − tanh(u / σ )2

Hiperbólico

generalizada

σ

exp(−u / σ ) (1 + exp(−u / σ )) 2

Tangente

Gaussiana

u

u 1 exp(− 2 ) 2σ 2πσ

Gaussiana

σ se

r

r 1 u exp(− ) 2σΓ(1/ r ) r σ

u

r −1

σr

Sign(u)

2.2.2.1 EL ALGORITMO INFOMAX

El algoritmo INFOMAX consta de pocos pasos. En la Tabla 2.4 se muestran estos pasos. El primer paso es centrar las mezclas retirándoles la media: x = x − E ( x)

Después se escoge una matriz de pesos W de manera aleatoria. A diferencia de FASTICA en INFOMAX se encuentran todos los pesos paralelamente. Después obtenemos una vector de salidas:

(2.15)

u = Wx

25

Guardamos los pesos antes de su actualización y utilizamos el vector de salida u para estimar los pesos: Wactual = Wanterior +  I - ϕ( u) uT  Wanterior

(2.16)

Si el cambio entre el peso actual y el anterior es menor al valor de convergencia detenemos el proceso y obtenemos las estimaciones por medio de la ecuación (2.15).

Tabla 2.4. Pasos del algoritmo INFOMAX.

2.3

1

Centrar los datos para hacer su media cero

2

Escoger un vector de pesos W de manera aleatoria.

3

u = Wx

4

Wactual = Wanterior +  I - ϕ(u)uT  Wanterior

5

Si Wactual -Wanterior > valor de convergencia volver al paso 3.

ICA PARA MEZCLAS CONVOLUTIVAS

Hasta ahora hemos considerado el caso de mezclado simultáneo de fuentes. En esta sección abordaremos el problema de mezclado convolutivo, donde a cada sensor le llegan copias distorsionadas de las emisiones de cada fuente debida las reflexiones y reverberaciones. En la Figura 2.6 puede observarse un ejemplo de este problema para el caso de dos fuentes y dos sensores. Los frentes de onda de cada emisión son modelados por rayos. Como puede observarse, hay rayos que cubren una mayor distancia debido a que no van directo a los sensores, sino a las paredes y de ahí a estos. Obviamente, estos rayos llegan con un atraso mayor que los rayos directos. Cada uno de estos rayos es una copia original de la fuente, pero que llega distorsionada a los sensores debido al medio. Este problema es mucho más complejo que el enfrentado en el caso simultáneo, ya que además de tratar con el mezclado directo de cada fuente, tenemos el mezclado de partes retrasadas de cada una de estas señales.

26

2.3.1 MODELO ICA PARA MEZCLAS CONVOLUTIVAS

Para resolver el problema de mezclado convolutivo y poder realizar la separación utilizando el enfoque ICA, se recurre a un modelo que abarque retardos. En este caso se pueden utilizar modelos ARMA (siglas en ingles de Autoregressive Moving Average Model) y adaptarlos a nuestro problema. Para los casos donde tenemos una cantidad de

M fuentes ( s (t ) = [ s1 (t ),..., sM (t )]−1 ) y una cantidad de N sensores que captan las mezclas ( x (t ) = [ x1 (t ),..., xN (t )]−1 ) , podemos utilizar el siguiente modelo [17], N K −1

xi = ∑∑ aijk s j (t − k )

(2.17)

j =1 k = 0

Donde s j son las fuentes, xi son las mezclas recibidas por los N sensores, k es el índice de retardo, t es el índice de tiempo discreto, M es el número de fuentes. Los aijk son los correspondientes coeficientes de mezclado que indican la contribución de la

fuente i en un instante (t − k ) a la mezcla j en el instante t . Este modelo, llamado MA (moving average) es parte de los modelos ARMA y es esencialmente un filtro de repuesta impulso finita o FIR (Finite Impulse Response). El modelo ve las mezclas como una versión filtrada y retardada de las fuentes.

Figura 2.6. Dos fuentes acústicas emitiendo sonido. Se muestras las trayectorias de los frentes de onda. Los sensores captan copias distorsionadas de las emisiones debido al medio.

27

En la práctica, estos coeficientes de mezclado pueden cambiar en el tiempo, pero por simplicidad a menudo son considerados estacionarios. En teoría, los filtros puede tener longitud infinita, sin embargo es suficiente con asumir que K < ∞ . Este modelo puede ser escrito en forma matricial: K −1

x(t ) = ∑ Ak s(t − k )

(2.18)

k =0

Donde Ak es una matriz M x N la cual contiene k ’s coeficientes. En el dominio de z , el modelo puede ser escrito, también como: X ( z ) = A( z ) S ( z )

(2.19)

Donde A( z ) es una matriz de polinomios FIR. Como en caso de mezclado simultáneo podemos realizar la asunción de independencia estadística y buscar una solución, sin embargo ahora nos enfrentamos a la inversión de múltiples matrices de polinomios. Una manera de resolver esto, es considerar como sistema de inversión, un filtro FIR o IIR y adaptar sus coeficientes siguiendo una regla de búsqueda de independencia hasta que se obtenga una versión aproximada de las fuentes. Con este enfoque existen dos arquitecturas utilizadas: FeedBack y FeedForward[18]. De cada una de ellas se puede extraer una regla de adaptación de pesos, de tal forma que se pueden estimar las fuentes. Es importante anotar que estos pesos, son los coeficientes de la inversión del canal de mezclado, algo que es muy útil si surge la necesidad de caracterizarlo. En este trabajo utilizamos el algoritmo propuestos por Kari Torkkola[19] basados en la arquitectura FeedBack e INFOMAX extendido para tratar con mezclas convolutivas.

2.3.2 ALGORITMO INFOMAX PARA MEZCLADO CONVOLUTIVO

En la Figura 2.7 mostramos un esquema del modelo representado la ecuación (2.19), X ( z ) = A( z ) S ( z ) para dos fuentes, despreciando el ruido en los sensores:

28

S1(z)

A11(z)

+

X1(z)

+

X2(z)

A12(z) A21(z)

S2(z)

A22(z)

Figura 2.7. Modelo de mezclado convolutivo para las fuentes.

Tanto en este esquema como en el siguiente análisis, todas las variables están transformadas al dominio de z . En este caso cada elemento de la matriz A( z ) es un polinomio de filtros FIR y puede ser escrito como: X 1 ( z ) = A11 ( z ) S1 ( z ) + A12 ( z ) S 2 ( z )

(2.20)

X 2 ( z ) = A21 ( z ) S1 ( z ) + A22 ( z ) S 2 ( z )

En (2.20) no conocemos Aij ( z ) ni las fuentes S j . Torkkola[19] propuso una arquitectura Feedback y una extensión del algoritmo INFOMAX para estimar fuentes que han sufrido un mezclado convolutivo. En la Figura 2.8 presentamos en un esquema la arquitectura propuesta de Torkkola. Las salidas de este sistema pueden ser expresadas como U1 ( z ) = W11 ( z ) X 1 ( z ) + W12 ( z )U 2 ( z )

(2.21)

U 2 ( z ) = W21 ( z ) X 2 ( z ) + W22 ( z )U 2 ( z )

Donde las U i ( z ) son las estimaciones de los componentes independientes y Wij los pesos. A estos pesos se les llama también: coeficientes del filtro. Cada uno de estos coeficientes es actualizado por una regla basada en INFOMAX, como veremos más adelante.

29

X1(z)

W11(z)

+

U1(z) W21(z)

W12(z)

X2(z)

W22(z)

+

U2(z)

Figura 2.8. Arquitectura FeedBack propuesta por Torkkola.

En el caso ideal, cada coeficiente debería llegar a la siguiente solución:

W11 ( z ) = A11 ( z ) −1 , W12 ( z ) = − A12 ( z ) A11 ( z ) −1

(2.22)

W22 ( z ) = A22 ( z )−1 , W11 ( z ) = − A21 ( z ) A22 ( z ) −1

Sin embargo, para una aplicación en línea esta solución tiene un problema. Cuando la regla busca los pesos directos W11 ,W22 , no sólo se estimará A11 ( z ) −1 , A22 ( z ) −1 sino que también blanqueará las fuentes, algo que hace que pierdan su forma de onda original. La estimación de los otros coeficientes depende de estas fuentes, así que debido a esta distorsión, éstos no podrán converger a la solución.

Para evitar este efecto, los

coeficientes W11 , W22 son forzados a ser constantes, normalmente con valor de uno. De esta manera la ecuación (2.21) queda de la siguiente forma: U1 ( z ) = X 1 ( z ) + W12 ( z )U 2 ( z )

(2.23)

U 2 ( z ) = X 2 ( z ) + W22 ( z )U 2 ( z )

Donde

W11 ( z ) = 1, W12 ( z ) = − A12 ( z ) A22 ( z ) −1

(2.24)

W22 ( z ) = 1, W11 ( z ) = − A21 ( z ) A11 ( z )−1

Con esta solución las estimaciones a las que converge el algoritmo serán una versión filtrada de las fuentes, como sigue: 30

A11S1 = U1

(2.25)

A22 S 2 = U 2

Para esta estructura la regla de actualización de pesos es la siguiente[20]:

∆wijk ∝ ϕ (ui (t ))u j (t − k )

(2.26)

Donde i y j son los índices de las mezclas, t es el número de muestra, k es el retardo y

ϕ (ui (t )) es la función de activación. En este caso cada estimación ui es igual a:

N

K

ui (t ) = xi (t ) + ∑∑ w jik u j (t − k )

(2.27)

j =1 k =1

Donde K es la longitud del filtro. Las ecuaciones están en el dominio del tiempo y trabajan en línea con los datos xi (t ) de entrada. Como ejemplo: si nuestra función de activación proviene de la función sigmoidal (Tabla 2.3):

ϕ (ui (t )) = 1 −

2 , 1 + exp( −ui )

Entonces, la regla será:

∆wijk ∝ (1 −

2 )u j (t − k ) 1 + exp(−ui )

(2.28)

En la Figura 2.9 mostramos en un esquema la estructura de Torkkola incluyendo la regla de actualización de pesos de la ecuación (2.28) y con los coeficientes W11 , W22 iguales a uno. Con este esquema podemos tomar las muestras de las señales de la mezclas y procesarlas en línea con el objetivo de estimar las fuentes independientes.

31

Figura 2.9. Este esquema muestra el algoritmo Torkkola para dos mezclas. En este esquema los filtros directos han sido igualados a uno y se ha utilizado la función de activación Sigmoidal.

2.4

RESUMEN Y CONCLUSIONES

Se ha realizado una revisión de los conceptos fundamentales en los que se basa la técnica de Análisis de Componentes Independientes, tales como independencia estadística, entropía y mutua información, así como el establecimiento del principal objetivo de este método: La búsqueda de componentes independientes latentes en una mezcla. De este método se derivan dos algoritmos: FASTICA e INFOMAX y utilizan la negentropía y la entropía como medidas de independencia, respectivamente. Para mezclado instantáneo tanto FASTICA como INFOMAX pueden operar y separar este tipo de mezclas, y además INFOMAX extendido por Torkkola puede tratar con mezclado convolutivo. Estos algoritmos han sido utilizados en muchas aplicaciones reales en acústica. Con respecto a FASTICA encontramos mayoría de aplicaciones acústicas relacionadas al campo de la biomedicina.

En [21, 22] es utilizado para la separación de señales

acústicas provenientes del corazón. Aquí se logra diferenciar entre la sístole y la diástole discriminando sonidos provenientes del pulmón. En [23] se identifica el sonido del corazón de un feto y se logra discriminar de manera automática del ruido abdominal. También encontramos en [24] el diseño e implementación de un estetoscopio embebido en un DSP que puede diferenciar entre las dos fases del corazón (diástole y sístole) eliminando ruidos provenientes de otros órganos. Además de aplicaciones biomédicas, encontramos aplicaciones en audio [25], en el área industrial [26] y en sistemas de sonares [27]. 32

En el caso de INFOMAX en [11, 28-32] se realizan trabajos con mezclado convolutivo utilizando señales obtenidas de forma sintética. En [33-35] se utilizan señales reales utilizando una estructura del algoritmo embebida en un DSP. Cuando se utiliza ICA para trabajar con aplicaciones reales es importante tener en cuenta sus limitaciones. En los siguientes puntos se exponen las más importantes: 1) Sólo se permite una fuente gaussiana entre las fuentes que conforman la mezcla. Las señales con densidades gaussianas, cuando están decorreladas linealmente son independientes entre sí. Como ICA realiza una especie de decorrelación no lineal, buscando ordenes estadísticos por encima de la media y la varianza y una variable gaussiana solo tiene estos últimos, no puede trabajar con este tipo de variables. Para el caso donde todas las fuentes son gaussianas se puede utilizar Análisis de Componentes Principales o PCA[36]. 2) ICA no puede determinar las varianzas de las fuentes originales, debido a que los coeficientes de mezclado, como las fuentes son desconocidas. 3) No es posible determinar el orden original de las fuentes. 4) En muchos casos reales el mezclado de las señales no es instantáneo, sino convolutivo. Es fundamental estudiar el ambiente en el cual se propagan las señales de audio para determinar si se puede o no, considerar un tipo de mezclado. Dependiendo de este análisis se escoge el algoritmo. En el trabajo de Michael S. Pedersen[17], se hace una extensa revisión a los algoritmos para tratar con mezclas convolutivas. 5) El mezclado de la señales muchas veces no es estacionario. La matriz de mezcla puede cambiar debido a que las fuentes se pueden estar moviendo, haciendo que los coeficientes de esta matriz deban ser ajustados continuamente. Si el algoritmo es lento convergiendo, no podrá enfrentar esto, sin contar el problema añadido por los retardos. 6) En aplicaciones reales, es difícil saber cuantas fuentes existen y por lo tanto, cuantos sensores se deben colocar para que la matriz a estimar sea cuadrada e invertible. Los algoritmos básicos de FASTICA e INFOMAX, no pueden tratar este problema directamente. Existen trabajos realizados por A. Hyvarinen[37], F. Theis[38], Cichocki y Amari[39], Matsuda Y.[40], donde utilizan modelos generativos, asumiendo densidades de probabilidad a priori para completar la matriz de mezcla. A pesar de estas limitaciones ICA da respuesta a una situación característica de la medición de señales.

En muchos casos no conocemos si las señales que estamos 33

midiendo son las emisiones reales de las fuentes del fenómenos en el cual estamos interesados.

En el caso de señales acústicas cuando se transmiten, pueden sufrir

interferencias con otras señales.

En este caso, lo que recibimos es una copia

distorsionada de la emisión original. ICA provee una solución muy general a esta situación, pues puede estimar una copia aproximada de nuestra fuente, eliminando la interferencia de la otra señal. Como se ha descrito en los distintos apartados del capitulo, ICA permite estimar las fuentes ciegamente sin ninguna referencia es lo que hace a este método tan poderoso y con un gran potencial de aplicación en sistemas de instrumentación que trabajan con señales acústicas.

34

3. CAPITULO. METODOLOGIA 3.1

HERRAMIETAS PARA EL ESTUDIO DE LOS ALGORITMOS.

Para estudiar, implementar y evaluar la operación de los algoritmos se utilizaran las siguientes herramientas: 1. Paquete FASTICA: Es un programa para Matlab basado en el algoritmo FASTICA creado por el departamento de Información y Ciencias de la computación de la Universidad de Helsinski. Este paquete fue bajado de la página: http://research.ics.tkk.fi/ica/fastica/code/dlcode.shtml. 2. Para INFOMAX se crearon dos programas en Matlab: -Un programa para mezclas simultáneas utilizando el algoritmo propuesto en la Tabla 2.4. -Un programa para mezclas convolutivas implementando el algoritmo propuesto por Torkkola descrito en la sección 2.3.2.

Para realizar el estudio utilizaremos dos tipos de mezclas: simultaneas y convolutivas. Es necesario realizar esta división por las siguientes razones: -FASTICA no tiene una extensión para enfrentar el problema de mezclado convolutivo, por lo cual no puede ser utilizado para este tipo de mezclas. -Los índices de evaluación, difieren para el caso simultáneo y el convolutivo, respectivamente.

3.2

INDICES DE EVALUACION

Para evaluar los resultados de cada algoritmo se utilizaran los siguientes índices de evaluación: 1. La kurtosis. La kurtosis nos indica el grado de agudeza del pico de una distribución de probabilidad. Si su valor aumenta, esto es indicativo de aumento en esta agudeza. Este valor nos sirve como indicativo del grado de gaussianidad de una señal. Cuando el valor de la kurtosis es cero, la señal es gaussiana; si el valor es positivo, la señal es supergassiana; y si la Kurtosis es negativa, la señal es subgaussiana. La 35

kurtosis tiene valores desde -2 hasta el infinito positivo. En Figura 3.1 podemos ver una comparación grafica de las funciones de distribución de probabilidad para las señales gaussianas, supergaussianas y subgaussianas. Las señales acústicas son normalmente supergaussianas; las señales como el ruido uniforme, sinodales puras o triangulares son subgaussianas.

Figura 3.1. Modelos de densidad de para densidades Supergaussianas, gaussianas y subgaussianas. La función supergaussiana tiene un pico muy agudo, mientras que la subgaussiana tiende hacer más llano. La gaussiana es un punto medio entre estas dos.

Para las pruebas calcularemos el valor de kurtosis de las señales fuentes, las mezclas y las estimaciones. Si el algoritmo separa bien, la kurtosis de la estimación debe ser igual a la kurtosis de la señal original, ya que el único cambio realizado por el algoritmo, será sobre la varianza y la media. Como la kurtosis utilizada esta normalizada, es invariable ante ente el cambio de estas características. 2. Índice de separación (IS). Otro parámetro para evaluar el desempeño de los algoritmos es el índice de calidad de separación propuesto por Amari[41]:

N

N

pij

i =1

j =1

max k pik

IP = ∑ (∑

N

N

p ji

j =1

i =1

max k pkj

− 1) + ∑ (∑

− 1)

(3.1)

Donde pij son los elementos de la matriz P = WA . W y A son las matrices de pesos estimados y los coeficientes de mezclado, respectivamente. Este índice es cero cuando se logra una separación perfecta. Cuando las fuentes son separadas, P es la permutación de una matriz identidad escalada. Por ejemplo: 36

 1 0.5  Si tenemos la matriz de mezclado A =   y la matriz de pesos estimados  0.6 0.5   −0.57 0.95   0.00 0.19  W =  entonces, la matriz de permutación será P =    0.06 −0.06   0.02 −0.00  Y el índice de separación (IS) es = 0.0912. Tomaremos, como valores que indique una separación, los que tengan un IS menor a 0.1. Este índice solo se puede utilizar cuando tenemos la matriz de mezclado A . En los casos de mezclas reales no es posible utilizar, ya que esta matriz es desconocida. 3. Coeficiente de correlación de Pearson. Utilizaremos este coeficiente para comparar las formas de onda de las señales fuentes y las señales estimadas. Este coeficiente varia entre -1 y -1. Cuando es 1 las formas de onda son idénticas; cuando es cero, las formas de onda no se parecen en nada y cuando es -1, la formas de ondas son iguales, pero invertidas. Un valor mayor de 0.85 nos indica que las señales evaluadas son bastantes similares. Este será el único índice utilizado para las pruebas en mezclas convolutivas.

Además de los índices descritos, consideraremos el número de iteraciones utilizado por cada uno de los algoritmos. Un punto importante a considerar en el funcionamiento de los algoritmos es el parámetro de convergencia, el cual detiene la operación cuando se ha llegado a un cambio mínimo en los pesos. En todas las pruebas utilizaremos 0.0001 como valor de parada.

3.2

SEPARACION DE MEZCLAS SIMULTÁNEAS

En esta sección realizaremos pruebas utilizando mezclas creadas de manera sintética a partir de fuentes acústicas.

En la Figura 3.2 mostramos ejemplos de señales que

usaremos en las pruebas, odas son señales de audio. Además de las señales, colocamos su distribución y el valor de kurtosis. Las señales en las graficas a), b) corresponden a dos sonidos de alarmas diferentes y sus distribuciones son supergausianas (kurtosis positiva), c) es la señal de sonido del despegue de una nave espacial, es subgaussiana con kurtosis negativa y d) es la música de la serie de dibujos Looney Tunes, señal supergaussianas con kurtosis positiva. 37

Figura 3.2. Señales utilizadas en las pruebas junto con sus densidades. Se muestran los valores de kurtosis de cada señal. Las señales y las distribuciones van en el siguiente orden: a) con e), b) con f), c con g) y d) con h).

3.2 EVALUACION DEL ALGORITMO FASTICA

En esta sección se realizaran pruebas para evaluar parámetros operativos del algoritmo FASTICA. Los factores que se va a evaluar son la influencia del tipo de función de aproximación de Negentropía, el número de mezclas como entrada al algoritmo y la influencia del ruido.

3.3.2.1 INFLUENCIA

DE

LA

FUNCION

DE

APROXIMACION

DE

LA

NEGENTROPIA

En esta prueba evaluamos el desempeño de FASTICA con respecto a la función escogida para aproximar la Negentropía. Recordando la Tabla 2.2, podemos ver que tenemos tres funciones a escoger. Para identificarlas mejor a G1 le llamaremos “tanh”; a G2, “gauss” y a G3, “kurt”.

38

Tabla 3.1. Funciones para aproximar la Negentropía.

G

g

g'

tanh

log cosh u

tanh(u )

(1 − tanh(u ))

gauss

− exp(−u 2 / 2)

u exp(−u 2 / 2)

(1 − u 2 ) exp(−u 2 / 2)

kurt

u4

u3

u2

Para esta prueba se utilizaran dos señales de audio, en concreto las señales a) y b) dela figura 3.2, constituidas por 50k muestras y que han sido muestreadas a 22kHz. Como hemos mencionado antes, estas señales son supergaussianas.

Estas señales serán

mezcladas por una matriz de mezclado A para crear las mezclas. Estas mezclas son las que utilizaremos como entrada a FASTICA. La matriz de mezclado se crea a partir de la situación descrita en la Figura 3.3 donde podemos observar un esquema que describe la posición de las fuentes y los sensores (micrófonos). Para obtener los coeficientes de mezclado de la matriz A , consideramos que la amplitud de cada señal generada por las fuentes disminuye inversamente proporcional al cuadrado de la distancia. Se asume que no hay obstáculos entre las fuentes y los sensores, ni paredes cercanas. De esta forma, pueden despreciarse el efecto de reflexiones y reverberaciones, por lo cual es posible considerar que el mezclado es simultáneo.

Figura 3.3. Esquema para dos fuentes. Todas las medidas están en metros.

Bajo esta situación, la matriz de mezclado A es igual a:

39

0.5   1 A2 =    0.308 0.444 

Para generar las mezclas se realiza la siguiente operación,

X = AS

(3.2)

 x1  Donde X =   , x1 y x2 son las señales obtenidas en los sensores (mezclas) y  x2  s  S =  1  , s1 y s2 son las fuentes de audio.  s2  Estas mezclas son presentadas a FASTICA como un sólo bloque de 50k muestras por cada señal. En la Tabla 3.2 se presentan los resultados para cada tipo de función de aproximación de Negentropía.

Se puede observar que los valores de kurtosis de las mezclas

disminuyen con respecto a las fuentes. Los valores de kurtosis de las estimaciones son iguales a las fuentes y el IS para cada función es muy similar y menor de 0.1, lo que indica que se ha realizado la separación. El valor IS de la función “kurt” es el mas bajo, sin embargo es muy similar a los ofrecidos por las otras funciones. El número de iteraciones utilizado para cada función es también, muy similar.

40

Tabla 3.2. Influencia de la función de Negentropía escogida. Cuando se indica el valor de la kurtosis, se sigue este orden: S1, S2. Para el valor de kurtosis de las mezclas: X1 y X2. Para indicar el valor de kurtosis de las estimaciones: estimación 1 y estimación 2. Se indica el valor del índice de separación (IS) para cada tipo de función y el número de iteraciones utilizado.

FUNCION

Kurtosis

Kurtosis

Kurtosis

fuentes

Mezcla

Estimaciones 1.0082

tanh

3.0438

gauss

3.0448

2.323

1.0081

0.765

1.0082 3.0438 1.0082

kurt

3.0438

IS

# de iteraciones

0.0361

10

0.0366

12

0.0346

10

En la Figura 3.4 se muestran las señales fuentes, las mezclas y las estimaciones por FASTICA.

Podemos observar los resultados de FASTICA para cada función de

aproximación. Las formas de ondas de las estimaciones son muy similares a las fuentes originales, diferenciándose en la escala. Las estimaciones son aproximadamente 60 veces menor que las fuentes originales y en el caso de la función kurt están invertidas con respecto a ellas. En la Tabla 3.3 se muestran los valores de correlación entra las señales fuentes y las estimaciones, para cada tipo de función de Negentropía. Estos valores indica que las formas de onda de las señales estimadas son casi idénticas a las formas de ondas de las señales fuentes. De todos estos resultados podemos concluir que la función utilizada para aproximar la Negentropía no afecta en gran medida los resultados de FASTICA.

41

Figura 3.4. En las dos primeras filas se muestran las fuentes de audio y las respectivas mezclas. Las siguientes graficas son las estimaciones por FASTICA. Como podemos observar el algoritmo las ha cambiado de lugar, sin embargo son similares a las fuentes. Las estimaciones resultantes de utilizar la función kurt están invertidas con respecto a las fuentes.

Tabla 3.3.Correlacion entre las señales fuentes y las estimaciones.

Función

tanh

gauss

kurt

Señales a comparar

Correlación entre cada fuente y estimación

S1 vs Estimación 2

1

S2 vs Estimación 1

0.9999

S1 vs Estimación 2

1

S2 vs Estimación 1

0.9999

S1 vs Estimación 2

-1

S2 vs Estimación 1

-0.9999

3.3.2.2 Separación de más de dos señales

En esta prueba analizaremos la influencia en el número de mezclas como entrada al algoritmo FASTICA. Se van a utilizar dos, tres y cuatro señales. Todas son señales de audio (señales supergaussianas) muestreadas a 22kHz y compuestas por 50k muestras. Como función de Negentropía se utilizará la función tanh de la Tabla 3.1. 42

Para mezclar las señales, es necesario cambiar la matriz dependiendo del número de señales. Esta matriz es creada de manera similar que en la Prueba #1, de esta manera para obtener las mezclas cuando haya tres y cuatro señales fuentes utilizaremos los esquemas mostrados en la Figura 3.5 y Figura 3.6, respectivamente.

Figura 3.5. Esquema para tres fuentes. Todas las medidas están en metros.

Figura 3.6. Esquema para cuatro fuentes. Todas las medidas están en metros.

La matriz A2 para dos señales es la utilizada en la primera prueba y las matrices para tres y cuatro señales son las siguientes, respectivamente:

43

0.5 0.2   1   A3 =  0.307 0.444 0.307   0.125 0.2 0.25   0.5 0.2 0.1   1   0.41 0.694 0.41 0.184   A4 =  0.16 0.308 0.444 0.308    0.25   0.077 0.125 0.2

La matriz de mezclado A3 proviene del esquema de la Figura 3.5 y la matriz A4 del esquema de la Figura 3.6. En la Tabla 3.4 se muestran los resultados de FASTICA, donde se observa un aumento en el índice de separación con el aumento en el número de señales, lo cual indica una disminución en la calidad de la separación. Sin embargo, los valores de Kurtosis de las estimaciones son similares a los valores de las fuentes. Además de esto, el número de iteraciones utilizadas por FASTICA aumenta con el aumento del número de señales. Esto es debido a que FASTICA estima uno a uno cada componente. Tabla 3.4. Influencia en el número de señales como entrada FASTICA. Cuando se indica el valor de la kurtosis, se sigue este orden: S1, S2,... Para el valor de kurtosis de las mezclas: X1, X2,.. Para indicar el valor de kurtosis de las estimaciones: estimación 1, estimación 2,... Se indica el valor del índice de separación (IS) y el número de iteraciones utilizado.

Numero

Kurtosis

Kurtosis

Kurtosis

de señales

fuentes

Mezcla

Estimaciones

3.0448

2.323

1.0082

1.0081

0.765

3.0438

3.0448

2.2259

3.0448

1.0081

0.451

1.0081

0.2347

0.2232

0.2347

3.0448

2.2627

3.0449

1.0081

0.4844

0.2381

-0.1798

0.0916

1.0024

0.2347

0.1111

-0.1798

2

3

4

IS

# de iteraciones

0.0361

10

0.3021

14

0.4891

23

En la Figura 3.7 se muestran las señales fuentes, las mezclas y las estimaciones de FASTICA para cuatro señales fuentes. En la graficas de las estimaciones es posible ver una separación, a pesar que el IS es superior a 0.1. 44

En la Tabla 3.5 puede ser

comprobado esto. Aquí se muestran los coeficientes de correlación entre cada una de las estimaciones y las fuentes.

En todos los casos, los valores de correlación se

aproximan a la unidad, indicando una forma de onda de las estimaciones muy similares a las formas de ondas de las fuentes. De estos resultados, podemos concluir que al aumentar la cantidad de señales como entrada al algoritmo FASTICA, la calidad de la separación desmejora.

Figura 3.7. a) Las cuatro señales fuentes.S1, S2 y S4 son señales supergaussianas y S3 es una señal subgaussiana. b) Señales después del mezclado. c) Resultados de FASTICA. Las tres primeras estimaciones están invertidas con respecto a las fuentes.

45

Tabla 3.5. Correlación entre las señales fuentes y las estimaciones.

Numero de señales

2

3

4

Señales a comparar

Correlación entre cada fuente y estimación

S1 vs Estimación 2

1

S2 vs Estimación 1

0.9999

S1 vs Estimación 1

1

S2 vs Estimación 2

1

S3 vs Estimación 3

-0.999

S1 vs Estimación 1

-1

S1 vs Estimación 3

-0.9977

S3 vs Estimación 4

-0.9993

S4 vs Estimación 2

0.9969

3.3.2.3 INFLUENCIA DEL RUIDO

En esta sección exploraremos la operación de FASTICA cuando las mezclas están distorsionadas por alguna señal de ruido proveniente del entorno. En este caso exploraremos dos tipos de ruido: Gaussiano y el uniforme. El ruido uniforme tiene una distribución de probabilidad subgaussiana.

Todas las señales están muestreadas a

22kHz y compuestas de 50k muestras. Las dos señales de ruido utilizadas en esta prueba son generadas utilizando un generador de ruido aleatorio. Utilizaremos el esquema Figura 3.5 para colocar las señales fuentes espacialmente por lo cual utilizamos la matriz de mezclado:

0.5 0.2   1   A3 =  0.307 0.444 0.307   0.125 0.2 0.25  

La señal de ruido siempre será S1.

Influencia del ruido gaussiano.

46

En este caso tenemos una señal de ruido gaussiano y dos señales de audio. La señal de ruido tiene una amplitud que dobla a la amplitud de las señales de audio. En la Figura 3.8 podemos observar las señales fuentes, las mezclas y las señales de audio.

Figura 3.8. a) Fuentes: Ruido gaussiano y dos señales de audio. La señal de ruido tiene una media de cero, a diferencias que las de audio, las cuales tienen un componente DC haciendo que su media no sea cero. b) Se muestran las mezclas, en las cuales a penas se logra ver las señales de audio. c) Resultados de FASTICA. A pesar del ruido se ha podido separar la mezcla en sus componentes originales, aunque con una amplitud diferente.

Se puede observar que FASTICA ha logrado separar las mezclas en sus componentes originales con un IS menor a 0.1. También se han recuperado los valores de kurtosis de las señales de audio, no así el valor de la kurtosis de la señal gaussiana. Realmente FASTICA no ha separado la señal gaussiana de las otras, sino que ha dejado esta señal como un residuo de las otras señales. Como puede observarse en la Figura 3.8 la señal gaussiana aparece como la estimación 3, la última encontrada por el algoritmo. Debido a que el generador de ruido gaussiano de Matlab no es perfecto, esta señal no es exactamente gaussiana, por lo cual FASTICA todavía, puede operar sobre ella. Si esta señal fuera verdaderamente gaussiana, el preprocesado la hubiera descartado como señal no gaussiana y FASTICA sólo hubiera procesado las dos señales de audio. Esta prueba se realizó varias veces para comprobar esto, y la señal de ruido gaussiano siempre fue estimada como último componente. En la Tabla 3.7 se muestran los índices de correlación los cuales indican una similitud en las formas de ondas de las fuentes y las estimaciones.

47

Tabla 3.6. Índices de evaluación para la prueba de la influencia del ruido gaussiano. El IS indica una separación de las mezclas en sus componentes originales.

Señales

Kurtosis fuente

Señales

Kurtosis Mezcla

Señales

Kurtosis estimaciones

S1

-0.0242

X1

0.0353

E1

1.0083

S2

3.044

X2

0.7162

E2

3.044

S3

1.008

X3

0.5097

E3

-0.0237

IS

Iteraciones

0.083

17

Tabla 3.7. Correlación entre las fuentes y las estimaciones.

Correlación entre cada

Señales a comparar

fuente y estimación

S1 vs Estimación 3

-1

S2 vs Estimación 2

-0.9999

S3 vs Estimación 1

1

Influencia del ruido uniforme. En este caso tenemos una señal de ruido uniforme más dos señales de audio. La señal de ruido tiene una amplitud que dobla a la amplitud de las señales de audio.

Figura 3.9. a) Fuentes: Ruido uniforme y dos señales de audio. La señal de ruido tiene una media de cero, a diferencias que las de audio, las cuales tienen un componente DC haciendo que su media no sea cero. b) Se muestran las mezclas, en las cuales a penas se logra ver las señales de audio. c) Resultados de FASTICA. A pesar del ruido se ha podido separar la mezcla en sus componentes originales, aunque con una amplitud diferente.

48

Tabla 3.8. Índices de evaluación para la prueba de la influencia del ruido uniforme. El IS indica una separación de las mezclas en sus componentes originales.

Señales

Kurtosis fuente

Señales

Kurtosis Mezcla

Señales

Kurtosis estimaciones

S1

-1.1953

X1

-1.0921

E1

-1.1953

S2

3.044

X2

-0.4294

E2

1.0088

S3

1.008

X3

-0.2337

E3

3.0441

IS

Iteraciones

0.0597

17

En la Figura 3.9 se muestran las señales fuentes, las mezclas y las señales de audio y en la Tabla 3.9 los índices de evaluación. El IS es menor a 0.1 lo que indica una separación. Los valores de Kurtosis son iguales entre las estimaciones y las fuentes. En este caso FASTICA coloca la señal de ruido uniforme en cualquier canal, a diferencia que el ruido gaussiano. En la Figura 3.9 se muestra el resultado cuando aparece en el primer canal, pero en otras simulaciones apareció en los otros. En la Tabla 3.9 se muestran los valores de correlación, que indican una forma de onda de las estimaciones similar a la forma de onda de las fuentes.

49

Tabla 3.9. Correlación entre las fuentes y las estimaciones.

Correlación entre cada

Señales a comparar

fuente y estimación

S1 vs Estimación 1

1

S2 vs Estimación 3

-0.9999

S3 vs Estimación 2

-1

3.3 EVALUACION DEL ALGORITMO INFOMAX

En esta sección se realizaran pruebas para evaluar la operación del algoritmo INFOMAX. En las pruebas observaremos la influencia de la tasa de aprendizaje, el tipo de función de activación y el número de mezclas como entrada al algoritmo. Se utilizaran como matrices de mezclado las mismas utilizadas en las pruebas de FASTICA.

3.3.3.1 INFLUENCIA DE LA TASA DE APRENDIZAJE

En esta prueba analizaremos la influencia de diferentes tasas de aprendizajes en el funcionamiento del algoritmo INFOMAX. Todas las tasas se mantienen fijas a medida que se realizan los cálculos por el algoritmo. Se utilizan tasas desde 0.01, ya que para valores mayores la operación de INFOMAX se vuelve inestable.

Utilizamos dos

señales de audio supergaussianas muestreadas a 22kHz y compuestas por 50k muestras. Como función de activación se utiliza la derivada de la función de distribución llamada Tangente hiperbólico de la Tabla 2.3:

ϕ (ui ) = −2 tanh(ui ) La cual asume que las distribución de las señales fuentes a estimar son supergaussianas. Para el mezclado se utiliza la matriz: 0.5   1 A2 =    0.308 0.444 

50

En la Figura 3.10 se muestran las señales fuentes, las mezclas y los resultados para cada tasa.

En cada resultado se puede observar una separación de las mezclas en los

componentes originales, con diferencia en la escala. En la Tabla 3.10 se muestran los valores de kurtosis para cada estimación, los índices de separación y el número de iteraciones utilizados por cada tasa.

Figura 3.10. En las dos primeras filas se muestran las fuentes de audio y las respectivas mezclas. Las siguientes graficas son las estimaciones de INFOMAX para cada tasa de aprendizaje. En todos los caso se puede observar una separación de las mezclas en sus componentes originales.

A medida que se utiliza una tasa más pequeña los IS aumentan, lo que supone que empeora la estimación de las fuentes. También, hay un aumento de la cantidad de iteraciones para converger al disminuir la tasa de aprendizaje. Una explicación a esto, es que al tener una tasa más pequeña, la búsqueda de los máximos locales de la entropía en la mezcla demora más. La tasa es como el tamaño de los pasos sobre una superficie, si los haces más pequeños demoras más para llegar a un punto específico. Esto también trae consigo, que la búsqueda caiga en puntos críticos espurios haciendo que la dirección hacia los verdaderos puntos sea más lenta. A pesar de esto, como lo indica la Tabla 3.11 los índices de correlación muestran una similitud en las formas de onda de las estimaciones y las fuentes.

51

Tabla 3.10. Índices de evaluación para los resultados de INFOMAX con respecto al cambio de la tasa de aprendizaje. A medida que la tasa disminuye, los valores IS aumentan al igual que las iteraciones necesarias para converger. Los valores de kurtosis son similares entre las estimaciones y las fuentes.

Tasa

Kurtosis

Kurtosis

Kurtosis

fuentes

Mezcla

Estimaciones 3.0449

0.01

1.0081

0.001

3.0448

2.323

1.0081

0.765

1.008 3.0449 1.0079

0.0001

3.0449

# de

IS

iteraciones

0.0059

11

0.006

39

0.0088

210

Tabla 3.11. Valores de correlación. Todos los valores son iguales a la unidad, indicando un parecido exacto entre la forma de onda de las fuentes y las estimaciones.

Tasa

0.01

0.001

0.0001

Señales a comparar

Correlación entre cada fuente y estimación

S1 vs Estimación 1

-1

S2 vs Estimación 2

-1

S1 vs Estimación 2

-1

S2 vs Estimación 1

1

S1 vs Estimación 2

-1

S2 vs Estimación 1

1

52

3.3.3.2 Separación de más de dos señales

En esta prueba analizaremos la influencia en el número de mezclas como entrada al algoritmo INFOMAX. Se van a utilizar dos, tres y cuatro señales. Todas son señales de audio (señales supergaussianas) muestreadas a 22kHz y compuestas por 50k muestras. Se utilizan los mismos esquemas utilizados en las pruebas de FASTICA para la posición de las fuentes y las mismas matrices de mezclado.

Como función de

activación se utilizará -2tanh. Para mezclar las señales, es necesario cambiar la matriz dependiendo del número de señales. Se utilizan las mismas matrices de mezclado de la sección 3.3.2.2. En la Figura 3.11 se muestran las señales fuentes, las mezclas y los resultados para el caso de cuatro señales de audio. Se puede observar una separación de las mezclas en sus componentes originales a pesar que el valor de IS es mayor a 0.1. En la Tabla 3.12 se muestran los índices de evaluación para todos los casos. Cuando aumenta el número de señales el IS aumenta, disminuyendo la calidad de la separación. Es importante notar, que cuando se aumenta de tres a cuatro señales, la cantidad de iteraciones requeridas se mantiene igual. Es prueba fue repetida en varias ocasiones dando siempre los mismos valores.

Figura 3.11. a) Las cuatro señales fuentes. b) Señales después del mezclado. c) Resultados de INFOMAX.

53

Tabla 3.12. Influencia en el número de señales como entrada a INFOMAX. Cuando se indica el valor de la kurtosis, se sigue este orden: S1, S2,… Para el valor de kurtosis de las mezclas: X1, X2,.. Para indicar el valor de kurtosis de las estimaciones: estimación 1, estimación 2,... Se indica el valor del índice de separación (IS) y el número de iteraciones utilizado.

Numero

Kurtosis

Kurtosis

Kurtosis

de señales

fuentes

Mezcla

Estimaciones

3.0448

2.323

3.0449

1.0081

0.765

1.81

3.0448

2.2259

3.0449

1.0081

0.451

1.0084

0.2361

0.2232

0.2361

3.0448

2.2114

0.2362

1.0081

0.3966

1.0086

0.2361

0.194

2.9384

2.936

0.4047

3.0449

2

3

4

# de

IS

iteraciones

0.0059

11

0.0664

58

0.1376

58

En la Tabla 3.13 se muestras los índices de correlación. Para cuatro señales los índices tienen una disminución del 0.09%, valor que indica desmejoramiento en la separación. Tabla 3.13. Índices de correlación para los resultados de INFOMAX. Se compara cada fuente con la estimación respectiva.

Numero de señales

2

3

4

Señales a comparar

Correlación entre cada fuente y estimación

S1 vs Estimación 1

-1

S2 vs Estimación 2

-1

S1 vs Estimación 1

1

S2 vs Estimación 2

-1

S3 vs Estimación 3

-0.9998

S1 vs Estimación 4

-1

S2 vs Estimación 2

1

S3 vs Estimación 1

-0.9999

S4 vs Estimación 3

0.9999

54

3.3.3.3 FUNCION DE ACTIVACION

Ahora analizaremos el papel de la función de activación en la operación del algoritmo INFOMAX. Como hemos mencionado en el estado del arte, la función de activación es derivada una función de densidad de probabilidad. De esta manera, el algoritmo INFOMAX sólo puede operar sobre señales que tengan la misma función de densidad de probabilidad. Para el caso de señales acústicas, las cuales son supergaussianas, el algoritmo necesita una función de activación con características estadísticas supergaussiana. En la Tabla 2.3 de la sección 2.2.2 mostramos varias funciones de probabilidad

y

supergaussianas.

sus

correspondientes

funciones

de

activación

para

señales

En esta prueba utilizaremos tres funciones de activación y por

simplicidad las llamaremos de la siguiente manera: Sigmoidal, Tanh y Sign. La función de activación Sign proviene de la función de distribución laplaciana. Todas pueden operar con señales supergaussianas. La diferencia entre ellas las podemos observar en la Figura 3.12. Para la siguiente prueba vamos a utilizar tres señales de audio muestreadas a 22kHz y constituidas por 50k muestras. Se utilizará una tasa de aprendizaje igual a 0.01 y pesos iniciales iguales para cada función. Para dar una visión de la función de densidad de probabilidad de las fuentes, mostramos sus distribuciones en la Figura 3.13.

Figura 3.12. Funciones de densidad de probabilidad de las cuales se derivan las funciones de activación utilizadas por el algoritmo INFOMAX. Podemos observar que difieren en su forma. Sign es tiene un pico mas agudo que las demás.

55

Figura 3.13. a) Señales fuentes para la prueba. b) Densidades de probabilidad de estas fuentes. Las primeras dos tienen picos muy agudos y la última tiende a ser más plana.

En la Tabla 3.14 son mostrados los resultados de INFOMAX. En todos los casos la kurtosis de las estimaciones es similar a la kurtosis de las fuentes. El menor valor de IS fue para la función Sign, al igual que el número de iteraciones utilizado. Observando la forma de la función de probabilidad en la Figura 3.12 para Sign, esta parece acomodarse más a la forma de las densidades de las fuentes originales. Sin embargo, aunque las funciones de probabilidad para Sigmoidal y Tanh no se parezcan tanto, aun así se obtienen una separación, aunque con una mayor cantidad de iteraciones. En la Tabla 3.15 se muestran los valores de correlación, los cuales indican una similitud en la forma de onda entre las estimaciones y las fuentes.

56

Tabla 3.14. Influencia en el número de señales como entrada a INFOMAX. Cuando se indica el valor de la kurtosis, se sigue este orden: S1, S2,… Para el valor de kurtosis de las mezclas: X1, X2,.. Para indicar el valor de kurtosis de las estimaciones: estimación 1, estimación 2,... Se indica el valor del índice de separación (IS) y el número de iteraciones utilizado.

Kurtosis

Kurtosis

Kurtosis de

de la

de la

las

fuente

mezcla

estimaciones

Función

IS

Iteraciones

0.0624

59

0.05

31

0.0464

12

3.0449 Sigmoidal

1.0084 0.236

Tanh

3.0448

2.2259

3.0448

1.0081

0.451

1.0083

0.2347

0.2232

0.2358 3.0448

Sign

0.2354 1.0081

Tabla 3.15. Índices de correlación entra las estimaciones y las fuentes.

Función

Sigmoidal

Tanh

Sign

Señales

Correlación

S1 vs Estimación 1

1

S2 vs Estimación 2

-1

S3 vs Estimación 3

-0.9999

S1 vs Estimación 1

1

S2 vs Estimación 2

-1

S3 vs Estimación 3

-0.9999

S1 vs Estimación 1

1

S2 vs Estimación 2

-1

S3 vs Estimación 3

1

57

3.3

MEZCLAS CONVOLUTIVAS

3.4.1 EVALUACION DEL ALGORITMO TORKKOLA

Se realizará una prueba utilizando el algoritmo propuesto por Torkkola para separar mezclas convolutivas. Como se ha mencionado en la metodología se ha realizado una implementación en Matlab de este algoritmo para separar dos mezclas. Se utilizan dos señales acústicas de audio: la primera señal es la palabra “Aleluya” cantada por un coro, y la segunda es la famosa frase: “Goodmorning Vietnam”. Estas señales están compuestas por 30k muestras y tiene una frecuencia de muestreo de 12kHz. Para realizar la mezcla se utilizan los siguientes filtros, siguiendo el modelo de la ecuación (2.20): X 1 ( z ) = A11 ( z ) S1 ( z ) + A12 ( z ) S 2 ( z ) X 2 ( z ) = A21 ( z ) S1 ( z ) + A22 ( z ) S 2 ( z )

Donde los valores de los coeficientes son los siguientes: A11 ( z ) = 1 − 0.4 z −25 + 0.2 z −45 A12 ( z ) = 0.4 z −20 − 0.2 z −28 + 0.1z −36 A21 ( z ) = 0.5 z −10 − 0.3 z −22 + 0.1z −34 A22 ( z ) = 1 − 0.3 z −20 + 0.2 z −38

Estos filtros son de mínima fase, por lo cual sus inversas son estables y pueden ser estimadas por el algoritmo Torkkola. Recordando de la sección 3.4.1 las respuestas ideales de los filtros son las siguientes: W11 ( z ) = 1, W12 ( z ) = − A12 ( z ) A22 ( z )−1 W22 ( z ) = 1, W11 ( z ) = − A21 ( z ) A11 ( z ) −1

En la Figura 3.14 mostramos esta respuesta para una longitud del filtro de 50.

58

Figura 3.14. Respuesta ideal de la estructura propuesta por Torkkola. En este caso mostramos los coeficientes para una longitud de filtro de 50.

Las fuentes, las mezclas y las estimaciones de las fuentes son mostradas en la Figura 3.15. Como se observa, la estimación 1 se aproxima a la fuente 1 y la estimación 2 a la fuente 2, respectivamente. En este caso tienen una amplitud parecida y de mismo signo. También, se puede observar una disminución notable de la interferencia entre las señales.

Figura 3.15. Arriba: Las fuentes originales. Centro: Las mezclas. Abajo: Señales como resultado del algoritmo Torkkola.

En la Figura 3.16 se muestran los pesos obtenidos desde el algoritmo comparando con la respuesta ideal, en la figura 3.14 observamos que los primeros coeficientes de mayor magnitud se corresponde con la respuesta dada por el filtro ideal. Como se explico en la sección 3.4.1, el algoritmo de Torkkola solo puede estimar una versión filtrada de las fuentes. La estimación de las fuentes tiene la forma filtrada desde la ecuación (2.25): A11S1 = U1 A22 S 2 = U 2

Por esta razón, siempre vamos a obtener una versión de la fuente con sus ecos y reverberaciones.

Para eliminar esto, se pueden utilizar otros métodos como 59

Ecualización ciega (Blind ecualization). Es importante anotar, que las fuentes tienen una cantidad de ruido, que reduce la eficacia del algoritmo. A pesar de esto, en las Tabla 3.16 y Tabla 3.17 vemos que la señal estimada esta muy correlacionada con las fuentes originales.

Figura 3.16. Respuesta del algoritmo Torkkola, después de realizar la simulación. Se indican los coeficientes que se corresponden con la respuesta ideal en la figura 3.14. Se puede observar que los primeros coeficientes marcados tienen la mayor magnitud para cada respuesta.

En las tablas se resaltan los valores de correlación entre señales de diferentes salidas del algoritmo. Se observa como la correlación tiende a disminuir al pasar el algoritmo, claro indicativo de reducción de redundancia entre las salidas. Tabla 3.16. Comparación entre las fuentes y las mezclas utilizando correlación cruzada. Se compara cada mezcla con cada fuente.

Tipo de comparación

Índice de correlación

Mezcla 1-Fuente 1

0.8010

Mezcla 2-Fuente 2

0.8551

Mezcla 1-Fuente 2

0.3545

Mezcla 2-Fuente 1

0.4309

Tabla 3.17. Comparación entre las fuentes y las estimaciones realizadas por el algoritmo. Se compara cada estimación con cada fuente.

Tipo de comparación

Índice de correlación

Estimación 1-Fuente 1

0.8698

Estimación 2-Fuente 2

0.9184

Estimación 1-Fuente 2

0.0573

Estimación 2-Fuente 1

0.0498

60

3.4

CONCLUSIONES

En este capítulo hemos realizado un estudio e implementación de los algoritmos FASTICA e INFOMAX para la separación de mezclas.

Se han evaluado estos

algoritmos utilizando la Kurtosis, el índice de separación e índice de correlación. Además de esto se han tenido en cuenta la cantidad de iteraciones utilizadas para llegar a un valor de convergencia. El estudio se dividió en dos partes: mezclas simultáneas y convolutivas.

Para el caso de mezclado simultáneo fueron utilizados el paquete

FASTICA y una implementación de INFOMAX realizada en Matlab. El estudio consistió en varias pruebas que evaluaban el rendimiento de los algoritmos bajo ciertas condiciones. Para el caso de FASTICA se estudio la influencia de los tipos de funciones de para aproximar la Negentropía, el número de señales y la influencia de dos tipos de ruido: gaussiano e uniforme.

Para INFOMAX se analizó su

comportamiento frente a diferentes tasas de aprendizajes, el número de señales y la función de activación. Tanto en FASTICA como en INFOMAX disminuyen los índices de calidad en la separación cuando se incrementa el número de señales, sin embargo FASTICA presenta un índice de separación mayor en comparación a INFOMAX. Con respecto a la función de aproximación de la Negentropía, FASTICA no presentó cambios significativos en su rendimiento, al igual que al someterse a los diferentes tipos de ruido. Con INFOMAX se pudo comprobar la importancia del tipo de función de activación en su operación. Esto situación que en principio supone una desventaja, ya que solo puede trabajar con un tipo de señales a la vez, lo hace perfecto para adaptarlo a la extracción de señales con cierto tipo de características. Este tipo de discriminación no lo presenta FASTICA. Además de trabajar con mezclas simultáneas, se utilizó una implementación de INFOMAX extendido para trabajar con mezclas convolutivas: El algoritmo Torkkola. En este caso se evaluó su operación para separar dos mezclas de audio previamente creadas con unos conjuntos de filtros FIR. La comparación de las señales estimadas por el algoritmo frente a las fuentes originales dio muy buenos valores de correlación. Cuando se comparó la respuesta ideal de los pesos frente a la respuesta estimada, se

61

pudo constatar que los coeficientes del filtro ideal aparecen con una magnitud importante en los pesos estimados. Con respecto a la convergencia, en el caso de FASTICA lo hace dos veces más rápido que INFOMAX y trabaja de forma más general, pues puede tratar con diferentes tipos de señales. No es necesario asumir un tipo de densidad de probabilidad, sin embargo FASTICA no tiene una versión para trabajar con mezclas convolutivas. En el caso de INFOMAX, es muy dependiente del tipo de fuentes que se desean estimar, pero permite trabajar con mezclado convolutivo. Además de esto, debido a su estructura puede adaptarse a los cambios de varianza de manera automática, lo que lo hace altamente adaptativo para entornos no estacionarios.

62

4. CAPITULO.

APLICACIONES

DE

ICA

EN

ENTORNOS REALES 4.1

SEPARACION DE SEÑALES DE AUDIO

Las señales utilizadas en este experimento se obtuvieron de una basa de datos creada por Te Won-Lee disponibles en la fecha de redacción del presente documento en siguiente dirección: http://cnl.salk.edu/~tewon/Blind/blind_audio.html. Esta base de datos fue generada en una habitación de dimensiones 3m x 4m, colocando dos emisores (personas o bocinas) y dos micrófonos como se muestra en la Figura 4.1. En este documento se describen los resultados obtenidos de las pruebas en dos registros de señales que consisten en: 1) Una persona contando los números y música de fondo. 2) Una persona contando los números en ingles y una persona contando los numero en español.

Figura 4.1. Dimensiones del cuarto y distancias entre las fuentes y los micrófonos.

Las señales están compuestas por 100k muestras con una frecuencia de muestreo de 16kHz, lo que corresponde a 6.25 segundos de grabación. En la base de datos no se especifica la altura del cuarto ni la posición de cada fuente o micrófono con respecto a las paredes. Para el experimento asumimos una altura de 3 metros. Para cubrir las primeras reflexiones, las cuales son con el techo y el piso, decidimos utilizar una

63

longitud del filtro de 256. Con este valor podemos cubrir reflexiones hasta de 5.4 metros. La velocidad del sonido para estos cálculos fue de 340 m/seg. Para calcular los retardos en muestras utilizamos la siguiente ecuación:

M=

d f v

(3.3)

En donde d es la distancia, v es la velocidad del sonido y f es la frecuencia de muestreo. Como datos iniciales del algoritmo utilizamos la función de activación sigmoidal y una tasa de aprendizaje de 0.01. Se utilizó 0.0001 como valor de parada. En la Figura 4.2 se aprecian las señales grabadas y los resultados para la primera prueba. El algoritmo necesito 43 pasadas por los datos para converger. Cuando se escuchan las grabaciones de X1 y X2 se pueden identificar a la persona contando los números pero la música de fondo llega a confundir esta cuenta. En las dos grabaciones se escucha el mismo efecto. Incluso es difícil diferenciar las dos. El coeficiente de correlación entre las dos mezclas es de 0.828 lo que indica bastante parecido entre las dos formas de onda. Cuando se escuchan las Estimaciones 1 y 2, es muy notable la operación de separación del algoritmo. En la estimación 1 se escucha la cuenta y de fondo la música con un volumen muy bajo. En la estimación 2 se escucha la música y no se puede identificar la voz de la persona. El valor de correlación entre la estimación 1 y 2 es de 0.047, lo que indica que no hay ningún parecido en las formas de onda.

64

Figura 4.2. Arriba: Las dos grabaciones tomadas en el cuarto. No se puede identificar las señales características de la voz. Abajo: Estimaciones realizadas por el algoritmo Torkkola. Se pueden apreciar las señales de voz (estimación 1) y de música (estimación 2).

Figura 4.3. Pesos obtenidos después de pasar las señales por el algoritmo.

En la Figura 4.3 se muestran los pesos obtenidos por el algoritmo Torkkola. Los coeficientes con mayor amplitud son los utilizados por el filtro para eliminar la señal

65

que viene de la fuente más alejada. Estos valores los observamos en el coeficiente 2 de W12 y el coeficiente 3 de W21. Los coeficientes de cada peso nos pueden dar información espacial entre las fuentes, los micrófonos y las paredes. Para verificar esto realizaremos el siguiente análisis. Si utilizamos la ecuación (3.3) podemos calcular los retardos en muestras desde la fuente X1 hasta el micrófono S2. Como la distancia entre S1 a X2 es igual a 0.72m, la velocidad del sonido 340m/seg y la frecuencia de muestreo es de 16kHz esto equivale a 33 muestras. El primer coeficiente de cada peso indica la posición del micrófono mas una muestra. Por lo tanto hay que restar el retardo mas una muestra que demora la señal directa en llegar entre S1 y X1 y restarlo al retarde entre S1 y X2. Este retardo es igual a 28+1 muestras. La diferencia entre muestras es igual 4. Si comparamos este valor con los coeficientes obtenidos de W12 y W21 son muy aproximados. Cada muestra es equivalente a 0.021m. El error entre el valor calculado es de 0.042m para W12 y de 0.021m para W21. Esto puede deberse que las posiciones de cada micrófono y fuentes no corresponden exactamente a la posición indicada en la Figura 4.1, sin embargo la respuesta de los pesos ofrece una buena aproximación. Para la segunda prueba utilizamos los mismos datos iniciales que en la primera prueba. El algoritmo converge en 45 iteraciones. En la Figura 4.4 se muestran las grabaciones de los micrófonos y las estimaciones. En X1 y X2 se graban dos personas contando los números simultáneamente, con la diferencia que uno los cuentas en ingles y el otro en español.

66

Figura 4.4. Arriba: Las dos grabaciones tomadas en el cuarto. Abajo: Estimaciones arrojadas por el algoritmo.

En las dos grabaciones se escucha claramente la interferencia que una de las voces produce en la otra. El coeficiente de correlación entre las formas de onda de las grabaciones es de 0.773 lo cual indica cierto parecido entre ambas. En las graficas c y d de la Figura 4.4 se muestran las estimaciones. En la estimación 1 se escucha claramente la cuenta en ingles, con muy poca interferencia de la cuenta en español. La misma situación ocurre en la estimación 2. El coeficiente de correlación de ambas estimaciones es de 0.0448 lo que indica ningún parecido entre sus formas de onda. En la Figura 4.5 se muestran los pesos obtenidos por el algoritmo. En este caso los coeficientes de mayor valor están en el 3 para W12 y en 5 para W21. Utilizando los valores obtenidos en la prueba anterior podemos observar que tenemos un error para los dos casos de 0.021m. Con estas señales obtenemos unos valores más aproximados al valor calculado que en la prueba anterior. Además de los coeficientes con mayor magnitud observamos un valor importante de amplitud en el coeficiente 9. Además de esto, el coeficiente tiene un valor opuestos a los coeficientes analizados anteriormente. En distancia es equivalente a 0.2 m. Esto valor nos permite establecer que es un rebote de la pared tras los micrófonos y que esta a aproximadamente a 0.1m. De esta manera se llega a la conclusión que los micrófonos estaban colocado a 0.1m de la pared, lo que concuerda con la forma de la respuesta de cada peso, la cual parece atenuarse exponencialmente. 67

Figura 4.5. Pesos obtenidos después de pasar las señales por el algoritmo.

4.2

SEPARACION

DE

SEÑALES

ULTRASONICAS

EN

UN

EXPERIMENTO DE SIMULACION ACUSTICA GENERADAS POR DESCARGAS PARCIALES En el grupo de investigación de optoelectrónica y tecnología laser (GOTL) se está realizando un proyecto de investigación sobre la detección e identificación de descargas parciales en los transformadores[42]. En el marco de este proyecto se ha creado un entorno que emula la cuba de un transformador y puntos de generación de descargas parciales. Estas descargas parciales simuladas generan ondas acústicas ultrasónicas, que se transmiten por un medio líquido y que son captadas por sensores piezoeléctricos colocados en las paredes del tanque. Estas señales son después procesadas y analizadas con los objetivos detección y localización de las descargas parciales, las cuales son un indicativo de degradación de los componentes y de los aislantes en el transformador.

68

4.2.1 DESCRIPCION DEL BANCO DE ENSAYOS

En la Figura 4.6 puede observarse un esquema completo del sistema de generación y adquisición de señales acústicas de simulación de descargas parciales. En experimentos previos sobre este sistema se verificó que la forma de onda de las señales adquiridas por los sensores piezoeléctricos son similares a las señales acústicas procedentes de las descargas parciales reales[43].

Figura 4.6. Esquema de montaje para generar, adquirir y procesar señales acústicas a partir de descargas parciales simuladas.

Los experimentos se realizaron en un tanque lleno de agua de dimensión: 70cm x 40cm x 50cm y con paredes de Polimetilmetacrilato (PMMA), de 1.4cm de espesor. Las fuentes acústicas s1 y s2 son dos transductores ultrasónicos idénticos (Brüel & Kjaër), los cuales están conectados a un generador de pulsos sinsoidales. Los pulsos duran dos ciclos. Estos transductores tienen un máximo en su respuesta a 120kHz. Los sensores x1 y x2 son dos sensores piezoeléctricos (Physical Acoustic Corporation, model: R15iAST) que están conectados a un sistema multicanal de acondicionamiento y adquisición PXI de NATIONAL INSTRUMENTS con una frecuencia de muestreo de 10 MSps. Estos sensores no tienen una respuesta plana, son resonantes a 150kHz. Esto los hace muy sensibles a esta frecuencia, funcionando como filtro para las demás frecuencias. En la Figura 4.7 se muestran las posiciones de las fuentes y los sensores en el tanque. En la Figura 4.8 se muestran imágenes del montaje real.

69

Figura 4.7. Vista de planta del tanque. Se indican las posiciones de las fuentes y los sensores. Tanto las fuentes como los sensores están a una altura de 0.2 metros. Todas las medidas están en metros.

Figura 4.8. Imágenes del montaje de experimento para obtener las señales.

4.2.2 ADQUISICION DE LAS SEÑALES DE REFERENCIA.

Con el objetivo de comparar resultados se obtuvieron patrones de referencia. En el experimento se generaron descargas con frecuencias de 100kHz y 150kHz. A pesar que los sensores son muy sensibles a 150 kHz, fue posible obtener una señal del patrón de 100khz. Para obtener patrones sin perturbaciones, se colocó cada fuente de emisión acústica a aproximadamente dos centímetros del sensor y se procedió a captar la señal. Esta operación se realiza, con una fuente y un sensor activado cada vez para evitar interferencias. El tiempo utilizado para muestrear la señal es suficientemente corto para evitar rebotes. Los patrones adquiridos se muestran en la Figura 4.9.

70

Figura 4.9. En las graficas a y b. se muestran los patrones de 100kHz y 150kHz, respectivamente. . El patrón de 100kHz es 5.5dB menor que el patrón de 150kHz debido a la sensibilidad de los sensores a 150kHz. En las graficas c y d se muestra los espectros para cada patrón. A pesar que se emite a 100kHz, en el patrón de 100kHz los máximos de amplitud están en el rango de 105 kHz a 122 kHz. En el caso del patrón de 150kHz también se observa amplitud de la señal desde los 105 kHz, a pesar que solo se esté emitiendo a 150 kHz. Este es causado por la respuesta de los transductores, que son resonantes a 120kH.

4.2.3 RESULTADOS

En el experimento se utilizó el algoritmo Torkkola debido a que el experimento en el tanque enfrenta mezclado convolutivo. Para calcular la longitud del filtro se calculó la diferencia de fase de llegada de la onda entre la S1 y X1, la cual resultó en 33us. Utilizando la ecuación (3.3), una velocidad de 1500 m/s de la onda en el agua y una frecuencia de muestreo de 10MHz, este valor corresponde a 325 muestras. Además de esta diferencia tomamos en cuenta las reflexiones provenientes del fondo y de la parte superior del tanque.

Con estos cálculos nos da un tiempo de 150us lo cual es

equivalente a 1500 muestras. Durante este tiempo es donde se dan las interferencias mas importantes entre las señales provenientes de las fuentes acústicas, por tal razón, utilizamos una longitud de filtro de 1500 para eliminar esta distorsión. Como función de activación utilizamos la Sigmoidal, con una tasa de aprendizaje de 0.01.

71

En la Figura 4.10 mostramos las señales captadas por los sensores y las estimaciones realizadas por el algoritmo. La señal de la grafica a), la cual esta mas cerca de la fuente S1 de 100kHz, contiene al inicio una frecuencia, pero que a 230us, aumenta esta frecuencia.

Para analizar esto, se realizó una descomposición espectral la cual se

muestra en la Figura 4.11.

En este espectro podemos observar que X1 contiene

importantes máximos alrededor de 100kHz y en 150kHZ, lo cual explica los cambios de frecuencia en la señal. Volviendo a la figura 4.10, Si medimos que la diferencia de tiempo entre la llegada de la señal de 100kHz y la de 150kHz es de 30us. Previamente se había calculado en 33us, muy cercano a este valor. En la grafica (b) se muestra la señal captada en el sensor X2, el cual está más cerca de la fuente de 150 kHz S2. Observando su espectro en la Figura 4.11, el máximo de amplitud se da a 155kHz, dejando muy por debajo amplitudes cercanas a 100kHz. Esto es debido a la respuesta sensible de los sensores a 150kHz. A frecuencias debajo a este valor ocurre una atenuación (A 100kHz es de 5 dB). Sin embargo, es posible observar algún cambio debido a la presencia de la señal de 100kHz después de los 250us. En la Figura 4.11 también comparamos a X1 y X2 con los patrones de 100kHZ y 150kHz. El espectro de la señal X1 al compararse con el patrón de 100kHz solo tienen en común la zona cercana a los 100kHz, pero diferenciándose hacia los 150kHz, donde el patrón de 100kHz ya no tiene energía. La señal X2 tiene un máximo de frecuencia a aproximadamente los 150 kHz. En la zona de cercana a los 100kHz hay picos de amplitud, pero a 5dB y 6dB menos que en la zona de 150kHz. La diferencia entre los patrones y las mezclas se pueden verificar en los valores de correlación de la Tabla 4.1. En esta tabla comparamos los patrones con las mezclas. El valor más alto se da cuando comparamos el Patrón de 150kHz y la señal X2. El siguiente mayor valor es entre este mismo patrón y la señal X1. De esta manera, la señal emitida por la fuente de 100kHz, parece perder amplitud, debido a su paso por los sensores.

72

Figura 4.10. Las graficas a y b muestran las señales captadas por los sensores X1 y X2, respectivamente. En X1 se observa como la señal emitida por la fuente de 150kHZ interfiere en esta a aproximadamente 250us. En X2, la interferencia de la señal de la fuente de 100kHz apenas es observable después de los 250us. En las graficas c y d se muestran las señales estimadas por el algoritmo Torkkola. La estimación 1 contiene una señal de frecuencia menor que en la estimación 2.

En las graficas (c) y (d) de la Figura 4.10 se muestran las estimaciones realizadas por el algoritmo Torkkola.

La estimación 1 parece ser de una menor frecuencia que la

estimación 2. Si observamos su espectro en la Figura 4.12, podemos observar una disminución de 10dB entre 100kHZ y 150kHz. Este cambio no ocurre en la estimación 2, en la cual el, hay un máximo de amplitud a 150kHz y 14dB de diferencia con respecto a 100kHZ. Si comparamos los espectros de los patrones y las estimaciones en la Figura 4.12 se observa una mayor similitud entre el patrón de 100kHZ y la estimación 1 que con la estimación 2. En el caso del patrón de 150 kHz, este es más similar a la estimación 2, que a la estimación 1. Volviendo a la figura 4.10, podemos observar que la forma de onda de la estimación 1 es más parecida al patrón de 100kHz que al patrón de 150kHZ. En el caso de la estimación 2, esta es más parecida al patrón de 150kHz. Estas observaciones se pueden constatar en la Tabla 4.2, donde mostramos los coeficientes de correlación entre los patrones y las estimaciones. Estos resultados nos llevan a concluir que el algoritmo realiza una separación entre emisiones de las fuentes acústicas de 100kHZ y 150kHz, a pesar que la amplitud de la señal emitida por

73

la fuente de 100kHZ hay sido atenuada por los sensores. Este conclusión es respaldada por los coeficientes de correlación de la en la tabla 4.3.

Figura 4.11. Espectro de los patrones y las mezclas. La Mezcla 1 contiene dos maximos a 107kHz y a 155 kHz, que se diferencian por 2dB. En la Mezcla 2, esta diferencia es de 10dB.

El coeficiente de correlación entre el patrón de 100kHz y la estimación 1 es de 0.82. Cuando comparamos este patrón con las mezclas son de 0.585 y 0.473.

Lo que

demuestra que el algoritmo va colocando la señal, común al patrón de 100kHz en el canal de la estimación 1 y colocando todo lo que es común al patrón de 150kHz en el canal de la estimación 2. Tabla 4.1. Correlación entre los patrones y las mezclas

COMPARACION

CORRELACION

Patrón 100kHz-Mezcla 1

0.585

Patrón 100kHz-Mezcla 2

0.473

Patrón 150kHz-Mezcla 1

0.747

Patrón 150kHz-Mezcla 2

0.884

74

Figura 4.12.Espectro de los patrones y las estimaciones. La estimacion 1 tiene mayor similitud con el patron de 100kHz. En el caso de la estimacion 2, mayor similitud con el patron de 150kHz.

Tabla 4.2. Correlacion entre los patrones y las estimaciones.

COMPARACION

CORRELACION

Patrón 100kHz-Estimacion 1

0.824

Patrón 100kHz- Estimación 2

0.451

Patrón 150kHz- Estimación 1

0.474

Patrón 150kHz- Estimación 2

0.920

75

4.3

CONCLUSIONES

En este capítulo se ha probado la implementación del algoritmo Torkkola basado en INFOMAX para separar mezclas provenientes de entornos reales. Se realizaron dos pruebas: separación de señales de audio y separación de señales ultrasónicas provenientes de descaras parciales simuladas. En las pruebas de audio se ha conseguido separar dos señales de audio que tenía voz y música. En las estimaciones se ha podido escuchar claramente la voz y la música sin interferencia.

En otra prueba hemos logrado separar dos voces. Además de estos

resultados, con los pesos obtenidos se ha podido determinar la posición de los micrófonos y las fuentes con respecto a las paredes. Este resultado puede ser utilizado para determinar las posiciones de las fuentes si se conocen las dimensiones del cuarto, incluso determinar si se están moviendo. Las pruebas con señales ultrasónicas han dado resultado muy prometedor pues ofrecen una solución para la detección de las fuentes de emisiones de descargas parciales. En las estimaciones se ha podido realizar separación de mezclas provenientes de una emisión de una descarga simulada a 100kHZ y otra a 150kHZ. Esta separación se ha logrado con la dificultad que presentan los sensores, los cuales eran muy sensibles a la frecuencia de 150kHZ, atenuando la señal de 100kHz. A la vista de los resultados la técnica ICA puede ser de aplicación al

preprocesado de las señales captadas por los sensores

acústicos de señales de descargas parciales y se demuestra que es útil para: -

Separar las señales de diferentes fuentes de señales acústicas procedentes de descargas parciales que se generan en intervalos de tiempo cortos con respecto a la duración de la señal acústica.

-

Reducir los efectos de ecos y reverberaciones que distorsionan la señal acústica que llega al detector.

76

5 CAPITULO.

CONCLUSIONES

Y

TRABAJO

FUTURO 5.1

CONCLUSIONES

En este trabajo hemos estudiando las bases teóricas de Análisis de Componentes Independientes, su implementación por medio de los algoritmos FASTICA e INFOMAX, evaluación de su operación, tanto para mezclas simultáneas como convolutivas y su utilización para la separación ciega de mezclas acústicas sintéticas y reales. FASTICA e INFOMAX proveen una solución rápida y eficiente para la separación ciega de mezclas. Con muy poco conocimiento sobre las fuentes, es posible revertir el proceso de mezclado. Además de la separación en el caso de ruido gaussiano ha sido posible extraer las fuentes exitosamente. El algoritmo desarrollado por Torkkola basado en INFOMAX fue utilizado para la separación de mezclas provenientes de entornos reales. Se utilizó con señales de voz y de música dando excelentes resultados. Además se obtuvo información espacial de las fuentes a través de los coeficientes de los pesos estimados. Además de señales de audio, el algoritmo Torkkola fue utilizado para separar mezclas provenientes de fuentes ultrasónicas generadas por descargas parciales simuladas. Esta aplicación, hasta nuestro conocimiento es novedosa y dado los resultados obtenidos, coloca a ICA como una herramienta con gran potencia para el preprocesado de señal en detección y clasificación de descargas parciales por procedimientos acústicos.

77

5.2

TRABAJO FUTURO

Este estudio nos marca dos líneas principales para

continuar en actividades de

investigación. La primera de ellas es un estudio más profundo de los algoritmos para trabajar en el dominio del tiempo y de la frecuencia. La segunda actividad hace referencia a su implementación en entornos de instrumentación, en los que se hace necesario un procesamiento en línea. Algunas de las tareas propuestas se resumen a continuación: 1. Estudio más profundo de los algoritmos. En las aplicaciones reales no se utilizó FASTICA debido a que su estructura no esta condicionada para separar mezclas con retardos.

FASTICA ofrece

generalidad con respecto a las señales que separa y sería muy útil aprovechar esta característica cuando se trabaja con mezclas convolutivas. Por esta razón, se propone estudiar ICA en el dominio de la frecuencia o con Wavelet. INFOMAX, a contrario que ICA no ofrece la generalidad de trabajar con señales de cualquier distribución pero esta característica se puede convertir en ventaja mediante la óptima selección de su función de activación. En el caso de las emisiones acústicas de las descargas parciales, se propone estudiar las funciones de distribución de probabilidad de los diferentes tipos descargas y adaptar la función de activación para que las separe. Existe un estudio en [44, 45] función puede adaptarse al tipo de la señal en escenarios no estacionarios algo muy útil para trabajo en línea. Otro punto importante a extender es la localización espacial de fuentes utilizando los coeficientes de pesos obtenidos. En las pruebas con señales reales de audio, fue posible estimar el retardo en las señales y realizar suposiciones sobre la posición de las fuentes con respecto a las paredes. En el caso de descargas parciales, estos coeficientes nos pueden dar información sobre la localización de las fuentes de descargas parciales. Si esto es combinado con una función de activación adaptativa, podríamos de manera simultánea localizar e identificar varios tipos de descarga. Por ultimo, otra mejora que se propone investigar es en la extracción de fuentes.

En el caso de FASTICA los

componentes se extraen secuencialmente. Hay estudios en [46] donde proveen una estructura para la extracción de señales con características estadísticas

78

especificas. En el caso de las descargas parciales, si conocemos bien las características de cada tipo, podemos no solo separarlas, sino clasificarlas de manera automática. 2. Implementación y procesado en línea. Los resultados que se han presentado en esta tesis de máster han sido obtenidos mediante un procesamiento off-line, es decir, primero se han adquirido las señales y luego se han procesado con los algoritmos FASTICA e INFOMAX implementados en Matlab. En la mayoría de los sistemas de instrumentación y en particular en los sistemas de detección y localización de descargas parciales, es muy útil poder disponer de un sistema de procesamiento en línea, en el que se vayan obteniendo los resultados a medida que se toman muestras de las señales. En este sentido se propone evaluar la estructura de cada algoritmo con el objetivo de mejorar su velocidad de convergencia. Se plantea la utilización de las tarjetas de adquisición de datos basadas en FPGA las cuales ofrecen gran flexibilidad a la hora de combinar el poder del software y el hardware[47]. Al integrar esta tarjeta en el sistema multicanal PXI utilizado en el experimento de descargas parciales, podemos realizar un procesamiento en línea. Además de esta posibilidad, en el Grupo de Optoelectrónica y Tecnología Láser de la Universidad Carlos III de Madrid se esta trabajando con sensores de fibra óptica para la detección acústica. Los sensores piezoeléctricos utilizados en nuestra aplicación para descargas parciales eran muy sensibles a una frecuencia específica. La fibra óptica presenta mayor ancho de banda que estos sensores, una ventaja a la hora de capturar señales con diferentes frecuencias. Otra ventaja de la fibra es que puede estar sumergida en el agua, evitando la distorsión que producen la pared cuando las señales la cruzan[48].

79

REFERENCIAS [1] [2]

[3] [4]

[5]

[6] [7] [8] [9] [10]

[11] [12] [13] [14] [15] [16]

[17] [18] [19] [20] [21]

[22]

[23]

J. F. Cardoso, "Blind signal separation: statistical principles," Proceedings of the IEEE, vol. 86, pp. 2009-2025, 1998. J. Kociński, et al., "Evaluation of Blind Source Separation for different algorithms based on second order statistics and different spatial configurations of directional microphones," Applied Acoustics, vol. 73, pp. 109-116, 2012. P. Comon, "Independent component analysis, A new concept?," Signal Processing, vol. 36, pp. 287-314, 1994. E. Oja, "Applications of Independent Component Analysis Neural Information Processing." vol. 3316, N. Pal, et al., Eds., ed: Springer Berlin / Heidelberg, 2004, pp. 1044-1051. A. Hyvärinen, et al., "Overview and comparasion of basic ICA methods," in INDEPENDENT COMPONENT ANALYSIS, I. JOHN WILEY & SONS, Ed., ed, 2001, pp. 273-289. A. Papoulis, Probability, Random Variables, and stochastic processes, III ed., 1991. D. Hongtao, et al., "Comparative study of VLSI solutions to independent component analysis," IEEE Transactions on Industrial Electronics, vol. 54, pp. 548-58, 2007. S. M. Ross, "Distributions of sampling statistics," in Probability and statistics for engineers and scientists, E. A. PRESS, Ed., III ed, 2004, pp. 204-210. A. Hyvarinen, et al., "ICA by Maximization of Nongaussianity," in Independent Component Analysis, I. JOHN WILEY & SONS, Ed., ed, 2001, pp. 165-202. A. Hyvarinen, "A family of fixed-point algorithms for independent component analysis," in Acoustics, Speech, and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on, 1997, pp. 3917-3920 vol.5. A. J. Bell and T. J. Sejnowski, "An Information maximization approach to blind separation and blind deconvolution," Neural Computation, vol. 7, pp. 1129-1159, 1995. R. Linsker, "Local synaptic learning rules suffice to maximize mutual information in a linear network," Neural Comput., vol. 4, pp. 691-702, 1992. J. P. Nadal and N. Parga, "Nonlinear neurons in the low-noise limit a factorial code maximizes information transfer," Network, vol. 5, pp. 561-581, 1994. T. W. Lee, "Independent Component Analysis," in Independent Component Analysis, ed, 1999, pp. 35-41. L. Te-Won, "Independent component analysis: theory and applications [Book Review]," Neural Networks, IEEE Transactions on, vol. 10, pp. 982-982, 1999. A. Cichocki and S. amari, "Natural Gradient Approach to Independent Component Analysis," in Adaptive Blind Signal and Image Processing, WILEY, Ed., ed, 2002, p. 235. J. L. M. S. Pedersen, U. Kjems, L. C. Parra, "A survey of Convolutive Blind Source Separation Methods," Springer Handbook on Speech Communication, pp. 1-34, 2006. T. W. Lee, "BLIND SEPARATION OF TIME-DELAYED AND CONVOLVED SOURCES," in INDEPENDENT COMPONENT ANALYSIS, ed, 1999, pp. 83-107. K. Torkkola, "Blind separation of convolved sources based on information maximization," Neural Networks for Signal Processing Vi, pp. 423-432, 1996. S. Haykin, "Blind separation of delayed and convolved sources," in Unsupervised adaptive filtering. vol. I, ed, 2000, pp. 333-344. K. Usman, et al., "A study of heartbeat sound separation using independent component analysis technique," in Enterprise Networking and Computing in Healthcare Industry, 2004. HEALTHCOM 2004. Proceedings. 6th International Workshop on, 2004, pp. 9295. F. L. Hedayioglu, et al., "Separating sources from sequentially acquired mixtures of heart signals," in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, 2011, pp. 653-656. A. Jiménez-González and C. James, "Extracting sources from noisy abdominal phonograms: a single-channel blind source separation method," Medical and Biological Engineering and Computing, vol. 47, pp. 655-664, 2009.

80

[24]

[25]

[26] [27]

[28]

[29]

[30]

[31]

[32] [33]

[34]

[35]

[36] [37]

[38] [39] [40] [41] [42]

[43]

[44]

[45]

B. Ying-Wen and Y. Cheng-Hsiang, "Design and implementation of a remote embedded DSP stethoscope with a method for judging heart murmur," in Instrumentation and Measurement Technology Conference, 2009. I2MTC '09. IEEE, 2009, pp. 1580-1585. Q. Hao, et al., "Blind Separation for Cabin Acoustic Signals in Complex Environment," in Image and Signal Processing, 2009. CISP '09. 2nd International Congress on, 2009, pp. 1-5. M. Kotani and S. Ozawa, "Feature Extraction Using Independent Components of Each Category," Neural Processing Letters, vol. 22, pp. 113-124, 2005. N. N. de Moura, et al., "Independent Component Analysis for Optimal Passive Sonar Signal Detection," in Intelligent Systems Design and Applications, 2007. ISDA 2007. Seventh International Conference on, 2007, pp. 671-678. T. W. Lee, et al., "Independent component analysis using an extended infomax algorithm for mixed subgaussian and supergaussian sources," Neural Computation, vol. 11, pp. 417-441, 1999. J. P. Reilly and L. C. Mendoza, "Blind signal separation for convolutive mixing environments using spatial-temporal processing," in Acoustics, Speech, and Signal Processing, 1999. ICASSP '99. Proceedings., 1999 IEEE International Conference on, 1999, pp. 1437-1440 vol.3. J. Qinggui and L. Guolong, "A new algorithm of Infomax for small numbers of sound signal separation," in Artificial Intelligence and Education (ICAIE), 2010 International Conference on, 2010, pp. 159-162. D. Obradovic, "Dynamic signal mixtures and blind source separation," in Acoustics, Speech, and Signal Processing, 1999. ICASSP '99. Proceedings., 1999 IEEE International Conference on, 1999, pp. 1441-1444 vol.3. K. Takada, et al., "On wavelet-based convolutive blind separation of non-stationary sound sources," in SICE 2004 Annual Conference, 2004, pp. 1362-1367 vol. 2. F. Sattar, et al., "Blind source separation of audio signals using improved ICA method," in Statistical Signal Processing, 2001. Proceedings of the 11th IEEE Signal Processing Workshop on, 2001, pp. 452-455. F. Sattar and C. Charayaphan, "Low-cost design and implementation of an ICA-based blind source separation algorithm," in ASIC/SOC Conference, 2002. 15th Annual IEEE International, 2002, pp. 15-19. C. Charoensak and F. Sattar, "A single-chip FPGA design for real-time ICA-based blind source separation algorithm," 2005 Ieee International Symposium on Circuits and Systems (Iscas), Vols 1-6, Conference Proceedings, pp. 5822-5825, 2005. I. T. Jolliffe, Principal Component Analysis, 2nd ed., 2002. M. Inki and A. Hyvarinen, "Two approaches to estimation of overcomplete independent component bases," in Neural Networks, 2002. IJCNN '02. Proceedings of the 2002 International Joint Conference on, 2002, pp. 454-459. F. J. Theis, "A geometric algorithm for overcomplete linear ICA," Neurocomputing, vol. 56, pp. 381-398, 2003. L. Q. Zhang, et al., "Natural gradient algorithm for blind separation of overdetermined mixture with additive noise," Signal Processing Letters, IEEE, vol. 6, pp. 293-295, 1999. Y. Matsuda and K. Yamaguchi, "An Overcomplete ICA Algorithm by InfoMax and InfoMin," Artificial Neural Networks - Icann 2008, Pt I, vol. 5163, pp. 136-144, 2008. A. C. S. Amari, and H.H. Yang, "A New Learning Algorithm for Blind Signal Separation," in Proc. NIPS, pp. pp.757-763, 1995. H. L. J. A. Garcia-Souto, C. Macia-Sanahuja et al., "Acoustic detection of partial discharges with an optical fiber interferometric sensor," IMEKO TC 2 Symposium on photonics in Measurements, Aug. 2008. J. A. Garcia-Souto, et al., "All-fiber intrinsic sensor of partial discharge acoustic emission with electronic resonance at 150 kHz," Optical Sensing and Detection, vol. 7726, 2010. A. Cichocki, et al., "Self adaptive independent component analysis for sub-Gaussian and super-Gaussian mixtures with unknown number of sources and additive noise," Proc. Symposium on Nonlinear Theory and its Applications, NOLTA-97, pp. 731-734, 1997. Z. Liqing, et al., "Self-adaptive blind source separation based on activation functions adaptation," Neural Networks, IEEE Transactions on, vol. 15, pp. 233-244, 2004.

81

[46] [47]

[48]

S. amari and A. Cichocki, "Statistical signal processing approach to blind signal extraction," in Adaptive Blind Signal and Image Processing, ed, 2002, pp. 177-228. A. Palumbo, et al., "A novel ICA-based hardware system for reconfigurable and portable BCI," in Medical Measurements and Applications, 2009. MeMeA 2009. IEEE International Workshop on, 2009, pp. 95-98. J. A. G.-S. J. E. Posada-Roman, J. Rubio-Serrano, "Intrinsic Fiber Optic Ultrasound Sensor for Oil Immersed Detection of Partial Discharges," IEEE 2011 Sensors Conference Proceeding, 2011.

82

Lihat lebih banyak...

ESTUDIO DE TÉCNICAS ICA PARA LA SEPARACIÓN DE MEZCLAS DE SEÑALES ACÚSTICAS Incluye aplicacion de descargas parciales

Descripción

Comentarios