Viabilidad del uso de algoritmos de clustering en la recuperación espectral a partir de respuestas de un conjunto de sensores

June 8, 2017 | Autor: Natalia Lyubova | Categoría: Clustering
Share Embed


Descripción

IX CONGRESO NACIONAL DEL COLOR. ALICANTE 2010

VIABILIDAD DEL USO DE ALGORITMOS DE CLUSTERING EN LA RECUPERACIÓN ESPECTRAL A PARTIR DE RESPUESTAS DE UN CONJUNTO DE SENSORES. 1.

Eva M. Valero1, Natalia Lyubova2, Juan L. Nieves1, Javier Hernández Andrés1 Departamento de Óptica, Facultad de Ciencias, Universidad de Granada, 18071 Granada 2. Estudiante de máster Erasmus Mundus CIMET. Universidad de Joensuu (Finlandia).

Resumen: El campo de las imágenes multiespectrales o hiperespectrales está registrando una considerable actividad en los últimos años. Los algoritmos de Clustering se han aplicado en este contexto con el fin principalmente de clasificar materiales u objetos incluidos en las escenas multiespectrales (ya sean provenientes de sistemas de captura de imágenes mediante satélite o imágenes aéreas, donde es especialmente interesante obtener una relación de áreas pertenecientes a una determinada clase). En nuestro estudio, presentamos algunos datos que apoyan la viabilidad de aplicar los algoritmos de clustering para simplificar el problema de recuperar la información espectral (caracterizada por al menos 30 datos por cada píxel de la imagen) a partir de unos pocos valores de respuesta de un sistema de sensores obtenidos con una cámara digital convencional de sensor CCD. Hemos utilizado tres algoritmos diferentes de clustering, trabajando con respuestas de sensores simuladas, con o sin la inclusión de un nivel elevado de ruido en el sistema de captura. Como parámetro adicional, hemos trabajado con sistemas formados por tres o seis sensores. En el caso de seis sensores, éstos fueron el resultado de simular la introducción de un filtro coloreado delante del objetivo de la cámara digital, con el fin de aumentar el número de sensores sin complicar excesivamente el sistema de captura. Hemos estudiado la influencia sobre la calidad de las señales espectrales recuperadas del ruido introducido, el número de sensores, el número de clases empleadas en el proceso de clustering, y el tipo de algoritmo utilizado. Palabras clave: Imágenes multiespectrales, clustering, recuperación de información espectral INTRODUCCIÓN Las técnicas de imagen espectrales tienen gran aplicación actualmente, puesto que presentan la ventaja fundamental de poder acceder a la información espectral para cada píxel de la escena [1-2]. La obtención de imágenes hiperespectrales supone habitualmente el uso de 30 o más filtros de ancho de banda espectral reducido correspondientes a diferentes longitudes de onda de pico o bandas. Así, la radiancia o reflectancia espectral de cada pixel puede ser obtenida de una forma bastante precisa [3]. Algunos de los sistemas de captura incluyen un filtro sintonizable de cristal líquido o LCTF como forma de selección de las bandas espectrales, acoplado a una cámara monocromo [2]. Como alternativa, hay otros sistemas que pretenden reducir el número de imágenes capturadas utilizando un número reducido de filtros coloreados acoplados a cámaras color RGB, y esto supone que después hay que estimar la información espectral a partir de los valores de respuesta de los sensores del sistema de captura. La recuperación espectral es en este caso un problema sin solución única a priori, puesto que la señal espectral que queremos obtener tiene mayor dimensión que el número de sensores utilizado. Así que la forma usual de proceder para muchos algoritmos de recuperación, como los métodos de reconstrucción directa, o de pseudoinversa directa, o los basados en algoritmos de auto-aprendizaje [2, 4-6] es utilizar un conjunto de señales espectrales como entrenamiento para obtener la relación entre funciones espectrales y respuestas de sensores. En el llamado “método de pseudoinversa directo” [6], el 263

IX CONGRESO NACIONAL DEL COLOR. ALICANTE 2010

proceso de recuperación supone el cálculo de una matriz D de estimación a partir de un conjunto de respuestas de sensores para las cuales se conoce la radiancia o reflectancia espectral, como se muestra en la ecuación (1): D = St ρ t+

(Ec. 1)

donde ρt representa las respuestas de sensores y St las señales espectrales para el conjunto de entrenamiento. El signo + indica pseudoinversión. Una vez calculada, la matriz D puede utilizarse para estimar funciones espectrales a partir de respuestas de sensores, como se muestra en la ecuación (2): S = Dρ

(Ec. 2)

El número de respuestas de sensores puede aumentarse utilizando filtros coloreados colocados delante del objetivo de la cámara, lo que mejora la recuperación en ciertos casos [5,6]. El método de pseudo-inversa directo se ha aplicado también para la optimización de sensores en un sistema de medida de distribuciones espectrales de luz-día con 3-5 sensores [8], mostrando buenos resultados en comparación con otros métodos. Recientemente, se han aplicado técnicas de clustering para mejorar la clasificación de objetos en imágenes hiperespectrales obtenidas por satelite[9-10] y también en el contexto de recuperación espectral para escenas naturales, con el fin de subdividir los datos de respuesta de sensores previamente a calcular la matriz de recuperación para cada clase [11]. El objetivo principal de este estudio es obtener datos adicionales y más completos para apoyar los resultados previos que indican que los algoritmos de clustering pueden mejorar la recuperación espectral. Utilizaremos datos de respuesta de sensores calculados, con o sin ruido aditivo en el sistema. También, veremos si la introducción de un filtro coloreado mejora las reconstrucciones, así como la influencia del número de clases utilizadas y del tipo de algoritmo empleado. Así que presentaremos resultados para cuatro condiciones de captura diferentes: sin ruido y sin filtro, sin ruido y con filtro, con ruido y sin filtro, y finalmente con ruido y con filtro.

MÉTODO 1) Cálculo de las respuestas simuladas con y sin ruido. Para el cálculo de las respuestas de sensores, hemos utilizado un conjunto de datos de reflectancia espectral procedentes de imágenes hiperespectrales obtenidas de una base de datos pública de alta resolución espectral [3] para escenas naturales. Las curvas de responsividad utilizadas corresponden a una cámara digital RGB comercial (modelo Retiga 1300, QImaging Corp., Canadá), con 12-bits de resolución por canal. Para las condiciones que incluyen ruido, se añadió éste introduciendo un nivel de ruido aditivo del 5% de la varianza, que correspondería a un nivel elevado de ruido térmico y de captura (shot noise). El término de ruido se introdujo como se muestra en la ecuación (3): ρn = ρ + N

(Ec. 3)

donde ρn representa las respuestas de sensores con ruido, y N es un vector columna con tres o seis valores, según corresponde a las condiciones sin filtro o con filtro[7]. Hemos utilizado un total de 228010 reflectancias para el conjunto de entrenamiento, y 37210 reflectancias para el conjunto test mediante el cual evaluamos la calidad de las reconstrucciones. Ambos conjuntos no presentan reflectancias en común. Una vez calculadas las respuestas de sensores para ambos conjuntos, hemos realizado la estimación de reflectancias utilizando todos los datos, según se explica en la introducción. Esta recuperación global servirá como referencia para ver si el clustering introduce alguna mejora en el proceso. 264

IX CONGRESO NACIONAL DEL COLOR. ALICANTE 2010

2) Algoritmos de clustering e indices de calidad. Una vez calculadas las respuestas de sensores para cada condición de captura, hemos aplicado tres algoritmos de clustering diferentes (standard k-means [12], Fuzzy-C means o FCC [12] y Gaussian Mixture Model o GMM [13]) con valores de inicialización aleatorios y diferente número de clases (2, 4, 8, 16 y 32 clases). Entonces, hemos calculado la matriz de estimación D para cada clase, y obtenido las reflectancias recuperadas para el conjunto test, que había sido previamente clasificado de acuerdo a los resultados del algoritmo de clustering. Para el k-means, hemos realizado cinco veces el proceso, debido a la conocida dependencia de los resultados con los valores de inicialización para este algoritmo. Como resultado, hemos seleccionado el de mejor calidad de los cinco obtenidos, de acuerdo a los índices de separación de Xie y Beni [12]. Hemos utilizado tres índices de calidad para analizar los resultados de la recuperación: dos que estudian fundamentalmente la calidad espectral de las señales recuperadas (Goodness-of-FitCoefficient o GFC, definido como el coseno del ángulo que forman las dos señales en el espacio de representación multidimensional, y el conocido RMSE o error cuadrático medio); el índice de calidad adicional es colorimétrico (diferencia de color CIELAB ∆E*ab). El resultado de calidad global para un determinado algoritmo y número de clases es el resultado de realizar un promedio pesado en función del número de miembros de cada clase. RESULTADOS En la figura 1, presentamos el promedio pesado del índice GFC para las cuatro condiciones de captura, en función del número de clases utilizadas como dato de entrada para cada uno de los tres algoritmos de clustering. K-means, GFC

FCC, GFC

0,98

0,98

0,96

0,96

0,94

0,94

0,94

0,92

0,92

0,92

0,90

0,90

0,90

0,88

0,88

0,88

0,96

0,86 0

2

4

8

16

32

Number of classes SF,filter, SRnon-noisy CF, SR Without Magenta filter, non-noisy SF,filter, CRnoisy CF, CR Without Magenta filter, noisy

GMM, GFC

0,98

0,86

0,86 0

2

4

8

16

32

Number of classes SF,filter, SRnon-noisy CF, SR Without Magenta filter, non-noisy SF,filter, CRnoisy CF, CR Without Magenta filter, noisy

0

2

4

8

16

32

SF, SR Number of classes CF, SR Without filter, non-noisy Magenta filter, non-noisy SF, CR CF, CR Without filter, noisy Magenta filter, noisy

Figura 1. Valores de GFC para los tres algoritmos y cuatro condiciones de captura. SF, SR: sin filtro y sin ruido. CF, CR: con filtro y con ruido.

En cuanto a la influencia de la condición de captura, la introducción del ruido causa un descenso en la calidad de las señales recuperadas, como se esperaba dado el elevado nivel de ruido introducido. Las diferencias entre distintas condiciones tienden a mantenerse constantes a partir de 8 clases, aunque en general los datos de GFC presentan menos variaciones para las condiciones libres de ruido, en coincidencia con lo apuntado en un estudio preliminar [11]. Para los datos libres de ruido, la recuperación con filtro es mejor que usando solo tres sensores, pero sucede lo contrario cuando se introduce el ruido. Esta tendencia se muestra de acuerdo con otros resultados recientes relativos a la estimación de señales espectrales a partir de respuestas de sensores con ruido [3, 7]. Para los algoritmos FCC y GMM, el aumento del tiempo de computación de 8 a 32 clases es muy elevado, así que se recomendaría utilizar un número relativamente bajo de clases con estos algoritmos, ya que el incremento en la calidad obtenido con un mayor número de clases no compensaría el mayor tiempo empleado en los cálculos. Esto puede resultar una limitación si se trabaja con escenas muy complejas. Hemos realizado un análisis estadístico tipo ANOVA de un factor para cada condición de captura y algoritmo, y el factor número de clases resultó siempre significativo (p
Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.