La idonedidad de la pericia acústica en el ámbito judicial

October 7, 2017 | Autor: Trini Sánchez Pérez | Categoría: Fonetica Acustica
Share Embed


Descripción

LA IDONEIDAD DE LA PERICIA ACÚSTICA EN EL ÁMBITO JUDICIAL. Revisado 2014

UNIVERSIDAD DE MURCIA Departamento de Ciencias Sociosanitarias Estudios de Master y Doctorado en Ciencias Forenses 2008 Facultad de Biología Director investigación Don José Luis Ramón García . Catedrático de Física Médica Facultad de Medicina. Universidad de Murcia Autor: María Trinidad Sánchez Pérez Dni: 34810801w [email protected]

ÍNDICE 1.

INTRODUCIÓN ...................................................................................................................................................... 39

2. OBJETIVOS................................................................................................................................................................. 41 3. MÉTODOS. ................................................................................................................................................................ 42 3. 1. Algoritmos como parámetros de reconocimiento ......................................................................................... 42 3.1.1 Espectro de frecuencia............................................................................................................................... 42 3. 1. 2 Análisis espectral ...................................................................................................................................... 38 3. 1. 3 Transformada de Fourier ......................................................................................................................... 38 3. 1. 5 Jitter .......................................................................................................................................................... 40 3. 1. 6 Shimer ....................................................................................................................................................... 40 3. 1. 7 Coeficientes Cepstrales en frecuencia Mel (MFFC) ................................................................................ 40 3. 1. 8 Concepto de distancia/ Distancia euclídea ............................................................................................. 42 3. 1. 9 Alineamiento Temporal Dinámico (DTW) ............................................................................................... 43 3. 1. 10 Comparación y toma de decisiones ....................................................................................................... 44 3.2 Programas. Estudio comparativo de los distintos sistemas para el análisis de la voz con fines forenses ..... 38 3. 2. 1 Superescope ............................................................................................................................................. 38 3. 2. 2 Soundscope .............................................................................................................................................. 38 3. 2. 3 Computerized Speech Lab(CSL) ............................................................................................................... 38 3. 2. 4 MultiSpeech 3700 de Kay Elemetrics ...................................................................................................... 39 3. 2. 5 Sistema Visha (para el proceso y visualización del habla) ...................................................................... 38 3. 2. 6 Programa Praat......................................................................................................................................... 38 3. 2. 7 Programa Badvox versus Identivox.......................................................................................................... 38 4. REVISIÓN BIBLIOGRÁFICA ........................................................................................................................................ 38 4. 1. Influencia de la simulación de los hablantes en los sistemas de reconocimiento ................................... 38 4. 2. El Alineamiento Temporal Dinámico (DTW) como algoritmo de decisión ............................................... 39 4. 3 La pericia acústica en el proceso ................................................................................................................. 40 5. DISEÑO EXPERIMENTAL ............................................................................................................................................ 44 5. 1 La influencia microfónica en la identificación de locutores con fines forenses ........................................ 44 5. 2 Estructura del árbol de ficheros de la base de datos Ahumada ................................................................. 47 5. 4 Resultados obtenidos con el método DTW. ................................................................................................ 48 5. 5 Criterios de comparación y toma de decisiones. ........................................................................................ 50 6. CONCLUSIONES ......................................................................................................................................................... 57 7. BIBLIOGRAFÍA ............................................................................................................................................................ 58 Tabla ilustraciones Ilustración 1 42 Ilustración 2 Distribución de usuarios e impostores 46 Ilustración 3Curvas de falso error frente a falso rechazo en distintos niveles de umbral 47 Ilustración 4 Cotejo semiautomático intralocutor para las señales B01 y B02 del locutor L001. 49 Ilustración 5Cotejo semiautomático interlocutor señales B01 y B02 locutores L001 y L002. 50. Tabla 1 Datos correspondientes a la grabación con micrófono 1: locutores del 1-30 (autos ycruzados) Tabla 2Datos correspondientes a la grabación con micrófono 1: locutores del 3-30 (autos ycruzados). Tabla 3 Datos correspondientes a la grabación con micrófono 2: locutores del 1-30 (autos y cruzados.) Tabla 4 Datos correspondientes a la grabación con micrófono 2: locutores del 3-30 (autos ycruzados).

52 53 54 55

La Acústica Forense en la actualidad resulta necesaria para documentar y probar determinados delitos. Los estudios que en las últimas décadas se están realizando posibilitan la apreciación por los jueces de esta prueba. Experimentalmente, en laboratorio, los resultados son concluyentes con un margen de error muy pequeño, similar, al que arroja el análisis del ADN. En esta prueba lo que identifica al individuo podría definirse como la resonancia del tracto vocal del aparato fonador del sujeto, información que es extraída a su vez del análisis de una grabación “debitada” del mismo, que se debe comparar con otra indubitada; se trataría por tanto, de verificar la identidad de un sujeto “debitado” a través de su tracto vocal que se ha demostrado en numerosos estudios que es específico al individuo y se mantiene estable una vez éste alcanza la vida adulta. Para realizar este análisis se utilizan diversos parámetros, pero uno de los que ofrecen mayor valor “identificador” es el formante, que se corresponde con el pico de amplitud de la frecuencia sonora del sonido analizado. El oído humano percibe mejor los sonidos como frecuencias y los diversos programas y sistemas que se utilizan descomponen el sonido en éstas, para extraer la información que resulte más significativa. Además, en la práctica forense se necesita un parámetro que pueda medir y cuantificar el parecido de frecuencias de sonido distintas y tras numerosos estudios y revisiones bibliográficas, se destaca de entre otros algoritmos, la Alineación Temporal Dinámica (DTW) como un sistema que en base a la utilización de la Distancia Euclídea realiza unas plantillas donde estima ( mediante una distancias de corte halladas estadísticamente que se corresponden a un criterio acordado de decisión previo) que si hay poca distancia son parecidas las frecuencias de las voces y si hay mucha son distintas y nos encontraremos con que la grabación “debitada” se corresponde a otro sujeto y no al indubitado. Se ha comprobado igualmente por diversos autores si los sistemas de reconocimiento son sensibles a la manipulación voluntaria del hablante y en este sentido destacan los estudios de. Doddington, G., [3] que descartan esta hipótesis pero señala que sí existe una diferencia. Es por ello, que en esta tesis proponemos un diseño experimental utilizando la base de datos Ahumada: registro de 103 locutores en español por distintos métodos: micrófono móvil y teléfono; a partir de la cual, pretendemos comprobar utilizando dos micrófonos distintos si descartamos o aceptamos dicha hipótesis. Para tal fin me sirvo de la ayuda y trabajo previo del profesor D. José L. Ramón que ha elaborado macros y Scripts con los programas Praat y Excel sin los cuales no hubiera podido realizar ésta comprobación debido a lo arduo y complicado del cotejo; con dichos programas el tratamiento de los datos finales se ha hecho sencillo y fácil. Por último, es necesario enmarcar esta prueba en su contexto dentro del proceso judicial y señalar hasta qué punto es pertinente y legalmente aceptable su admisión en el mismo. Diferenciándose dos situaciones distintas, lo que son la intervención de las comunicaciones entre locutores distintos, de la grabación de las mismas por uno de los sujetos participante en la conversación; en el primer caso es necesario autorización judicial motivada si no fuera así, la prueba quedaría invalidada de facto, en el segundo caso al grabar la conversación un integrante de la misma le ampara la ley y la grabación se convierte en prueba documental que se adjunta a su testimonio dentro del proceso. Es por todo lo anterior que la pericia acústica resulta necesaria en el proceso siempre que su práctica está avalada por una obtención fiable y científica que la convierte en idónea y pertinente.

Palabras claves: Acústica forense; Verificación de locutores; Formantes., Algoritmos DTW; Intervención comunicaciones.

3

Abstract Forensic Acoustics is now required to document and prove certain offenses. Studies in recent decades are being made possible the appreciation by the judges of this test. Experimentally in the laboratory, the results are inconclusive with a very small margin of error, similar, resulting in the DNA analysis. In this test, which identifies the individual may be defined as the vocal tract resonance of the vocal apparatus of the subject, information that is extracted in turn from the analysis of a dubious record of it, to be compared with another indubitable, it would therefore be , to verify the identity of a subject through their dubious vocal tract has been shown in numerous studies that is specific to the individual and remains stable once it reaches adulthood. To perform this analysis using various parameters, but one that offers greater value identifying the formant, which corresponds to the peak amplitude of the sound frequency of sound analysis. The human ear perceives sounds better as frequencies and the various programs and systems used in these sound broken to extract the information that is more meaningful. Moreover, in forensic practice requires a parameter that can measure and quantify the similarity of different sound frequencies and after numerous studies and literature reviews, it stands out from other algorithms, dynamic time alignment (DTW) as a system basedthe use of Euclidean distance where estimates made insoles (using a cutoff distances found statistically that correspond to a pre-agreed criteria decision) if there are similar low frequency range of voices and if many are different and we find that doubtful recording corresponds to another subject and not certain. Also been found by various authors if recognition systems are sensitive to voluntary manipulation of the speaker and in this regard include studies. Doddington, G., [3] to rule out this hypothesis but notes that there is an appreciable difference in the results due to the microphone being used. This is why in this thesis we propose an experimental design using the database Ahumada: record of 103 speakers in Spanish by different methods: microphones, mobile phone, from which we intend to test using two different microphones if we discard or accept this hypothesis. To this end I use the aid and previous work of Professor D. Joseph L. Ramon has developed macros and scripts with Praat and Excel programs, without which it could perform this check because of the difficult and complicated comparison, with such programs, the final data processing is made simple and easy. Finally, this test must also be placed in context within the judicial process and indicate to what extent it is appropriate and legally acceptable for admission in it. Distinguishing between two different situations, which are the interception of communications between different speakers, recording them by one of the subjects participating in the conversation in the first case it is necessary judicial authorization motivated if not, the test would void de facto, in the second case to record the conversation a member of the same law protects him and recording becomes attached documentary evidence to his testimony in the process. For all the foregoing that the acoustic expertise is needed in the process whenever the practice is supported by a reliable and scientific collection which makes it suitable and relevant. Keywords: Acoustic forensic speaker verification, Formant., DTW algorithms, Speech Communication.

3 8

1. INTRODUCIÓN Los principales estudios al respecto se realizan a partir de los años 90 siendo figuras relevantes en este campo, entre otros, los integrantes de la Policía alemana: R. Kϋnzel y A. Braun, el primero adquirió gran protagonismo en España a raíz de ser consultado en el caso de Anabel Segura, sobre la autoría de las llamadas que se simularon en su nombre. En Portugal, Francia e Italia también se están haciendo grandes aportaciones al estudio de la Acústica Forense. Y en España actualmente está en marcha un proyecto muy ambicioso:el Hesperia1 el que están implicados Telefónica, varias Universidades y

Empresas, que

pretende implementar sistemas de identificación individual a través de la voz como método de seguridad en cajeros, edificios, materiales tecnológicos,

etc. Siendo uno de los

pioneros en la investigación académica de la Acústica Forense el catedrático de Física Médica y Presidente durante varios mandatos de la Sociedad Española de Acústica Forense D. José. L. Ramón (que supervisa esta tesis). Dentro de la Acústica Forense se diferencian dos procesos: los casos de identificación, en donde se compara un locutor con varios dentro de un conjunto cerrado “Closed set” (como ejemplo nos serviría el proyecto Hesperia) y los sistemas de verificación, comparación de dos locutores en un sistema abierto “Open set”. El ámbito forense frecuentemente se centra en los casos de verificación entre locutores: (dubitado e indubitado). El reconocimiento de locutores es un

sistema de

identificación biométrico que parte del fundamento científico de que la voz permanece estable una vez llegada la vida adulta y de que de un individuo a otro, existen características específicas y “diferenciadoras” de construcción del tracto faringo-laringo-vocal.

http://www.innovation-labs.com/hesperia/publicos/061201_ivl.jsp (9Enero2012)

3 9

Junto a otras disciplinas, sin dejar de contemplar su carácter interdisciplinario y forense, se puede englobar dentro de la “Psicoacústica” que estudia entre otras materias la percepción aural del sonido El sonido

suele ser definido como una vibración

o

movimiento recurrente de una masa en un medio elástico, con un rango de recurrencias o ciclos de frecuencia de intensidad igual o superior al umbral de percepción de la vibración (de 20 a 20.000 Hz), el cual sigue las leyes generales del movimiento. Los sonidos puros se desplazan en un movimiento armónico simple con trayectoria de su onda en línea recta y las vibraciones complejas, que son las más frecuentes en la naturaleza, se producen en frecuencias periódicas, aperiódicas y semiperiódicas en función del tiempo. La señal del habla se considera una onda cuasi-estacionaria, ya que su variación lenta nos permite dividir su análisis en tramas de duración finita relativamente corta y con solapamiento entre ellas, el análisis del habla puede llevarse a cabo por tanto en el dominio del tiempo y en el de la frecuencia, en el dominio temporal los parámetros que se utilizan son la energía local, la tasa de cruces por cero y la función de autocorrelación; este análisis es sencillo y rápido con una interpretación física directa. En la actualidad en análisis frecuencial del habla es el método más utilizado; pues el oído humano está mejor orientado a percibir la información espectral del sonido que en forma de onda o señal temporal. En el acto de la fonación el aire respirado pasa a través de la glotis produciéndose la vibración de la laringe y los sonidos sonoros. La tensión que se produce en las cuerdas vocales nos determina el tono de los mismos y las aperturas y cierres de la glotis, la frecuencia fundamental, mientras que en el caso que no hubiera vibración perfecta se producirían las turbulencias en la constricción de las cuerdas vocales que se corresponden con los sonidos sordos La información que nos proporciona el sonido en sí, al pasar por la glotis, nos permite distinguir: los sonidos agudos de los graves, siendo los primeros más habituales en mujeres y niños; esta información nos permite clasificar los sonidos pero no individualizarlos.

4 0

En el análisis forense de la voz lo que se pretende es separar la parte audible del sonido que pertenece al tracto vocal, información automatizada que es involuntaria del resto y que diferencia e individualiza a un sujeto determinado, por ello, se trata de analizar la estructura de la resonancia del aparato fonador y sobre todo de entre otros parámetros los formantes. Las aperturas y cierres de la glotis con una secuencia de tiempo y amplitud determinados se corresponden con la frecuencia fundamental, que se produce con la vibración de las cuerdas vocales y que nos proporciona información sobre los sonidos armónicos, ambas magnitudes pueden ser evaluadas y representadas estadísticamente, esto es cuantificadas y cualificadas. Jakson Menaldi, C.A [6]. La resonancia individual del tracto vocal así obtenida (a nivel identificativo) tiene validez científica pues ha sido inferida a través de un método estadístico experimental con un error del 98% aproximadamente, verificado en sucesivos estudios, Ramón Et Alt [10].

2. OBJETIVOS Revisión de los programas y técnicas utilizadas, validez legal. Realizar un diseño experimental sobre la influencia en los resultados de los micrófonosempleados en la prueba. Comprobar la idoneidad de la pericia acústica dentro del proceso penal

4 1

3. MÉTODOS. Conceptos y programas utilizados para el reconocimiento de la voz

3. 1. Algoritmos como parámetros de reconocimiento 3.1.1 Espectro de frecuencia El espectro de frecuencia de un fenómeno ondulatorio (sonoro, luminoso o electromagnético), es la superposición de ondas de varias frecuencias, es una medida de la distribución de amplitudes de cada una de ellas, también se llama espectro de frecuencia al gráfico de intensidad frente a frecuencia de una onda particular. El espectro de frecuencias o descomposición espectral de frecuencias puede aplicarse a cualquier concepto asociado con frecuencia o movimientos ondulatorios como son los colores, las notas musicales, las ondas electromagnéticas de radio o TV e incluso la rotación regular de la tierra. Los sonidos pueden ser una superposición de frecuencias diferentes, cada frecuencia estimula una parte diferente de nuestra cóclea (caracol del oído). Cuando escuchamos una onda sonora con una sola frecuencia predominante escuchamos una nota, pero en cambio un silbido cualquiera o un golpe repentino que estimule todos los receptores contiene frecuencias dentro de todo el rango audible. Muchas cosas en nuestro entorno que calificamos como ruido frecuentemente contienen frecuencias, así cuando un espectro de frecuencia de un sonido o espectro sonoro, viene dado por una línea plana, decimos que el sonido asociado es ruido blanco. Una onda triangular representada en el dominio temporal (arriba) y en el dominio frecuencia

(abajo)

la

frecuencia

fundamental

está

en

torno

a

220

Hz.

4 2

3. 1. 2 Análisis espectral Se refiere a la acción de descomponer algo complejo en partes simples o identificar en ese algo complejo las partes más simples que lo forman, un análisis espectral permite descomponer una señal compleja en cada una de sus frecuencias parciales, pasando del dominio temporal al dominio de la frecuencia, la resolución frecuencial del análisis se calcula dividiendo la frecuencia de muestreo por el número de puntos de la transformada de Fourier, por ejemplo a una frecuencia de muestreo de 10 Hz y una transformada de 512 puntos tiene una resolución “frecuencial” de 0.0195 Hz. Un proceso que cuantifique las diversas intensidades de cada frecuencia se llama análisis espectral donde se analizan básicamente dos tipos de estructuras: la que se corresponde con los armónicos (fuente sonora) y la estructura de la resonancia (filtros) donde se utilizan bandas anchas de 300 Hz (5 ms) para obtener las frecuencias naturales del tracto: los formantes que son los parámetros que resultan más útiles a nivel identificativo.

3. 1. 3 Transformada de Fourier En procesamiento de señales el análisis de Fourier suele considerarse como la descomposición de una señal en componentes de frecuencias diferentes. Es decir (g) se corresponde al espectro de frecuencias de la señal (f). La rama de las matemáticas que estudia el análisis de Fourier y sus generalizaciones es denominada Análisis Armónico. Matemáticamente el análisis espectral está relacionado con esta herramienta llamada Transformada de Fourier o Análisis de Fourier. Cuya fórmula es la siguiente:

Ecuación 1 Fórmula Transformada de Fourier

Además la transformada de Fourier de una función, no sólo permite hacer una descomposición espectral de las frecuencias de una onda o señal oscilatoria, sino que con el espectro generado por el análisis de Fourier incluso se puede reconstruir (sintetizar) la función original mediante la transformada inversa.

3 8

Para poder hacer esto, la transformada no solamente contiene información sobre la intensidad de determinada frecuencia, sino también sobre su fase. Esta información, se puede representar como un vector bidimensional o como un número complejo en las representaciones gráficas, frecuentemente sólo se representa el módulo al cuadrado de ese número, y el gráfico resultante se conoce como espectro de potencia o densidad espectral de potencia. Es importante recordar que la transformada de Fourier de una onda aleatoria, mejor dicho estocástica, o sea probabilística (un ejemplo es el ruido ambiental) para representarse requiere cierto tipo de promediado para mostrar adecuadamente la distribución frecuencial. Para señales estocásticas digitalizadas de ese tipo se emplea con frecuencia la transformada de Fourier discreta. 3. 1. 4 Linear Prediction Coding (LPC) El LPC (Linear Prediction Coding) es el espectro de las resonancias del tracto vocal; mide la frecuencia y energía con el ancho de banda, correspondiéndose los picos de convergencia con las resonancias del tracto o formantes. Se necesitan filtros de 300 Hz (5 ms) pudiéndose obtener con ellos la representación lineal de cuatro formantes, siendo este sistema el más utilizado pues la audición natural humanas solo percibe de 6 a 7 frecuencias simultáneas

3 9

Ilustración 4 Espectrograma con formantes para vocales a, i, u tal como aparecen con la técnica de LPC

3. 1. 5 Jitter Se corresponde con las alteraciones de la frecuencia que se pueden medir en vocales sostenidas en tiempos pequeños con independencia de los cambios voluntarios de la frecuencia fundamental de la voz; en una situación ideal su valor sería de 0 por lo cual es frecuente que su valor sea pequeño pero característico de un individuo.

3. 1. 6 Shimer Se trata de medidas de de la perturbación de la amplitud que sirven para cuantificar pequeños lapsos en la intensidad vocal de cada ciclo fonatorio al igual que la medida anterior es una medida especifica del tracto vocal independiente de la fuente, si bien para cuantificar correctamente ésta se requiere mantener una distancia adecuada del micrófono, Jackson Menaldi, a et alt. [7].

3. 1. 7 Coeficientes Cepstrales en frecuencia Mel (MFFC) Son coeficientes para la representación del habla, basados en la percepción auditiva humana que se derivan de la Transformada de Fourier, o de la transformada del coseno discreta, la diferencia básica con estas, es que en la MFCC las bandas de frecuencia están situadas logarítmicamente según la escala Mel propuesta por Steven, Volkman y Newman en 1937(Journal of the Acoustical Society of America; Amer.Jour.Psyco. 48) que es una escala musical perceptual del tono a juicio de observadores equiespaciados. Se define equiparando un tono de 1000 Hz a 40 dB por encima del umbral de audición del oyente, con un tono de 1000 Mel por encima de 500 Hz; los intervalos de frecuencia espaciados exponencialmente son percibidos como si estuvieran linealmente. 4 0

En consecuencia: 4 octavas en herzios por encima de 500 Hz se comprimen a 20 octavas en la escala Mel, que modela mejor la respuesta auditiva humana que las bandas espaciadas linealmente, haciendo el procesado de datos y la compresión en audio más eficiente. Wiikipedia [12] Generación de los parámetros Mel a partir de las muestras de señal -Preénfasis, filtrado de la señal de voz ya que esta se atenúa 6 dB por octava, conforme aumenta la frecuencia es necesario introducir un filtrado para aumentar los componentes de la alta frecuencia, este proceso se puede realizar a través de un filtro digital de paso alto que se puede implementar con la siguiente ecuación de diferencias: y(n)=x(n)-a x (n-1) donde a es una constante que varía entre (0 y 1) en el dominio de la transformada Z. -Enventanado Hamming para seleccionar la trama a trabajar utilizamos la ecuación: W= 0,54-0,46 cos(2 π n/N) 0
Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.