El empleo de histogramas y de los polígonos de frecuencia en la interpretación de los datos geoquímicos

September 28, 2017 | Autor: Ricardo Valls | Categoría: Geochemistry, Applied Statistics, Mathematical Modelling
Share Embed


Descripción

Edición Septiembre 15, 2012 Sociedad Minera Calvista Colombia S.A.S. Revista informativa

Nuestro

Pórtico El empleo de histogramas Por Ricardo Valls

NUESTRO PÓRTICO

El empleo de histogramas y polígonos de frecuencia en la interpretación de los datos geoquímicos

E

n este artículo se explican las metodologías para confeccionar histogramas de carácter continúo y discontinúo, así como la determinación de los estadígrafos más importantes como la media, la moda, la mediana, ofreciéndose además la interpretación geológica de las mismas. De igual forma se detalla la interpretación de los polígonos de frecuencias, la determinación de percentiles, decitiles y cuartiles y su empleo como criterio para evaluar la perspectividad de una anomalía.

Introducción El empleo de los métodos estadísticos para la elaboración de los datos es en la actualidad una actividad imprescindible y la existencia de programas de computación generales o especializados, hace la misma aún más frecuente. No creo que sea una tarea fácil encontrar hoy día una compañía sin computadoras o al menos calculadoras programables. Esta situación ha provocado que caigan en desuso los métodos estadísticos gráficos (y generalmente manuales) tales como los histogramas, los polígonos de frecuencia, los papeles logarítmicos y los métodos de correlación gráfico entre otros, por considerarse menos exactos y más trabajosos. Recordemos, sin embargo, el refrán de que “Más vale un gráfico que mil palabras”. Los histogramas y polígonos de frecuencia siguen siendo los métodos ideales para la representación gráfica de los datos y su utilidad no se limita a esto, como se mostrará en este artículo.

Por: Ricardo Valls M.Sc.,P.Geo., no son factores antagónicos, sino que por el contrario se complementan armónicamente,lográndose la representatividad gráfica de los datos de forma exacta y eficiente. En este artículo usaremos Excel como el programa base para la construcción de estos gráficos, brindándose además la interpretación geoquímica de los estadígrafos obtenidos.

Histogramas y polígonos de frecuencia El histograma es una representación gráfica de la distribución de los datos y, cuando se realiza correctamente, indica la distribución natural de dichos datos. La base de un correcto histograma es la selección de los intervalos de clase. Si sus datos son de carácter no continúo, como los resultados de los análisis espectrales, no se debe de usar ningún criterio de agrupación de clases (bin classes en Inglés), sino usar directamente cada valor y su frecuencia. Veamos un ejemplo. En la tabla 1 se muestran los resultados obtenidos mediante un análisis expectral. La Fig. 1 muestra un histograma creado de forma automática por Excel. La Fig. 2 muestra la verdadera distribución natural de los datos. Es evidente que la Fig. 2, si bien menos “estética”, brinda mejor información al geólogo tratando de interpretar estos datos.

La cibernética y las construcciones gráficas

1

NUESTRO PÓRTICO Valor

Frecuencia

4

1

8

9

12

9

20

13

32

5

40

2

Ve a mo s a h o ra có mo d e te rm i n a r l o s estadígrafos más importantes en un histograma.

Tabla 1  . Resultados espectrales (semi-cuantitativos) de un grupo de muestras.

La base de un correcto histograma es la selección de los intervalos de clase.

Figura 1 . Distribución matemática de los datos en el histograma.

Figura 2 . Distribución natural de los datos en el histograma.

Si los resultados son continuos generalmente se utiliza la siguiente ecuación para determinar los intervalos de clase. Ahora bien, teniendo en cuenta el principio estadístico que recomienda que el número de clases no sea menos de diez ni mayor de quince, es más sencillo usar la ecuación (2), substituyendo N por un número entero entre 10 y 15.

2

La moda, la mediana, la media y los percentiles. La moda se define como el valor más frecuente en los datos y se representa con el símbolo MO. En ocasiones, un histograma puede presentar más de una moda, en cuyo caso el valor más frecuente se llamaría moda absoluta y los demás máximos, modas relativas. Aunque no es frecuente, puede darse el caso de un histograma con dos modas absolutas (Fig. 3). La cantidad de modas, define el carácter modal de la distribución de una forma completamente objetiva. La moda se determina mediante la ecuación (3).

LMO – es el límite inferior de la clase modal. d1 – es el valor absoluto de la diferencia entre la frecuencia de la clase modal y la frecuencia del intervalo de clase anterior. d2 - es el valor de la diferencia entre la frecuencia de la clase modal y la frecuencia del intervalo de clase siguiente. w – es la amplitud de la clase modal.

NUESTRO PÓRTICO La Tabla 2 muestra los datos empleados en el histograma de la Fig. 3. Intervalo

Frecuencia

0.1

1

7.3

57

14.6

7

21.9

7

29.2

57

36.5

7

43.7

30

Tabla 2. Datos originales para la determinación del valor de la moda absoluta y relativa.

Si quisiéramos mostrar el caso de la determinación de la moda relativa, substituiríamos la ecuación (3) por los datos siguientes:

Si quisiéramos mostrar el caso de la determinación de la moda relativa, substituiríamos la ecuación (3) por los datos siguientes:

Figura 3 . Histograma mostrando dos modas absolutas en rojo (11.2 and 32.8) y una moda relativa en verde a los 46.9. Este es un histograma trimodal.

Aclaremos, que de haber sido los datos anteriores datos de carácter discontinúo (semi-espectrales), las modas serían exactamente el valor que se repite más, o

sea las modas absolutas serían 7.3 y 29.2 y la moda relativa 43.7. La relación entre la posición de las modas y de los fondos geoquímicos es de gran utilidad para las interpretaciones geoquímicas como se mostrará posteriormente. El valor de la mediana se determina mediante la ecuación (4).

Donde, Lm – es el límite inferior de la mediana de la clase determinada por la posición del ((n+1)/2)-ésimo evento (dato). n – es el número de observaciones o datos en la muestra. S – es la suma de las frecuencias de las clases precedentes a la mediana de la clase. fm – es la frecuencia de la mediana de la clase. w – es la amplitud del intervalo de clase de la mediana. Uno de los usos más importantes de la mediana es en substitución del valor medio en los casos de conjuntos de datos no representativos por su pequeño tamaño o en los casos de funciones desconocidas o no determinadas. En general, y teniendo en cuenta que el valor de la mediana no depende los valores extremos, es un estadígrafo mucho más confiable que el valor medio, sobre todo para el tratamiento de datos de gran variabilidad como el oro. Es una forma muy eficiente de eliminar el efecto pepita de los datos. La media aritmética se define como el promedio aritmético de todos los valores de la muestra. La media geométrica se define como el antilogaritmo del promedio aritmético de los logaritmos de los valores iniciales de la muestra. Las ecuaciones 5 y 6 muestran la forma de calcular estos valores.

3

NUESTRO PÓRTICO De estas ecuaciones queda claro que sus valores no sólo dependen de cada valor individual, sino también de los valores extremos, los cuales generalmente tienden a falsear la imagen de la distribución así como el valor de sus estadígrafos. Como se ve, todos estos cálculos son sencillos y deben de constituir el paso previo a la interpretación de los histogramas, conjuntamente con la representación gráfica del valor del Clark o fondo geoquímico del elemento analizado. Los percentiles (Pn) se emplean únicamente en la interpretación de los polígonos de frecuencia. En ocasiones se emplea también el término “cuartil” (Qn) or “decetil” (Dn). Los límites cuartiles (Q1, Q2, y Q3) dividen la muestra en cuatro partes. Los decitiles (D1, D2, etc.), dividen la muestra en diez partes (de ahí se desprende el nombre de cuartil o decetil). Los percentiles 25, 50 y 75 coinciden con los cuartiles Q1, Q2, y Q3, de la misma forma que los percentiles 10, 20, 30, etc., coinciden con los decitiles D1, D2, D3, etc. Los percentiles, decitiles y cuartiles se determinan gráficamente trazando una horizontal desde la escala de frecuencia relativa acumulativa de un polígono de frecuencia hasta intersectar la curva del polígono y del punto de intersección se traza una línea vertical hasta el eje de las abcisas. Esa posición determina el valor del Pn.

Según Kashdan, A.B. et. al. (1979), la mediana, la moda y la media en distribuciones de carácter lognormal no coinciden, cumpliéndose generalmente la relación de que la moda absoluta es menor que la mediana y la mediana es menor que la media aritmética (MO < Me < Mx).

Figura  4. Diferencia entre una distribución normal y una lognormal, basado en los valores de la moda (rojo), la mediane (verde) y la media aritmética (azul).

Otra forma más gráfica consiste en mirar la forma de la curva. En la Fig. 5, se puede observar una distribución normal en rojo, una lognormal (asimétrica) en verde y dos distribuciones no normales por mucho exceso (azul) y poco exceso (amarillo).

Aplicaciones de los histogramas y los polígonos de frecuencia. A continuación se explicarán algunas de las aplicaciones de los histogramas y de los polígonos de frecuencia en la solución de varias tareas geoquímicas. Determinación de la Ley de Distribución A pesar de que existen varios métodos para la determinación analítica del tipo de Ley de Distribución de los datos )Asimetría y Exceso, Chi cuadrada, etc.), el histograma brinda una idea muy aproximada al tipo de distribución. Más aún, en los casos de base de datos pequeñas (n< 20) los histogramas son más efectivos que los métodos analíticos para definir el tipo de Ley de Distribución.

4

Figura  5. Distintas formas de las curvas definidas por histogramas para diferenciar entre distribuciones normales y lognormales.

En resumen, un histograma que responda a una Ley de Distribución Normal ha de ser unimodal y el rango de sus valores (la distancia entre los valores máximos y mínimos) no debe de ser mayor de dos órdenes de resultados. Para ejemplificar esta última condición, podemos decir que si la mayoría de los valores oscila entre 10 y 50, no

NUESTRO PÓRTICO deben de haber valores menores de 0.1 o mayores de 500, pues en dicho caso es muy posible que la distribución no sea Normal.

deben de haber valores menores de 0.1 o mayores de 500, pues en dicho caso es muy posible que la distribución no sea Normal.

Determinación de los valores “huracanados”

Determinación de los valores “huracanados”

Los histogramas permiten de una forma efectiva la detección de valores huracanados, tanto por el extremo superior, como por el inferior. Esto representa una ventaja sobre los métodos puramente matemáticos que en ocasiones dan valores inexistentes (negativos) en el extremo inferior de la distribución. Otra ventaja de los histogramas es que los mismos funcionan independientemente del tipo de distribución, en tanto que los métodos aritméticos, por ejemplo el mostrado en la ecuación (5).

Los histogramas permiten de una forma efectiva la detección de valores huracanados, tanto por el extremo superior, como por el inferior. Esto representa una ventaja sobre los métodos puramente matemáticos que en ocasiones dan valores inexistentes (negativos) en el extremo inferior de la distribución. Otra ventaja de los histogramas es que los mismos funcionan independientemente del tipo de distribución, en tanto que los métodos aritméticos, por ejemplo el mostrado en la ecuación (5).

Donde:

En un histograma se considerará como huracanado todo valor que se separe por al menos dos intervalos de clase de la mayoría de los datos, tal como se muestra en la Fig. 6 basada en los datos de la Tabla 3. Intervalo

Frecuencia

10

1

16

3

21

0

27

0

32

14

37

10

43

8

48

7

54

6

59

3

64

1

Tabla  3. Análisis de oro en ppm en un muestreo de suelo.

Figura  6. Los valores 10 y 16 son identificados como huracanados menores que la media y deben de ser eliminados antes de determinar los demás estadígrafos.

También los polígonos de frecuencias pueden ser usados para determinar valores huracanados inferiores y superiores, eliminando de la muestra todos los valores superiores e inferiores a los percentiles que se escojan. De acuerdo a recomendaciones prácticas, se recomienda el uso del P(15) para los valores inferiores y el P(85) para los valores superiores.

Figura 7 . De acuerdo a la posición de los P(15) y P(85), todo valor menor 27 y mayor de 54 se considera huracanado y debe de eliminarse de la muestra antes de determinar los estadígrafos principales.

5

NUESTRO PÓRTICO Un ventaja evidente del uso de los polígonos de frecuencia es el hecho de que siempre se pueden eliminar los valores huracanados superiores e inferiores a la media aritmética. Caracterizaciones estadísticas de la muestra. Ya se ha visto que existen métodos nada complejos para la determinación de algunos estadígrafos. En este punto trataremos más detalladamente acerca de la interpretación geoquímica de las modas. En mi opinión, la moda es el estadígrafo más informativo para el geólogo, principalmente por no ser un valor único promedio de toda la muestra como lo es la media aritmética y por permitir la caracterización individual de las heterogeneidades “naturales” de la muestra analizada. De esto se infiere que la moda es además un criterio de la heterogeneidad de la muestra analizada, ya que mientras más heterogénea sea la misma, de mayor grado será el carácter modal del histograma. Es por ello conveniente incluir los resultados de las modas entre las características estadísticas de la muestra estudiada. La relación entre las modas y los fondos geoquímicos de los elementos (o Clarkes) es de gran informatividad. Lla moda absoluta coincide generalmente con el fondo geoquímico del elemento analizado y por ende caracteriza su estado disperso (no anómalo) en la roca, en tanto que las modas relativas caracterizan las concentraciones naturales del elemento. Es por ello que recomiendo el uso de las modas relativas para determinar los niveles de anomalía naturales (no matemáticos) del elemento que se estudia. Por último, la presencia de varias modas puede indicar la presencia de más de un tipo de mineralización o de más de una generación del proceso de mineralización. Cuando se han separado grupos de datos de acuerdo a algún criterio específico como tipo litológico, profundidad de muestreo, etc., la presencia de varias modas también puede ser indicativo de un error en el proceso de estratificación de los datos. Acerca del tema de la correcta estratificación de los datos trataremos en una próxima ocasión.

6

Perspectividad de las anomalías El polígono de frecuencia es un método ideal para evaluar la perspectividad de las anomalías detectadas. En ocasiones la presencia de uno o más valores elevados, no necesariamente huracanados (efecto pepita) son suficientes para alterar la importancia de una anomalía, sobre todo si la misma ha sido establecida en base a la media aritmética. Una forma objetiva de evaluar la importancia de las anomalías obtenidas, y de obtener un criterio para el orden de verificación de las mismas, es determinar que porciento de los datos supera un valor “X” predeterminado, basado generalmente en la experiencia del geólogo. Algo similar a un cut-off empleado en los procesos de estimación de recursos y reservas minerales. Con el objetivo de distinguir las anomalías más perspectivas, en las poligonales de frecuencias se determinó el valor del tercer cuartil (Q3) y el valor del fondo local. Se considerará como perspectivo el caso en que al menos el 25% de los valores analizados posean valores mayores al fondo local. O dicho de otra forma, serán perspectivos los casos en que el percentil del fondo local P(f) sea menor que el límite del tercer cuartil Q(3). Mientras mayor sea esa diferencia, o dicho de otra forma, mientras mayor sea la cantidad de datos que caen entre los límites del P(f) y el Q(3), mayor será la perspectiva de la anomalía. Veamos un ejemplo. La Tabla 5 muestra los resultados de dos anomalías “A” y “B”. Si bien sus valores medios y la cantidad de datos son idénticos (40 y 100 respectivamente), los histogramas y polígonos de frecuencias son disímiles (Figs. 8 y 9).

Figura 8 . Polígono de frecuencia de la anomalía "A" mostrando en rojo la posición del Q(3) y en verde la del P(f).

NUESTRO PÓRTICO estos dos estadígrafos es 4 unidades más pequeña (23 vs. 27). Esta diferencia nos permite escoger la Anomalía “B” como la más perspectiva. Debido a su efectividad y sencillez, el autor recomienda el empleo de esta metodología para orientar y planificar trabajos de verificación.

Conclusiones 1. El empleo de los histogramas y los polígonos de frecuencia, aún en aquellas empresas que cuenten con modernos métodos analíticos, son muy útiles para la determinación rápida y sencilla de varios estadígrafos y sirven como un complemento a los valores determinados por los software usados.

Tabla 5. Valores de las anomalías "A" y "B".

2. En la confección de histogramas de carácter discontinuo (como son los obtenidos al procesar resultados de muestreos semicuantitativos), se deben de emplear los mismos intervalos del método de análisis para garantizar que no se formen curvas polimodales artificiales. 3. Al trabajar con datos de carácter continuo se debe de garantizar que la cantidad de intervalos de clase varíe entre diez y quince intervalos.

Figura  9. Polígono de frecuencia de la anomalía "B" mostrando en rojo la posición del Q(3) y en verde la del P(f).

Usaremos la Ecuación (8) para calcular los datos proyectados en el polígono de frecuencia.

4. Los histogramas y polígonos de frecuencia pueden solucionar diversas tareas, tales como: a. Determinación de valores huracanados. b.Determinación de las Leyes de Distribución. c.Determinación de estadígrafos tan importantes como las modas. d. Determinación de la perspectividad de las anomalías. Un ejercicio práctico antes de terminar

A pesar de su aparente semejanza numérica, la diferencia entre el Q(3) y el P(f) de la Anomalía “A” es menor en un 3% que el mismo valor para la Anomalía “B” (18 vs. 21%). Así mismo, la cantidad de valores incluidos en el intervalo determinado por

Usando el histograma y polígono de frecuencias que se muestra en la Fig. 10, basado en los datos de la Tabla 6, mire a ver cuánta información es capaz de extraer.

7

NUESTRO PÓRTICO Intervalo

Frecuencia

% acumulado

8

1

2%

13

2

6%

18

0

6%

23

0

6%

28

14

34%

33

10

54%

38

5

64%

43

8

80%

48

6

92%

53

3

98%

58

1

100%

Soluciónes al ejercicio práctico

Tabla 6 . Datos para el histograma de la Fig. 10.

Figura 10 . Histograma y polígono de frecuencia del ejemplo práctico.

La solución se muestra luego de la bibliografía recomendada.

Referencias y bibliografía recomendada.

8

Ostle, B. (1977). Estadistica aplicada tecnicas de la estadistica moderna, cuando e donde aplicarlas. Ciudad de La Habana, Editorial Pueblo y Educación. Kashdan, A.B. et al. (1979) Modelaje matemático en la geología y la exploración de yacimientos minerales (original en Ruso). Moscú, Nedra. NC 92-21 (1980). Procedimiento para evaluar la anormalidad de las observaciones. Ciudad de La Habana, C.I.N.A.N. Voitkiievich, G.V et al. (1970). Pequeño compendio de geoquímica (original en Ruso). Moscú, Nedra.

Los histogramas permiten de una forma efectiva la detección de valores huracanados, tanto por el extremo superior, como por el inferior. Esto representa una ventaja sobre los métodos puramente matemáticos que en ocasiones dan valores inexistentes (negativos) en el extremo inferior de la distribución.

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.