Clase Análisis Componentes Principales / Estadística
Descripción
METODOLOGÍA DE LA INVESTIGACIÓN I: CLASE XI Magíster Análisis Sistémico Aplicado a la Sociedad Universidad de Chile Gabriela Azócar de la Cruz
Análisis Multivariable
Definición Análisis Multivariable “Conjunto de métodos que analizan las relaciones entre un número amplio de medidas (variables), tomadas sobre cada objeto o unidad de análisis, en una o más muestras simultáneamente” (Martínez; 1999)
VE1 VE6
VE3
VE5
VE4
VE2
Relaciones entre Variables Variables independientes
Variable dependiente
V1
V3
Relaciones de interdependencia
Relaciones de dependencia
V2
V4
Tipos de Variables Unidad de medida
Valores
Origen
Nominales
Discretas
Observadas (originales)
Dicotómicas
Latentes
Continuas
Ficticias (dummy)
Cualitativas – No métricas
Ordinales
Intervalo Escalares-Métricas
Razón
Clasificación Técnicas de Análisis Multivariable UNIDAD DE MEDIDA DE LAS VARIABLES
Reducción de datos
Análisis Factorial y Correspondencias
Análisis Discriminante Modelos logarítmicos lineales
Clasificación casos/variables Análisis de Tipologías
Ecuaciones estructurales
Explicación / predicción
FUNCION Y NÚMERO DE VARIABLES
Análisis de Componentes Principales
Introducción: ¿Qué es un factor o componete? Es una variable latente, que se construye a partir de un conjunto de variables observadas y que representa el significado sustantivo común que subyace al conjunto de ellas VE1 COMPONENTE / FACTOR 1
VE2 VE3
Concepto Global
COMPONENTE/ FACTOR 2
VE4 VE5 VE6
COMPONENTE / FACTOR 3
VE7 VE8
Las variables observadas deben estar relacionadas teóricamente con un concepto general
Análisis Factorial / Componentes Principales Conjunto de métodos multivariados que …
VE1
VE6
COMPONENTE / FACTOR 1
VE3
VE2
VE7
COMPONENTE / FACTOR 2
VE5
VE8 VE4
COMPONENTE / FACTOR 3
….persiguen explicar los patrones dependencia de un grupo de variables observadas… …identificando con ello un conjunto menor de variables latentes. Componentes Principales es uno de los métodos más utilizados entre este tipo de técnicas
Objetivos de la Técnica Perspectiva
Perspectiva
Perspectiva
Estadística
Teórica
Metodológica
• Reducir la información de una matriz de correlaciones a partir de la construcción de funciones lineales • Descifrar patrones de dependencia a partir del análisis de correlaciones múltiples
• Contrastar / generar hipótesis confirmatorias o exploratorias acerca de la cantidad y contenido de las dimensiones de análisis factibles de ser identificadas • Identificar dimensiones que representen esquemas conceptuales de análisis
• Validar la construcción de instrumentos de medida, dando cuenta de su dimensionalidad
Ejemplo Análisis Componentes Principales CONCEPTO CENTRAL
VARIABLES LATENTES / COMPONENTES
Disposición individual
VARIABLES OBSERVADAS / MEDIDAS La crisis económica El trabajo no se reparte bien socialmente Mala gestión de los empresarios
Causas Atribuidas a Crisis Laboral
Condiciones político económicas
Propiedades distributivas del mercado laboral
No saber buscar empleo Falta preparación trabajador Pocas ganas de trabajar de la gente La política de empleo Que hay mucho pluriempleo Comodidad de la gente Variables Medidas en una escala de 1 a 5 según grados de acuerdo.
Sobre el Tamaño Muestral •Al menos 10 casos por cada variable
Mínimo
Recomendaciones
50 casos
Sugerido 200 casos
Optimo más de 1000 casos
•El número de variables no debe exceder de la mitad de los sujetos. •Según tamaño muestra analizar pertinencia de eliminar o no del análisis los casos perdidos.
Condiciones de aplicación
Métrica variables
Relación entre variables
Función de las variables
• Óptimo: • Esperable: • Recomendable:
escalar /ordinal de amplio rango distribución normal estandarización
• Variables correlacionadas (0,2 mínimo) • Relaciones lineales entre variables
• Variables independientes pero interdependientes • Variables teóricamente relacionadas con un concepto
Verificación de las Condiciones de Aplicación
Tamaño muestral
Distribución normal
Estimación valores perdidos por variable Identificación y eliminación de valores aberrantes Cálculo tamaño muestral efectivo por variable
Histograma con curva normal de cada variable Análisis Curtosis Análisis Asimetría
Prueba KMO: se esperan valores sobre 0,7 Relación entre variables
Correlación anti-imagen: se espera valores fuera de diagonal bajos Prueba Esfericidad Bartlett: se espera nivel significación menor 0,05. Determinante de la matriz de correlaciones: debe ser cercano a 0
Principales Pruebas de Verificación de las Condiciones de Aplicación
Prueba Esfericidad de Bartlett: comprueba la correspondencia entre la matriz de correlaciones y la de identidad. Se espera que el valor del nivel de significación sea menor que 0,05. Su cálculo supone la transformación del determinante de la matriz de correlaciones en un valor chi2 . Prueba KMO: índice que compara las correlaciones observadas con las correlaciones parciales dando cuenta del nivel de correlación del conjunto de las variables. Sus resultados varían entre 0 y 1 donde: 0,90 > KMO > 0,80 0,80 > KMO > 0,70 0,70 > KMO > 0,60 0,60 > KMO > 0,50 KMO < 0,50
buenos aceptables mediocres o regulares malos inaceptables o muy malos
Extracción de Factores / Varianza Total
VE4
Unicidad + Error = Especificidad
VE7
VE2
VE5
VE1 VE6
Comunalidad VE3
VE8
Varianza Total
Rotación
Acerca los factores a las variables No afecta varianza total
V2
F1 No rotado F1 Rotado
V1
F2 No rotado F2 Rotado
Redistribuye la varianza explicada en los factores Facilita la interpretación Rotaciones ortogonales comunes: Varimax: reduce n° variables con peso alto en cada factor. Maximiza varianza de los coeficientes cuadrados para cada factor. Aplicación: comunalidades dispares. Quartimax: maximiza la varianza de coeficientes cuadrados para cada variable. Problema: algunas variables presentan coeficientes elevados en más de un factor. Aplicación: cuando se quiere reducir el número de factores a encontrar.
Evaluación Factores ¿Cuántos?
Autovalor Mayor que 1
Matriz de estructura Interpretabilidad
Factor
Gráfico sedimentación Punto Inflexión
% Varianza explicada Acumulada mayor que 50
Evaluación Factores
Tota l Va ria nce Explai ned
Component 1 2 3 4 5 6 7 8 9
Total 2, 449 1, 684 1, 116 ,848 ,705 ,616 ,597 ,568 ,417
Initial Eigenvalues % of Variance Cumulat ive % 27,211 27,211 18,714 45,925 12,395 58,320 9, 426 67,747 7, 834 75,580 6, 842 82,422 6, 629 89,051 6, 314 95,365 4, 635 100,000
Ex traction Met hod: P rincipal Component A nalysis.
c
Ex traction S ums of S quared Loadings Total % of Variance Cumulat ive % 2, 449 27,211 27,211 1, 684 18,714 45,925 1, 116 12,395 58,320
Rotat ion Sums of Squared Loadings Total % of Variance Cumulat ive % 2, 274 25,265 25,265 1, 553 17,252 42,518 1, 422 15,802 58,320
Interpretación / Matriz de estructurasaturaciones Factores Variables
F1
F2
F3
V1
Coeficiente V1F1
Coeficiente V1F2
Coeficiente V1F3
V2
Coeficiente V121
Coeficiente V2F2
Coeficiente V2F3
V3
Coeficiente V3F1
Coeficiente V3F2
Coeficiente V3F3
V4
Coeficiente V4F1
Coeficiente V4F2
Coeficiente V4F3
V5
Coeficiente V5F1
Coeficiente V5F2
Coeficiente V5F3
Se interpretan como coeficientes de correlación (- 1 a +1) Sobre 0,5 se consideran relevantes Elevados al cuadrado dan cuenta del % de varianza explicada Representa el % Varianza explicada de cada variable en cada factor
Interpretación Gráfico Sedimentación
Ejemplo Componentes Principales DIMENSIONALIDAD ESCALA AUTOCUIDADO DE LA SALUD
ANÁLISIS DE DATOS II – Análisis EJEMPLO ANÁLISIS ESCALA AUTOCUIDADO
factorial
ANÁLISIS DE CONDICIONES DE APLICACIÓN KMO: A un nivel aceptable podemos decir que existen interrelaciones entre las variables posibles de explicar a través de factores o dimensiones
KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity
Approx. Chi-Square df Sig.
,757 880,096 78 ,000
Test de Bartlett´s: Existe diferencia significativa entre la matriz de correlaciones y una matriz de imagen, por ende hay suficientes interrelaciones entre las variables que pueden ser explicadas a través de factores
ANÁLISIS DE DATOS II – Análisis EJEMPLO ANÁLISIS ESCALA AUTOCUIDADO
factorial
ANÁLISIS DE LAS COMUNALIDADES Comunalidades: Esta tabla da cuenta del porcentaje de varianza de cada una de las variables que es explicada por el modelo. Aquellas variables poco explicadas por el modelo podrían ser consideradas como alternativa de eliminación en caso de querer mejorar la bondad de ajuste del mismo. Este tipo de decisiones debe ser fundamentada. En este caso una posible candidata a la eliminación podría ser la variable “practico deportes” (si esta variable no se considera como parte del modelo la capacidad explicativa aumenta a un 62%)
Comunalidades Inicial p1 Prefiero caminar que andar en auto p2 Me vacuno contra la influenza p3 Voy al gimnasio p4 Controlo las calorías que consumo p5 Como en forma abundante frutas y verduras p6 Evito las grasas saturadas p7 Practico deportes p8 Uso productos para el cuidado de la piel p9 Tomo vitaminas p10 Bebo 2 litros de agua a diario p11 Chequeo el estado de salud de mi dentadura P12 Evito tomar medicamentos que no me han recetado P13 Si tengo una dolencia o enfermedad voy al médico
Extracción
1,000
,662
1,000
,580
1,000
,523
1,000
,452
1,000
,601
1,000
,641
1,000
,365
1,000
,649
1,000
,664
1,000
,571
1,000
,546
1,000
,721
1,000
,703
Método de extracción: Análisis de Componentes principales.
ANÁLISIS DE DATOS II – Análisis EJEMPLO ANÁLISIS ESCALA AUTOCUIDADO
factorial
ANÁLISIS CAPACIDAD EXPLICATIVA DEL MODELO Total Variance Explained
Número de Factores: Se extrajeron 4 factores con poder explicativo superior al de una variable (valor propio mayor que 1)
Component 1 2 3 4 5 6 7 8 9 10 11 12 13
Total 3,506 1,845 1,264 1,063 ,904 ,821 ,766 ,590 ,523 ,495 ,460 ,420 ,343
Initial Eigenvalues % of Variance Cumulative % 26,966 26,966 41,157 14,192 9,725 50,883 59,061 8,179 6,953 66,014 6,317 72,331 78,225 5,894 82,762 4,538 4,022 86,784 3,810 90,594 94,130 3,536 97,361 3,230 2,639 100,000
Extraction Sums of Squared Loadings Total % of Variance Cumulative % 3,506 26,966 26,966 14,192 41,157 1,845 9,725 50,883 1,264 59,061 1,063 8,179
Extraction Method: Principal Component Analysis.
% de varianza explicada: El modelo a través de los 4 factores seleccionados explica un 59% de la varianza común entre las variables
ANÁLISIS DE DATOS II – Análisis EJEMPLO ANÁLISIS ESCALA AUTOCUIDADO
factorial
ANÁLISIS Y DENOMINACION DE DIMENSIONES Rotated Com ponent Matrixa Component 1
3
2
4
Evito las grasas saturadas
,782
,168
,002
-,039
Como en forma abundante frutas y verduras
,753
,142
,045
,112
Bebo 2 litros de agua a diario
,713
-,050
,187
,160
Controlo las calorías que consumo
,644
,127
,068
,129
Uso productos para el cuidado de la piel
,128
,746
,252
,115
Tomo vitaminas
,441
,680
-,069
-,048
Me vacuno contra la influenza
,037
,610
,454
,019
Prefiero caminar que andar en auto
-,039
,170
,784
,127
,302
-,087
,649
-,057
-,003
,276
,536
-,028
Si tengo una dolencia o enfermedad voy al médico
,236
-,188
,081
,778
Dimensión 4:
Evito tomar medicamentos que no me han recetado
-,078
,426
,019
,731
Prácticas de autocuidado asociadas al uso recursos médicos
Chequeo el estado de salud de mi dentadura
,491
,046
-,087
,543
Dimensión 1: Prácticas de autocuidado asociadas a la regulación de la alimentación Dimensión 2: Prácticas de autocuidado asociadas a la utilización de factores de protección Dimensión 3: Prácticas de autocuidado asociadas a la realización de actividades físicas
Voy al gimnasio Practico deportes
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 6 iterations.
Ejemplo Componentes Principales DIMENSIONES DE LA CONFIANZA EN ORGANIZACIONES SOCIALES
ANTECEDENTES Fuente: Aplicación: Periodo: Muestra total:
Estudio Mundial de Valores Chile 2005-2007 992 casos
Variables: I am going to name a number of organisations. For each one, could you tell me how much confidence you have in them: is it a great deal of confidence, quite a lot of confidence, not very much confidence or none at all? Confidence: Confidence: Confidence: Confidence: Confidence: Confidence: Confidence: Confidence: Confidence: Confidence: Confidence: Confidence: Confidence: Confidence: Confidence:
Churches Armed Forces The Press Labour Unions The Police Parliament The Civil Services Television The Government The Political Parties Major Companies The Environmental Protection Movement The Women´s Movement The United Nations Charitable or humanitarian organizations
ANÁLISIS DE DATOS II – Análisis factorial EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES
ANÁLISIS DE CONDICIONES DE APLICACIÓN KMO: El valor de la prueba es alto por lo que podemos decir que existen interrelaciones entre las variables posibles de explicar a través de factores o dimensiones Test de Bartlett´s: Existe diferencia significativa entre la matriz de correlaciones y una matriz de imagen, por ende hay suficientes interrelaciones entre las variables que pueden ser explicadas a través de factores
ANÁLISIS DE DATOS II – Análisis factorial EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES
ANÁLISIS DE LAS COMUNALIDADES Comunalidades: Esta tabla da cuenta del porcentaje de varianza de cada una de las variables que es explicada por el modelo. Aquellas variables poco explicadas por el modelo podrían ser consideradas como alternativa de eliminación en caso de querer mejorar la bondad de ajuste del mismo. Este tipo de decisiones debe ser fundamentada. En este caso posibles candidatas a la eliminación podrían ser las variables “Confianza en las Iglesias”, “Confianza en los sindicatos”, “Confianza en las grades empresas” y “Confianza en las Naciones Unidas”.
ANÁLISIS DE DATOS II – Análisis factorial EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES
ANÁLISIS CAPACIDAD EXPLICATIVA DEL MODELO
Número de Factores: Se extrajeron 3 factores con poder explicativo superior al de una variable (valor propio mayor que 1)
% de varianza explicada: El modelo a través de los 3 factores seleccionados explica un 57% de la varianza común entre las variables
ANÁLISIS DE DATOS II – Análisis factorial EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES
ANÁLISIS Y DENOMINACION DE DIMENSIONES
Dimensión 1: Confianza en organizaciones de interés público
Dimensión 2: Confianza en organizaciones que representan absorción de inseguridad Dimensión 3: Confianza en organizaciones que representan demandas asociadas a riesgos de exclusión
ANÁLISIS DE DATOS II – Análisis factorial EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES
Lihat lebih banyak...
Comentarios