Modelo de regresión Logística

September 23, 2017 | Autor: Andres Acosta | Categoría: Estadistica

Descripción

Modelo de regresión Logística
Nuestro problema se plantea en poder conocer si las PYMES del sector estudiado cuentan o no con capacidad de absorción y cuáles son los factores que pueden influir a la presencia o ausencia de la misma; si nos damos cuenta para nuestro caso se plantea una respuesta cualitativa, para lo cual tenemos una variable de característica dicotómica; la cual solo puede tomar dos valores, al ser esta una variable discreta parecería que no es posible utilizar un modelo de regresión clásico, pero se puede utilizar un modelo que explique el resultado o la decisión tomada por medio de factores que puedan influir en la probabilidad de existencia o no del mismo ( CIDE,2002). Es aquí donde aparece el modelo de regresión logística, el cual tiene como variable dependiente a una de carácter dicotómico, y como variables independientes, a un conjunto de variables que pueden ser cualitativas o cuantitativas; este modelo nos sirve para poder determinar cuáles son los factores que modifican la probabilidad de un suceso determinado ( Alvarez,1995), se dice que es una técnica multivariante de dependencia, ya que permite calcular cual es la probabilidad de que ocurra un suceso en función de la dependencia que este tenga de otras variables. Es utilizado en aplicaciones económicas como: distinguir entre el riesgo de un crédito, saber si una empresa es rentable o no, también es ampliamente usado en investigación clínica y epidemiologia. La principal respuesta que pretende dar el modelo es de cómo influye en la ocurrencia de un evento, la existencia o no de ciertos factores y el valor o nivel de los mismos.
Formulación del Modelo Matemático
Como lo mencionamos, la regresión logística consta de una variable dependiente, la cual siempre será dicotómica para este caso, y tomara el valor de 1 cuando se existe el fenómeno que se trata de observar y 0, cuando no existe tal fenómeno; esta sería una variable de tipo discreto que sigue una distribución de Bernoulli, la probabilidad de que este evento suceda o no representa el primer miembro de la ecuación, mientras que la segunda parte de la ecuación estaría representada por varias posibles variables explicativas. El objetivo del modelo de regresión logístico es poder determinar cómo las variables explicativas aumentan o disminuyen la probabilidad de que el evento estudiado ocurra, e intuitivamente se podría plantear la regresión, mediante la siguiente ecuación:
PrYi=1=β0+β1x1i+ +βjxji+ +βkxki Para i=1,…n Ecuación 1
Pero el problema que se presenta aquí es que nosotros buscar la probabilidad de que un evento ocurra o no, y con la ecuación planteada no nos podemos asegurar que el lado derecho de la ecuación este restringida a valores en el rango [0.1], lo cual daría como resultado probabilidades imposibles (CIDE, 2002), es aquí donde ingresa la función logística, la cual siempre da como resultado un valor que se encuentra en el rango [0,1], con lo cual nuestro modelo seria congruente, por esto la distribución logística es utilizada para modelos de probabilidad, con esto la función de probabilidad del modelo de regresión logístico quedaría como la ecuación 2
PrYi=1=11+e-β0-β1x1i- -βjxji- -βkxki Para i=1,…n
Ecuación 2
Esta ecuación representa un modelo de regresión logística donde Pr (Yi=1) donde Pr es la probabilidad de que la variable dependiente ocurra o no y que depende de los valores que tomen las variables independientes X1,…, Xk. Los β representan los coeficientes del modelo; β0 es el término independiente y β1 βk son los coeficientes de regresión, los signos de los mismos tienen un significado importante, si los mismos son positivos, aquella variable aumenta la probabilidad de ocurrencia del evento, mientras que un signo negativo indica que disminuye la probabilidad de ocurrencia (Álvarez, 1995), pero en esto hay que tener cuidado, ya que nos referimos a los signos de los coeficientes, mas no a los valores de los mismos, ya que los mismos no se pueden interpretar como la variación en la probabilidad debido a un cambio en las variables dependientes, esto porque el modelo propone una relación no lineal entre la variable independiente y la(s) dependiente(s) (Mahia,2003). Es aquí donde aparece el concepto de razón de predominio o como se conoce en ingles ODDS, el cual no es más que el cociente de la probabilidad de que se dé el evento, sobre la probabilidad de que no se dé, y está dado por la ecuación 3
PrYi=11-PrYi=1=eβ0+β1x1i+ +βjxji+ +βkxki
Ecuación 3
Si se aplica el ln a la ecuación 3, podemos observar que el ratio de probabilidades no solo es lineal con Xi, sino también lo es con los parámetros β (CIDE, 2002), y este valor LOGIT es lo que estima el modelo de regresión logística, de aquí podemos decir que un cambio en β representa una variación en el término Logit dado por el cambio en una unidad de una de las variables dependientes y manteniendo las otras constantes. En la regresión logística esta es la medida de asociación más empleada debido a eβ representa el cambio en OR ante una variación unitaria de la variable explicativa y nos ayuda a conocer, si esta variable tendrá algún efecto sobre la variable dependiente.
En el presente trabajo se utilizara el programa SPSS para realizar el cálculo de los coeficientes de las variables independientes, así como de las diferentes medidas utilizadas para medir el ajuste y la bondad del modelo, pero se presentaran la explicación teórica de cómo son calculadas y en qué consisten.
En primer lugar para poder calcular los valores de β y sus errores estándar se utiliza el método de máxima verosimilitud, que son estimaciones que maximicen la probabilidad de obtener la variable dependiente ("Regresión Lineal", 2008), de aquí se obtienen los coeficientes logísticos que buscan estimar que tan probable es que ocurra un evento. Para el cálculo de los mismos se deben realizar métodos iterativos, pero en nuestro caso usaremos el paquete estadístico SPSS. A continuación se debe proceder como en cualquier modelo de regresión que tan significativo es el mismo estadísticamente hablando, para eso se utilizan algunas medidas, que las describiremos de manera teórica brevemente.
Estadístico de Wald
Este estadístico es comúnmente utilizado para medir la significancia del modelo de regresión logístico, el mismo es represado matemáticamente como el cociente entre el valor del coeficiente sobre el cuadro del error estándar del coeficiente (Álvarez, 1995), el estadístico ayudara a aceptar que el coeficiente pertenece al modelo si se puede rechazar la hipótesis nula de que el coeficiente toma el valor de cero, si se cumpliera que β=0 entonces OR sería igual a 1, lo cual nos quiere decir que la variable independiente no es factor influyente entre la probabilidad de ocurrencia o no del evento (Barón, Tellez,2012).
Estadístico -2LL0
En este caso para evaluar el modelo, se considera que es el mismo es perfecto, lo cual equivale a decir que el valor de la verosimilitud no es lejano a 1, con lo cual la hipótesis nula dice que L0=1, ya que en un modelo perfecto esto es lo que sucedería, por lo tanto si no se rechaza la misma el modelo es significativo (Álvarez, 1995).
Estadístico G
Este estadístico también se utiliza para contrastar el modelo en general, el mismo consiste en ir comparar los modelos ante la salida de manera aislada de una variable independiente en contra del modelo con todas las variables, si no existe significancia al momento de realizar la comparación cuando se aísla la variable independiente, la misma puede ser eliminada, ya que su aporte no es significativo para el modelo ("Regresión Lineal",2008).
Recalcar que estas medidas que hasta aquí han sido mostradas, sirven algunas para conocer la significatividad individual de las covariantes como el estadístico de Wald y otras medidas para conocer el grado de "calidad global" de ajuste del modelo, pero también existen estadísticos que nos sirven para conocer el grado de calidad predictiva que tiene el modelo, aquí podemos encontrar herramientas como el test de Hosmer-Lemeshow, esta prueba trata de ver que tan cercana esta la distribución real de la variable del valor estimado, en este caso la hipótesis nula indica que la diferencia entre lo real y lo estimado es igual a cero, por lo que un rechazo de esta hipótesis indica que el modelo no es tan predictivo ( Mahia, 2013).
Hemos conocido la parte teórica del modelo que mejor se ajusta a los datos que tenemos y las respuesta que buscamos llegar, como nuestros datos son de carácter cualitativo no se usó un modelo clásico de regresión lineal, sino que se utiliza el modelo Logit, el cual tiene como condición que la variable dependiente sea de carácter dicotómico, y que acepta variables explicativas tanto cuantitativas como cualitativas, ya que mediante transformaciones las mismas pueden ser incluidas en el modelo, recordar que con el mismo vamos a encontrar la probabilidad de que un evento ocurra o no, a partir de la importancia que puedan tener las diferentes variables independientes, para poder realizar pronósticos a partir de las probabilidades encontrdas.

Lihat lebih banyak...

Modelo de regresión Logística

Descripción

Comentarios