Inferencia estadística usando SAS

Share Embed


Descripción

ESCUELA SUPERIOR DE ECONOMÍA Y NEGOCIOS TALLER DE SAS INFERENCIA ESTADÍSTICA Profesora: Lidia Vásquez La presente guía muestra diferentes procedimientos de SAS que pueden ser utilizados para calcular intervalos de confianza y las diferentes pruebas de hipótesis contenidas en el temario de la Materia Inferencia Estadística. Se utilizará el SAS data set JH, el cual ha sido creado en clase a partir de la EHPM 2007. Este consta de 3,983 jefes de hogar que trabajan como asalariados permanentes y de 14 variables: LOTE, TIPO, FOLIO, VIV, AREA (toma valor de 1 si área es urbana, 0 si es rural), INGFA (ingreso familiar), MIEMH (número de miembros del hogar), ELECT (toma valor de 1 si la vivienda tiene alumbrado eléctrico), R101, R104 (sexo, 1=hombre), R106 (edad), APROBA1 (número de años aprobados), PAREJA (toma valor de 1 si está acompañado o casado), FORMAL (toma valor de 1 si tiene contrato y cotiza al ISSS). Intervalos de confianza A. Variables numéricas Queremos conocer el intervalo de confianza del ingreso familiar (ingfa). *Usando proc means; proc means data= JH mean var clm alpha=0.01; var ingfa; run;

La opción clm le pide a SAS el intervalo de confianza de la media. La opción alpha le indica a SAS que se desea un intervalo al 0.01 de significancia. El resultado obtenido por la programación es la siguiente:

Interpretación: Con el 99% de confianza, la media poblacional del ingreso del hogar de jefes de hogar salvadoreños que trabajan como asalariados permanentes se encuentra entre 1

572.92 y 624.89 dólares. Esto implica que, si pudiéramos calcular todas las muestras posibles de tamaño 3,983, el 99% de los intervalos de confianza construidos contendrían la media poblacional µ. Nota: para conocer la fórmula utilizada para calcular los intervalos de la media, visitar la siguiente página: http://support.sas.com/documentation/cdl/en/proc/61895/HTML/default/viewer.htm #a000608466.htm#a000091519 Otra forma de calcularlo, sería utilizando el proc univariate. La opción cibasic calcula los intervalos de confianza para la media, la varianza y la desviación estándar. Dado que los resultados del proc univariate son extensos, se utilizar el comando general “ods select BasicIntervals;” para que la ventana de resultados solo muestre la tabla que nos interesa. *Usando proc univariate; ods select BasicIntervals; proc univariate data=JH cibasic; var ingfa; run;

Existen otros procedimientos que incluyen entre sus resultados el intervalo de confianza de la media muestral. Estos los iremos viendo a lo largo de esta guía. Nota: para conocer las fórmulas utilizada para calcular los intervalos de los parámetros de la distribución normal, visitar la siguiente página: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.h tm#procstat_univariate_sect030.htm B. Proporciones Para las variables cualitativas, el proc freq calcula los intervalos de confianza para aquellas que siguen una distribución binomial. Si tenemos una variable con varias categorías, podemos escoger la categoría de interés y obtener un intervalo de confianza solo para esa categoría. Si queremos un intervalo de confianza para la variable FORMAL, la cual toma valor de 1 si el jefe de hogar ha firmado contrato y cotiza al seguro social, utilizamos la siguiente programación: 2

*para variables con dn binomial; proc freq data=JH; tables formal /binomial(level=2); run;

Con la opción binomial en la sentencia tables, entre otros resultados, obtenemos el intervalo de confianza para el nivel de la variable deseado. SAS numera las variables en orden ascendente, por lo que, para la variable formal: Valor Nivel 0 1 1 2 El default utiliza el nivel 1, por lo que tenemos que especificarle que queremos el intervalo de confianza del nivel 2 con level=2.

Interpretación: Con una confianza del 95%, la proporción de jefes de hogar salvadoreños que poseen un trabajo formal se encuentra entre 0.48 y 0.51. Al calcular un número alto de intervalos de confianza de diferentes muestras del mismo tamaño, en el 95% de las ocasiones, estos contendrían el parámetro poblacional p. Nota: para conocer la fórmula utilizada para calcular los intervalos de la proporción, visitar la siguiente página: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.h tm#procstat_freq_a0000000660.htm Pruebas de Hipótesis A. Prueba de hipótesis de medias Ud lee en una nota de periódico que el ingreso familiar salvadoreño ronda por los US$800.00. ¿A un 95% de confianza, hay evidencia que sostenga esta afirmación? Paso 1: 3

H0: µ=800 Paso 2: α=0.05 Paso 3: Definir estadístico de prueba Se usará el estadístico t:

̅ √

Paso 4: Regla de rechazo

Si valor-p ≤ α

RECHAZO H0

Paso 4: Calcular estadístico de prueba Para este paso utilizamos SAS. Podemos usar proc univariate o proc ttest. *Uso de proc univariate para prueba de hipótesis de media; ods select TestsForLocation LocationCounts; proc univariate data=JH Mu0=800 loccount; var ingfa; run;

*Uso de proc ttest para prueba de hipótesis de media; proc ttest data=JH H0=800; var ingfa; run;

4

El resultado, como es de esperarse, es el mismo. Paso 5: Decisión Se rechaza la H0, dado que el valor-p es menor que el α. Paso 6: Interpretación A un 95% de confianza, se puede decir que el ingreso familiar de los jefes de hogar salvadoreños que trabajan como asalariados permanentes no es igual a $800.00. ¿Qué pasaría si la prueba fuera de una cola? Por ejemplo: H0= µ≥600 Con el resultado de proc univariate, que siempre es de dos colas: El valor-p se debe dividir entre 2 para compararlos con el alpha. Para proc ttest: utilizamos la opción SIDES= L, que especifica una prueba de hipótesis de una cola en el que la hipótesis alternativa indica una media menor que la de la hipótesis nula.

Si quisiera una prueba de hipótesis de la cola derecha, utilizo la opción SIDES=U.

5

Nota: para conocer la fórmula utilizada para calcular el estadístico de prueba t, visitar la siguiente página: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.h tm#procstat_univariate_sect029.htm B. Prueba de hipótesis de diferencia de medias de muestras independientes Me interesa conocer si, a un 95% de confianza, la media del ingreso familiar difiere para aquellos que tienen un trabajo como asalariado formal vs informal. Utilizo Proc Ttest para este fin: proc ttest data=JH; class formal; var ingfa; run;

El procedimiento computa los estadísticos básicos, por grupo:

Además, calcula los intervalos de confianza:

El intervalo a tomar como correcto depende de si las varianzas son iguales o no. Por lo tanto, se lleva a cabo una prueba de hipótesis de igualdad de varianzas. H0: varianzas iguales α= 0.05 Regla de Rechazo: Si valor-p < α

RECHAZO H0

6

Se rechaza la H0 y a un 95% de confianza se dice que las varianzas no son iguales. Por tanto utilizamos el método Satterthwaite al calcular los intervalos de confianza y el estadístico de prueba. Ahora sí, regresando al problema inicial: H0:



=0

α= 0.05 Regla de Rechazo: Si valor-p < α

RECHAZO H0

De acuerdo a mi regla de rechazo, se rechaza la H0. A un 95% de confianza, se puede aseverar que las medias de los ingresos familiares de los jefes de hogar salvadoreños que trabajan como asalariados formales son diferentes a los que trabajan como asalariados informales. Nota: para conocer la fórmula utilizada para calcular el estadístico de prueba t, visitar la siguiente página: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.ht m#statug_ttest_a0000000126.htm

C. Prueba de hipótesis de diferencia de medias de muestras pareadas Utilizaremos un nuevo data set llamado Notas. Este contiene notas del primer y segundo examen de Inferencia Estadística. Debido a las calificaciones del primer examen, los alumnos fueron obligados a tomar un curso de refuerzo, por lo tanto, se espera que las notas del segundo examen sean mayores, en promedio, que los del primero. filename notas "C:\Users\Lidia\Documents\Inferencia 2015\Semana 7\Notas.csv"; data Notas; infile notas dlm=',' firstobs=2; input Seccion Alumno Nota1 Nota2; run;

Para llevar a cabo la prueba de hipótesis utilizamos proc ttest. proc ttest data=notas SIDES=L; paired Nota1*Nota2; run;

7

H0=



≥0

α=0.05 Regla de rechazo: si valor-p < α, rechazo H0 Decisión: Rechazo la H0. Con un 95% de confianza, se concluye que, en promedio, las notas del segundo examen son mayores que la del primero.

Bibliografía • • •

SAS Institute Inc. 2013 SAS/STAT® 13.1 User’s Guide: The Ttest Procedure. Cary, NC: SAS Institute Inc. SAS Institute Inc. 2013. Base SAS® 9.4 Procedures Guide: Statistical Procedures, Second Edition Cary, NC, USA. IDRE, What statistical analysis should I use?, http://www.ats.ucla.edu/stat/sas/whatstat/whatstat.htm. Extraída el: 28/06/2015

8

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.