Regresión por componentes principales en el modelo de rezago espacial. Desarrollo y aplicación al empleo adolescente en Rosario

June 7, 2017 | Autor: Laura Di Capua | Categoría: Econometrics, Unemployment, Youth Unemployment
Share Embed


Descripción

ANALES | ASOCIACION ARGENTINA DE ECONOMIA POLITICA

L Reunión Anual Noviembre de 2015 ISSN 1852-0022 ISBN 978-987-28590-3-9

Regresión por componentes principales en el modelo de rezago espacial. Desarrollo y aplicación al empleo adolescente en Rosario Izaguirre, Alejandro Di Capua, Laura Pellegrini, José Luis

Regresión por componentes principales en el modelo de rezago espacial. Desarrollo y aplicación al empleo adolescente en Rosario Alejandro Izaguirre*

Laura Di Capua** José Luis Pellegrini***

Resumen El trabajo presenta una adaptación de la Regresión por Componentes Principales (RCP) para ser utilizada en el modelo de rezago espacial. La técnica de RCP es utilizada en la literatura para lidiar con problemas de multicolinealidad, la adaptación nos va a permitir lidiar con esos problemas, pero en modelos espaciales. También presentamos una aplicación en la cual pretendemos establecer la incidencia que tienen sobre el trabajo adolescente, ciertas variables socioeconómicas. Para ello utilizaremos información del Censo 2010 para la ciudad de Rosario desagregada a nivel radio censal. Como veremos, la metodología desarrollada brinda resultados más coherentes con lo observado. Palabras claves: Regresión por componentes principales, mínimos cuadrados en dos etapas espaciales, empleo adolescente. JEL: C21, C38, R23

Abstract This paper presents an adaptation of the Principal Component Regression (PCR) technique to be used in the spatial lag model. In the literature, PCR is used to deal with multicollinearity problems, and in this case the adaptation will allow us to handle this issue in spatial models. We also present an application in which we intend to establish the incidence of certain socioeconomic variables on youth employment. To do so we use data of the 2010 Census for the city of Rosario, disaggregated at census radius level. The methodology developed provides results that are more consistent with the observed reality. Key words: Principal component regression, spatial two stage least squares, youth employment. JEL: C21, C38, R23 *

Maestrando, Maestría en Estadística Aplicada, Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario. Correo-e: [email protected] ** Becaria Doctoral CONICET e integrante del Instituto de Investigaciones Económicas, Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario. Correo-e: [email protected] *** Docente Investigador, integrante del Instituto de Investigaciones Económicas, Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario. Correo-e: [email protected]

1

1.

Introducción

De acuerdo al Censo 2010, en la ciudad de Rosario el 25,9 % de los adolescentes con edades de 14 a 18 años estaba ocupado. A priori este porcentaje, llamado en adelante tasa específica de empleo adolescente (TEEA), parece muy elevado porque se trata del grupo de población al que está dirigida la educación secundaria de carácter obligatorio1 y se esperaría que sus integrantes dediquen los mayores esfuerzos a su formación escolar. Por su relación con la deserción escolar y su considerable incidencia, el empleo adolescente es un fenómeno que ha recibido atención en Argentina y en América Latina en general (Groisman (2010)). También ha sido observado en países desarrollados y en buena parte de la literatura internacional sobre el tema aparece asociado a pobreza, marginalidad y discriminación. En virtud de la dimensión espacial de los factores socieconómicos mencionados en el párrafo anterior, se esperaría que la TEEA tuviera, por un lado, un comportamiento espacial, y por otro, una asociación positiva con indicadores de bajo nivel socieconómico, lo que efectivamente se advierte en Rosario cuando se someten las variables pertinentes a un análisis exploratorio de datos espaciales (ESDA, por sus siglas en inglés). Este trabajo constituye una primera aproximación al análisis empírico del empleo adolescente, considerando explícitamente su componente espacial y basándonos en una metodología de análisis particular que por sus características trasciende al tema estudiado. Se procura evaluar la incidencia de los niveles de pobreza, educación y desocupación sobre el trabajo adolescente. Tal propósito plantea un desafío econométrico, porque todas las variables con las que se cuenta, capaces de explicar el nivel de la TEEA, están altamente correlacionadas entre sí, lo que en un modelo de regresión conlleva un grave problema de multicolinealidad, el cual puede sobrellevarse utilizando la técnica de Regresión por Componentes Principales (RCP). El problema de dicha metodología es que, en aquellos modelos espaciales que utilizan rezagos espaciales de la variable explicada, el uso de Mínimos Cuadrados Ordinarios (MCO) como metodología de estimación es inapropiado. Debido a esto, es que en el trabajo presentamos una adaptación de la RCP para ser utilizada en la estimación del Modelo de Rezago Espacial (SLM). Poner a consideración de los colegas esta adaptación también es uno de los objetivos de este trabajo. El trabajo continua de la siguiente manera, en la sección 2 desarrollamos la adaptación de la RCP al estimador Spatial Two Stage Least Squares (S2SLS), en la sección 3 presentamos el análisis empírico sobre los determinantes del trabajo adolescente en la ciudad de Rosario, poniendo en practica la metodología desarrollada previamente, en la sección 4 exponemos los resultados y en una quinta sección se concluye. Para una mejor organización, toda la información secundaria que consideramos relevante, así como algunos aspectos metodológicos, se presentan en un apéndice.

2.

Adaptación de la regresión por componentes principales al estimador S2SLS.

El objetivo central de esta sección, como su nombre lo indica, es presentar el desarrollo de una adaptación de la metodología de RCP al estimador S2SLS. 1

La educación secundaria, que normalmente debe recibirse en edades que van de los 13 a los 18 años, es obligatoria desde la promulgación en 2006 de la Ley 26.026. Si bien la provincia de Santa Fe no implementó hasta 2011 el Nuevo Secundario, que crea las condiciones para hacer efectiva la nueva ley , ésta, que de todos modos estaba vigente en lo que respecta a la obligatoriedad, amplió en sólo dos años la duración de los niveles educativos obligatorios.

2

Lo que haremos inicialmente será describir, de forma muy resumida, en qué consiste el Análisis de Componentes Principales (ACP) y la RCP con el sólo objeto de definir y explicar ciertos conceptos que serán utilizados posteriormente.2 Seguido de esto, presentaremos brevemente el estimador S2SLS haciendo hincapié en su analogía con el estimador de MCO, de manera tal de utilizar dicha semejanza como puente para unir ambas metodologías.

2.1.

Componentes Principales

La idea central del ACP es reducir la dimensionalidad de un conjunto de datos formados por variables relacionadas entre sí, tratando de conservar la mayor cantidad posible de variabilidad. Esto se logra construyendo un nuevo conjunto de variables que no están correlacionadas entre sí, y que se presentan en orden decreciente de variabilidad. Sea X = (x1 , x2 , ..., xk ) una conjunto de k variables aleatorias, queremos generar un nuevo conjunto de variables Z = (z1 , z2 , ..., zk ) donde cada zj esté incorrelacionado con los demás y cuyas varianzas vayan decreciendo progresivamente, siendo zj una combinación lineal de X , zj = aj1 x1 + aj2 x2 + ... + 0 ajk xk = Xaj , con aj = (aj1 , aj2 , ..., ajk ). 0 Dado que buscamos que zj tenga la mayor varianza posible, podemos lograrlo tomando a aj tan 0 grande como queramos, esto sugiere que se debe imponer alguna restricción sobre aj , sin pérdida de 0 generalidad se asume que aj aj = 1. La primer variable z1 se elije de forma tal que capture la mayor varianza posible de X sujeta a que 0 a1 a1 = 1, la segunda variable z2 se elije bajo los mismos criterios, pero además se impone que no esté correlacionada con z1 , el proceso se continua de la misma forma hasta zk . Generalizando, lo que buscamos son los elementos de A = (a1 , a2 , ..., ak ), de tal forma de obtener Z = XA, siendo que Z cumple con las especificaciones mencionadas anteriormente. Sea Σ la matriz de varianzas y covarianzas de X, puede demostrarse que las componentes aj se obtienen de (Σ − λj In ) aj = 0, esto implica que aj son los autovectores asociados a los autovalores de la ecuación característica | Σ − λIn |= 0. Además, se tiene que λj es la varianza de zj , y al ser cov(zi , zj ) = 0, la matriz de varianzas y covarianzas de Z ,(∆), es una matriz diagonal, donde ∆jj = λj . Es importante considerar que esta técnica no es invariante a la escala de medición de las variables X, con lo cual, se suele trabajar con variables estandarizadas, de esta manera Σ no sería la matriz de covarianzas, sino la de correlaciones. 1 ˜0 ˜ En la práctica Σ no es conocida, con lo cual se trabaja con una estimación de la misma, S = n−1 X X, ˜ donde X es una matriz de orden (n × k) que contiene a las observaciones muestrales de X centradas, ˜ i j = (xi j − xj ) con j = 1, ..., k y i = 1, ..., n, siendo xj la media muestral de es decir, el elemento X ˜ 0 X, ˜ y aj su el correspondiente autovector, el análogo muestral xj . Sea lj el j − esimo autovalor de X lj 3 de λj será, n−1 .

2.2.

Regresión por componentes principales

Convencionalmente en la literatura de RCP se trabaja con variables estandarizadas4 , por eso en este apartado seguiremos esa línea. 2

Para más detalle ver Jolliffe (2002); Massy (1965) ˜0X ˜ son idénticos, mientras que, siendo lj el el j − esimo autovalor de X ˜0X ˜ , el j − esimo Los autovectores de S y X lj autovalor de S va a ser igual a n−1 . 4 Las variable estandarizadas se obtienen centrándolas y dividiéndolas por su desvío estándar, pero cabe aclarar que, se puede arribar a resultados similares trabajando con variables no estandarizadas, o estandarizadas bajo otra regla. 3

3

Sea y = Xβ + e,

(2.1)

con y vector de variables dependientes estandarizadas de orden (n × 1), X matriz de variables explicativas estandarizadas de orden (n × k), β un vector de parámetros de orden (k × 1) , y e un vector  2 de errores aleatorios iid ∼ 0, σ de orden (n × 1). Siendo Z = XA la matriz de Componentes Principales5 de X, dado que A es ortogonal, podemos 0 0 reescribir Xβ como XAA β = Zγ, donde γ = A β. Con esto, la ecuación (2.1) puede ser expresada como y = Zγ + e.

(2.2)

La anterior expresión no es más que la regresión de y sobre las CP de X. 0 Se puede demostrar que, estimar γ en (2.2) a través de MCO, y luego obtener βˆ = A γˆ , es equivalente a obtener βˆ aplicando MCO directamente en la ecuación (2.1) k l−1 a a0 X 0 y, siendo l el j − esimo Realizando algunos reemplazos, se puede llegar a que, βˆ = Σj=1 j j j j 0 autovalor de X X, y siendo   aj el autovector0 asociado a dicho autovalor, por otro lado, también se puede k l−1 a a . demostrar que la var βˆ = σ 2 Σj=1 j j j 2.2.1.

Multicolinealidad

La multicolinealidad está presente en los modelos de regresión múltiple cuando existe una asociación lineal fuerte6 entre dos o más variables explicativas. La multicolinealidad provoca el aumento de la varianza de los estimadores, generando a su vez, una alta inestabilidad en la estimación de los modelos. Existen diferentes formas de sobrellevar estos problemas, uno de ellos es utilizar la RCP.   k l−1 a a0 , de esta ecuación se desprende Como vimos en el apartado anterior, la var βˆ = σ 2 Σj=1 j j j lj que existe una relación inversa entre la varianza de βˆ y lj . Siendo la var (zj ) = n−1 , una manera de reducir la variabilidad de βˆ sería no considerar, en la RCP, aquellas zj de menor varianza (bajos valores de lj ), de esta manera, el modelo a estimar sería

y = Zm γm + µ,

(2.3)

con m < k, donde Zm es una submatriz de Z que contiene las m zj de mayor varianza, y siendo γm un subvector de γ que contiene los m parámetros que se corresponden con Zm . En términos formales, estaríamos asumiendo que (k − m) valores de γ son ceros. El estimador de β basado en el modelo anterior tiene la siguiente expresión funcional 0 0 m −1 β˜ = Σj=1 lj aj aj X y,

al no considerar a zj , con j > m, en (2.3), estamos dejando fuera de la estimación de β los valores de lj que se corresponden con dichas variables. La varianza de este nuevo estimador viene dada por 0 m −1 var β˜ = σ 2 Σj=1 lj aj aj .

 

5 En cierta literatura puede encontrarse que las Componentes Principales refieren a los autovectores aj , en este trabajo, siguiendo a Jolliffe (2002), se entederá por CP a las variables Z, usando el término “Cargas” para los elementos de aj . 6 La asociación bien podría ser perfecta, pero en ese caso los estimadores serían indeterminados.

4

Como vemos en la expresión anterior, la varianza de β˜ no considera a lj , con j > m, es decir, no ˜ considera a aquellos lj que, por su reducido valor, aumentan la varianza de β. Resumiendo, la forma de sobrellevar la gran variabilidad de los estimadores provocada por la existencia de alta multicolinealidad, es realizar una regresión de la variable dependiente contra las Componentes Principales de mayor varianza. Ahora bien, lamenor varianza de los estimadores tiene un costo, los mismos son sesgados, se puede  ˜ demostrar que E β 6= β, a menos que los γj con j > m, que son los parámetros que se corresponden con las zj no consideradas en la estimación, sean efectivamente cero.

2.3.

Regresión por componentes principales en S2SLS

En los siguientes apartados adaptaremos la RCP a una estimación de tipo bietápica comúnmente utilizada en el Modelo de Rezago Espacial (SLM) En la primera parte presentaremos brevemente el estimador Spatial Two Stage Least Squares (S2SLS), haciendo foco en su equivalencia con el estimador de MCO, luego, en una segunda parte, utilizaremos dicha equivalencia para introducir la técnica de RCP en la estimación de S2SLS. La motivación final de este desarrollo es poder aplicar la RCP en un modelo SLM y utilizarla como herramienta para atenuar el impacto de la multicolinealidad en la precisión los estimadores. 2.3.1.

Estimador S2SLS

Sea el siguiente Modelo de Rezago Espacial (2.4)

yn = Xn β0 + ρ0 Wn yn + en ,

donde yn es un vector de variables dependientes de orden (n × 1), Xn es una matriz de variables exógenas de orden (n × k), β0 es una vector de parámetros de orden (k × 1), en es un vector de errores  2 aleatorios de orden (n × 1) tal que en ∼ 0, σe In , Wn es una matriz de pesos espaciales de orden (n × n) y ρ0 es un parámetro de autocorrelación espacial. El término Wn yn genera endogeneidad en el modelo (2.4), lo cual hace que su estimación a través de MCO sea sesgada. Kelejian & Prucha (1998, 1999) presentan un estimador basado en la metodología de 2SLS, al cual llaman S2SLS. Siendo (2.4) igual a (2.5)

yn = Zn θ0 + en , 

0

0



con Zn = (Xn , Wn yn ) y θ0 = β0 , ρ0 . Sea Hn la matriz de instrumentos que toma las filas linealmente independientes de 

0

Xn , Wn Xn , Wn2 Xn , ..., W p Xn donde generalmente p ≤ 2, y sea PH = Hn Hn Hn Zˆn = PH Zn , el estimador S2SLS de θ0 es 

0 θˆs2sls = Zˆn Zˆn



−1

0 Zˆn yn .

−1

0

Hn , y

(2.6)

Como puede advertirse de la ecuación anterior, θˆs2sls , es un estimador de MCO del siguiente modelo yn = Zˆn α0 + υn , 

−1

0 0 dado que, α ˆ mco = Zˆn Zˆn Zˆn yn , vemos que α ˆ mco = θˆs2sls . Esta igualdad será utilizada en el siguiente apartado para adaptar la RCP a la estimación S2SLS.

5

2.3.2.

Estimador S2SLS utilizando Regresión por Componentes Principales

Si tomamos el modelo (2.4) y estandarizamos las variables, obtenemos yns = Xns β0s + ρs0 Wn yns + esn , donde el supra índice s hace referencia a la estandarización7 . El modelo anterior puede ser expresado como (2.7)

yns = Zns θ0s + esn , 0



0



con Zns = (Xns , Wn yns ) y θ0s = β0s , ρs0 . Dado que (2.7) es un SLM, sus parámetros pueden ser estimados a través de S2SLS 0 s θˆs2sls = Zˆns Zˆns





0

−1

−1

0 Zˆns yns ,

0

Hns Zns , y Hns es la matriz de instrumentos que toma las columnas donde Zˆns = Hns Hns Hns  linealmente independientes de Xns , Wn Xns , Wn2 Xns , ..., W p Xns donde generalmente p ≤ 2. En regresión lineal, los parámetros de los modelos con variables estandarizadas habitualmente se conocen con el nombre de “Coeficientes Betha”. Hasta acá solo hemos presentado los estimadores de S2SLS para un modelo SLM con variables estandarizadas. s Ahora bien, como vimos en el apartado anterior, θˆs2sls es equivalente al estimador de MCO de (2.8)

yns = Zˆns α0s + υn .

Por otro lado, dado que Zˆns es un conjunto de variables aleatorias, siguiendo el ACP, podemos hallar un nuevo conjunto de variables R = Zˆns A, donde A es una matriz ortogonal cuyas columnas son los autovectores asociados a los autovalores de la matriz de correlaciones8 estimada de Zˆns . 0 Dadas las propiedades de A sabemos que AA = I, con lo cual podemos expresar a (2.8) como 0 0 yns = Zˆns AA α0s + υn , siendo Zˆns A = R , y A α0s = δ0s , esto nos lleva al siguiente modelo (2.9)

yns = Rδ0s + υn ,

las columnas de R son las Componentes Principales de Zˆns .  0 −1 0 R yns , y como vimos en el apartado de Estimando δ0s a través de MCO, tenemos δˆs = R R 0 s 0 RCP, A δˆ = α ˆ s , y dado que α ˆ s = θˆs , entonces A δˆs = θˆs . s2sls

s2sls

Nuestro estimador bietápico, aplicando RCP, al cual llamaremos Estimador de Regresión por Componentes Principales en Dos Etapas (ERCP2E) tiene la siguiente forma funcional 0 0 0 s θˆercp2e = A δˆs = A R R



−1

0

R yns ,

(2.10)

Conservamos el supra indice s puesto que es un estimador de parámetros de un modelo con variables estandarizadas. Si quisiéramos recuperar el estimador de los parámetros del modelo original (2.5), debemos aplicar la siguiente transformación, θˆi = δˆis (sy /szˆi ), donde S. es el desvío estándar estimado y zˆi es la i − esima columna de Zˆn . 7

Hay que considerar que si el modelo sin estandarizar tiene ordenada al origen, en el proceso de estandarización esta desaparece, con lo cual, si β0 es de orden (k × 1), β0s será de orden (k − 1 × 1). 8 Al estar las variables de Zˆns estandarizadas, su matriz de varianzas y covarianzas es igual a la matriz de correlaciones.

6

Como detallamos en la subsección (2.2.1), la RCP es una herramienta que puede ser utilizada para disminuir el impacto de la multicolinealidad en los estimadores. La idea central es la de utilizar sólo un número reducido de CP (sólo algunas columnas de R) dejando fuera aquellas de menor varianza, que, como vimos, son las que aumentan la variabilidad de los estimadores. Ahora bien, como se mencionó, todo esto conlleva como costo cierto grado de sesgo, la igualdad (2.10) generalmente no se cumple si solo tomamos algunas columnas de R, lo que se espera es que el sesgo sea más que compensado por la reducción en la variabilidad de los estimadores.

3.

Determinantes del trabajo adolescente.

Como mencionamos al inicio, la idea de este trabajo es aplicar la metodología desarrollada en la sección anterior a fin de evaluar la incidencia que ciertos factores socioeconómicos ejercen sobre el empleo adolescente. Dada las características de los datos y las herramientas utilizadas para el análisis, no está dentro de nuestros propósitos determinar efectos causales, sino más bien establecer la dirección de los impactos de las variables que consideramos explicativas del fenómeno. Por otro lado, dado que vamos a considerar la dimensión espacial en nuestro análisis, si bien nuestro objetivo no es confrontar ninguna línea teórica con la realidad, nos resulta relevante presentar un breve resumen de dos de las principales corrientes de análisis del trabajo adolescente que han incluido a la localización geográfica como un aspecto a considerar. En este punto es importante aclarar que, los trabajos citados no necesariamente definen al trabajo adolescente como lo hemos considerado nosotros, con lo cual, no es correcto hacer comparaciones directas entre los resultados.

3.1.

Comportamiento espacial del trabajo adolescente. Trabajos previos

Como es de esperar, el empleo adolescente, así como otros fenómenos socioeconómicos, es una variable que muestra un fuerte comportamiento espacial. En la literatura, para explicar la importancia del espacio en los resultados observados en el mercado de trabajo para la población joven, frecuentemente se ha apelado al rol del acceso al empleo, por un lado, y a la composición del vecindario, por el otro. Ambas líneas de investigación relacionan la forma en que se distribuyen los hogares en las áreas metropolitanas con el resultado de determinadas variables de empleo entre los jóvenes, presumiendo cada uno, mecanismos de causalidad diferentes que afectan dichos resultados (O’Regan & Quigley (1996)). Si bien en este apartado se realizará una breve reseña de las premisas y conclusiones principales que pueden derivarse de ambas vertientes y de los trabajos empíricos que las han analizado, la misma tiene un carácter informativo y se presenta con el fin de contextualizar el análisis. Las dos perspectivas señaladas en el párrafo anterior incorporan a los modelos estándar, que se utilizan para estudiar el mercado de trabajo, el efecto de la localización geográfica. La hipótesis del “desajuste espacial” fue postulada por primera vez por Kain (1968), quien analizó la forma en que la desigualdad de la demanda espacial de empleo daría lugar a inequidades urbanas en el funcionamiento del mercado laboral para minorías raciales. Concretamente, el autor postuló que a medida que se incrementaba la distancia entre los puestos de trabajo y los barrios habitados por gente de color en EEUU, declinaba la tasa de ocupación entre los jóvenes que componían esta minoría. Es decir que, ante procesos de relocalización del empleo en radios más lejanos de donde se encontraban asentados los grupos minoritarios, dadas las restricciones en sus posibilidades de reubicación, estos grupos resultaban marginados del mercado laboral. En la medida que el empleo se descentraliza y las minorías continúan concentradas en los centros urbanos, declina su acceso a los empleos y consecuentemente se reducen sus niveles de ocupación y salarios. En líneas generales, esta hipótesis estaría afirmando que la dimensión espacial afecta el nivel y la distribución del empleo a través de la proximidad a los puestos de trabajo. Siguiendo a Kain (1992), 7

serían varios los efectos que se conjugan para generar estos resultados entre jóvenes y adolescentes pertenecientes a grupos minoritarios en EEUU. Entre ellos señala la relocalización de la demanda laboral en lugares de alto crecimiento, pero distantes de los asentamientos de las minorías; la discriminación en el mercado inmobiliario e hipotecario en detrimento de las minorías; los problemas de información acerca de vacantes laborales en lugares distantes; y la mala infraestructura de transporte que afecta la fluidez de los desplazamientos de los trabajadores. En lo que respecta a las investigaciones empíricas sobre el tema, en un trabajo que se constituyó como referente, Ellwood (1986) encontró que sólo existía evidencia débil de efectos de proximidad de los puestos de trabajo sobre el empleo al explotar variaciones inter-vecinales dentro de un área metropolitana. Otros trabajos, como los de Ihlanfeldt & Sjoquist (1990) y el de Raphael (1998) han avalado la hipótesis del desajuste. Aquellos análisis que se focalizan en variaciones entre áreas metropolitanas en general han tendido a respaldar la hipótesis del desajuste (Mooney (1969); Ihlanfeldt & Sjoquist (1989); Cutler et al. (1997); Weinberg et al. (2004)). De todos modos, la evidencia empírica acerca de la hipótesis del desajuste espacial del empleo no es concluyente Mayer (1996). Aún así, ésta continúa siendo un foco de atención para la literatura académica y las políticas públicas. Por otra parte, el “efecto vecindario” se refiere a la incidencia de la localización geográfica del hogar en los resultados socioeconómicos que alcanzan los individuos, más allá de las habilidades personales, las características familiares y las condiciones macroeconómicas reinantes. Este efecto se asocia a las externalidades a través de las cuales las decisiones individuales repercuten en la toma de decisiones y resultados de otros miembros del área local. Son varias las hipótesis que se han propuesto que tienen por objeto relacionar la composición del vecindario con el modo en que los jóvenes toman decisiones y las consecuencias de éstas en una serie de variables socioeconómicas. En líneas generales se pueden categorizar en tres grandes grupos: teorías de socialización colectiva, teorías del contagio y teorías de redes (Andrews et al. (2002)). Si bien estas tres líneas teóricas difieren marcadamente en términos de los mecanismos sugeridos a través de los cuales los efectos geográficos serían generados, las tres apuntan a efectos de derrame locales que conducirían a resultados socioeconómicos determinados. Es decir que, de acuerdo a este cuerpo teórico, es la composición interna del vecindario la que importa más que la relación entre el vecindario y las oportunidades externas de empleo como sostenía la hipótesis del desajuste espacial (O’Regan & Quigley (1996)). La socialización colectiva hace alusión a la idea de que un individuo se ve condicionado en sus decisiones por el tipo de modelos a los que está expuesto durante su infancia. Este enfoque enfatiza el efecto que los modos de vida de los adultos, más allá de los padres, tienen como modelo sobre los niños a su alrededor (Wilson (2012)). Como resultado, niños pertenecientes a barrios más humildes estarán en contacto con adultos que representarán modelos de conducta diferentes a quienes viven en vecindarios de mayor nivel socioeconómico. Estas diferencias se evidencian en cuestiones tan dispares como la exposición a actividades criminales, el uso de drogas ilegales, el nivel educativo alcanzado y las formas de inserción en el mercado laboral. Asimismo, los modelos epidémicos o de contagio (Crane (1991)) indican que las probabilidades de una persona de adoptar cierto tipo de comportamiento está positivamente correlacionada con la exposición a la conducta de pares, que en este caso refuerzan normas de comportamiento al interior del vecindario. Alternativamente, el tipo de área residencial en la cual crecen los jóvenes y adolescentes puede afectar su conocimiento del retorno de decisiones cruciales (como por ejemplo terminar el colegio secundario, Jencks & Mayer (1990)) y su acceso a redes sociales. Es decir que, concretamente, la desigualdad espacial puede dar lugar a asimetrías de información. En lo atinente al mercado laboral, Holzer (1987) y Montgomery (1991) han encontrado que las redes informales son los principales canales de búsqueda de empleo y de potenciales empleados. Entonces, individuos pertenecientes a vecindarios con bajos niveles de ocupación contarán con menos información acerca de vacantes disponibles y tendrán menos referidos. Las asimetrías de información también pueden afectar la demanda laboral, dado que el lugar de residencia puede utilizarse como señal de determinadas 8

características no observables por el empleador, llevando a una discriminación en el proceso de selección (Borland et al. (1995)). A pesar del nivel de detalle teórico relativo a cómo el vecindario puede afectar los resultados alcanzados por los jóvenes en diferentes dimensiones, es complicado validar empíricamente alguna de estas teorías principalmente por las conclusiones similares a las que arriban. A grandes rasgos puede decirse que la concentración de desventajas crea derrames localizados, que devienen en resultados poco favorables para los jóvenes residentes en dichas zonas. Por lo tanto, mientras es posible establecer si existen efectos de vecindario y su importancia, resulta más complejo determinar los canales específicos por los que actúan. La literatura empírica del tema ha investigado un amplio rango de resultados utilizando diferentes métodos. Datcher (1982) está entre los primeros trabajos que han encontrado efectos sociales del vecindario sobre variables laborales. De todos modos, Jencks & Mayer (1990) sostienen que de acuerdo a los resultados encontrados por los trabajos previos a la década del noventa no es posible mantener ninguna generalización fuerte sobre efectos de vecindario. No obstante, los resultados de Brooks-Gunn et al. (1997), Case & Katz (1991), Crane (1991), Duncan (1994) y Osterman (1991) tienden a avalar las hipótesis de los efectos de vecindario. Por otra parte, O’Regan & Quigley (1996) hallaron que las influencias sociales y la proximidad a los puestos de trabajo afectan el empleo adolescente. Más recientemente, los investigadores han comenzado a lidiar con problemas econométricos que afectan las estimaciones en la identificación de efectos de vecindario. Así, los trabajos de Manski (1993), Duncan et al. (1997), Brock & Durlauf (1999), Plotnick & Hoffman (1999) y Moffitt et al. (2001) han puesto el acento en la simultaneidad, la correlación de no observables y la elección endógena del vecindario.

3.2.

Datos

Los datos censales utilizados son los únicos actualmente disponibles que permiten estudiar la distribución espacial, en el interior de la ciudad de Rosario, de la TEEA. El nivel llamativamente alto del promedio general no puede menos que motivar dudas sobre la precisión de los datos utilizados para calcularla, pero tampoco puede pasarse por alto que el organismo oficial que los produjo, el Instituto Provincial de Estadística y Censos de Santa Fe (IPEC Santa Fe), en colaboración con el Instituto Nacional de Estadística y Censos (INDEC), les asigna suficiente entidad como para publicarlos muy detalladamente dentro de un conjunto de cuadros del Censo 2010 destinados específicamente a mostrar características de la población de 12 a 18 años, cuadros que no presentaban en censos anteriores. Se considera generalmente que los datos provenientes de los censos de población son poco fiables en lo que se refiere a condición de actividad y otras características laborales, las cuales no son de su principal interés. A lo largo de los censos, tasas calculadas con tales datos tienden a diferir de las estimadas a partir de la Encuesta Permanente de Hogares (EPH), para la cual los aspectos laborales tienen una relevancia central9 (INDEC, s.f.a). Sin embargo, la EPH no es representativa de áreas urbanas menores que uno de sus dominios, que en lo que aquí interesa es el aglomerado Gran Rosario del cual la ciudad de Rosario forma parte. Asimismo, las subpoblaciones de interés para este trabajo son muy pequeñas en términos relativos, por lo que las estimaciones de las misma realizadas a partir de muestras tomadas de toda la población son poco precisas y sería aventurado utilizarlas para elaborar una variable de control que se compare con la del Censo. Aún así, debe hacerse mención de que, para el aglomerado Gran Rosario, la EPH proporciona estimaciones que permiten calcular la tasa de empleo adolescente en un 10 % para el cuarto trimestre de 2010 (el Censo se levantó en octubre). La tasa calculada con datos censales para los distritos que componen al Aglomerado era prácticamente la misma que para la ciudad de Rosario: 9 El cuestionario de la EPH (INDEC, s.f.b) tiene, por ejemplo, 16 ítems orientados a la determinación de la condición de actividad, mientras que en el Censo 2010 apenas se hicieron cuatro preguntas (INDEC, s.f.c). Además, es plausible que los encuestadores de la EPH estén mucho mejor entrenados y motivados que los censistas para indagar sobre los atributos de interés en materia laboral.

9

26,3 %. Tan gran diferencia obliga a hacer una salvedad importante sobre los resultados que se presentan más adelante, que como ya se señaló, son preliminares. Pero si bien es posible que el Censo sobreestime el nivel general de la tasa de empleo, en este trabajo no interesan los niveles absolutos, siempre que se respeten la asociaciones y la distribución espacial de las variables bajo análisis. Lamentablemente, no existe respuesta para el interrogante de si los datos con los que los valores de esta distribución fueron calculados pueden estar espacialmente sesgados. Al respecto cabe mencionar que la inspección de los datos georreferenciados permite observar valores espacialmente atípicos (spatial outliers) muy elevados en radios censales de zonas de Rosario donde no se esperarían, como son el micro y el macrocentro de la ciudad. No fue posible determinar si esos valores atípicos están definidos por la presencia de población pobre que vive en la calle en el área central de la ciudad o tienen otras razones, pero en general surgen de cocientes entre cantidades muy pequeñas y no tuvieron mayores consecuencias sobre los resultados.

3.3.

Fuente y modificaciones

La información utilizada para llevar adelante el siguiente trabajo corresponde al Censo Nacional de Población, Hogares y Viviendas del año 2010. Puntualmente lo que vamos a utilizar son ciertas variables que, directa o indirectamente, refieren a pobreza, empleo y educación, para la ciudad de Rosario. La información esta desagregada a nivel de radio censal, siendo que cada radio cuenta con, aproximadamente, 300 viviendas. El total de radios es de 1070, siendo 4 de ellos mixtos y el resto urbanos, en el trabajo solo utilizaremos los urbanos10 . Dado que nuestro objetivo es investigar el impacto de la pobreza, el desempleo, la tasa de actividad y la educacion en el empleo adolescente, la variable dependiente bajo análisis es: TEEA: la proporción de varones y mujeres de entre 14 y 18 años que trabajan, dicha proporción es calculada como el cociente entre los varones y mujeres de 14 a 18 años que trabajan por radio, sobre el total de personas de ese rango de edad por radio. Las variables explicativas son: TDesocu: la proporción de desocupados, medida como la cantidad de personas desempleadas por radio sobre el total de personas activas por radio (empleados más desempleados). TActiv: la proporción de actividad, medida como el total de empleados y desempleados por radio sobre el total de empleados, desempleados e inactivos por radio. Ind.Educ: La primera componente principal de una matriz de variables referidas al nivel educativo del radio (ver detalles en apéndice (6.1)). Ind.Pobreza e Ind.Pobreza.Extrema: La primera y segunda componente principal de una matriz de variables referidas a características de pobreza estructural del radio (ver detalles en apéndice (6.1)). Como podemos advertir, las variables utilizadas, ya sea de manera directa o indirecta (a través de indicadores), están expresadas en términos de proporciones, la precisión con la cual dichas proporciones son estimadas está inversamente relacionada con el tamaño de la población dentro de su respectivo radio censal, con lo cual, muchas veces es deseable agrupar pequeñas áreas contiguas de manera tal de aumentar la precisión de las estimaciones (Duque et al. (2012)). En base a esto, hemos agrupado los radios censales de forma que ninguna de las nuevas áreas creadas tenga menos de 100 adolescentes (personas de entre 14 y 18 años), como resultado tenemos un total de 407 unidades espaciales. En la literatura existen diferentes metodologías para agrupar unidades espaciales, en muchos casos el objetivo final del agrupamiento es crear unidades homogéneas, clusters espaciales, en nuestro caso, lo que buscamos es construir regiones que sean apropiadas para el estudio de las variables de interés, 10

La información primaria utilizada puede obtenerse en www.santafe.gov.ar. Los radios mixtos corresponden a F03-R01, F48-R07 y R21, F49-R01, donde F es fracción y R radio

10

en lo que a este trabajo refiere, apropiado es que tenga un número mínimo de población adolescente de manera que las estimaciones de las proporciones sean fehacientes. El algoritmo que hemos utilizado se conoce con el nombre de Max-P-Regions Duque et al. (2012), el mismo agrupa unidades espaciales siguiendo un criterio de contigüidad, y procurando que las nuevas áreas creadas superen un umbral preestablecido, en nuestro caso, un valor mínimo de población adolescente. Ver apéndice (6.2). Para tener una mejor comprensión de las asociaciones entre las variables bajo análisis, a continuación presentamos una matriz de dispersión de las mismas, el panel superior muestra gráficos de dispersión, y el inferior expone las correlaciones entre ellas. Figura 3.1: Matriz de Dispersión y Correlaciones

Lo que podemos apreciar en la figura anterior es que, en lo que respecta a trabajo adolescente, el mismo parece tener una clara asociación negativa con la educación y la tasa de actividad, y positiva con el desempleo y la pobreza, siendo que para estos últimos la relación pareciera decrecer a partir de ciertos valores. Si prestamos atención a la asociación entre tasa de actividad y desempleo vemos que entre las mismas existe una relación negativa, lo cual es un reflejo del desempleo oculto, entendiendo por tal a las personas desocupadas que pasaron a ser inactivas como consecuencia del desánimo provocado por la escasez de oportunidades laborales durante un tiempo prolongado. El trabajo adolescente muestra también una relación negativa con la tasa de actividad, esto nos está diciendo que no sólo el desempleo determina el trabajo adolescente, sino que también lo hace el desempleo oculto, el cual aumenta al caer la tasa de actividad, podríamos pensar en la tasa de actividad como una proxy del desempleo oculto. En lo que respecta a pobreza, como dijimos, pareciera que a partir de cierto punto su relación con el empleo adolescente disminuye considerablemente. Por como está construido el índice de pobreza (ver apéndice (6.1)), un alto valor del mismo podría deberse tanto a, altos valores de pobreza extrema, o a altos valores de pobreza media, esto nos lleva a pensar en la necesidad de diferenciar entre pobreza 11

media y extrema, y es por eso que en el modelo incluimos un indicador de pobreza extrema que es la segunda componente principal de la matriz de variables de pobreza estructural. Por otro lado, un punto de enorme relevancia para este trabajo es la fuerte correlación que existe entre las variables explicativas, el valor absoluto de la correlación entre educación y el resto de las variables, es superior a 0.7, mientras que, para la tasa de actividad y la pobreza tenemos una correlación de -0.77, estos valores tan elevados (y coherentes con la intuición) provocan un enorme problema de multicolinealidad en los modelos de regresión, no sólo afectando la varianza de los estimadores, sino arrojando valores con signos opuestos a las relaciones que muestran los datos.

3.4.

Modelo. Aspectos metodológicos.

Como dijimos, el objetivo central del trabajo aplicado es evaluar el impacto que tienen, la pobreza, el desempleo, la tasa de actividad y la educación, sobre el trabajo adolescente. Como podrá advertirse, el trabajo adolescente es una variable con un fuerte comportamiento espacial (ver cuadro 7 del apéndice), esto quiere decir que hay unidades espaciales contiguas donde dicha variable toma valores altos y otras donde sucede lo contrario, dicho de otra manera, la variable esta correlacionada espacialmente, obviar esta característica puede conducir a estimaciones sesgadas. Una estructura funcional que permite incorporar explícitamente la correlación espacial de la variable dependiente es la siguiente yn = Xn β0 + ρ0 Wn yn + en ,

(3.1)

donde yn es un vector de variables dependientes de orden (n × 1), Xn es una matriz de variables exógenas de orden (n × k), β0 es una vector de parámetros de orden (k × 1), en es un vector de errores  2 aleatorios de orden (n × 1) tal que en ∼ 0, σe In , Wn es una matriz de pesos espaciales de orden (n × n) y ρ0 es un parámetro de autocorrelación espacial. Como vimos en los apartados anteriores, dicho modelo es conocido como SLM. Lo característico del modelo (3.1) es el término Wn yn , como dijimos, Wn es una matriz de orden (n × n), dicha matriz es conocida, entre otras formas, como matriz de contigüidad, su función es ponderar los valores de la variable dependiente en los alrededores (vecindario) de la unidad observacional bajo análisis. Formalmente, la matriz de contigüidad es representada por: 

0   w21 Wn =   ..  .

w12 0 .. .

wn1 wn2



· · · w1n · · · w2n   ..  .. , . .  ··· 0

donde las filas y columnas identifican a las observaciones de corte transversal, siendo n el tamaño del conjunto de datos y wij (i, j = 1, 2, . . . , n) las ponderaciones o pesos que aproximan la relación entre dos unidades i (filas) y j (columnas). La diagonal principal esta formada por ceros, estableciendo que ninguna observación puede ser vecina de si misma. La matriz está conformada por pesos exógenos al modelo establecidos por algún criterio (por ejemplo, contigüidad o distancia geográfica). La inclusión de Wn yn en (3.1) implica que estamos considerando como variable explicativa de cada yi un promedio del valor de dicha variable en los alrededores, wi y, siendo que, como dijimos en el párrafo anterior, Wn es quien define “los alrededores” y el peso de cada vecino. Otra alternativa para abordar el análisis de variables autocorrelacionadas espacialmente es el filtrado espacial (ver Geti et al. (1995)), dicha herramienta permite separar de la variable dependiente el componente que genera dependencia espacial, y luego utilizarlo como un nueva variable independiente

12

en el modelo para evitar una incorrecta especificación del mismo. El modelo, al cual llamaremos “Modelo Filtrado”, puede expresarse como (3.2)

yn = Xn α0 + α1 Sn + un ,

en este caso Sn de orden (n×1), es el componenteespacialfiltrado de la variable yn que es introducido 0 0 como una nueva variable explicativa, siendo θmf = α0 , α1 un vector de parámetros de regresión de  orden (k + 1 × 1), y un un vector de errores aleatorios de orden (n × 1) tal que un ∼ 0, σu2 In . El filtrado espacial evita la presencia del término Wn yn a la derecha del modelo, o mejor dicho, lo reemplaza, y esto resuelve el problema de endogeneidad, con lo cual podemos estimar (3.2) a través de MCO. En síntesis, dada la dependencia espacial que muestra el empleo adolescente, los modelos que utilizaremos para investigar los factores que lo determinan serán (3.1) y (3.2) . Las variables que consideraremos fueron detalladas en el apartado (3.3), pero además de esas, incluiremos una dummy que toma valor uno cuando la desocupación supera 0.10 y cero en otro caso, la hemos introducido de forma individual e interactuando con desempleo, de esta manera pretendemos capturar un cambio en la pendiente para tasas de desempleo superiores a 0.1011 . 3.4.1.

Estimación de los modelos

Como vimos en la figura (3.1) las variables pobreza, educación, tasa de actividad y desempleo poseen una alta correlación, que como dijimos, afecta a los estimadores de los modelos de regresión aumentando su variabilidad y generando inestabilidad. Nuestra propuesta para sobrellevar dichos problemas es utilizar la técnica de RCP tomando sólo algunas componentes y procurando dejar fuera aquellas que generan una alta multicolinealidad. En lo que respecta al modelo (3.2), el mismo es un modelo de regresión lineal que puede ser estimado por MCO, con lo cual, la técnica de RCP puede aplicarse directamente como se establece en la literatura, pero para el caso del modelo (3.1), como vimos, no podemos utilizar MCO ya que al considerar como variable explicativa rezagos espaciales de la variable dependiente tiene problemas de endogeneidad, con lo cual, para estimarlo, debemos utilizar la metodología de S2SLS. Claro está que, este último modelo también sufre los problemas de la multicolinealidad, con lo cual, utilizaremos la metodología de Regresión por Componentes Principales para S2SLS desarrollada al inicio. El proceso de estimación del ERCP2E se puede resumir en los siguientes pasos Construimos la matriz de instrumentos Hn = Xn , Wn Xn , Wn2 Xn y la matriz de variables explicativas Z = (Xn , Wn yn ), donde yn y Xn son, respectivamente, la variable explicada y las exógenas, las cuales ya fueron definidas anteriormente , y siendo Wn una matriz de contigüidad de tipo Queen. 



0 Construimos Zˆn = Hn Hn Hn

−1

0 Hn Zn y aplicamos ACP a Zˆn utilizando la matriz de correlaciones, esto hace que trabajemos con la matriz Zˆn estandarizada, Zˆns .

Obtenemos Rn = Zˆns A la matriz de Componentes Principales de dimensión (n × k) , y luego tomamos una submatriz de Rn , a la que llamamos Jn , de orden (n × m), con m < k, y estimamos  0 −1 φˆs = J Jn Jn y s , donde y s es la variable yn estandarizada. n

n

n

11 El valor 0.10 fue obtenido a través de una regresión polinómica de grado dos entre TEEA y TDesocu, la maximizamos y encontramos el punto de quiebre.

13

Para obtener los estimadores basados en nuestras variables originales (aunque estandarizadas), premultiplicamos por A∗ al estimador del paso anterior, siendo A∗ una submatriz de A de orden (k × m) que contiene las primeras m columnas de la matriz de cargas factoriales, y así obtenemos s s θˆercp2e = A∗ φˆs . En este caso θˆercp2e es el estimador ERCP2E del modelo SLM estandarizado, lo que en la literatura se conoce como Coeficientes Betha. s En este punto cabe aclarar que , si bien nosotros establecimos que el estimador θˆercp2e es igual al s ˆ estimador θs2sls , esto solo es cierto si utilizamos todas las componentes, es decir, si utilizamos Rn en lugar de Jn . Como vimos, la idea de utilizar un número menor de componentes es reducir la variabilidad de los estimadores.

Luego, para obtener los estimadores del modelo sin estandarizar aplicamos la siguiente transformación θˆi, ercp2e = θˆisercp2e (sy /szˆi ) , donde sy es el desvío estimado de yn , y szˆi es el desvío estimado de zˆi,n , con i = 1, · · · , k (las columnas de la matriz Zˆn ). La estimación de la varianza de los estimadores de RCP (cuando sólo usamos algunas CPs) aún es tema de investigación, lo que suele utilizarse es la técnica de Bootstrap, que es la que seguiremos en este trabajo. Hablar de significacia estadística en este contexto no tienen demasiado sentido, con lo cual, presentaremos los intervalos de confianza al solo fin de tener una idea de la variabilidad de los estimadores propuestos, pero no para inferir sobre los verdaderos valores. 3.4.2.

Bootstrap espacial

Cuando las variables (y, X) están asociadas espacialmente no es recomendable hacer un remuestreo directamente de ellas porque esto rompería dicha estructura, en su lugar suele utilizarse un método conocido como Bootstrap semiparamétrico. El mismo consiste en hacer un remuestreo de los errores, y luego, junto con los estimadores de los parámetros, generar nuevas y´s.12 A continuación detallamos el procedimiento para ambos modelos. En el caso del modelo filtrado, tomamos las estimaciones de los errores de (3.2) de la siguiente manera u ˆn = yn − Xn α ˆ 0, mco + α ˆ 1, mco Sn , donde α ˆ 0, mco y α ˆ 1, mco son los estimadores MCO de α0 y α1 . Siendo ubn una muestra con reemplazo, de tamaño n, obtenida de u ˆn , generamos las y´s bootstrap de la siguiente manera ynb = Xn α ˆ 0, mco + α ˆ 1, mco Sn + ubn . Una vez que tenemosynb podemos construir una nueva matriz de variables Bootstrap basada en el modelo filtrado, ynb , Xn , si repetimos el proceso B veces, obtenemos B matrices. MF En lo que respecta al modelo espacial (3.1), el proceso es muy similar al anterior, siguiendo a Anselin (1990), lo que hacemos es generar ynb de la siguiente manera 



ynb = (In − ρˆs2sls Wn )−1 Xn βˆs2sls + ebn ,

(3.3)

12 Este procedimiento se basa en el supuesto de que las innovaciones son iid, si esto no se cumple existen otras alternativas de Bootstrap, como por ejemplo Wild-Bootstrap. Ver Davidson & MacKinnon (2006); Efron & Tibshirani (1985); Wu (1986).

14

esta ecuación es la expresión en forma reducida de (3.1). El término ebn es obtenido a través de un remuestreo con reemplazo de eˆn = yn − Xn βˆs2sls + ρˆs2sls Wn yn . De nuevo, una vez que tenemos ynb construimos nuestra matriz de variables Bootstrap basada en  , igual que en el caso anterior, si repetimos el proceso B veces, obtenemos B el SLM, ynb , Xn SLM matrices. Ahora bien, la intención nuestra es utilizar Bootstrap para hacer inferencia sobre los estimadores de RCP (ya sea sobre el modelo filtrado o el SLM), pero como sabemos, dichos estimadores son sesgados, con lo cual, si aplicamos las técnicas de remuestreo explicadas anteriormente utilizando esos estimadores, los estimadores de los errores también serán sesgados, por eso utilizamos los errores estimados  bajo b y la metodología MCO y S2SLS, pero una vez que construimos B pares de matrices, yn , Xn MF





, sobre ellas utilizamos los estimadores de RCP y ERCP2E, dado que lo que nos interesa ynb , Xn SLM es hacer inferencia sobre ellos. 0 0 0 Siendo θ˜rcp, mf el estimador de RCP de los parámetros θmf del modelo (3.2), y siendo θ˜ercp2e =  0  β˜ , ρ˜ercp2e el estimador ERCP2E, utilizando los B pares de matrices podemos tener B ercp2e

b ˜b estimaciones de θ˜rcp, mf y de θercp2e , el supraindice lo utilizamos para diferenciarlos de los estimadores basados en la muestra original. b ˜b Una vez que tenemos B estimaciones de θ˜rcp, mf y de θercp2e , lo que hacemos es estimar la √  ˜b ˜  distribución empírica de H = n θ − θ. y luego con ella armamos los intervalos de confianza para .

los estimadores de la siguiente manera, 1 ICα (θ) = θ˜. − n− 2 rˆ(1− α ) ,



2

1 θ˜. − n− 2 rˆ( α ) ,



2

donde rˆα es el percentil α de la estimación de la distribución empírica de H.13

4.

Resultados

En la presente sección expondremos los resultados de las estimaciones de los diferentes modelos que utilizamos para analizar la relación del trabajo adolescente con la educación, la pobreza, la tasa de actividad y el desempleo. Como venimos mencionando, los datos con los que trabajamos poseen una alta correlación la cual induce una fuerte multicolinealidad en los modelos de regresión, dado esto, presentaremos los resultados de los modelos (3.1) y (3.2) estimados con sus metodologías convencionales (S2SLS y MCO) y paralelamente presentaremos los resultados de ambas estimaciones utilizando la metodología de RCP. En todos los casos presentaremos los intervalos de confianza para los parámetros, siendo que, para los estimadores S2SLS y MCO haremos uso de sus distribuciones asintóticas, mientras que en los otros casos utilizaremos la técnica de Bootstrap como fue descrita en el apartado anterior, donde el número de repeticiones es B = 1000. Para el modelo filtrado, la variable Sn , que es el componente espacial de la variable yn , se obtuvo aplicando como filtro la G de Getis, y utilizando la matriz de contigüidad de tipo Queen, que es la misma que utilizamos en el SLM, ya que esta absorbe todo el componente espacial de yn , como la literatura lo sugiere. Para las estimaciones de RCP presentaremos también los estimadores estandarizados (basados en variables estandarizadas), ya que los mismos nos dan una idea de la importancia relativa de cada variable en el modelo. 13 Este método de estimación de intervalos se conoce con el nombre de “Método del Percentil”, no supone ninguna distribución, pero existen varias alternativas basadas en la técnica de Bootstrap para construir intervalos.

15

Como medida de bondad de ajuste, para todos los modelos, estimamos la correlación entre las variables observadas y las predichas, y también presentaremos los resultados del test de Moran para los residuos. En ambos casos, para aplicar la técnica de RCP utilizamos las tres primeras componentes, las cuales explican una variabilidad del 90 % para el SLM, y del 89 % para el modelo filtrado. Dado que la técnica de RCP no es robusta a la elección de las componentes, en el apéndice (6.3) presentamos las estimaciones utilizando diferentes números de componentes. Aplicando un paso más a los detallados en el apartado (3.4.1) podría obtenerse el estimador de la ordenada al origen, pero dado que no es de interés para el trabajo, lo obviaremos y no lo presentaremos para ningún modelo. Cuadro 1: Resultado Modelo de Rezago Espacial

Variables TDesocu TDesocu10 Desocu*Desocu10 TActiv Ind.Pobreza Ind.Pobreza.Extrema Ind.Educ ρ corr I Moran p-v

θˆs2sls -1.500 -0.043 0.686 1.029 0.003 0.001 -0.057 -0.025 0.793 0.048

IC 95 % (-1.914, -1.086) (-0.167, 0.079) (-0.403, 1.775) (0.873, 1.185) (-0.001, 0.008) (-0.005, 0.008) (-0.065, -0.048) (-0.222, 0.170)

s θˆercp2e 0.070 -0.067 -0.066 -0.107 0.067 -0.193 -0.173 0.192

θˆercp2e 0.227 -0.016 -0.137 -0.144 0.002 -0.015 -0.006 0.312 0.606 0.988

ICBoot 95 % (0.172, 0.279) (-0.022, -0.008) (-0.188, -0.071) (-0.170, -0.111) (0.001, 0.003) (-0.017, -0.011) (-0.007, -0.005) (0.258, 0.327)

Como vemos en el cuadro anterior, la multicolinealidad presente en nuestros datos afecta significativamente los estimadores S2SLS, si bien el desempleo, la tasa de actividad y la educación son significativas14 , excepto para esta última, en los otros dos casos los signos de los coeficientes son los opuestos a los observados en los datos, el desempleo disminuye el trabajo adolescente mientras que la tasa de actividad lo aumenta. El parámetro de autocorrelación espacial no es significativo, y como vemos, el modelo no logra capturar todo el componente espacial ya que, basados en el test de Moran, no tenemos evidencia suficiente para admitir que los errores no estén espacialmente correlacionados. Si nos enfocamos en el estimador ERCP2E, lo primero que podemos advertir es que, en forma opuesta a lo mencionado en el párrafo anterior, en este caso los signos de los coeficientes son todos consistentes con lo que los datos reflejan, y su variabilidad es claramente menor, aunque como dijimos, no podemos basarnos en esos intervalos para establecer la significancia de los estimadores. Si bien la bondad de ajuste está por debajo de la del S2SLS, basados en el test de Moran, el componente espacial pareciera haber sido capturado. 14 La inferencia que realizamos, basados tanto en la distribución asintótica (S2SLS, y MCO), como en la metodología de Bootstrap, dependen del cumplimiento del supuesto de que las perturbaciones son iid. En el apéndice (6.3) presentamos un análisis de los residuos para evaluar el cumplimiento de dicho supuesto.

16

Variables TDesocu TDesocu10 Desocu*Desocu10 TActiv Ind.Pobreza Ind.Pobreza.Extrema Ind.Educ TEEA.Espacial corr I Moran p-v

Cuadro 2: Resultado Modelo Filtrado

θˆmco, mf -1.499 -0.044 0.691 1.027 0.003 0.001 -0.056 -0.005 0.793 0.082

IC 95 % (-1.914, -1.084 ) (-0.167, 0.079 ) (-0.399, 1.783) (0.871, 1.183) (-0.001, 0.008) (-0.005, 0.008) (-0.064, -0.048 ) (-0.137, 0.127 )

s θˆrcp, mf 0.072 -0.064 -0.062 -0.110 0.070 -0.193 -0.175 0.190

θˆrcp, mf 0.234 -0.015 -0.130 -0.148 0.002 -0.015 -0.0067 0.276 0.605 0.962

ICBoot 95 % (0.230, 0.335) (-0.018, -0.005) (-0.153, -0.044) (-0.157, -0.094) (0.0006, 0.003) (-0.020, -0.014) (-0.007, -0.0060) (0.256, 0.305)

En lo que respecta al modelo filtrado, el comportamiento es similar al del SLM, las variables significativas son las mismas, y la dirección de los efectos también son iguales. En lo que respecta a la estimación bajo RCP, las conclusiones son semejantes a las anteriores, los signos de los coeficientes son congruentes con los datos, la variabilidad es menor, el componente espacial parece haber sido capturado, pero el ajuste es mejor bajo MCO. Si miramos los coeficientes estandarizados de ambos modelos vemos que, el mayor peso sobre el trabajo adolescente lo tienen el componente espacial, la educación y la pobreza extrema, y con menos de la mitad de peso está el desempleo y la pobreza. En ambos modelos basados en RCP podemos apreciar que, a altas tasas de desempleo el impacto del mismo sigue siendo positivo, pero se reduce considerablemente, y para la pobreza tenemos que, en sus valores medios el efecto es positivo, pero en sus valores extremos, actúa de manera inversa. Como se sabe, en los modelos de tipo SLM, al incluir el rezago espacial de la variable dependiente como variable explicativa, esto genera un efecto multiplicador y los parámetros no pueden ser considerados como efectos directos sobre la variable explicada, lo cual no sucede en el modelo filtrado, esto hace que no podamos comparar directamente ambos estimadores porque no están reflejando lo mismo. Debido a lo anterior, presentaremos un cuadro con los efectos directos, indirectos y totales del modelo SLM estimado con la metodología de RCP, en este caso, los efectos directos pueden compararse con los coeficientes del modelo filtrado bajo RCP. Cuadro 3: Efectos directos, indirectos y totales basados en el ERCP2E Variables TDesocu TDesocu10 Desocu*Desocu10 TActiv Ind.Pobreza Ind.Pobreza.Extrema Ind.Educ ρ

Directo 0.231 -0.016 -0.140 -0.147 0.002 -0.015 -0.006 0.318

Indirecto 0.099 -0.007 -0.060 -0.063 0.001 -0.006 -0.002 0.136

Total 0.331 -0.024 -0.200 -0.210 0.004 -0.021 -0.009 0.455

El cuadro anterior nos permite ver que existe una gran similitud entre los efectos directos (coeficientes) del modelo filtrado estimado bajo RCP, y los efectos directos del SLM estimado con ERCP2E.

17

De todas formas, cabe aclarar que, dada la alta asociación entre las variables explicativas, no tiene demasiado sentido hablar de los efectos marginales, ya que suponer que una variable cambia y el resto permanece constante se contradice con la realidad.

5.

Conclusiones

En la parte inicial del trabajo hemos presentado una adaptación de la técnica de RCP para ser utilizada en el modelo de rezago espacial estimado bajo la metodología de S2SLS. Como mencionamos, dicha técnica es útil a la hora de estimar modelos cuyas variables explicativas están altamente correlacionadas entre sí, lo cual genera problemas de multicolinealidad. El costo de utilizar estos estimadores es el sesgo que los mismos presentan. Ahora bien, en base a la aplicación que hemos presentado, podemos decir que dicho sesgo está mas que compensado por la estabilidad y la coherencia que reflejan las estimaciones. En todos los casos, cuando nos basamos en estimaciones por componentes principales, el signo de los estimadores mostró estar en línea con lo que los datos reflejaban, por el contrario, las estimaciones insesgadas (S2SLS y MCO) determinaron efectos opuestos a los observados. En lo que refiere estrictamente a la parte aplicada del trabajo, como dijimos desde un principio, dada la calidad de los datos, nuestro objetivo es solamente establecer una base para investigaciones futuras, no aspiramos a explicar el fenómeno ni mucho menos a encontrar causalidades, sino mas bien, grandes asociaciones que marquen direcciones. Conscientes de esto, lo que podemos decir es que el trabajo adolescente muestra una asociación positiva con la pobreza media y el desempleo, siendo que su relación con este último, decrece para valores relativamente altos del mismo, a su vez, se asocia positivamente con la educación, la tasa de actividad y la pobreza extrema. Por todo lo anterior, el empleo adolescente no parece ser un fenómeno de sectores altamente marginados, sino mas bien, de sectores de pobreza media. Su relación con tasas altas de desocupación y con pobreza extrema merecen particular atención y podrían ser líneas de análisis para futuros trabajos.

Referencias Andrews, D., Green, C., & Mangan, J. (2002). Neighbourhood effects and community spillovers in the australian youth labour market. LSAY Research Reports. Longitudinal surveys of Australian youth reearch report, (24). Anselin, L. (1988). Spatial econometrics: Methods and models, volume 4. Boston: Kluwer. Academic Publishers. Anselin, L. (1990). Some robust approaches to testing and estimation in spatial econometrics. Regional Science and Urban Economics, 20(2), 141–163. Anselin, L. (2002). Under the hood: issues in the specification and interpretation of spatial regression models. Agricultural economics, 27(3), 247–267. Anselin, L. (2005). Spatial regression analysis in R. A workbook. Urbana, 51, 61801. Borland, J. et al. (1995). Employment and income in australia-does the neighbourhood dimension matter? Australian Bulletin of Labour, 21, 281–294. Brock, W. A. & Durlauf, S. N. (1999). A formal model of theory choice in science. Economic Theory, 14(1), 113–130. 18

Brooks-Gunn, J., Duncan, G. J., Leventhal, T., & Aber, J. L. (1997). Lessons learned and future directions for research on the neighborhoods in which children live. Brooks-Gunn, Duncan, GJ, and Aber, JL (eds,) Neighborhood Poverty, 1, 279–297. Case, A. C. & Katz, L. F. (1991). The company you keep: The effects of family and neighborhood on disadvantaged youths. Technical report, National Bureau of Economic Research. Crane, J. (1991). The epidemic theory of ghettos and neighborhood effects on dropping out and teenage childbearing. American journal of Sociology, (pp. 1226–1259). Cutler, D. M., Glaeser, E. L., & Vigdor, J. L. (1997). The rise and decline of the American ghetto. Technical report, National Bureau of Economic Research. Datcher, L. (1982). Effects of community and family background on achievement. The review of Economics and Statistics, (pp. 32–41). Davidson, R. & MacKinnon, J. G. (2006). Bootstrap methods in econometrics. Duncan, G. J. (1994). Families and neighbors as sources of disadvantage in the schooling decisions of white and black adolescents. American journal of Education, (pp. 20–53). Duncan, G. J., Connell, J. P., & Klebanov, P. K. (1997). Conceptual and methodological issues in estimating causal effects of neighborhoods and family conditions on individual development. Neighborhood poverty, 1, 219–250. Duque, J. C., Anselin, L., & Rey, S. J. (2012). The max-p-regions problem*. Journal of Regional Science, 52(3), 397–419. Efron, B. & Tibshirani, R. (1985). Behaviormetrika, 12(17), 1–35.

The bootstrap method for assessing statistical accuracy.

Ellwood, D. T. (1986). The spatial mismatch hypothesis: Are there teenage jobs missing in the ghetto? In The black youth employment crisis (pp. 147–190). University of Chicago Press. Geti, S., Anselin, L., & Florax, R. (1995). Spatial filtering in a regression framework. New directions in spatial econometrics. Berlin: Springer. FREDERIC CARLUER, Chapter 14, 191–202. Groisman, Fernando y Calero, A. V. (2010). Educación y participación económica de los jóvenes en argentina. un análisis de sus determinantes (2004-2009). Hadi, A. S. & Ling, R. F. (1998). Some cautionary notes on the use of principal components regression. The American Statistician, 52(1), 15–19. Holzer, H. J. (1987). Informal job search and black youth unemployment. The American Economic Review, (77), 446–452. Ihlanfeldt, K. R. & Sjoquist, D. L. (1989). The impact of job decentralization on the economic welfare of central city blacks. Journal of Urban Economics, 26(1), 110–130. Ihlanfeldt, K. R. & Sjoquist, D. L. (1990). Job accessibility and racial differences in youth employment rates. The American economic review, (pp. 267–276). Jencks, C. & Mayer, S. E. (1990). The social consequences of growing up in a poor neighborhood. Inner-city poverty in the United States, 111, 186. 19

Jin, F. & Lee, L. (2015). On the bootstrap for spatial econometric models. Journal of Econometrics, 184, 295–314. Jolliffe, I. (2002). Principal component analysis. Wiley Online Library. Kain, J. F. (1968). Housing segregation, negro employment, and metropolitan decentralization. The Quarterly Journal of Economics, (pp. 175–197). Kain, J. F. (1992). The spatial mismatch hypothesis: three decades later. Housing policy debate, 3(2), 371–460. Kelejian, H. & Prucha, I. (1998). A generalized spatial two-stage least squares procedure for estimating a spatial autoregressive model with autoregressive disturbances. The Journal of Real Estate Finance and Economics, 17(1), 99–121. Kelejian, H. & Prucha, I. (1999). A generalized moments estimator for the autoregressive parameter in a spatial model. International economic review, 40(2), 509–533. Manski, C. F. (1993). Identification of endogenous social effects: The reflection problem. The review of economic studies, 60(3), 531–542. Massy, W. F. (1965). Principal components regression in exploratory statistical research. Journal of the American Statistical Association, 60(309), 234–256. Mayer, C. J. (1996). Does location matter? New England Economic Review, (Special issue), 26. Moffitt, R. A. et al. (2001). Policy interventions, low-level equilibria, and social interactions. Social dynamics, 4(45-82), 6–17. Montgomery, J. D. (1991). Social networks and labor-market outcomes: Toward an economic analysis. The American economic review, (pp. 1408–1418). Mooney, J. D. (1969). Housing segregation, negro employment and metropolitan decentralization: An alternative perspective. The Quarterly Journal of Economics, (pp. 299–311). O’Regan, K. M. & Quigley, J. M. (1996). Teenage employment and the spatial isolation of minority and poverty households. Journal of Human Resources, (pp. 692–702). Osterman, P. (1991). Welfare participation in a full employment economy: The impact of neighborhood. Social Problems, 38(4), 475–491. Páez, A. & Scott, D. M. (2005). Spatial statistics for urban analysis: a review of techniques with examples. GeoJournal, 61(1), 53–67. Plotnick, R. D. & Hoffman, S. D. (1999). The effect of neighborhood characteristics on young adult outcomes: Alternative estimates. Social Science Quarterly, (pp. 1–18). Raphael, S. (1998). The spatial mismatch hypothesis and black youth joblessness: evidence from the san francisco bay area. Journal of Urban Economics, 43(1), 79–111. Weinberg, B. A., Reagan, P. B., & Yankow, J. J. (2004). Do neighborhoods affect hours worked? evidence from longitudinal data. Journal of Labor Economics, 22(4), 891–924. Wilson, W. J. (2012). The truly disadvantaged: The inner city, the underclass, and public policy. University of Chicago Press. 20

Wu, C.-F. J. (1986). Jackknife, bootstrap and other resampling methods in regression analysis. the Annals of Statistics, 14(4), 1261–1295.

21

6.

Apéndice

6.1.

Variables índices

En este apartado expondremos los resultados del ACP del cual fueron extraídos las variables, Ind.Pobreza, Ind.Pobreza.Extrema e Ind.Educ. 6.1.1.

Variables indicadoras de pobreza

Para la construcción de los indicadores de pobreza se utilizaron las siguientes variables: PSinHeladera: cantidad de hogares habitados sin heladera, sobre el total de hogares habitados. PMas3PPC: cantidad de hogares con mas de tres personas por cuarto, sobre el total de hogares habitados. PCasillayCancho: cantidad de casillas y ranchos sobre el total de viviendas particulares. PHconNBI: cantidad de hogares con NBI, sobre el total de hogares habitados. PCCVB: cantidad de viviendas cuya calidad constructiva es básica, sobre el total de viviendas particulares habitadas. Cuadro 4: Resultados ACP sobre variables de pobreza

Variables PSinHeladera PMas3PPC PCasillayRancho PHconNBI PCCVB Prop.Var.Exp.Acum

6.1.2.

C1 -0.510 -0.505 -0.469 -0.493 -0.141 0.710

C2 -0.115 0.101 -0.236 -0.035 0.958 0.910

C3 -0.056 -0.130 0.772 -0.593 0.175 0.959

C4 0.124 -0.740 0.275 0.580 0.152 0.983

C5 0.841 -0.410 -0.224 -0.258 0.079 1

Variables indicadoras de nivel educativo

Para la construcción del indicador de educación se utilizaron las siguientes variables15 : PMa15conPInc: cantidad de personas mayores de 15 años con primario incompleto sobre el total de personas mayores de 15 años. PMa3NLNE: cantidad de personas mayores de 3 años que no leen ni escriben sobre el total de personas. PSupNoUniv: cantidad de personas con nivel superior no universitario (que cursa o cursó) sobre el total de personas. PUniversitaria: cantidad de personas con nivel universitario sobre el total de personas. PPostUniv: cantidad de personas con nivel postuniversitario sobre el total de personas. Cuadro 5: Resultado ACP sobre variables educativas

Variables PMa15conPInc PMa3NLNE PSupNoUniv PUniversitario PPostUniv Prop.Var.Exp.Acum 15

C1 -0.445 -0.436 0.461 0.468 0.422 0.834

C2 -0.441 -0.517 -0.394 0.043 -0.615 0.954

C3 -0.370 -0.178 -0.052 -0.821 0.391 0.978

C4 0.684 -0.714 0.029 -0.116 0.081 0.994

C5 0.010 -0.010 -0.792 0.301 0.530 1

No se dispuso información a cerca de si los niveles educativos considerados eran completos o incompletos.

22

6.1.3.

Interpretación de las cargas factoriales

Cuando existe una alta correlación positiva entre todas las variables, la primer carga tiene todas sus coordenadas del mismo signo y puede interpretarse como un promedio ponderado de todas las variables o un factor global de “tamaño”. Las restantes se interpretan como factores “de forma” y típicamente tienen coordenadas positivas y negativas, que implica que contraponen unos grupos de variables frente a otros. Estos factores de forma pueden frecuentemente escribirse como medias ponderadas de dos grupos de variables con distinto signo y contraponen las variables de un signo a las del otro. Si observamos la primer carga factorial de las variables de pobreza nos encontramos que sus signos son todos iguales, y sus valores muy similares, por lo dicho en el párrafo anterior, la componente asociada a dicha carga la utilizamos como un indicador de pobreza estructural, siendo que la segunda carga separa a las variables que refieren a hogares sin heladera, casilla y rancho, y hogares con NBI (pobreza extrema), de calidad constructiva de la vivienda básica (pobreza media), la componente asociada a dicha carga la utilizaremos como un indicador de pobreza extrema. Tanto a pobreza media como a pobreza extrema le hemos cambiado el signo para que se asocien positivamente con la pobreza y tengan una interpretación mas intuitiva. Yendo a las variables educativas, la primer carga claramente separa niveles educativos medios-bajos, de altos, la componente asociada a dicha carga será utilizada como un indicador del nivel de educación.

6.2.

Reducción de las unidades espaciales. Max-P-Regions

Como se dijo en el apartado correspondiente, la excesiva subdivisión de áreas espaciales conlleva un efecto negativo en la estimación de proporciones de variables que pertenecen a dichas áreas, una alternativa para sobrellevar dicho inconveniente es agrupar radios, el costo de esta herramienta es que podría generar un problema de Unidad de Área Modificable, es decir, al alterar la escala espacial en la que están determinadas originalmente las variables corremos el riesgo de estar alterando efectos espaciales relevantes. En nuestro caso creemos que el posible efecto adverso del agrupamiento esta más que compensado por una estimación menos errática de las proporciones bajo estudio. A continuación presentamos una tabla con los cuartiles, los máximos y los mínimos de la población adolescente y la TEEA para los 1066 radios urbanos originales, junto con los valores de las mismas para las nuevas áreas creadas (407). Cuadro 6: Cuartiles, máximos y mínimos de la población adolescente Pob. adolescente 1066 radios Pob. adolescente 407 áreas TEEA 1066 radios TEEA 407 áreas

Min. 0 100 0.000 0.079

Cuartil 1 31 135 0.150 0.205

Mediana 50 165 0.225 0.258

Cuartil 3 85 200 0.292 0.306

Max. 508 508 0.609 0.496

Como vemos, el agrupamiento reduce la variabilidad espacial de TEEA, ya que para 1066 radios el rango intercuartílico es de 0.14, siendo que para 407 áreas es de 0.10, además también se nota una reducción en los valores extremos, siendo que para el primer caso el valor máximo es de 0.60, mientras que en el segundo es más de diez puntos menor. Para visualizar el impacto de la nueva zonificación sobre TEEA presentamos un mapa de cuartiles, donde los mismos están representados por colores en escala decreciente

23

Cuadro 7: Mapa de cuartiles sobre proporción de trabajo adolescente Mapa de Cuartiles para 1066 radios Mapa de Cuartiles para 407 zonas

Uno de los aspectos que podemos observar, es que, una vez agrupados los radios, la región Centro de Rosario (del centro a la derecha del mapa) deja de tener proporciones de empleo adolescente relativamente altas (del cuartil superior) como si las tenía en la división espacial original. Cuadro 8: Pobreza, Desempleo y Educación Ind.Pobreza 1066 radios Ind.Pobreza en el Centro Ind.Educacion 1066 radios Ind.Educacion en el Centro TasaDesocu 1066 radios TasaDesocu en el Centro

Cuartil 1 -0.949 -1.147 -1.612 2.176 0.041 0.029

Mediana -0.622 -1.058 0.121 2.467 0.056 0.040

Cuartil 3 0.197 -0.932 1.805 2.825 0.074 0.052

El cuadro anterior nos deja ver que, en lo que respecta a pobreza, al menos el 75 % de los radios del Centro está dentro del 25 % de los radios de menor pobreza en todo Rosario, siendo que, en lo que respecta a educación, la totalidad de los radios del Centro pertenece al 25 % de los radios con mejor nivel educativo, y para desempleo, el 75 % de los radios del Centro está por debajo de la tasa media de desocupación. Otro aspecto a resaltar es la homogeneidad de las variables dentro de la zona Centro, si comparamos los rangos intercuartilicos de las mismas, entre el Centro y en el total de radios, vemos que el primero tiene una dispersión significativamente menor. Con lo anterior vemos que en el Centro tenemos baja desocupación y baja pobreza, y altos niveles educativos, con lo cual, si estamos dispuestos a asumir que la verdadera dirección de los efectos de estas variables es la que refleja el gráfico (3.1), la nueva configuración espacial estaría mas acorde a la realidad. Según nuestra percepción, bajo la configuración original (1066 radios), hay una excesiva división espacial, particularmente en la zona Centro, que hace que las proporciones de trabajo adolescente no sean estimadas adecuadamente. El 90 % de la superficie de los radios censales del Centro es de aproximadamente 3 cuadras, y la mitad no supera las dos cuadras. El siguiente cuadro muestra la población adolescente del Centro y de todo Rosario, por radio censal

24

Cuadro 9: Cuartiles de población adolescente Pob. adol. 1066 radios Pob. adol. Centro

Cuartil 1

Mediana

Cuartil 3

31 15

50

85 28

22

Como vemos, la población adolescente, por radio censal, en la zona Centro, es bastante reducida, al menos el 75 % de dichos radios censales tiene una población adolescente que está por debajo del 25 % de los radios con menor población adolescente en el total de radios urbanos. Considerando que la población adolescente es el denominador de la proporción de empleo adolescente, cuando dicho valor es muy bajo, la proporción se vuelve muy sensible a pequeños cambios en el numerador (adolescentes que trabajan), si tomamos la mediana de la población adolescente, por radio, en el Centro, dos adolescentes más que trabajen genera un cambio en la proporción de trabajo adolescente de alrededor de 10 puntos porcentuales, y estas variaciones no solo generan valores atípicos, sino que también agregan una variabilidad excesiva. De los seis valores mas altos de proporción de trabajo adolescente, cuatro están en radios que pertenecen a la zona Centro. Teniendo en cuenta que una gran cantidad de los radios agrupados pertenece a la zona Centro, que como vimos posee una gran homogeneidad, y dado que, una vez agrupados los radios, la variable dependiente sigue mostrando un claro e intuitivo comportamiento espacial, como lo muestra el cuadro (7), donde las proporciones de empleo adolescente son mayores en la periferia, que es lo que uno esperaría encontrar puesto que estas zonas son las mas vulnerables, no creemos que el agrupamiento haya desdibujado el comportamiento espacial de nuestra variable bajo estudio.

6.3. 6.3.1.

Resultados anexos ACP sobre las variables explicativas de los modelos

A continuación presentamos los resultados del ACP sobre las variables explicativas del modelo filtrado. La variable TDesocu10 es una dummy que toma valor uno para las tasas de desocupación iguales o mayores a 0.10 y cero en otro caso, y la variable Desocu*Desocu10, es una interacción entre TDesocu y TDesocu10. Cuadro 10: Resultados del ACP sobre variables explicativas del modelo filtrado TDesocu TDesocu10 Desocu*Desocu10 TActiv Ind.Pobreza Ind.Pobreza.Extrema Ind.Educación TEEA.Espacial Prop.Var.Exp.Acum

C1 -0.418 -0.323 -0.325 0.387 -0.361 0.196 0.433 -0.327 0.538

C2 -0.161 -0.552 -0.552 -0.196 0.131 -0.296 -0.283 0.371 0.748

C3 0.189 0.085 0.095 0.344 -0.522 -0.729 0.021 0.153 0.887

C4 0.099 -0.100 -0.077 -0.299 0.124 -0.405 -0.110 -0.831 0.937

C5 0.687 -0.246 -0.199 0.554 0.254 0.177 -0.110 -0.103 0.966

C6 0.465 -0.153 -0.126 -0.493 -0.634 0.311 0.020 0.014 0.990

C7 0.245 -0.110 -0.005 -0.229 0.309 -0.219 0.838 0.167 0.999

C8 -0.053 -0.689 0.719 0.010 -0.018 0.016 -0.056 0.002 1

Lo que se puede apreciar del cuadro anterior es que la primera carga separa las variables que tienen un efecto negativo sobre el empleo adolescente (tasa de actividad, pobreza extrema y educación) de aquellas que tienen un efecto positivo (desocupación, pobreza y el componente espacial).

25

La última fila del cuadro detalla la proporción de varianza acumulada, como vemos las tres primeras componentes, que son las que utilizamos en la estimación, explican casi el 90 % de la varianza total de los datos. A continuación presentamos los resultados del ACP para el modelo SLM, donde vemos que, las tres primeras componentes explican más del 90 % de la variabilidad. Cuadro 11: Resultado ACP sobre matriz Zˆ

zˆ1 zˆ2 zˆ3 zˆ4 zˆ5 zˆ6 zˆ7 zˆ8 Prop.Var.Exp.Acum

6.3.2.

C1 -0.412 -0.312 -0.314 0.383 -0.356 0.199 0.432 -0.363 0.553

C2 -0.168 -0.562 -0.562 -0.186 0.119 -0.297 -0.277 0.354 0.765

C3 0.189 0.083 0.094 0.346 -0.525 -0.729 0.022 0.138 0.904

C4 0.137 -0.000 -0.017 0.485 -0.111 0.477 -0.026 0.709 0.940

C5 0.662 -0.254 -0.194 0.430 0.371 -0.015 -0.065 -0.361 0.968

C6 0.520 -0.177 -0.142 -0.487 -0.595 0.284 0.029 -0.055 0.992

C7 0.183 -0.082 0.008 -0.198 0.278 -0.173 0.852 0.292 0.999

C8 -0.053 -0.690 0.719 0.010 -0.017 0.016 -0.053 0.005 1

Estimadores con diferentes números de CP

Como mencionamos en el trabajo, la metodología de estimación de RCP, ya sea para MCO o para S2SLS, no es robusta a la elección de las componentes, es decir, según las componentes que tomemos los resultados serán diferentes. Las alternativas para la elección del número de componentes son diversas, nuestro criterio fue elegir el mayor número posible de forma tal que expliquen gran parte de la variabilidad, pero con la condición de que los resultados arrojados sean coherentes con lo que los datos muestran. Cuadro 12: Estimadores MCOF y ERCP2E para diferente número de CPs Variables TDesocu TDesocu10 Desocu*Desocu10 TActiv Ind.Pobreza Ind.Pobreza.Extrema Ind.Educ TEEA.Espacial ρ

2 Comp θˆercp2e θˆmcof 0.171 0.177 -0.018 -0.017 -0.155 -0.149 -0.187 -0.191 0.004 0.004 -0.009 -0.009 -0.006 -0.006 0.255 0.292 -

4 Comp θˆercp2e θˆmcof 0.376 0.198 -0.016 -0.012 -0.149 -0.112 0.072 -0.103 0.001 0.002 -0.002 -0.011 -0.006 -0.006 0.412 0.696 -

5 Comp θˆercp2e θˆmcof 0.682 0.813 -0.025 -0.029 -0.207 -0.227 0.154 0.102 0.003 0.005 -0.002 -0.007 -0.007 -0.007 0.370 0.612 -

8 Comp θˆercp2e θˆmcof -1.500 -1.499 -0.043 -0.044 0.686 0.691 1.029 1.027 0.003 0.003 0.001 0.001 -0.057 -0.056 -0.005 -0.025 -

Lo que podemos apreciar del cuadro anterior es que, entre la utilización de dos o tres componentes no hay grandes diferencias en los estimadores, se mantienen los signos y los valores absolutos son relativamente parecidos en ambos modelos, pero si utilizamos cuatro componentes empieza a haber diferencias considerables, fundamentalmente para los estimadores ERCP2E, en el valor de la tasa de desocupación y en el efecto espacial, y el signo de la tasa de actividad es inverso al observado en los datos.

26

Si observamos los coeficientes habiendo utilizado cinco componentes, vemos que ya la tasa de actividad tiene el signo contrario para ambos modelos, mostrando de esta manera que la estimación está empezando a sufrir los efectos de la multicolinealidad. A modo de corroborar las igualdades presentadas en la primer sección, vemos que utilizando todas las componentes, los resultados son iguales a S2SLS y MCO. 6.3.3.

Evaluación de los residuos

A continuación presentamos las estimaciones de los desvíos standard de los estimadores S2SLS y MCO, en su versión simple (asumiendo que las innovaciones son iid) y robusta (método de White). Como se podrá apreciar, no hay grandes diferencias, la significancia de los estimadores no cambia bajo las dos alternativas, lo cual nos permite inferir que el supuesto de innovaciones iid se ajusta a nuestros datos. Cuadro 13: Estimadores simples y robustos de los desvíos estándar de los estimadores S2SLS y MCO S2SLS MCO Coeficientes Desv. Simple Desv. Robusto Desv. Simple Desv. Robusto TDesocu 0.211 0.219 0.211 0.217 TDesocu10 0.062 0.052 0.062 0.052 Desocu*Desocu10 0.555 0.458 0.555 0.459 TActiv 0.079 0.102 0.079 0.100 Ind.Pobreza 0.002 0.002 0.002 0.002 Ind.Pobreza.Extrema 0.003 0.003 0.003 0.003 Ind.Educación 0.004 0.004 0.003 0.003 TEEA.Espacial 0.067 0.070 ρ 0.100 0.105 Para un análisis mas detallado presentamos los gráficos de dispersión que asocian la proporción de trabajo adolescente estimada y los residuos al cuadrado, tanto del SLM como del modelo filtrado. Vemos que, en línea con los resultados del cuadro anterior, no hay ningún patrón que nos haga pensar en residuos provenientes de distribuciones heterogéneas.

27

Cuadro 14: Residuos al cuadrado vs. proporción de trabajo adolescente estimada S2SLS MCO

28

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.