\"La expresión del sujeto pronominal en la Ciudad de México: hacia un modelo de efectos mixtos\" (draft 1).

May 24, 2017 | Autor: P. Martín-Butragueño | Categoría: Sociolinguistics, Language Variation and Change, Mexican Spanish, Spanish Sociolinguistics
Share Embed


Descripción

La expresión del sujeto pronominal en la Ciudad de México: explorando la variación lingüística con efectos estadísticos fijos y con efectos mixtos* Pedro Martín Butragueño El Colegio de México Como muchas otras disciplinas científicas, la sociolingüística variacionista (Labov 1994, 2001, 2010) combina argumentos cuantitativos y cualitativos para analizar los problemas sometidos a estudio (Gorman y Johnson 2013, Martín Butragueño y Orozco 2014). En cada investigación puntual es muy relevante decidir si es necesario emplear herramientas estadísticas, y en caso afirmativo, establecer cuáles son las más apropiadas y las más perspicaces para realizar el análisis deseado a la vista de la naturaleza de los datos (Paolillo 2002, Levshina 2015). Debe tenerse en cuenta que ciertas subdisciplinas y ciertos fenómenos pueden tener tradiciones analíticas propias, además de que es más factible comparar los resultados de diversos estudios si se emplean técnicas análogas1. Si dos investigaciones sobre la realización de las consonantes róticas, digamos en las ciudades de México y de Puebla, además de considerar aspectos lingüísticos y sociales parecidos, emplean unos cálculos idénticos para modelar los diferentes efectos que influyen en la realización de los sonidos, la comparación podrá hacerse con el máximo detalle2. Existen manuales generales muy recomendables sobre investigación en variación y cambio lingüístico, como los de Hernández Campoy y Almeida (2005), Tagliamonte (2012) y Krug y Schlüter (2013), y a ellos se remite al lector para una perspectiva más amplia. Una estrategia útil para comparar diferentes métodos es desmenuzar los datos desde varios puntos de vista. Así, para poder ponderar el efecto de varios procedimientos analíticos, en estas páginas sólo se comentará un fenómeno en particular, la manera en que se ve desde diferentes ángulos cuantitativos el problema clásico3 de la expresión del sujeto pronominal (ESP) en español (cf. Otheguy y Zentella 2012, Carvalho, Orozco y Shin 2015), *Agradezco extraordinariamente los comentarios y la permanente disponibilidad de los editores del volumen, Axel Hernández y Alan Pérez Barajas, así como las observaciones y el envío de materiales por parte de Manuel Díaz-Campos y Leonor Orozco; doy las gracias asimismo a los dos evaluadores anónimos que tuvieron la deferencia de leer una versión previa del trabajo. 1 Véase el manual de K. Johnson (2008) para cálculos asociados a diferentes tradiciones, como el análisis de varianza en psicolingüística, o la cladística en lingüística histórica, entre varios otros. 2 Serrano (2014), por ejemplo, compara en tiempo real datos de diversas variables de dos sincronías en la Ciudad de México con unas mismas herramientas. 3 El estudio de esta variable ha recibido una larga serie de trabajos, en especial a partir de Bentivoglio (1980, 1987) y Silva-Corvalán (1982).

2 a partir de los datos del Corpus sociolingüístico de la Ciudad de México o CSCM (Martín Butragueño y Lastra 2011, 2012, 2015), ya analizados con respecto a la ESP en Lastra y Martín Butragueño (2015). La discusión en juego examina las condiciones lingüísticas y sociales en que aparecen casos como los de (1a) y (1b), con y sin el sujeto pronominal expreso. (1)

a. Tú ya sabes a lo que te expones. b. Ya sabes a lo que te expones. Una de las tareas esenciales al realizar un estudio de cambio y variación es

establecer qué casos permiten alternancias y cuáles no. En el caso de la ESP, se han apuntado diferentes casos que en realidad no admiten variación, como en Yo mismo ordené el cuarto, donde no se puede suprimir el pronombre, o en Había dos caballos, donde no puede aparecer (como señalan Bentivoglio, Ortiz y Silva-Corvalán 2011, p. 1, al establecer una metodología para estudiar la variable en el contexto del "Proyecto para el estudio sociolingüístico del español de España y de América", PRESEEA 4 ). Los casos verdaderamente variables constituyen propiamente el objeto de estudio, también conocido como contexto variable o como envelope of variation (cf. Tagliamonte 2012, pp. 10-15, 2013; Otheguy y Zentella 2012, cap. 3). El objetivo de este capítulo es, en suma, comparar el efecto de algunas técnicas cuantitativas comunes en sociolingüística variacionista al aplicarse a un mismo conjunto de datos5. Por supuesto, existen muchos otros métodos estadísticos interesantes, y también conjuntos de datos con problemas diferentes. A fin de cuentas, lo que se intenta, más allá de generar familiaridad con ciertas técnicas, es que se tome conciencia de que los acercamientos cuantitativos permiten construir modelos sobre el comportamiento de los datos, y que lejos de ser un complemento a una exposición cualitativa, o una herramienta para resumir la heterogeneidad de unos ejemplos específicos, son esenciales en numerosas ocasiones para interpretar la naturaleza del objeto de estudio y para generar teorías sobre la

4

Para los objetivos de este proyecto, véase Moreno Fernández (1996), Cestero Mancera (2012). Un objetivo semejante es el que se encuentra en Díaz-Campos y Dickinson (en prensa); agradezco al prof. M. Díaz-Campos la gentileza de haberme enviado el manuscrito del trabajo.

5

3 esencia del lenguaje —en este caso concreto, para entender el comportamiento del lenguaje en su contexto histórico y social6. El capítulo se organiza de la siguiente manera. En primer lugar, se examina el análisis de regresión logística escalonada presentado en Lastra y Martín Butragueño (2015) a partir de Goldvarb Lion (Sankoff, Tagliamonte y Smith 2012) para la ESP en la Ciudad de México, que encontró nueve variables significativas. En seguida, se exploran los mismos datos a partir de bosques aleatorios y de árboles de inferencia condicional (Tagliamonte y Baayen 2012), calculados por medio de la Language Variation Suite (Scrivner y DíazCampos 2016, s.f.; véase también Díaz-Campos y Dickinson en prensa). En tercer lugar, se explora la construcción de un modelo de efectos mixtos con Rbrul (Johnson 2009, 2016a, 2016b), que combina predictores fijos con otros aleatorios, como el individuo y la pieza verbal específica (cf. Díaz-Campos y Dickinson en prensa, pp. 3-4). Se concluye haciendo una breve valoración de los enfoques empleados7. La visión clásica de Goldvarb En sociolingüística variacionista han sido especialmente exitosos los modelos elaborados a partir de programas de la familia

VARBRUL

8

, que tienen una larga historia (Johnson 2009,

pp. 359-360) y que han sido el estándar en los trabajos de cambio y variación durante muchos años (Paolillo 2002, pp. 15-17, Gorman y Johnson 2013, Tagliamonte 2016b, cap. 6, Díaz-Campos y Dickinson en prensa, pp. 1-2). Se ha señalado que el análisis de reglas variables de tipo

VARBRUL,

que en lo esencial examina el influjo de diferentes grupos de

factores independientes sobre una variable dependiente binaria y que fue refinado matemáticamente en los años 70, ha permanecido prácticamente idéntico en las tres décadas siguientes (Johnson 2009, pp. 359-360), en forma de un cálculo de regresión logística con tres tipos de resultados cruciales: la significación estadística de los grupos de 6

Como señalan Díaz-Campos y Dickinson (en prensa, p. 2), la teoría lingüística y las hipótesis de investigación son cruciales para seleccionar el método estadístico. 7 Todo el software que se menciona en el capítulo es de acceso gratuito; véanse las referencias para dirigirse a las páginas relevantes. 8 Ciertamente, los mismos cálculos pueden realizarse con otros programas. Es fundamental entender que una cosa son los análisis matemáticos y otra el vehículo informático, que pueden llegar a confundirse, como recuerdan por ejemplo Tagliamonte y Baayen (2012, p. 136: "Indeed, the “tool”, the generalized linear model versus the generalized linear mixed model, is often confused with the “toolkit”, namely Goldvarb versus SPSS, SAS, or R"). Sobre las reglas variables y los diferentes versiones de los programas VARBRUL, véase Sankoff (1988), Paolillo (2002) y Tagliamonte (2016a), entre otros.

4 factores —o variables independientes—, al nivel de p= 0.05; la importancia comparada de los grupos de factores, ponderada según el rango de la diferencia alcanzada entre los factores —o variantes de una variable— de cada grupo; la jerarquización entre los factores mismos de cada grupo según el peso alcanzado (Tagliamonte 2012, pp. 122-124). Tales aspectos quedan cubiertos para la ESP en la Ciudad de México en el modelo desarrollado inicialmente en Lastra y Martín Butragueño (2015), efectuado con Goldvarb Lion (cf. Sankoff, Tagliamonte y Smith 2012, así como Tagliamonte 2006, 2012, 2013)9. Para estudiar la ESP, Lastra y Martín Butragueño (2015) tomaron una submuestra de 18 hablantes incluidos en el CSCM, considerando tres niveles de estudios (primaria o menos, educación media, educación superior)10, tres grupos de edad (20-34 años, 35-54, 55 en adelante) y hombres y mujeres. En primer término, se seleccionaron 200 oraciones de cada entrevista sociolingüística (3600 ejemplos en el total de la muestra), y a continuación se separaron todos los casos que no permitían en realidad la variación entre un pronombre sujeto y su ausencia, como en Antonio toca la trompeta, con sujeto léxico, o en Tocan a la puerta, con tercera persona plural con sentido impersonal11. Los casos que conforman el contexto variable fueron 2040, y de ellos 443 (el 21.7%) mostraron un pronombre expreso (Lastra y Martín Butragueño 2015, p. 42). El cuadro 1 y el cuadro 2 reproducen los resultados obtenidos para las variables lingüísticas y discursivas y la variable social que fueron estadísticamente significativas en el estudio comentado 12 (se añade ahora una columna a la derecha, con los factores centrados13). 9

El programa se puede descargar de la página (Tagliamonte 2016a), de donde también se pueden obtener Goldvarb X (Sankoff, Tagliamonte y Smith 2005) y Goldvarb Yosemite (Sankoff, Tagliamonte y Smith 2015); desde allí mismo puede accederse al manual de uso general [21 de junio de 2017]. Es esencial consultar también Sankoff (1988) para entender el sentido del cálculo, así como Paolillo (2002). Es también muy útil Hernández Campoy y Almeida (2005, p. 266 y ss.). 10 El límite del primer grupo son los seis años de enseñanza formal; el segundo grupo consiste en personas que tienen entre 7 y 12 años de instrucción; el tercero recoge colaboradores con 13 o más años de escolarización. Para más detalles, véanse las introducciones de Martín Butragueño y Lastra (2011, 2015); estas divisiones por estudios, edad y género son las básicas establecidas en el marco del proyecto PRESEEA. 11 Para la codificación de los datos, se consultó y adaptó parcialmente diferentes propuestas relevantes, en especial la Guía de PRESEEA (Bentivoglio, Ortiz y Silva-Corvalán 2011); es pertinente asimismo la consulta de Otheguy, Zentella y Heidrick (2012) y de diferentes trabajos que han abordado la variable, como los incluidos en Carvalho, Orozco y Shin (2015), entre muchos otros. En Bentivoglio, Ortiz y Silva-Corvalán (2011, p. 1) puede verse una lista de los contextos que deben excluirse. 12 Se deja ahora de lado las variables independientes lingüístico-discursivas y sociales que no resultaron significativas, para simplificar la discusión en esta sección y en las siguientes, como la clase verbal, la especificidad, la relación sintáctica o el turno de habla, entre otras. 13 Goldvarb permite hacer los cálculos pesando (weighting) o centrando (centering) los factores. En los cuadros 1 y 2 se anotan los resultados a partir de ambas opciones. Aunque centrar los factores tiene ciertas

5

Cuadro 1. Grupos de factores lingüísticos y discursivos significativos para la presencia ("pres")14 del sujeto pronominal en el CSCM, ordenados por rango, a partir de 2040 datos Factores

F/N

=%

Peso del factor Peso del factor (sin centrar) (centrado) a) Persona y número gramaticales ("persona")15 1a sg ("y") 232/939 24.7 0.581 0.656 3a sg ("e") 122/450 27.1 0.573 0.648 2a sg ("t") 49/296 16.6 0.398 0.475 3a pl ("l") 21/176 11.9 0.328 0.401 1a pl ("n") 19/179 10.6 0.255 0.319 Rango= 32 b) Co-referencia ("corref") Cambio de referencia ("n") 182/556 32.7 0.698 0.657 Objeto ("a") 69/303 22.8 0.540 0.493 Sujeto ("s") 192/1181 16.3 0.393 0.349 Rango= 31 c) Modo verbal ("modo") Indicativo ("i") 433/1916 22.6 0.520 0.656 No indicativo ("s") 10/124 8.1 0.229 0.344 Rango= 29 d) Tipo enunciativo ("claus") Afirmativo ("a") 410/1741 23.5 0.535 0.616 No afirmativo ("n") 33/299 11.0 0.308 0.384 Rango= 23 e) Género textual ("gen")

ventajas técnicas (cf. Sankoff 1988, pp. 989-990, y Paolillo 2002, pp. 167-168, quien también remite a Sankoff), "since weighted factors are the default in GoldVarb, they are widely used and reported" (Paolillo 2002, p. 168). Johnson señala en el manual de Rbrul: "In a group with two factors, if factor weights are not centered, the factor with more tokens comes out closer to 0.5, while the one with fewer tokens is shifted towards more extreme values. I have not found a convincing explanation for doing this uncentering, but recognize that many may be used to this behavior. Note that whether or not factor weights are centered, all the differences between factors in a group remain constant (on the log-odds scale). This reflects the fact that what any regression really estimates are the differences between variables' effects, not their absolute values. [...] All in all, it is recommended to use the centered factor weights, or to look at the log-odds coefficients directly. This is mandatory if continuous predictors are in the model, because no meaningful factor weights can be assigned to them. Note that the magnitude of log-odds coefficients can be compared more fruitfully than can factor weights. The premise of logistic regression is that effects are additive on the log-odds scale, so looking at that scale directly, rather than a translation of it into factor weight probabilities, is generally to be preferred" (2010). 14 Se anota en los cuadros 1 y 2 las "claves" que servirán para identificar los grupos de factores y los factores en algunos pasajes del texto. 15 Este predictor se organizó de la siguiente manera en Lastra y Martín Butragueño (2015): en aquel trabajo, siguiendo las indicaciones formuladas por Bentivoglio, Ortiz y Silva-Corvalán (2011, p. 3) para el proyecto PRESEEA, se anotó inicialmente la persona del sujeto estableciendo las siguientes distinciones: yo= y; tú= t; usted= u; él= e; nosotros= n; ustedes= s; ellos= l; uno= o. Sin embargo, en una etapa posterior del estudio, durante los análisis con Goldvarb, la dispersión de los datos aconsejó reducir las variantes a cinco en el modelo multivariable, atendiendo sólo a la persona y número de la flexión verbal: 1a sg (yo= y); 2a sg (tú= t); 3a sg (usted, él, uno= e); 1a pl (nosotros= n); 3a pl (ustedes, ellos= l), pues sólo había 4 casos expresos de usted y 2 de ustedes, y uno es de presencia categórica (en alguno de los modelos preparatorios se optaba por excluirlo). No quiere ello decir que no sea interesante considerarlos por separado, sino que a efectos del modelo estadístico se consideró más eficiente ordenar los datos atendiendo a la morfología verbal, solución no extraña en los trabajos sobre ESP.

6 Argumentación ("a") 105/366 28.7 0.658 0.628 Descripción ("d") 70/257 27.2 0.550 0.518 Diálogo ("r") 76/449 16.9 0.482 0.450 Narración ("n") 192/968 19.8 0.434 0.402 Rango= 23 f) Tiempo verbal ("tiempo") Co-pretérito ("c") 153/488 31.4 0.597 0.614 Presente ("p") 187/888 21.1 0.495 0.512 Pretérito ("t") 86/556 15.5 0.441 0.457 Otros tiempos ("o") 17/108 15.7 0.400 0.416 Rango= 20 g) Ambigüedad ("amb") Ambiguo ("a") 127/352 36.1 0.613 0.568 No ambiguo ("n") 316/1688 18.7 0.476 0.432 Rango= 13 h) Estilo ("estilo") Segunda parte ("b") 236/1016 23.2 0.538 0.538 Primera parte ("a") 207/1024 20.2 0.462 0.462 Rango= 8 Log likelihood= -938.190, significación= 0.018, input= 0.181 (valores sin centrar) Log likelihood= -938.192, significación= 0.018, input= 0.091 (valores centrados)

Fuente: Adaptado de Lastra y Martín Butragueño (2015, cuadro 3.2, p. 43) Cuadro 2. Grupo de factores sociales significativo para la presencia del sujeto pronominal en el CSCM, ordenados por rango, a partir de 2040 datos Factores

55 años en adelante ("3") 35-54 años ("2") 20-34 años ("1") Rango= 19

F/N

=%

Peso del factor (sin centrar)

Edad ("edad") 190/641 29.6 130/650 20.0 121/749 16.2

0.611 0.483 0.419

Peso del factor (centrado) 0.607 0.478 0.414

Log likelihood= -1046.087, significación= 0.000, input= 0.211 (valores sin centrar) Log likelihood= -1046.087, significación= 0.000, input= 0.214 (valores centrados)

Fuente: Adaptado de Lastra y Martín Butragueño (2015, cuadro 3.3, p. 49)

La principal información expuesta en los cuadros 1 y 2 es que hubo nueve variables (o grupos de factores) independientes significativas con respecto al valor aplicado (cf. Paolillo 2002, p. 30; Tagliamonte 2012, p. 127), que en este caso es la presencia expresa del sujeto pronominal16. Como en los datos originales el número de grupos y de factores era más amplio, se tomó la decisión de procesar los datos lingüístico-discursivos y los datos sociales por separado. Durante el análisis se fueron descartando diferentes variables que no fueron significativas estadísticamente, como el dominio sintáctico en que aparecía el dato

16

En contraste con los valores no aplicados, que son todos los demás; es decir, en este caso, la ausencia del sujeto pronominal expreso.

7 (cf. Otheguy y Zentella 2012), o el nivel de estudios de los hablantes, entre otras17. Los grupos de factores lingüísticos y discursivos significativos finales son los siguientes: a) persona y número gramaticales; b) el tipo de correferencia (correferencial con el sujeto anterior, correferencial con otro argumento, cambio de referencia); c) el modo verbal; d) el tipo enunciativo; e) el género textual; f) el tiempo verbal; g) la ambigüedad morfológica de la forma verbal (yo comía, él comía); h) el estilo (primera o segunda mitad de los datos tomados de cada entrevista). El grupo de factores social significativo es la edad. La primera columna de ambos cuadros enlista los factores distinguidos para cada variable, lo que supone también ir tomando una serie de decisiones según avanza el análisis. Así, la persona y el número se tomaron de manera conjunta, mientras que otras se redujeron en el número de distinciones. Por ejemplo, para el modo verbal la cuantificación terminó reducida a "indicativo" vs. "no indicativo", y los 108 casos de tiempos verbales distintos al "copretérito", "pretérito" y al "presente" quedaron englobados en una categoría de "otros". Aunque una distinción más detallada puede ser relevante para un análisis cualitativo, y en consecuencia, discutirse con el detalle analítico que se considere relevante, la construcción de modelos cuantitativos suele requerir de una cierta simplificación. En ocasiones, el análisis puede ser reduccionista pero eficiente en su manejo cuantitativo, como ocurre en el cuadro 1 con el estilo, variable mediante la que sólo se considera si un dato específico surgió en la "primera parte" de los materiales o en la "segunda", bajo el supuesto de que cuanto más avance una entrevista será más relajada y espontánea18. Otros grupos de factores, como la edad (cf. Tagliamonte 2012, p. 43 y ss.), son continuos en la realidad, pero reciben un tratamiento discreto en el cuadro 219. Un aspecto relevante en un cálculo multivariable es establecer el orden de importancia relativa de los grupos de factores que han resultado significativos (supra). Una 17

Ya se ha mencionado especialmente Bentivoglio, Ortiz y Silva-Corvalán (2011) y también Otheguy, Zentella y Heidrick (2012), entre otros, para las variables independientes relevantes en el estudio de la ESP. La lista de partida de variables internas de Lastra y Martín Butragueño (2015) era la persona y número verbales, el pronombre específico empleado, la especificidad del argumento, el modo verbal y el dominio sintáctico, el tiempo verbal, el aspecto progresivo y la morfología verbal, la clase verbal (según Bentivoglio, Ortiz y Silva-Corvalán 2011), la ambigüedad, el tipo enunciativo, la correferencia, el turno de habla, el género textual, el estilo, la posición del pronombre. Los factores internos fueron el nivel educativo, la edad y el género. 18 Véase Martín Butragueño y Lastra (2012, pp. 54-73 y en especial 65 y ss.) para una reflexión sobre el problema metodológico de estudiar el estilo de habla. 19 Con Goldvarb sólo se pueden analizar variables discretas, a diferencia de Rbrul (infra), que sí admite variables continuas (Johnson 2009).

8 de las maneras de efectuar esa jerarquización es a través del rango (Tagliamonte 2012, pp. 123 y 127), anotado abajo de los factores considerados en cada grupo. El rango se obtiene restando el peso menor al peso mayor. Por ejemplo, los datos ambiguos ofrecen un peso probabilístico (no centrado) de 0.613, frente al 0.476 de los no ambiguos. Si se redondean ambas cantidades en dos decimales, y se ponen en una escala de 0 a 100, se obtiene 61 y 48, que restados dan un rango de 13. Así, resulta que el rango de la ambigüedad es mayor al del estilo (8), pero menor al del tipo enunciativo (23), lo que permite establecer un orden de importancia. La segunda columna de los cuadros 1 y 2, F/N, anota el número de casos del valor aplicado dividido por el número de apariciones del factor en juego. Al escribir 182/556 para el cambio de referencia, lo que se está diciendo es que hubo 182 casos de sujeto expreso en las 556 ocasiones en que hubo cambio de referencia en el nuevo sujeto. De tal manera, la tercera columna es simplemente la frecuencia relativa, expresada en porcentaje, correspondiente a la proporción que se acaba de expresar. Es decir, el 32.7% de los cambios de referencia se mostraron con un sujeto expreso, frente a los casos en que no hay cambio de referencia y además el referente previo es también un sujeto, situación en la que el sujeto expreso aparece sólo en un 16.3% de las ocasiones. Las columnas cuarta y quinta de los dos cuadros considerados anotan los pesos probabilísticos, sin centrar y centrados, de los factores de cada grupo que resultó significativo. El coeficiente que aparece asociado a cada factor oscila entre 0 y 1. Cuanto más cerca se encuentre de 1, más se favorece la selección del valor aplicado, es decir, la aparición expresa del sujeto pronominal; cuanto más se aproxime a 0, menos se favorece el valor aplicado, y si se encuentra cerca de 0.500 ni se favorece ni se desfavorece. Por ejemplo, en el grupo edad, los hablantes de 55 años en adelante exhiben un peso probabilístico de 0.611 (sin centrar), por lo que favorecen los sujetos pronominales, en comparación con las personas de edad intermedia (0.483) y los más jóvenes (0.419). Obsérvese que para cualquiera de los grupos de edad el sujeto expreso no es la solución predominante, pues sólo corresponde al 29.6%, 20.0% y 16.2% de los casos. Lo que el cálculo está señalando es que, comparativamente, las personas de más edad muestran un número de casos significativamente mayor que los demás, y que esto tiene un efecto específico en el modelo estadístico que se construye sobre los datos.

9 La técnica estadística empleada para construir el modelo es la regresión logística paso a paso (o escalonada o up&down). El cálculo va primero, en sentido ascendente, considerando modelos con diferentes combinaciones de grupos de factores explicativos. Primero se ponen a prueba modelos sin variables independientes (nivel 0), a continuación con una sola variable independiente (nivel 1), luego con dos (nivel 2), y así sucesivamente hasta dar con el modelo más significativo; después se sigue el camino contrario, en sentido descendente, probando con modelos con cada vez con menos variables (Paolillo 2002, pp. 87-89). Idealmente, el camino ascendente y el descendente deben terminar proponiendo la misma combinación de variables independientes20. El peso probabilístico proporcionado por las variantes o factores significativos coincidentes en los cálculos en los dos sentidos combinatorios es lo que aparece en las columnas más a la derecha de los cuadros 1 y 2, por ejemplo en relación al género textual en que se presenta el dato con el sujeto pronominal expreso: argumentación (0.658), descripción (0.550), diálogo (0.482) y narración (0.434). Si bien el rango es orientativo (1a), en especial si las variables tiene el mismo número de variantes, otra manera de establecer la jerarquía entre las diferentes variables es el orden en que son progresivamente seleccionadas para irse incorporando al modelo21. Así, al considerar los recorridos en el sentido ascendente, las variables lingüístico-discursivas quedan ordenadas como en (1b), asentando como más importantes las que fueron seleccionadas primero: (1)

20

a. Orden de importancia de las variables según rangos: (a) persona y número gramaticales > (b) correferencia > (c) modo verbal > (d) tipo enunciativo > e) género textual > (f) tiempo verbal > (g) ambigüedad > (h) estilo. b. Orden de inclusión de las variables en el modelo de regresión logística ascendente: (b) correferencia > (g) ambigüedad > (c) modo verbal > (d) tipo enunciativo > (e) género textual > (a) persona y número gramaticales > (h) estilo > (f) tiempo verbal.

Sin embargo, no siempre es así. En esos casos, la práctica común en variación lingüística es ir depurando el modelo, por ejemplo simplificando el número de variables y de variantes analizados. 21 En Tagliamonte (2012, pp. 123) el rango y el orden de selección en los modelos de regresión se presentan como métodos alternativos. En este segundo caso, al revisar completo el proceso de regresión logística, lo que se hace es ir anotando qué grupo de factores se va añadiendo en cada ronda de manera significativa, de forma que el seleccionado en primer término es el grupo de factores más importante para el modelo, el segundo seleccionado el segundo más importante, y así de manera sucesiva (id.). Por otra parte, son llamativos los comentarios de Johnson: "GoldVarb uses a ‘step-up, step-down’ algorithm to decide on the best logistic regression model. Stepping up, it starts with no predictors and adds the most significant factor group, if there is one, before repeating the procedure. Stepping down, it starts with all possible predictors and removes the one that contributes least to the model, and then repeats this until all remaining predictors are significant. Building regression models through automated stepwise procedures is generally frowned upon in today’s statistical community" (2009, p. 380, n. 13).

10 Al examinar (1), puede observarse la diferencia en la comparación relativa de las variables entre la consideración de los rangos22 y el examen de los resultados de cada uno de los pasos del cálculo de regresión logística ascendente; cuando se da este tipo de conflictos se hace necesario buscar otros argumentos para ponderar las variables entre sí, como señala Tagliamonte (2012, p. 124). En tal sentido, los cálculos que se irán desarrollando en los siguientes apartados proporcionarán otras perspectivas sobre los mismos datos. La columna que aparece más a la derecha de los cuadros 1 y 2 muestra los pesos centrados23. Más abajo en el capítulo, algunos de los resultados del modelo de efectos mixtos en el cuadro 3 se muestran también en forma de pesos centrados. Al pie de los cuadros aparece el log likelihood o 'razón de verosimilitud logística', así como la significación y el input del modelo. El mejor modelo tiene un log likelihood mayor (obsérvese que se trata de un número negativo), siempre y cuando la significación general sea igual o menor a 0.05 (que viene prefijada como umbral en Goldvarb)24; el input "indicates the overall tendency of the dependent variable to surface in the data" (Tagliamonte 2012, p, 127)25. Se trata, en suma, de un modelo de regresión logística binomial (Paolillo 2002, p. 13) que trabaja con variables de efectos fijos (cf. Johnson 2009, pp. 364-365 y otros pasajes para efectos fijos vs. efectos aleatorios). La visibilidad de los modelos: árboles de inferencia condicional y bosques aleatorios Los bosques aleatorios y los árboles de inferencia condicional generan modelos no paramétricos de regresión (Levshina 2015, p. 291; Scrivner y Díaz-Campos 2016, pp. 4 y 10), que tienen la ventaja de exponer los resultados de una manera que ayuda a la 22

Tagliamonte proporciona el siguiente caso: "For example, it is possible that within a factor group a particular environment, represented by a very small number of tokens, might have a near-categorical effect, while the other environments, represented by much larger numbers of tokens, might be much closer. In this case, the range for that factor group might be greater than it would be for another factor group that has more effect" (2012, pp. 123-124). 23 Véanse al respecto las notas 13 y 43. 24 Como señalan Díaz-Campos y Dickinson (en prensa, p. 11), el log likelihood pondera la bondad del ajuste del modelo de modo relativo a otros modelos elaborados en el proceso de regresión. 25 "The input probability can be thought of as the predicted probability of the response, averaged over all factor combinations (or cells). If each factor combination is represented in the data by an equal number of tokens, the input probability will be equal to the overall proportion of the response" (Johnson 2009, p. 379, n. 4).

11 interpretación visual (Scrivner y Díaz-Campos 2016, p. 4). El artículo de Tagliamonte y Baayen (2012) parece ser el primer trabajo de lingüística en que se emplean ambos tipos de técnicas (cf. Levshina 2015, p. 291). Para los cálculos y figuras que siguen, se ha empleado la Language Variation Suite (Scrivner y Díaz-Campos s.f.), "created with the powerful statistical R package and designed with a user-friendly interface" (Scrivner y Díaz-Campos 2016, p. 7)26. Los árboles de inferencia condicional, como los de las figuras 1 a 4, establecen particiones recursivas binarias, de manera que se va eligiendo primero el predictor o variable independiente más vinculado con la variante dependiente de aplicación —la presencia del sujeto pronominal en el ejemplo examinado—; el predictor se escinde en dos valores o grupos de valores, y el procedimiento se va repitiendo de manera recursiva mientras haya variables significativas —habitualmente, las que exhiban una p menor a 0.05)— (Tagliamonte, 2012, pp. 152-155; Levshina 2015, pp. 291-292; Scrivner y DíazCampos 2016, pp. 10-11; Díaz-Campos y Dickinson en prensa, p. 5). Por otra parte, a partir de muchos árboles es posible generar un bosque aleatorio: "Random forests can yield the importance measure for every variable in the model averaged over many conditional trees. This measure reflects the impact of each predictor given all other independent variables" (Levshina 2015, p. 292). Ambos cálculos son interesantes en situaciones en que hay pocas observaciones en contraste con el número de predictores, interacciones de orden mayor y predictores correlacionados (Tagliamonte y Baayen 2012, p. 161 y ss.; Levshina 2015, p. 292 y 299-300). Scrivner y Díaz-Campos (2016, p. 10) examinan los factores lingüísticos y sociales por separado. Por ello, se hizo también aquí primero de manera autónoma el cálculo de los árboles de inferencia condicional y de los bosques aleatorios de los predictores lingüísticodiscursivos significativos en Lastra y Martín Butragueño (2015), y el de los predictores sociales, incluyendo no sólo la edad, que había sido significativa, sino también el nivel de estudios y el sexo o género, que no lo habían sido, tal como se proyecta en las figuras 1 y 2.

26

Para R, véanse los comentarios del apartado siguiente. Con la Language Variation Suite es posible realizar diferentes tipos de cálculos descriptivos e inferenciales, incluidos los árboles de inferencia condicional y los bosques aleatorios [consultado el 19 de diciembre de 2016].

12

Figura 1a. Árbol de inferencia condicional, con 2040 datos, para los predictores de efectos fijos lingüístico-discursivos que resultaron significativos en Lastra y Martín Butragueño (2015)

Figura 1b. Bosque aleatorio, con 2040 datos, para los predictores de efectos fijos lingüísticodiscursivos que resultaron significativos en Lastra y Martín Butragueño (2015)

Como se puede observar, en la figura 1a los predictores significativos se van ramificando progresivamente (de ahí la analogía con un "árbol"), hasta llegar a los nodos terminales (los cuadros donde la "P" o presencia del sujeto aparece en un color claro). Por ejemplo, el predictor [1], la correferencia, se escinde en dos ramas, quedando a la izquierda agrupados la correferencia de objeto ("a") y de sujeto ("s"); el predictor [2], la ambigüedad, se escinde de tal modo que por su lado derecho presenta la no ambigüedad ("n"), que a su vez va a dar al nodo terminal [8], en el que la presencia de sujetos expresos es bastante moderada. La lectura de cada rama se va haciendo de manera semejante. En el caso de este árbol de la figura 1a, elaborado con 2040 datos, los predictores lingüístico-discursivos significativos fueron la correferencia, la ambigüedad, la persona y número gramaticales, el tipo enunciativo, el género textual y el modo verbal, pero el tiempo verbal y el estilo no fueron significativos, a diferencia de los resultados expuestos en el cuadro 1 (trazado mediante Goldvarb, como se explicó supra). El bosque aleatorio de la figura 1b, sin embargo, sí confirma la significación de los ocho predictores lingüístico-

13 discursivos, pues todos ellos se encuentran claramente a la derecha de la línea punteada, que marca el límite de significación.

Figura 2a. Árbol de inferencia condicional, con 2040 datos, para los predictores fijos sociales que se consideraron en Lastra y Martín Butragueño (2015)

Figura 2b. Bosque aleatorio, con 2040 datos, para los predictores fijos sociales que se consideraron en Lastra y Martín Butragueño (2015)

En cuanto a las figuras 2a y 2b, confirman en líneas generales los resultados expuestos en el cuadro 2 a partir del cálculo de regresión logística escalonada con predictores fijos sociales (Goldvarb), pues el árbol de inferencia condicional autoriza sólo como significativa la edad, de modo que las personas del grupo de mayor edad favorecen más la presencia del sujeto pronominal. El bosque aleatorio de la figura 2b ofrece la edad como la variable más relevante, y presenta el sexo o género en el umbral de significación, al tiempo que ofrece un nivel de significación moderado para el nivel de estudios27.

27

Lastra y Martín Butragueño comentan lo siguiente sobre el género y el nivel de estudios en sus datos: "Despite not reaching statistical significance, the results for education and sex suggest that there might be some social value attached to SPE. The frequencies for education tell us that people with low educational level produce the highest SPP rate (24.2 percent, 161/666), followed by medium-level (20.9 percent, 157/752) and high-level (20.1 percent, 125/622). The descending percentages suggest a (albeit weak) correlation between overt SPPs and lower education, which might indicate that pronoun omission carries more prestige. The frequencies for speaker’s sex show women favoring overt SPPs (23.6 percent) at a slightly higher rate than men (19.8 percent). Interestingly, the same pattern appears in every age group: 31 versus 28 percent for 55 and older; 23 versus 18 percent for 35–54 years; and 17 versus 16 percent for 20–34 years" (2015, p. 50). Estas posibles vetas de significación —que necesitan estudiarse en mayor detalle— podrían tener que ver con el resultado del bosque aleatorio de la figura 2b.

14 Para continuar la exploración de los datos se llevaron a cabo diferentes cálculos. En uno de ellos se analizó el papel conjunto de los nueve predictores fijos significativos encontrados en el estudio original de Lastra y Martín Butragueño (2015), como se presenta en la figura 3 (árbol) y en la figura 5 arriba (bosque).

Figura 3. Árbol de inferencia condicional, para 2040 datos, para todos los predictores fijos que resultaron significativos en Lastra y Martín Butragueño (2015)

El modelo proyectado en la figura 3 surge al considerar como predictores fijos en la gestación del árbol las nueve variables dependientes que habían resultado significativas en Lastra y Martín Butragueño (2015), integrando el predictor social edad al conjunto de los otros ocho predictores lingüístico-discursivos, y no tratándolos por separado, como en las figuras 1 y 2. Obsérvese que no todos los predictores fueron significativos en este cálculo: sí lo fueron la correferencia, la ambigüedad, la persona y número gramaticales, la edad, el género textual, el tiempo verbal y el modo verbal; sin embargo, quedaron al margen del árbol de inferencia condicional el tipo enunciativo y el estilo. El estilo ya había quedado fuera en el árbol de la figura 1a, con sólo los factores lingüístico-discursivos; pero si en la fig. 1a el tiempo verbal no era significativo, es ahora el tipo enunciativo el que queda fuera. Veamos en detalle el comportamiento de las variantes. En la cúspide del árbol aparece como [1] la correferencia, ramificada a la izquierda con los casos de mantenimiento de referencia, sea en el objeto "a" o en el sujeto "s", y a la derecha con el cambio de referencia, "n". Por el lado del mantenimiento, el siguiente predictor condicionante es [2], la ambigüedad, a su vez subdividida en los casos ambiguos "a" y no ambiguos "n". Si puede existir ambigüedad en la interpretación del dato en caso de faltar el sujeto pronominal, el siguiente predictor relevante es [3], la edad, escindida como en el cuadro 2 en los de más de 55 años ("> generación 2") por el lado derecho, y el resto de los individuos ("≤ 2"), camino que conduce al nodo terminal [4], con una mayor proporción

15 de ausencia de sujeto pronominal "A", que los nodos terminales [6] y [7]. A estos dos últimos nodos se llega a través de la edad ">2", topando en primer lugar con el predictor [5], el género textual. La figura también se puede leer de abajo hacia arriba. Así, el nodo [19] (el rectángulo del extremo inferior derecho) muestra una gran intensidad de casos de ausencia "A". Los flujos que vierten en ese nodo son [1] el cambio de referencia → [9] las personas y números diferentes a la 1ª y 3ª del singular → [15] los géneros textuales diferentes a la argumentación → y [17] el modo verbal no indicativo "s". La acumulación de todos estos valores predice que es casi seguro esperar que el sujeto pronominal esté ausente en los datos de la Ciudad de México. En contraste, los rectángulos correspondientes a los nodos finales [7] y [13] predicen la alta probabilidad de que el sujeto pronominal esté presente, aunque por dos caminos diferentes. Para [7], se acumula [1] el mantenimiento de referencia → [2] la ambigüedad → [3] el grupo de mayor edad → y [5] el género descriptivo "d". En cuanto a [13], se acumulan para su resolución [1] el cambio de referencia → [9] las personas y números 1ª y 3ª del singular → [10] las personas de mayor edad → y [12] el tiempo verbal co-pretérito "c". Otras tantas secuencias pueden trazarse para los otros ocho nodos en que desemboca el flujo de inferencias. Naturalmente, la discusión que debe aportar el lingüista es explicar por qué los resultados se conforman de tal modo, lo que no necesariamente es sencillo. ¿Por qué las muy diferentes estelas que van a dar a [7] y a [13] terminan por producir resultados semejantes? Una de las aportaciones de los árboles de inferencia condicional es que permiten ver los hechos desde ángulos insospechados. La discusión puede enriquecerse partiendo de otras diferentes construcciones cuantitativas del mismo material. La figura 4 introduce algunos elementos adicionales al tablero de juego.

16

Figura 4. Árbol de inferencia condicional para 1438 datos, con los predictores fijos significativos en Lastra y Martín Butragueño (2015), más dos efectos en principio aleatorios (individuo colaborador y pieza verbal) convertidos en predictores fijos, pero sólo considerando las piezas verbales que aparecen más de 10 veces en la selección inicial de 3600 enunciados, y más de 10 veces en el contexto variable; los 18 colaboradores se dividen en tres tramos de más a menos favorecimiento de la ESP (a, b, c); los 42 verbos en juego se dividen también en tres tramos de más a menos favorecimiento de la ESP (x, y, z)

Puede hacerse una lectura semejante del árbol de inferencia condicional de la figura 4. Este modelo tiene dos importantes diferencias iniciales con el de la figura 3. Por una parte, sólo refiere a 1438 datos, una vez que se establece que las piezas verbales debían estar al menos 10 veces en el fichado inicial de 3600 enunciados, y al menos 10 veces en los 2040 datos que forman parte del contexto variable por permitir la ausencia y la presencia variable del sujeto pronominal28. Por otra, se han incluido dos predictores más al análisis, los individuos específicos, vistos a través de su entrevista ("entr") y los verbos particulares ("verbo"). No se tratan aquí, sin embargo, como efectos aleatorios, sino fijos, al dividirlos en tres variantes (Johnson 2009, Scrivner y Díaz-Campos 2016, Díaz-Campos 2016, Díaz-Campos y Dickinson en prensa, etc.), según se explica al pie de la figura 4. Como puede observarse, se producen ahora 12 nodos finales, a diferencia de los 10 expuestos en la figura 3. Quedan fuera del árbol varios predictores: el modo verbal, el tipo enunciativo, el tiempo verbal y el estilo; varios de ellos habían sido excluidos de algunos de los árboles previos. Los individuos (las entrevistas), los verbos y la ambigüedad aparecen de modo recurrente como puntos claves en la toma de decisiones. El nodo cúspide en la figura 4 sigue siendo [1] el tipo de correferencia, pero los nuevos predictores aparecen en seguida. Por la bifurcación derecha, con cambio de referencia "n", el individuo, expuesto a través de su entrevista, surge de inmediato como 28

Ciertamente, la decisión de trabajar con una recurrencia decenal es arbitraria.

17 [15], y se subdivide a su vez en dos ramas: los individuos menos favorecedores “c” van a dar al nodo [23], que tiene una proporción bastante elevada de ausencia de sujeto pronominal; en cambio, los individuos con favorecimiento mediano “b” y alto “a” de la presencia pronominal encuentran en su trayectoria el predictor [16] persona y número gramatical, cuya rama correspondiente a la 3ª y la 1ª personas del singular se continúa con [17], el verbo. La rama “x”, que acoge las piezas verbales más favorecedoras de la presencia, va a dar al nodo final [18], que tiene muy pocos datos de ausencia y bastantes de presencia; y las ramas "y, z", asociadas a menor favorecimiento, se vacían en el nodo final [19], con una cantidad bastante equilibrada de ausencias y presencias. En cuanto al camino izquierdo surgido a partir de [1] por el mantenimiento de referencia, el nodo inmediato es [2], el verbo. Los verbos menos favorecedores de la presencia encuentran a continuación el nodo [12], referido a la ambigüedad, y precisamente los casos no ambiguos van a dar al nodo final [14], que es la suma de combinaciones que propicia más ausencias de sujetos pronominales. En contraste, si se sigue el camino [1] mantenimiento de referencia → [2] verbo relativamente favorecedor de la expresión pronominal "x, y" → [3] individuos (entrevistas) más favorecedoras "a" → [4] personas de más edad ">2" → [6] casos ambiguos "a", se llega al nodo final [7], que ofrece el menor número de ausencias y en consecuencia el mayor número de presencias pronominales. Puede decirse, por tanto, que los árboles de inferencia condicional permiten una rica exploración de los datos. Esta valoración puede completarse por medio de los bosques aleatorios (random forests), como puede apreciarse en la figura 5.

18

Figura 5. Bosques aleatorios, para 2040 datos, sólo para los predictores fijos que resultaron significativos en Lastra y Martín Butragueño (2015) (arriba); y para 1438 datos (abajo), según las condiciones de la figura 4

Los bosques aleatorios de la figura 5 muestran la importancia variable de cada uno de los predictores fijos con respecto a la variante considerada ahora, la presencia expresa del sujeto pronominal. Los grupos de factores situados a la derecha de la línea discontinua son significativos en el modelo (Scrivner y Díaz-Campos 2016, p. 9). Esto ocurre con todos los nueve predictores fijos que funcionan como variables independientes en la figura de arriba, la trazada con los 2040 datos. En cambio, en el segundo modelo, con 11 predictores fijos como variables independiente y 1438 datos, el modo verbal queda precisamente en el límite de significación29. Obsérvese que en cuanto a la importancia de las diferentes variables independientes existe un gran parecido entre ambos bosques aleatorios, como se ve en (2): (2)

género textual > persona y número gramaticales > correferencia > [verbo > individuo (entrevista) >] edad > tiempo verbal > estilo > ambigüedad > tipo enunciativo > modo verbal.

Es decir, más allá de que en el modelo de 1438 datos se ha considerado el papel de los verbos y de los individuos (si bien categorizados cada uno de forma discreta en tres 29

Ocurre exactamente lo mismo si se excluye del análisis la variable social edad, como se hizo en otro cálculo no incluido: el modo verbal sigue quedando en el umbral de significación. La divergencia entre los dos bosques aleatorios de la fig. 5 con respecto al modo verbal tiene que ver con las diferentes condiciones del cálculo, pues cuando el modo aparece en el umbral de significación se han incluido dos predictores adicionales, los verbos y los individuos, y se trabaja con un subconjunto de los datos (1438 ejemplos). Más difícil es explicar por qué el modo verbal ocupaba una posición más elevada (la tercera) en el cuadro 1 que reseña los cálculos con Goldvarb (supra). En los modelos de efectos mixtos descritos infra, el modo verbal ocupa una posición intermedia. Es probable que esta inestabilidad estadística se deba a que al oponer los casos de indicativo a los de subjuntivo, los de subjuntivo son en realidad pocos en la muestra, y sólo un pequeño conjunto de ellos son de presencia (10 de 124); la escasez de datos totales de subjuntivo y los pocos casos de presencia pueden estar ocasionando estos relativos vaivenes. Aunque el cálculo más detallado es el ofrecido infra a través de los modelos mixtos, el asunto amerita mayor investigación.

19 subgrupos), el orden de todos los demás predictores fijos que actúan como variables independientes es idéntico; incluso el modo verbal, que sí es significativo en el modelo de 2040 datos, aparece en aquél en la última posición. Debe observarse que ninguna de las opciones analíticas consideradas hasta ahora ha respetado como tal la naturaleza aleatoria de dos de las variables más interesantes, los individuos —codificados a través de sus entrevistas— y el catálogo de verbos. En los cuadros 1 y 2, adaptados de Lastra y Martín Butragueño (2015) y elaborados a partir de Goldvarb, no se consideraban, mientras que en el árbol de la figura 4 y en el bosque de la figura 5 (abajo) se reducían a una escala de tres factores. Es necesario apelar a un modelo de efectos mixtos para respetar su verdadera condición, en forma de amplios listados que estadísticamente se comportan como un efecto aleatorio. Para su tratamiento es necesario servirse de un modelo de efectos mixtos, que permita combinar los predictores fijos y los aleatorios. Los individuos y los verbos: Rbrul y el modelo de efectos mixtos Un modelo de efectos mixtos es aquél que combina predictores (variables) de efectos fijos y de efectos aleatorios, estando entre los primeros variables como el género, el nivel de estudios alcanzado, la tonicidad de una sílaba o la posición del objeto con respecto al verbo, mientras que los efectos aleatorios son los producidos por ejemplo por los hablantes individuales o por los ítems léxicos específicos; de ese modo, los fijos suelen incluir un número pequeño de niveles y son replicables, mientras que los aleatorios se extraen de una población mayor y entrañan datos agrupados de cierta manera (el individuo, la palabra), y un modelo mixto no sólo es deseable por incluir los efectos aleatorios, sino también para detectar los efectos fijos que emergen a pesar de ellos (siguiendo a Johnson 2009, pp. 363365). El programa Rbrul, diseñado por D. E. Johnson (2008-2016, 2016a, 2016b), es una buena opción para poder llevar a cabo un análisis de ese tipo; en el análisis que sigue se empleó la versión 2.3.2 (Johnson 2016a). Una primera aclaración es que Rbrul corre en un entorno R (The R Foundation, 2004-2016), que es de acceso gratuito30:

30

El uso de R puede resultar más cómodo a través de RStudio (2009-2016): "RStudio is an integrated development environment (IDE) for R. It includes a console, syntax-highlighting editor that supports direct code execution, as well as tools for plotting, history, debugging and workspace management [...]. RStudio is available in open source and commercial editions and runs on the desktop (Windows, Mac, and Linux) or in a

20 R is a language and environment for statistical computing and graphics [...]. R provides a wide variety of statistical (linear and nonlinear modelling, classical statistical tests, timeseries analysis, classification, clustering, …) and graphical techniques, and is highly extensible [...]. Many users think of R as a statistics system. We prefer to think of it of an environment within which statistical techniques are implemented. R can be extended (easily) via packages. There are about eight packages supplied with the R distribution and many more are available through the CRAN family of Internet sites covering a very wide range of modern statistics (en [consultado el 26 de noviembre de 2016]).

Ya existen varios manuales para abordar problemas lingüísticos en un entorno R. Entre ellos, pueden mencionarse los de Baayen (2008), K. Johnson (2008), Gries (2009) y Levshina (2015), que abren las puertas a multitud de cálculos y posibilidades estadísticas31. También existen diferentes textos que facilitan el manejo de Rbrul, como el propio artículo de Johnson (2009), el "Rbrul Manual" (Johnson 2010), varios de los enlaces disponibles en la página de Johnson (s.f.) —como el de Lamy (s.f.) o el de Daleszynska (s.f.)— o Tagliamonte (2012, p. 138 y ss.). De entre las varias posibilidades brindadas por Rbrul, las páginas siguientes se centran en las ofrecidas por el cálculo de regresión logística escalonada. Rbrul presenta los resultados de regresión logística escalonada de manera semejante a como suele hacerse en estadística en general: las variables son los factores (grupos de factores en Goldvarb), y cada una de las variantes es un nivel (factor para Goldvarb); si Goldvarb32 ofrece los efectos a través de pesos probabilísticos en una escala de 0 a 1, Rbrul toma como primarios los log-odds, es decir, los 'coeficientes o razones logísticas', que pueden ser positivos o negativos, que pueden contrastarse entre sí, al tiempo que también ofrece los pesos probabilísticos tradicionales de Goldvarb (siguiendo en todo esto a Johnson 2009, pp. 361-362): We obtain log-odds from probabilities by taking the natural (base e) logarithm of the odds, where the odds are the probability of an event occurring, divided by the probability of it not occurring. The formula is ln[p/(1 − p)]; a positive value is a favoring effect, a negative value disfavoring, and a value of 0 is neutral (Johnson 2009, p. 361). browser connected to RStudio Server or RStudio Server Pro (Debian/Ubuntu, RedHat/CentOS, and SUSE Linux)" (en https://www.rstudio.com/products/rstudio/, 26 de noviembre de 2016). También es posible trabajar con Rbrul a través de la Language Variation Suite de Scrivner y Díaz-Campos (2016, s.f.). 31 Es necesario explorar constantemente diversas posibilidades, pues como señala Daleszynska a propósito de Rbrul: "It allows for only one type of analysis (logistic regression). There are plenty of other tests and types of analyses which you might apply in variation analysis through R or SPSS" (s.f., p. 1). 32 El modelo que surge de Goldvarb es exclusivamente de efectos fijos, por lo que la comparación se refiere exclusivamente a este tipo de variables.

21

Además, Rbrul permite trabajar sin abreviar los nombres de los niveles, permite analizar predictores numéricos continuos y no sólo discretos33, facilita el trabajo con las interacciones entre factores y es posible ajustar el umbral de significación (ibid., pp. 362363). Más importante todavía es que se puede trabajar con factores de efectos fijos y de efectos mixtos. Por otra parte, Goldvarb tiende a aumentar los errores de tipo I, es decir, a dar como significativos efectos que no lo son en realidad; sin embargo, Rbrul puede producir más errores de tipo II, es decir, no identificar algunos efectos significativos (ibid., p. 365 y ss.). El cuadro 3 presenta los resultados obtenidos con Rbrul para los dos subconjuntos de datos que se vienen considerando34. Del lado izquierdo, o modelo “M”, se trabaja la misma muestra original de 2040 datos ya examinada en los cuadros 1 y 2, pero incluyendo en un único análisis las 9 variables independientes significativas35, así como se hizo en el árbol de la figura 3 y en el bosque de la parte de arriba de la figura 5, pero añadiendo ahora una variable aleatoria, la entrevista, es decir, el individuo. Del lado derecho, modelo “N”, se analiza la submuestra de 1438 datos, obtenida con los criterios mencionados al pie de la figura 4, pero no considerando el individuo y el verbo como efectos fijos reducidos a tres factores, sino considerando ambos como efectos aleatorios. En ambos casos se puso a prueba, además, la posible interacción entre tres pares de predictores fijos (modo y tiempo; ambigüedad y correferencia; tiempo y ambigüedad), que en apariencia no resultaron significativos. La presencia de las variables aleatorias modifica en algunos aspectos los modelos previos, mostrando la importancia de los hablantes individuales y las piezas léxicas y alterando parcialmente el papel de alguno de los predictores fijos, como se comenta infra. 33

Un predictor discreto podría ser el que opone oclusivo/aproximante, el que distingue entre un orden OV frente a otro VO, o el que organiza las personas en hombres y mujeres; ejemplos de predictores continuos pueden ser el número de palabras en un texto, la altura en semitonos de un pico focal o la edad precisa de cada individuo de una muestra (véase Díaz-Campos y Dickinson en prensa, p. 3, para la importancia del tratamiento continuo de ciertas características acústicas). 34 Como observan Díaz-Campos y Dickinson (en prensa, pp. 14 y 21), la independencia de las observaciones se compromete cuando se trabaja con pocos sujetos que a su vez documentan muchos datos cada uno. Dado que precisamente en el estudio de la ESP en Lastra y Martín Butragueño (2015) se dan esas circunstancias (relativamente pocos individuos con un cuerpo amplio de datos cada uno), es relevante observar el efecto aleatorio de los sujetos y en general ponderar la probable inestabilidad entre los modelos estadísticos fruto de los diferentes métodos —por ello mismo se escogió el caso de la ESP para la discusión de este capítulo. 35 Es decir, no considerando en un cálculo aparte los grupos de factores sociales, como se había hecho en Lastra y Martín Butragueño (2015) y en los árboles y bosques de las figuras 1 y 2.

22 Para mayor facilidad de lectura, el cuadro 3 se divide en tres secciones: los aspectos generales se anotan en el cuadro 3a; los resultados para los factores de efectos fijos en el cuadro 3b; y los resultados para los efectos aleatorios en el cuadro 3c. Se incluyen también algunos paréntesis con letras griegas, —[α], [β]...— para que los comentarios del texto puedan remitir con mayor facilidad a las secciones pertinentes de los cuadros. Cuadro 3a. Dos modelos de efectos mixtos, para el Modelo “M”, de 2040 datos (izquierda) y el Modelo “N”, de 1438 datos (derecha): aspectos generales Modelo “M” [α] Modelo para 2040 datos; variables: -Respuesta binaria: Presencia del sujeto pronominal (P vs. A). -Efectos fijos: persona y número, modo verbal, tiempo verbal, ambigüedad, tipo enunciativo, correferencia, género textual, edad, estilo. -Interacción de efectos fijos: modo:tiempo; ambigüedad:correferencia; tiempo:ambigüedad. -Efecto aleatorio: entrevista [individuos]. [β] El escalonamiento ascendente (step-up) y el descendente (step-down) se igualan. El mejor modelo ascendente se da con los siguientes predictores: entrevista [individuos] (aleatorio) y correferencia (4.47e-14) + persona y número (5.35e-17) + tiempo verbal (5.33e-08) + género textual (2.76e-06) + tipo enunciativo (6.95e-06) + modo verbal (0.00153) + estilo (0.00912) + ambigüedad (0.0135) + edad (0.0114) [los valores-p se construyen a partir del modelo nulo]36.

Modelo “N” [α] Modelo para 1438 datos; variables: -Respuesta binaria: Presencia del sujeto pronominal (P vs. A) -Efectos fijos: persona y número, modo verbal, tiempo verbal, ambigüedad, tipo enunciativo, correferencia, género textual, edad, estilo. -Interacción de efectos fijos: modo:tiempo; ambigüedad:correferencia; tiempo:ambigüedad. -Efectos aleatorios: entrevista [individuos], verbo. [β] El escalonamiento ascendente (step-up) y el descendente (step-down) se igualan. El mejor modelo ascendente se da con los siguientes predictores: entrevista [individuos] (aleatorio) y verbos (aleatorio) y correferencia (5.03e-11) + persona y número (1.38e-10) + género textual (3.68e-05) + ambigüedad (0.000111) + modo verbal (1.16e-05) + tipo enunciativo (0.000365) + estilo (0.00056) + edad (0.00961) [los valores-p se construyen a partir del modelo nulo]37.

Cuadro 3b. Dos modelos de efectos mixtos, para el Modelo “M”, de 2040 datos (izquierda) y el Modelo “N”, de 1438 datos (derecha): resultados para los factores de efectos fijos niveles

1a sg 3a sg 2a sg 36

logodds

casos

P/P+A

Factores de efectos fijos peso del nivel log- casos centrado [γ] odds

Persona y número (5.35e-17) [i] 0.736 939 0.246 0.649 450 0.271 -0.140 296 0.166

0.676 0.657 0.465

P/P+A

peso del nivel centrado Persona y número (1.38e-10) [ii] 0.643 316 0.272 0.656 0.600 714 0.255 0.646 -0.070 195 0.169 0.482

niveles

3a sg 1a sg 2a sg

El mejor modelo descendente queda configurado así: "Entr [random, not tested] and Corref (1.46e-20) + Persona (6.82e-11) + Claus (2.77e-06) + Gen (3.28e-06) + Modo (0.000167) + Estilo (0.0091) + Amb (0.0101) + Edad (0.0114) + Tiempo (0.0385) [p-values dropping from full model]" [del reporte de resultados con Rbrul]. 37 El mejor modelo descendente queda configurado así: "Entr [random, not tested] and Verbo [random, not tested] and Corref (9.95e-17) + Amb (1.96e-06) + Modo (3.67e-06) + Persona (7.32e-06) + Gen (1.16e-05) + Claus (3e-04) + Estilo (0.000352) + Edad (0.00961) [p-values dropping from full model]" [del reporte de resultados con Rbrul].

23 3a pl 1a pl Cambio Objeto Sujeto Copret. Presente Pretérito Otros Argumentación Descripción Diálogo Narración Afirmativo No afirmativo Indicativo No indicativo Segunda parte Primera parte 55 años y más 35-54 años 20-34 años Ambiguo No ambiguo

-0.385 176 0.114 0.405 -0.859 179 0.106 0.297 Correferencia (4.47e-14) [ii] 0.693 556 0.326 0.667 -0.056 303 0.224 0.486 -0.636 1181 0.163 0.346 Tiempo verbal (5.33e-08) [iii] 0.410 488 0.311 0.601>2.5 0.091 888 0.211 0.523>2.5 -0.128 556 0.153 0.468>2.5 -0.373 108 0.157 0.408>2.5 Género textual (2.76e-06) [iv] 0.578 366 0.287 0.641 0.006 257 0.268 0.501 -0.182 449 0.169 0.455 -0.401 968 0.197 0.401 Tipo enunciativo (6.95e-06) [v] 0.452 1741 0.234 0.611 -0.452 299 0.110 0.389 Modo verbal (0.00153) [vi] 0.630 1916 0.225 0.652 -0.630 124 0.081 0.348 Estilo (0.00912) [vii] 0.159 1016 0.231 0.540 -0.159 1024 0.201 0.460 Edad (0.0114) [viii] 0.476 641 0.296 0.617 -0.100 650 0.200 0.475 -0.376 749 0.162 0.407 Ambigüedad (0.0135) [ix] 0.281 352 0.361 0.570 -0.281 1688 0.186 0.430

-0.415 95 0.116 -0.758 118 0.119 Correferencia (5.03e-11) [i] 0.771 384 0.349 -0.091 220 0.232 -0.681 834 0.169

Género textual (3.68e-05) [iii] 0.498 255 0.294 0.190 174 0.305 -0.156 362 0.188 -0.532 647 0.201 Tipo enunciativo (0.000365) [vii] 0.417 1214 0.246 -0.417 224 0.121 Modo verbal (1.16e-05) [iv] 0.963 1359 0.236 -0.963 79 0.063 Estilo (0.00056) [vi] 0.263 703 0.255 -0.263 735 0.200 Edad (0.00961) [viii] 0.503 445 0.312 -0.042 451 0.213 -0.460 542 0.168 Ambigüedad (0.000111) [v] 0.447 279 0.355 -0.447 1159 0.196

0.398 0.319

3a pl 1a pl

0.684 0.477 0.336

0.622 0.547 0.461 0.370 0.603 0.397 0.724 0.276 0.565 0.435 0.623 0.489 0.387 0.610 0.390

Cuadro 3c. Dos modelos de efectos mixtos, para el Modelo “M”, de 2040 datos (izquierda) y el Modelo “N”, de 1438 datos (derecha): resultados para los efectos aleatorios Individuos [δ]

Individuos

24

desv. est. 102 [13H]38 72 [23M] 90 [12H] 12 [31M] 60 [22M] 42 [21H] 24 [32M] 78 [11H] 36 [33M] 84 [11M] 108 [13M] 30 [33H] 96 [12M] 48 [21M] 54 [22H] 18 [32H] 6 [31H] 66 [23H]

intercepta

casos

P/P+A

0.358 0.565 0.339 0.323 0.284 0.262 0.197 0.138 0.132 -0.007 -0.026 -0.115 -0.129 -0.140 -0.156 -0.239 -0.303 -0.383 -0.628

2040 82 120 95 118 98 147 93 119 99 115 136 76 119 128 133 112 122 128

0.216 0.512 0.392 0.253 0.195 0.235 0.197 0.237 0.160 0.303 0.157 0.250 0.276 0.202 0.148 0.180 0.116 0.107 0.125

peso del factor centrado 0.636 0.582 0.579 0.569 0.564 0.548 0.533 0.531 0.497 0.492 0.470 0.466 0.463 0.460 0.439 0.423 0.404 0.347

desv. est. 102 [13H] 12 [31M] 72 [23M] 24 [32M] 90 [12H] 60 [22M] 42 [21H] 84 [11M] 78 [11H] 36 [33M] 108 [13M] 96 [12M] 48 [21M] 54 [22H] 30 [33H] 18 [32H] 6 [31H] 66 [23H]

desv. est. creer querer bailar nacer poner estar llegar comer trabajar estudiar ver quedarse conocer ganar venir entrar pagar acordarse irse pensar terminar vivir durar sentir

38

intercepta

casos

P/P+A

0.351 0.488 0.353 0.288 0.258 0.230 0.179 0.169 0.053 0.029 0.001 -0.056 -0.100 -0.129 -0.160 -0.219 -0.328 -0.380 -0.464 Verbos intercepta

1438 66 81 86 71 55 68 106 92 75 51 108 95 99 91 45 71 89 89

0.227 0.576 0.222 0.395 0.268 0.273 0.221 0.208 0.163 0.147 0.314 0.259 0.221 0.152 0.198 0.222 0.113 0.112 0.146

casos

P/P+A

0.452 1.076 0.384 0.368 0.329 0.295 0.289 0.265 0.229 0.211 0.210 0.186 0.128 0.113 0.100 0.086 0.085 0.083 0.069 0.068 0.051 0.043 0.026 0.011 -0.032

1438 48 36 13 13 12 79 35 14 51 17 63 22 28 15 14 14 10 20 17 10 10 53 10 10

0.227 0.542 0.333 0.308 0.462 0.333 0.329 0.286 0.429 0.294 0.235 0.222 0.273 0.214 0.400 0.214 0.214 0.200 0.250 0.176 0.300 0.200 0.340 0.100 0.200

peso del factor centrado 0.617 0.584 0.569 0.561 0.554 0.542 0.539 0.510 0.504 0.497 0.483 0.472 0.465 0.457 0.443 0.416 0.403 0.383 peso del factor centrado

El primer número hace referencia al nivel de estudios del individuo: "1", bajo; "2", medio; "3", alto. El segundo es el grupo etario: "1", 20-34 años; "2", 35-54; "3", 55 en adelante. Por fin, "H" es hombre y "M" es mujer.

0.744 0.593 0.589 0.579 0.571 0.570 0.564 0.555 0.550 0.550 0.544 0.530 0.526 0.523 0.519 0.519 0.519 0.515 0.515 0.511 0.509 0.504 0.501 0.490

25 llevarse tener dar andar vender encontrar ser saber hacer meterse dedicarse aprender decir empezar ir dejar traer llevar [ε] misc. 1 misc. 2

N= 2040; g. l.= 20; intercepta= -2.347; proporción global= 0.216; probabilidad del input centrado= 0.087. Log likelihood= -909.934; AIC= 1859.868; AICc= 1860.284; Dxy fijo= 0; Dxy total= 0.533; R2 fijo= 0.242; R2 aleatorio= 0.028; R2 total= 0.27.

-0.037 10 0.200 0.489 -0.064 163 0.221 0.482 -0.071 26 0.192 0.480 -0.077 15 0.200 0.479 -0.157 19 0.158 0.459 -0.186 11 0.091 0.452 -0.200 130 0.231 0.448 -0.223 73 0.164 0.442 -0.270 68 0.147 0.431 -0.271 12 0.000 0.431 -0.283 11 0.000 0.428 -0.331 15 0.067 0.416 -0.331 134 0.179 0.416 -0.336 24 0.083 0.415 -0.339 57 0.158 0.414 -0.367 14 0.000 0.407 -0.376 15 0.000 0.405 -0.399 27 0.037 0.400 N= 1438; g. l.= 18; intercepta= -2.329; proporción global= 0.227; probabilidad del input centrado= 0.089. Log likelihood = -648.353; AIC= 1332.707; AICc= 1333.189; Dxy fijo= 1; Dxy total= 0.592; R2 fijo= 0.252; R2 aleatorio= 0.068; R2 total= 0.32.

A continuación se desarrolla una lectura del cuadro. En el cuadro 3a se presenta en primer lugar [α] la lista de efectos fijos, las interacciones consideradas39 y los efectos aleatorios40, que en el caso del modelo “M”, como se ha dicho, son los individuos y en el modelo “N” los individuos y los verbos. Inmediatamente a continuación [β] se reseña la coincidencia de los modelos de escalonamiento ascendente y descendente en el cálculo de regresión logística, y los resultados para el modelo ascendente respecto a los valores de la probabilidad de significación de cada factor41. Esta significación sirve para ordenar los

39

Como se ha dicho, estas interacciones no fueron significativas. Una intercepta es una línea de base de un modelo (cf. Tagliamonte 2012, p. 148). Johnson comentaba en el artículo de 2009 que: "The Rbrul program will eventually allow for more complex mixed models that allow individuals’ constraints to vary around a community norm (random slopes). In the mixed models being fit here, individuals differ only by their input probabilities (random intercepts)" (2009, p. 374). A su vez, Daleszynska anota: "If the dependent variable is continuous: the intercept is the estimated value of the dependent variable if x=0. If the dependent variable is binary: the intercept is the log odds of the dependent variable if x=0" (s.f., p. 11). En los cálculos del cuadro 3 no se han considerado pendientes aleatorias. 41 Se registran en nota las significaciones para el modelo descendente, tanto en el modelo “M” como en el “N”. 40

26 factores en las casillas inferiores de resultados en el cuadro 3b, según la mayor o menor significación42. Ya en el cuadro 3b, los valores de los pesos centrados43 [γ] para los predictores fijos en el modelo “M” son muy semejantes a los expuestos en los cuadros 1 y 2. De entrada, el orden de los niveles o variantes del modelo “M” con Rbrul en cada factor es igual al obtenido con Goldvarb44. Llama la atención, sin embargo, que para el tiempo verbal se activa el factor de inflación de varianza, que mide la multicolinealidad45. Por supuesto, la diferencia más relevante con los cuadros iniciales de Goldvarb se produce al incluir los individuos46 [cuadro 3c, δ]. De entre los colaboradores, hubo 8 con coeficientes positivos, que son los mismos que aportan pesos logísticos superiores a 0.500: se trata de 4 hombres y de 4 mujeres; 3 tienen estudios bajos, 3 estudios medios y 2 estudios altos; 2 son del grupo 42

La ordenación del modelo “M” ascendente se sigue en paralelo al mostrar el modelo “N” ascendente en las columnas de la derecha; se anota en números romanos, de todos modos, el orden en que queda la significación de los factores de "M" y de "N", para que puedan compararse las diferencias. 43 Al respecto, conviene anotar literalmente la siguiente cita: "Centered factor weights are directly equivalent to the log-odds coefficients of the model (assuming sum contrasts). They are simply transformed to a probability scale from 0 to 1. Within each factor group, uncentered factor weights still have the same distance between them, although this relationship is obscured because of the non-linear probability scale. Uncentered factor weights for categories with more tokens will be closer to 0.5 than if there were fewer tokens in the category. The uncentered option is included and made the default because it is the default in Goldvarb. However, I believe there is no good justification for using uncentered factor weights; they can be confusing by seeming to connect the size of a factor's effect with the number of tokens of that factor in the data. Since the latter could easily change, while the former is assumed to be constant, it seems a better idea to leave token numbers out of our factor weights, if we use factor weights at all. Working on the 0-to-1 probability scale is admittedly useful, but be aware that factor weights are not used in any field outside sociolinguistics" (Johnson 2010). 44 No puede decirse lo mismo del orden de importancia de los factores o variables independientes, pues los diferentes modelos estadísticos presentados han ofrecido soluciones parcialmente disímiles, si bien ciertos factores, como la correferencia o la persona y número, tienden a aparecer casi siempre entre los más relevantes. 45 El valor de 2.5 es el VIF: "VIF (variance inflation factor), a measure of multicollinearity. Values above 5 (or at least above 10) are thought to show that a predictor is highly correlated with the others. This is not necessarily a problem, especially if the correlated variables are control variables or nuisance variables rather than those of interest" (Johnson 2008-2016) [consultado el 18 de noviembre de 2016]. Interacción y colinealidad son dos cosas diferentes: "Collinearity is the case of correlation between two or more factor groups, e.g. first person subjects are always pronouns. Interaction is the case of one factor depending on another, e.g. as formality increases, the use of certain linguistic variables increases" (Tagliamonte 2012, p. 124). 46 Lastra y Martín Butragueño (2015, tabla 3.4, p. 52, y en general en los comentarios adyacentes) ya consideraron a los individuos, tanto en términos de frecuencia como por medio de regresión lineal y un cálculo de β estandarizada (pp. 52-53). La ventaja del modelo de efectos mixtos es que permite analizar al mismo tiempo los efectos aleatorios y los efectos fijos, sin necesidad de llevar a cabo cálculos separados, y ponderar la acción de unos y otros. Así, el cálculo actual permite ver una leve mejora en la R2 al insertar la variable individual (de 0.242 a 0.27). También se evitan, de manera práctica, los errores manuales que pudieran producirse al considerar los datos de cada individuo uno por uno; de hecho, se han hecho ahora algunas correcciones con respecto a la tabla 3.4 de Lastra y Martín Butragueño (2015), que no afectan de todos modos la interpretación general.

27 mayor de edad, 3 del grupo intermedio y 3 son jóvenes. Median 1.193 puntos entre la persona que más favorece la ESP y la que menos la favorece (+0.565 y -0.628). El hablante 102 [13H] es quien más presencias produce (51.2%); se trata de un cargador, de 75 años, que abordó en la entrevista temas como los siguientes: (3)

Trabajo, el barrio, la comida; lugar de origen; la ciudad de México en la juventud del informante; dificultades familiares y vida en la calle; cuidado de carretillas; venta de comida; el cine de la época; vida en las vecindades; cambios en la ciudad; gran cantidad de gente venida de fuera; condiciones de vida y transformaciones de Los Reyes y su entorno; medios de transporte; calidad de la fruta y de la carne (Martín Butragueño y Lastra 2015, entrevista 102, p. 1053).

Es interesante que la inclusión del efecto aleatorio individual (cuadro 3c) no haya afectado la presencia de la edad como factor significativo en el modelo de efectos fijos (cuadro 3b); los log-odds son 0.476 para las personas de mayor edad, -0.100 para las de edad intermedia y -0.376 para los más jóvenes (0.852 puntos entre los extremos). Si con Goldvarb, en un modelo de efectos fijos (cuadro 2), el rango era de 19 (tanto con los pesos sin centrar como centrados), con Rbrul, en un modelo de efectos mixtos, es de 21 (centrado), lo que reafirma la significación del factor edad. Al pie del cuadro 3c aparecen dos casillas llamadas "Misc. 1" y "Misc. 2" [ε]. En "Misc. 1" se menciona el total de casos considerados, los grados de libertad, el valor de la intercepta, la proporción global de ESP, y la probabilidad del input centrado; en "Misc 2" se anota el log likehood del modelo, el AIC, el AICc, los valores de Dxy, y varias medidas de R2, que ponderan la parte de variación explicada (cf. Hernández Campoy y Almeida 2005, p. 243). Obsérvese que el modelo “M” presenta valores muy semejantes a los del pie del cuadro 1 en cuanto al log likehood y el input del modelo. Otro aspecto muy interesante es que la aportación de los efectos fijos es grande, con R2 de 0.242, es decir, con una explicación del 24.2%, mientras que el R2 aleatorio sólo aporta un 2.8%, para ofrecer una R2 total del 27%. AIC es el criterio de información de Akaike sobre el output del modelo; AICc modifica el AIC y se recomienda cuando el número de observaciones / número de parámetros 3ª sg, en el modelo “N” de 1438 casos, el orden es 3ª sg > 1ª sg, lo que sugiere una cierta interacción entre esta variable y el efecto aleatorio verbos. De hecho, ésta es la tercera gran diferencia entre estos dos últimos modelos, pues como se viene recalcando, si el de la izquierda o “M” (con 2040 casos) consideraba sólo los individuos como variable aleatoria, el de la derecha o “N” incluye como aleatorios los 47

Debe anotarse que la comparación no es plenamente posible tal como se presenta en este texto, al intentar ofrecer un panorama mayor de cómo se pueden ir desarrollando los cálculos. En primer lugar, en el modelo de efectos fijos de Goldvarb de los cuadros 1 y 2 se analizaron por separado los factores lingüístico-discursivos y los sociales, mientras que en los dos modelos de efectos mixtos construidos con Rbrul, "M" y "N", se calcularon juntos. En segundo término, ya se ha señalado que el modelo mixto de 2040 datos se basa en el mismo conjunto de materiales que el análisis con Goldvarb, pero el modelo mixto de 1438 datos enfatiza el papel de los verbos con cierta recurrencia, como se comparó también a propósito de los árboles de inferencia condicional y de los bosques aleatorios. Una tercera consideración es que el análisis efectuado en los modelos de efectos mixtos expuesto en el texto parte de los resultados de Goldvarb, tal como se presentaron en Lastra y Martín Butragueño (2015), por lo que ya no se consideró ahora el papel de los predictores fijos descartados en aquel primer cálculo. Aquí el argumento es que Rbrul esquiva mejor los errores de tipo I que Goldvarb, es decir, es más factible que Goldvarb llegue a incluir como significativas variables que en realidad no lo son (Johnson 2009), por lo que si un predictor ya fue descartado incluso desde Goldvarb difícilmente sería incluido desde Rbrul. Sin embargo, aunque esto es lo esperable, no se exploró, dentro de la serie de ejercicios desarrollados en este capítulo, el efecto completo de todos los predictores fijos que se concibieron como interesantes en algún momento.

29 individuos y asimismo los verbos. Más allá de las diferencias de detalle en las columnas de individuos (el orden entre las personas no es exactamente el mismo), llama la atención cuáles son los verbos que apoyan más la expresión abierta del sujeto pronominal; en (4) se anotan los que tienen los coeficientes positivos, de mayor a menor magnitud: (4)

creer, querer, bailar, nacer, poner, estar, llegar, comer, trabajar, estudiar, ver, quedarse, conocer, ganar, venir, entrar, pagar, acordarse, irse, pensar, terminar, vivir, durar.

Si el total del archivo con 1438 datos registra un 22.7% de presencia pronominal (326/1438), el subconjunto de verbos más favorecedores de (4) hace subir el coeficiente de presencia a 30.6% (185/604)48. Es decir, todo apunta a que existe una influencia de las piezas verbales específicas. A partir de aquí la investigación podría adoptar varios caminos. Por ejemplo, se puede explorar si los verbos más relevantes tienen alguna propiedad sintáctico-semántica que pueda estar influyendo, e incluso llegar a reanalizarla entonces como un predictor fijo. Otra posibilidad es analizar, desde un ángulo más discursivo, los contextos en que estos verbos se están anclando, e intentar encontrar una explicación más puntual. Una tercera vía, sin duda entre otras, es si la frecuencia intrínseca de ciertos verbos, junto con las estructuras que acarrean, tiene algún efecto de realimentación en un posible proceso de difusión léxica49. Como sea, cualquiera de estas preguntas es posible precisamente por el empleo de un modelo de efectos mixtos, que permite combinar preguntas ligadas a efectos fijos y a efectos aleatorios. Conclusiones Es claro que buena parte de la investigación en sociolingüística variacionista exige involucrarse en el empleo de técnicas estadísticas sofisticadas, y lo mismo podría decirse de 48

El papel de la difusión léxica puede explorarse de diferentes maneras. Los verbos con más de 10 casos en la colecta de 3600 y en el contexto variable de 2040 casos, que aparecen por encima del promedio de presencia en el archivo de 2040 casos (21.7%), y que tienen además 10 o más casos de sujeto pronominal expreso, son creer, vivir, querer, estar, trabajar, llegar, ser, ver, tener. Estas nueve piezas verbales producen 187 casos de los 443 documentados de sujeto pronominal expreso en 2040 contextos, es decir, el 42.2% de todos los ejemplos, aunque su coeficiente particular queda en 28.4% de presencia pronominal; considérese que tener y ser tienen coeficientes negativos y pesos por abajo de 0.500. En cualquier caso, el porcentaje sugiere que el hecho de que el verbo sea frecuente tiene un cierto efecto sobre el modelo, considerando el promedio general de 21.7%. Un manuscrito previo más extenso de Lastra y Martín Butragueño (2015) incluía un análisis descriptivo de la frecuencia verbal. 49 Debe verse también el trabajo de Erker y Guy (2012) en relación con la frecuencia léxica en la ESP.

30 otras áreas de la lingüística, particularmente cuando se trabaja con materiales de un corpus o de una prueba específica. Un segmento de un análisis particular debe ser discutir si es necesario emplear una cuantificación detallada, y en caso afirmativo, debatir cuáles son las técnicas más reveladoras y más comparables con otros trabajos. Los resultados específicos en referencia a la ESP en el español de la Ciudad de México no son sustancialmente diferentes al aplicar las diferentes técnicas. Sin embargo, los diversos cálculos enriquecen el conocimiento sobre la estructura general del modelo, sobre las relaciones entre predictores o factores, y sobre el efecto puntual de los niveles expuestos al análisis. En particular, los árboles de inferencia y los bosques aleatorios exhiben de forma muy gráfica las decisiones que dentro del modelo tienden a la realización de una variante determinada y la importancia de las variables independientes, aunque se empleen sólo predictores de efectos fijos; con tales técnicas se ha discutido desde diferentes ángulos la estructura del conjunto de 2040 datos que ya había sido examinado en Goldvarb en Lastra y Martín Butragueño (2015), así como la del subconjunto de 1438 datos asociados a los verbos más frecuentes. La información aumenta notoriamente al poder considerar efectos aleatorios, como los hablantes específicos o como los ítems léxicos involucrados, como se hizo con dos modelos de efectos mixtos generados a partir de Rbrul, el modelo “M”, con 2040 datos y los individuos como efecto aleatorio, y el modelo “N”, con 1438 datos y los individuos y las piezas verbales como efectos aleatorios. Más allá de las coincidencias generales, existen también diferencias entre los resultados obtenidos en los distintos análisis. El árbol inferencial de la figura 1a dejó fuera el tiempo verbal y el estilo, la figura 3 no consideró el tipo enunciativo y el estilo y, a su vez, el árbol de la figura 4, para 1438 datos, deja fuera el modo verbal, el tipo enunciativo, el tiempo verbal y el estilo. También el modelo “N” de efectos mixtos, que opera sobre el mismo subconjunto factual de 1438 casos, no incluye como significativo el tiempo verbal. En conjunto, la consideración de los verbos relativamente frecuentes parece tener ciertos efectos sobre el modelo de predictores significativos. También existen diferencias en la ponderación de la importancia de los diferentes predictores o factores entre sí, aunque la correferencia y la persona y número tienden a ocupar las posiciones más prominentes en cualquier modelo. Llama la atención que el factor social edad sobreviva como relevante en

31 las diversos modelos, incluso cuando se considera a los individuos como efecto aleatorio, lo que sugiere la solidez del factor. Debe tenerse en cuenta que el ejemplo seleccionado tiene cierto grado de complejidad en cuanto a las variables lingüístico-discursivas y sociales que entran en juego, lo que dificulta la limpieza de la interpretación y la coincidencia entre métodos. Además, la discusión se simplificó parcialmente, pues se trabajó sólo con aquellas variables que habían resultado significativas ya en Lastra y Martín Butragueño (2015), dejando de lado otras variables que allí no habían resultado significativas, como se ha dicho. No puede descartarse que las diferencias entre modelos hubieran sido todavía mayores de haber tenido en cuenta las variables eliminadas en el estudio previo, más allá de que ahora se hayan considerado dos factores con efectos aleatorios, en el camino de ir conformando un modelo de efectos mixtos de la expresión de los sujetos pronominales. Es también notorio el interés de confrontar diversos procedimientos estadísticos y preguntarse por las razones de las diferencias que surgen entre ellos (cf. Gorman y Johnson 2013, Díaz-Campos y Dickinson en prensa), en particular por aquéllas que puedan tener que ver con los errores de tipo I y tipo II (Johnson 2009; Tagliamonte 2012, p. 141; Scrivner y Díaz-Campos 2016, pp. 11-12)50. En la medida en que se exploren diversos procedimientos podrá tenerse una idea más clara de la estructura del modelo cuantitativo, lo que a su vez habrá de conducir a mejores y más penetrantes análisis dentro de diferentes perspectivas o teorías lingüísticas (véase Díaz-Campos y Dickinson en prensa, p. 21, en el mismo sentido); como se planteaba al comienzo del capítulo, en muchas ocasiones los argumentos cuantitativos no son en absoluto adyacentes, sino que forman parte del núcleo demostrativo de una hipótesis específica, como es común que ocurra al estudiar el lenguaje en su devenir histórico y en su existencia social. No existen razones para pensar que el estudio de la variación y el cambio en particular, o el de cualquier fenómeno lingüístico que en general lo amerite, sea diferente al de otras áreas del conocimiento, en el sentido de que el alcance, la significación y la estructura de los datos precisan de una constante discusión acerca de los mejores métodos cuantitativos para modelar los hechos en un sistema explicativo y predictivo.

50

De hecho, con el apoyo de la Suite de Scrivner y Díaz-Campos (2016, s.f.) se aplicaron varias otras técnicas sobre los datos estudiados en este capítulo, que ya no se discuten ni incluyen por falta de espacio.

32

Referencias bibliográficas Baayen, R. H. 2008. Analyzing Linguistic Data. A Practical Introduction to Statistics Using R. Cambridge: Cambridge University Press. Bentivoglio, Paola 1980. Why canto and not yo canto? The problem of first-person subject pronoun in spoken Venezuelan Spanish. Tesis de maestría. Los Ángeles: University of California. Bentivoglio, Paola 1987. Los sujetos pronominales de primera persona en el habla de Caracas. Caracas: Universidad Central de Venezuela. Bentivoglio, Paola, Luis A. Ortiz, y Carmen Silva-Corvalán 2011. "La variable expresión del sujeto pronominal. Guía de codificación", en [23 de noviembre de 2016]. Carvalho, Ana Maria, Rafael Orozco, y Naomi Shin (eds.) 2015. Subject Pronoun Expression in Spanish: A Cross-dialectal Perspective. Washington: Georgetown University Press. Cestero Mancera, Ana M. 2012. "El proyecto para el estudio sociolingüístico del español de España y América (PRESEEA)", Español Actual, 98, pp. 227-234. Daleszynska, Agata s.f. "Analysing linguistic variation with Rbrul —a step-by-step guide", en < http://www.danielezrajohnson.com/daleszynska_rbrul.pdf> [24 de junio de 2017]. Díaz-Campos, Manuel 2016. "Presentación plenaria", expuesta en el V Coloquio de Cambio y Variación Lingüística. México: Universidad Nacional Autónoma de México, 5 de octubre. Díaz-Campos, Manuel, y Stephanie Dickinson en prensa. "Using Statistics as a tool in the analysis of sociolinguistic variation: a comparison of current and traditional methods". Erker, Daniel, y Gregory R. Guy 2012. “The role of lexical frequency in syntactic variability: variable subject personal pronoun expression in Spanish”, Language, 88, pp. 526-557. Gorman, Kyle, y Daniel Ezra Johnson 2013. "Quantitative analysis", en The Oxford Handbook of Sociolinguistics. Ed. Robert Bayley, Richard Cameron y Ceil Lucas. Oxford: Oxford University Press, pp. 214-240. Gries, Stefan Th. 2009. Quantitative Corpus Linguistics with R. A Practical Introduction. Nueva York - Londres: Routledge. Hernández Campoy, Juan Manuel, y Manuel Almeida 2005. Metodología de la investigación sociolingüística. Málaga: Comares. Johnson, Daniel Ezra 2008-2016. "Rbrul release notes", en [consultado en noviembre y diciembre de 2016]. Johnson, Daniel Ezra 2009. "Getting off the Goldvarb standard: introducing Rbrul for mixed-effects variable rule analysis", Language and Linguistics Compass, 3, 1, pp. 359383. Johnson, Daniel Ezra 2010 "Rbrul Manual", en [consultado el 12 de enero de 2017]. Johnson, Daniel Ezra 2016a. Rbrul version 2.3.2, en [consultado el 12 de diciembre de 2016].

33 Johnson, Danuel Ezra 2016b. Rbrul version 3.0, en [consultado el 16 de enero de 2017]. Johnson, Danuel Ezra s.f. Rbrul, en [consultado el 16 de enero de 2017]. Johnson, Keith 2008. Quantitative Methods in Linguistics. Malden - Oxford: Blackwell. Krug, Manfred, y Julia Schlüter (eds.) 2013. Research Methods in Language Variation and Change. Cambridge: Cambridge University Press. Labov, William 1994. Principles of Linguistic Change. Vol. 1: Internal Factors. Oxford: Blackwell. [Trad.: Principios del cambio lingüístico. Vol. 1: Factores internos. Vers. P. Martín. Madrid: Gredos, 1996]. Labov, William 2001. Principles of Linguistic Change. Vol. 2: Social Factors. Oxford: Blackwell. [Trad.: Principios del cambio lingüístico. Vol. 2: Factores sociales. Vers. P. Martín. Madrid: Gredos, 2006]. Labov, William 2010. Principles of Linguistic Change. Vol. 3: Cognitive and Cultural Factors. Oxford: Wiley – Blackwell. Lamy, Delano S. s.f. "Cómo realizar un análisis estadístico multivariado en Rbrul con datos numéricos/continuos", en [consultado el 16 de diciembre de 2016]. Lastra, Yolanda, y Pedro Martín Butragueño 2015. “Subject pronoun expression in oral Mexican Spanish”, en Subject Pronoun Expression in Spanish: A Cross-dialectal Perspective. Ed. Ana Maria Carvalho, Rafael Orozco y Naomi Shin. Washington: Georgetown University Press, pp. 39-57. Levshina, Natalia 2015. How to do Linguistics with R. Data Exploration and Statistical Analysis. Amsterdam - Philadelphia: John Benjamins. Martín Butragueño, Pedro, y Yolanda Lastra (coords.) 2011. Corpus sociolingüístico de la ciudad de México. Vol. I: Materiales de PRESEEA, nivel alto. México: El Colegio de México. Martín Butragueño, Pedro, y Yolanda Lastra (coords.) 2012. Corpus sociolingüístico de la ciudad de México. Vol. II: Materiales de PRESEEA, nivel medio. México: El Colegio de México. Martín Butragueño, Pedro, y Yolanda Lastra (coords.) 2015. Corpus sociolingüístico de la ciudad de México. Vol. III: Materiales de PRESEEA, nivel bajo. México: El Colegio de México. Martín Butragueño, Pedro, y Leonor Orozco (eds.) 2014. Argumentos cuantitativos y cualitativos en sociolingüística. Segundo coloquio de cambio y variación lingüística. México: El Colegio de México. Moreno Fernández, Francisco 1996. "Metodología del «Proyecto para el estudio sociolingüístico del Español de España y de América» (PRESEEA)", Lingüística, 8, pp. 257-287. Otheguy, Ricardo, y Ana C. Zentella 2012. Spanish in New York. Language Contact, Dialectal Leveling, and Structural Continuity. Oxford: Oxford University Press. Otheguy, Ricardo, Ana C. Zentella, e Ingrid Heidrick 2012. "Coding manual", en Ricardo Otheguy y Ana C. Zentella (2012), pp. 225-273. Paolillo, John C. 2002. Analyzing Linguistic Variation, Statistical Models and Methods. Stanford: Center for the Study of Language and Information. RStudio (2009-2016), en [26 de noviembre de 2016].

34 Sankoff, David 1988. "Variable rules", en Sociolinguistics: An International Handbook of the Science of Language and Society. Ed. U. Ammon, N. Dittmar y K. J. Matheier. Walter de Gruyter. vol. 2, pp. 984-997. Sankoff, D., S. A. Tagliamonte, y E. Smith 2005. Goldvarb X. A Multivariate Analysis Application. Toronto: University of Toronto - Ottawa: University of Ottawa, en [23 de noviembre de 2016]. Sankoff, D., S. A. Tagliamonte, y E. Smith 2012. Goldvarb Lion. A Multivariate Analysis Application. Toronto: University of Toronto - Ottawa: University of Ottawa, en [23 de noviembre de 2016]. Sankoff, D., S. A. Tagliamonte, y E. Smith 2015. Goldvarb Yosemite. A Multivariate Analysis Application. Toronto: University of Toronto - Ottawa: University of Ottawa, en [23 de noviembre de 2016]. Scrivner, Olga, y Manuel Díaz-Campos 2016. "Language Variation Suite: A theoretical and methodological contribution for linguistic data analysis", Proceedings of the Linguistic Society of America, 1, pp. 1-15, en . Scrivner, Olga, y Manuel Díaz-Campos s.f. Language Variation Suite, en [consultado entre octubre y diciembre de 2016]. Serrano, Julio 2014. Procesos sociolingüísticos en el español de la ciudad de México. Estudio en tiempo real. Tesis doctoral. México: El Colegio de México. Silva-Corvalán, Carmen 1982. “Subject variation in spoken Mexican-American Spanish”, en Spanish in the United States: Sociolinguistic aspects. Eds. J. Amastae y L. ElíasOlivares. New York: Cambridge University Press, pp. 93-120. Tagliamonte, Sali A. 2006. Analysing Sociolinguistic Variation. Cambridge: Cambridge University Press. Tagliamonte, Sali A. 2012. Variationist Sociolinguistics. Change. Observation, Interpretation. Oxford: Wiley-Blackwell. Tagliamonte, Sali A. 2013. "Analysing and interpreting variation in the sociolinguistic tradition", en Research Methods in Language Variation and Change. Ed. Manfred Krug y Julia Schlüter. Cambridge: Cambridge University Press, pp. 382-401. Tagliamonte, Sali A. 2016a, "Goldvarb", en [consultado el 14 de diciembre de 2016]. Tagliamonte, Sali A. 2016b. Making Waves: The Story of Variationist Sociolinguistics. Oxford: Wiley – Blackwell. Tagliamonte, Sali A., y R. Harald Baayen 2012. "Models, forests, and trees of York English: Was/were variation as a case study for statistical practice", Language Variation and Change, 24, pp. 135-178. The R Foundation for Statistical Computing 2004-2016. "R", en [26 de noviembre de 2016].

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.