Panorama de los corpus y textos del español peninsular contemporáneo

June 13, 2017 | Autor: Miriam Bouzouita | Categoría: Spanish, Corpus Linguistics, Spanish Linguistics, Hispanic Linguistics, Spain, Filología Hispánica

Share Embed

Laporkan tautan ini

Descripción

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

7 Panorama de los corpus y textos del español peninsular contemporáneo Abstract: El presente capítulo trata de proporcionar una herramienta que permita al estudioso (i) determinar fácil y rápidamente los corpus disponibles para realizar una investigación de corpus sobre cualquier tema del español europeo contemporáneo, (ii) saber dónde encontrarlos, (iii) encontrar estudios que describan los detalles de estos corpus (sección 1). La lista no es exhaustiva: incluimos solamente los proyectos finalizados o en gran medida disponibles al público, de dimensiones razonablemente grandes o con importancia particular, cuyos textos son de libre y fácil acceso. La segunda parte del capítulo ilustra la variación tipológica de los textos del español europeo a través de unas muestras representativas. Los límites del artículo no permiten dar una lista exhaustiva de distintos géneros y variedades. Antes bien, a través de nuestra selección de textos, damos una visión de conjunto de las variedades textuales que se encuentran en el español actual y de sus características (sección 2).

Keywords: corpus, español europeo contemporáneo, géneros textuales, dialectos peninsulares

1 Los corpus del español europeo actual Distinguimos dos grandes tipos de corpus: las bases de datos y los corpus orales. Las bases de datos (1.1) son grandes colecciones de textos, generalmente de diversos géneros (cf. Briz/Albelda 2009). Estos textos generalmente no son accesibles en su totalidad, sino a través de un soporte lógico de búsqueda en la Red, aunque a veces se pueden bajar por completo. En la sección 1.1.1 describimos las bases de datos sin finalidad de búsqueda particular, que se comparan con una serie de bases de datos diseñadas principalmente para búsquedas de esquemas sintáctico-semánticos verbales predefinidos (sección 1.1.2). Los corpus orales (1.2) se presentan como textos completos en soporte electrónico o en versión papel. Se subdividen, por un lado, en los corpus panhispánicos y peninsulares (1.2.1), y, por otro, en los corpus representativos de determinadas variantes peninsulares (1.2.2). Estos están, a su vez, subdivididos en los corpus de la región andaluza (1.2.2.1), por su alta frecuencia, frente a los corpus de otras variantes peninsulares (1.2.2.2). Para mayor consistencia, cada corpus se presenta según un esquema fijo: primero damos un listado con información puntual sobre (i) el acceso y el soporte del corpus; (ii) el tamaño del corpus; (iii) los editores del corpus; (iv) la variante geográfica y (v) si

148

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

el proyecto está concluido o no. El listado se completa con una evaluación del corpus e información adicional sobre los textos incluidos, su periodización, la anotación, y las modalidades de búsqueda.

1.1 Bases de datos 1.1.1 Bases de datos sin finalidad de búsqueda particular Corpus de Referencia del Español Actual (CREA) – (RAE s.d.) – 85.5 millones de palabras para el esp. europeo (160 millones en total) – Real Academia Española (RAE) – 50% esp. europeo, 50% esp. hisp.am. – Proyecto finalizado (2008) El CREA cubre los años 1975 hasta 2004 inclusive. Constituye, hasta la fecha, una de las bases de datos más usadas para la investigación lingüística sobre el esp. peninsular. Un 90% del corpus comprende diversos géneros de textos escritos: libros tanto de ficción como no ficticios, textos de prensa (periódicos y revistas) y una categoría miscelánea (páginas web, exámenes, cartas, boletines, propaganda, correos electrónicos, etc.). El restante 10% se compone de textos orales, también de tipos diversos: gran parte incluye transcripciones de radio y televisión, pero también hay una colección de conversaciones, diálogos informales, mensajes en contestadores y discursos políticos provenientes de otros corpus orales cedidos a la RAE. Sin embargo, no se marcan los turnos de conversación para los diálogos y no hay acceso a las grabaciones. Mediante el uso de comodines y operadores lógicos, la aplicación de consulta de CREA permite hacer búsquedas de (partes de) palabras y combinaciones de palabras, eventualmente restringidas cronológicamente (por año) o según el medio. El corpus no está lematizado, ni etiquetado morfológicamente. Las concordancias se visualizan en un contexto más amplio de unos párrafos. La casilla de búsqueda Tema permite hacer consultas temáticas (para textos de prensa y libros de no ficción), y por subgénero (para libros de ficción, miscelánea y textos orales). Corpus del Español del Siglo XXI (CORPES XXI) – (= versión beta provisional 0.7 ya consultable) – Versión provisional actualmente disponible: 180 millones de palabras; Objetivo primera fase: 300 millones de palabras – RAE, Asociación de Academias de la Lengua Española y diversos equipos de instituciones españolas y americanas externas a las Academias (cf. )

Panorama de los corpus y textos del español peninsular contemporáneo

– –

149

30% esp. europeo, 70% esp. hisp.am. Proyecto en curso

El CORPES XXI ambiciona ser un corpus de referencia para el siglo XXI, cubriendo todos los países de habla hispana (RAE s.d.). La primera fase, que incluye textos del período entre 2001 y 2012, estará accesible a finales de 2014. El corpus contiene 25 millones de palabras por año, y se irá incrementando anualmente al mismo ritmo tras la primera fase. Tal y como el CREA, comprende un 90% de textos escritos, y un 10% de textos de lengua oral. El sistema sigue las pautas generales del CREA (búsquedas por título, autor, región, género, tema, etc.), pero la aplicación de consulta proporciona opciones de búsqueda bastante más avanzadas, gracias a la anotación morfosintáctica y la lematización del corpus. El sistema actualizado permitirá, además, exportar los resultados de la consulta y obtener frecuencias absolutas y normalizadas de los resultados por zona, país, tema o género.

Corpus del Español – (tras 10–15 consultas hay que registrarse para seguir usando el corpus) (Davies 2002–) – 20 millones para el siglo XX (en total 100 millones) – M. Davies (Universidad de Brigham Young) – Varios países de habla hispana – Proyecto finalizado (2007) El Corpus del Español contiene textos desde el siglo XIII hasta el siglo XX. Los textos del siglo XX se subdividen en 4 registros (ficción, periódicos, oral, académico) que abarcan cada uno 5 millones de palabras. La parte oral comprende discursos y entrevistas codificados, así como corpus cedidos al Corpus del Español (por ej. CORLEC). La interfaz de consultas permite hacer búsquedas de (partes de) palabras, grupos de palabras y colocaciones. Permite la búsqueda mediante comodines, lemas y etiquetaje morfosintáctico (POS). Puede restringirse la consulta según el siglo y según el registro para el siglo XX. En cambio, no son posibles las búsquedas dentro de periodos más precisos (dentro de un mismo siglo), ni las búsquedas por variedad geográfica o por autor. Para la parte oral, no hay acceso a las grabaciones sonoras. Corpus del Español Actual (CEA) – (Subirats/Ortega 2012) – 540 millones – C. Subirats y M. Ortega (Universidad Autónoma de Barcelona) – No hay variante geográfica específica – Proyecto finalizado

150

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

El CEA, elaborado dentro del proyecto Spanish Framenet, reúne tres subcorpus: 1) la parte española del corpus paralelo esp.–ingl. Europarl (1996–2010); 2) la parte española del Wikicorpus 1.0, que contiene una parte importante de Wikipedia (2006); 3) la sección en esp. del MultiUN: Multilingual UN Parallel Text (2000–2009), un corpus integrado por resoluciones de la ONU. El corpus está lematizado y provisto de etiquetado POS.1 El soporte de consultas permite realizar búsquedas de palabras (eventualmente con comodines), lemas o construcciones (mediante el uso de expresiones regulares), hacer cálculos de frecuencias y crear listas de colocaciones. Los resultados de las búsquedas se pueden descargar. SOL – Spanish Online – – 3.7 millones – Universidad de Gotemburgo. Coordinación: D. Mighetto (Universidad Autónoma de Madrid) – Esp. europeo – Proyecto finalizado (2001)

El corpus SOL reúne tres subcorpus, dos escritos y uno oral. La parte escrita consta de 11 novelas españolas de los años 1951–1971 (1 millón de palabras), y de textos periodísticos de El País y Triunfo (1.9 millones de palabras). La parte oral consta de unas 800.000 palabras del corpus CORLEC (cf. infra). El motor de búsqueda permite consultar (secuencias de) palabras mediante comodines. No hay etiquetaje, ni acceso a las grabaciones sonoras para la parte oral. LEXESP – Léxico informatizado del español – Cederrón (Sebastián et al. 2000); parcialmente disponible en – 5 millones – Coordinación: N. Sebastián Gallés – Esp. europeo y 10% esp. hisp.am. (textos narrativos y ensayísticos) – Proyecto finalizado

El corpus LEXESP cubre los años 1978–1995 y reúne textos narrativos (40%), textos científicos (10%), ensayos (10%), textos de prensa (25%), prensa deportiva (5%) y semanarios (10%). El programa CORCO, que viene con el corpus en el cederrón, posibilita la búsqueda de (colocaciones de) palabras, lemas, categorías y frecuencias; los ficheros con los textos del corpus se pueden consultar mediante otros entornos de programación.

1 Las etiquetas POS se pueden consultar en .

151

Panorama de los corpus y textos del español peninsular contemporáneo

1.1.2 Bases de datos con finalidad de búsqueda específica Archivo de Textos Hispánicos de la Universidad de Santiago (Arthus) – Proyecto ADESSE – – 1.1 millones para el esp. peninsular (1.45 millones en total) – Universidad de Santiago de Compostela y Universidad de Vigo – Esp. europeo y esp. hisp.am. – Corpus Arthus finalizado

Arthus forma la base para el proyecto ADESSE: Base de datos de Verbos, Alternancias de Diátesis y Esquemas Sintáctico-Semánticos del Español, que es una versión ampliada de la Base de Datos Sintácticos del esp. actual (García-Miguel/González Domínguez/Vaamonde 2010). El corpus cubre los años 1980–1990; contiene textos narrativos (37%), ensayos (18%), textos teatrales (15%), prensa (12%), y textos orales (19%). El diseño del motor de búsqueda permite investigar esquemas sintácticos de los V esp.: gracias al etiquetaje semántico y sintáctico, se pueden hacer consultas de V y de las construcciones semántico-sintácticas en las que aparece y recuperar los ejemplos. La búsqueda se puede hacer por lema o por esquema semántico-sintáctico. Así, este proyecto se revela útil para estudios lingüísticos sobre los V y los esquemas sintácticos en los que aparecen, pero no se adecua fácilmente a otros tipos de investigación. Corpus SenSem Español – (consulta online); (descarga) – 30.000 oraciones (aprox. un millón de palabras) – Grupo de Investigación Interuniversitario en Aplicaciones Lingüísticas (GRIAL), con miembros de cuatro universidades (Universidad Autónoma de Barcelona, Universitat de Barcelona, Universidad de Lleída, Universitat Oberta de Catalunya) – Esp. europeo – Corpus finalizado El Corpus SenSem Español (anteriormente Corpus Grial) y el Corpus SenSem Español – Anotación semántica de nombres y adjetivos son corpus manualmente anotados con finalidad de búsqueda semántico-sintáctica (Alonso et al. 2007). Ambos corpus están pendientes de ser fusionados en un solo recurso. Consisten en 30.000 frases sueltas, que forman una muestra aleatoria de 125 frases para cada uno de los 250 V más frecuentes del esp. Las frases provienen de un corpus fuente constituido por textos de El Periódico y de algunos textos literarios esp.). El corpus está etiquetado extensamente, de acuerdo con el sentido del V, la categoría y función sintáctica, el rol semántico de los participantes y la semántica oracional (información aspectual, modalidad, polaridad, información construccional, cf. entre otros Vázquez/Fernández (2008,

152

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

2010). La interfaz de consulta en la Red está diseñada para hacer búsquedas según estos parámetros, pero también permite hacer consultas de palabras sueltas. Por su parte, el Corpus SenSem Español – Anotación semántica de nombres y adjetivos está lematizado y contiene etiquetación semántica de los subst. y adj. argumentales, según el sistema EuroWordnet (). Annotated Corpora – Español (AnCora-ES) – (consulta online); descarga en formato xml tras crear una cuenta – 0.5 millón de palabras – Centre de Llenguatge i Computació de la Universitat de Barcelona, Grup de Processament del Llenguatge Natural de la Universitat Politècnica de Catalunya, Grupo de Investigación en Procesamiento del Lenguaje Natural y Sistemas de Información de la Universitat d'Alacant, Lengoaia Naturalaren Prozesamendurako Ixa taldea de la Euskal Herriko Unibertsitatea – Esp. europeo – Proyecto finalizado AnCora-ES (y su versión elaborada IARG-AnCora) consta mayoritariamente de textos periodísticos (de El Periódico y de la agencia de prensa EFE) y de una pequeña parte (75.000 palabras) del corpus LexEsp (cf. supra) (Taulé/Martí/Recasens 2008; Taulé et al. 2012). Está lematizado y anotado para el estudio de esquemas sintácticos y semánticos (estructura argumental, también de argumentos implícitos,2 clase semántica verbal, sust. deverbales, entidades nombradas, relaciones de correferencia, referencia a significados de WordNet). La interfaz de consultas permite investigar varios niveles lingüísticos (morfosintáctico: etiquetaje POS, función gramatical, semántica), y buscar estructuras de palabras o de lemas sueltos. El buscador permite buscar secuencias de palabras y da apenas el contexto de una oración, pero los textos completos se encuentran en ficheros descargables.

1.2 Corpus orales 1.2.1 Proyectos y corpus panhispánicos y peninsulares Corpus Oral de Referencia del Español Contemporáneo (CORLEC) – (descarga) – 1.100.000 palabras transcritas

2 Véase sobre la ampliación del corpus con la anotación de argumentos implícitos de nominalizaciones deverbales.

Panorama de los corpus y textos del español peninsular contemporáneo

– – –

153

Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid. Coordinación: F.A. Marcos Marín Diferentes variantes del esp. peninsular Proyecto finalizado (1992)

CORLEC forma una colección de transcripciones de diversos géneros textuales orales: administrativos, políticos, científicos, conversacionales o familiares, educativos, jurídicos, periodísticos, debates, documentales, entrevistas, etc. Los textos incluidos cumplen con los criterios de espontaneidad y autenticidad y son representativos del lenguaje estándar. El corpus contiene información sociolingüística básica sobre los hablantes (sexo, género, profesión, localización geográfica). La transcripción, ortográfica, se basa parcialmente en TEI3 e incluye etiquetaje paralingüístico (vacilaciones, palabras cortadas, errores de producción). No hay acceso a las grabaciones. El corpus está disponible también como subcorpus en SOL y CREA (cf. supra). PILEI y el Macrocorpus de la norma lingüística culta de las principales ciudades de España y América (MC-NC) El Proyecto de estudio coordinado de la norma lingüística culta de las principales ciudades de Iberoamérica y de la Península Ibérica nació en el segundo simposio del Programa Interamericano de Lingüística y Enseñanza de Idiomas (PILEI). En 1964, J.M. Lope Blanch tomó la iniciativa de documentar y estudiar el habla culta de la segunda mitad del siglo XX de las grandes ciudades hispanohablantes de América y, más tarde, de Europa (Madrid y Sevilla) (Rabanales 1992). Los diferentes subcorpus se realizaron según una metodología común: combinan cuestionarios (léxicos) con entrevistas individuales secretas y no secretas sobre distintos temas (vida, familia y profesión del informante, costumbres locales, etc.). El muestreo se compuso según los parámetros edad, sexo y nivel sociocultural del entrevistado. La transcripción es ortográfica; sin embargo, la transliteración no es homogénea a través de los diferentes corpus. La mayoría de los textos se publicaron en papel, lo cual dificulta a veces el acceso a algunos de los materiales. No hay acceso a las grabaciones. Los subcorpus peninsulares se han publicado como libro (para Madrid: Esgueva/Cantarero 1981; para Sevilla: Pineda 1983; véase ↗ 9. Español hispano-americano para más información sobre la parte hisp.am.). En 1998 se publica en cederrón el Macrocorpus de la norma lingüística culta de las principales ciudades de España y América (Samper/Hernández Cabrera/Troya 1998): – Publicación en cederrón – 84h de grabación transcritas – Coordinación: J.A. Samper Padilla

3 El Text Encoding Initiative es un consorcio que desarrolla y mantiene una norma estándar para la representación de textos digitalizados.

154

– –

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

12 ciudades hispánicas. Variantes europeas: Madrid, Sevilla y Las Palmas de Gran Canaria Proyecto finalizado (1998)

El MC-NC – incorporado también en CREA (cf. supra)– recoge una selección del material del proyecto PILEI, complementada con dos corpus (San José de Costa Rica y Las Palmas de Gran Canaria). El mismo material se ha revisado según una serie de criterios uniformes y se ha ampliado con más entrevistas (Samper Padilla 2005). El cederrón contiene 14 entrevistas semidirigidas individuales de media hora para cada una de las 12 ciudades incluidas. Da acceso a los textos transcritos, pero no a las grabaciones. Se incluye información sobre la edad y el sexo de los informantes, que son todos de nivel sociocultural alto. La transcripción es ortográfica; no incluye rasgos paralingüísticos. Proyecto para el Estudio Sociolingüístico del Español de España y de América (PRESEEA) – Parte del corpus está editada en papel, otra en cederrón, otra queda inédita. En el futuro la mayoría de las transcripciones y grabaciones estarán disponibles en – Objetivo: 10 millones de palabras transcritas – Universidad de Alcalá. Coordinación: F. Moreno Fernández – Diferentes variantes americanas y europeas (para Europa: Alcalá de Henares, Barcelona, Cádiz, Granada, Madrid, Málaga, Santiago de Compostela, Sevilla, Valencia y Zaragoza) – Proyecto en curso (1995–) PRESEEA agrupa a cerca de 40 equipos de investigación sociolingüística, y tiene como objetivo documentar el habla popular de las ciudades principales del mundo hispánico adoptando una metodología homogénea. El corpus recoge conversaciones semidirigidas que se realizaron a partir de módulos temáticos (la familia, la economía, etc.) (Moreno 2005). La transcripción es ortográfica, se basa en el sistema SGML4 y sigue las normas del TEI. Las transliteraciones incluyen rasgos orales (repeticiones, silencios, vacilaciones, cambios de turno, etc.) y extralingüísticos (risas, ruidos, etc.). Para Madrid y Montevideo, las grabaciones y transcripciones están disponibles en la página web y se pueden consultar a través de un buscador. El buscador incluye los parámetros sexo, edad y nivel de estudios. No prevé el uso de comodines. Parte del corpus queda inédita o es de difícil acceso (ya que son ediciones realizadas por casas editoriales locales), pero este déficit se resolverá en el futuro

4 El Standard Generalized Markup Language es una lengua informática estándar de codificación de textos.

Panorama de los corpus y textos del español peninsular contemporáneo

155

(mediante el sitio web). El siguiente cuadro presenta las fases de compilación y publicación para los subcorpus ibéricos (marzo de 2014):5

Ciudad

coordinador/a6

extensión

Publicación

Alcalá de Henares

F. Moreno Fernández et al.

53h de grabación

3 vol. (libro y cederrón) (Moreno et al. 2002; 2005; 2007)

Barcelona

A. Torres Torres

Recogida de material y transcripción en curso

Cádiz

M. Casas Gómez; L. Escoriza Morera

Recogida de material en curso

Granada

J. A. Moya Corral

39h de grabación

3 vol. (libro y cederrón) (Moya Corral 2007; 2008; 2009)

Lérida

M. Ángeles Calero

36 entrevistas

Recogida de material y transcripción en curso

Madrid (barrio de Salamanca y de Vallecas)

F. Moreno Fernández et al.

53h de grabación (por cada barrio)

1 vol. (Cestero et al. 2012); página web de PRESEEA; parte por desarrollar

Málaga

J. Villena Ponsoda

166h de grabación

3 vol. (libro + cederrón) (Vida Castro 2007; Ávila Muñoz et al. 2008; Lasarte et al. 2008)7

Sevilla

M. Ariza Viguera

Recogida de material en curso

Valencia (PRESEVAL)8

R. Gómez Molina

72 entrevistas, 425.000 palabras

Zaragoza

M.A. Martín Zorraquino

Preparación del proyecto

3 vol. (Gómez Molina 2001; 2005; 2007)

Corpus Oral y Sonoro del Español Rural (COSER) – (consulta) – 1.8 millones de palabras transcritas (situación marzo de 2014) – Coordinación: I. Fernández-Ordóñez – Esp. peninsular rural – Proyecto en curso (1990–) El objetivo de COSER es documentar fenómenos gramaticales típicos del habla rural. Se trata de un corpus abierto que se amplía regularmente mediante nuevas campañas

5 Para la parte representativa del español de América, ↗9 Español hispano-americano. 6 La lista completa de autores y colaboradores se puede consultar en la página web del proyecto. 7 Se ha realizado dentro del proyecto ESESUMA (Estudio Sociolingüístico del Español Urbano de Málaga), que se relaciona con el corpus V.U.M. (véase infra). 8 Para más información sobre el corpus, véase también . Parte del corpus se ha integrado en VAL.ES.CO (cf. infra).

156

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

de encuesta (Fernández-Ordóñez 2011). Las entrevistas (de preferencia con hablantes mayores, de escasa escolarización y naturales del lugar) son semidirigidas y tocan temas de la vida tradicional en el campo. Se puede acceder a las transcripciones y a los audios a través de una lista alfabética de la localización geográfica en un mapa. Cada transcripción menciona información sociolingüística (sexo, edad, nivel social), las circunstancias de la entrevista y los temas tratados. La transcripción es ortográfica; contiene indicaciones de turnos de habla. El banco de datos es útil para investigaciones de las variaciones gramaticales del habla rural. Para tal propósito la página web ofrece una serie de muestras dialectales que ilustran fenómenos particulares (por ej. el uso de vos por os). Corpus Oral de Lenguaje Adolescente (COLA) – (consulta tras petición de contraseña) – 600.000 palabras transcritas; 76h de grabación (situación marzo de 2014) – Universidad de Bergen; Coordinación: A. Myre Jørgensen – Madrid (COLAm, 456.340 palabras) y tres ciudades hisp.am. – Proyecto en curso El COLA trata de documentar el habla juvenil informal (de 13 a 19 años) de Madrid y de tres capitales hisp.am. (Buenos Aires, Santiago de Chile y Guatemala) (Hofland et al. 2005). Las grabaciones se hicieron sin el conocimiento de los participantes. La transcripción es ortográfica y sigue las recomendaciones del TEI. El sitio web permite acceder a los audios; las transcripciones y los archivos de sonido están sincronizados en varios momentos. Los fragmentos de sonido están en formato MP3 o WAV y pueden ser introducidos en otro soporte lógico (como PRAAT) para un análisis fonético más detallado. Cada transcripción está clasificada según los parámetros sociolingüísticos de clase social, sexo, edad y educación. El buscador (en ingl. y noruego) permite realizar búsquedas avanzadas, con base en criterio(s) como el informante, la edad, el sexo o el estatus social del informante o la conversación misma. Se pueden realizar búsquedas por (partes de) palabra, prefijo o sufijo y concordancias particulares. Los resultados de búsqueda se dejan exportar a un archivo Excel. Algunas conversaciones están disponibles en su totalidad.

Corpus Multimodal De Informativos Televisados (COMIT) – (descarga tras petición de contraseña) – 99.000 palabras transcritas; 6h de grabación – Grupo del corpus AnCora (cf. supra) – Lenguaje televisivo esp. europeo – Proyecto finalizado (2002)

Panorama de los corpus y textos del español peninsular contemporáneo

157

COMIT incluye transcripciones descargables de 9 emisiones de telediarios emitidos en España (por TVE 1, La2 y Antena 3). Se propone representar la dimensión audiovisual típica de los telediarios (interacción de los modos visual y sonoro). La transcripción es ortográfica con algunas indicaciones fonéticas e incluye alguna información de elementos paralingüísticos (pausas, entonación descendente/creciente); da información extralingüística sobre las imágenes y los ruidos ambientales que se dan juntos con el discurso transcrito. No incluye motor de búsqueda, ni permite acceder a las grabaciones.

1.2.2 Corpus representativos de determinadas variantes peninsulares 1.2.2.1 La región andaluza En el marco de la dialectología andaluza se han realizado varios proyectos de investigación de documentación dialectal. Abajo se comentan en orden alfabético los proyectos más destacados.9 Corpus del Grupo de Investigación de Lingüística Aplicada (COGILA) – Publicación en libro (Barros García et al. 2012) y cederrón – 36.000 palabras transcritas; 134 minutos de grabación – Universidad de Granada. Coordinación: P. Barros García – Andalucía Oriental – Proyecto finalizado

COGILA reúne 10 conversaciones espontáneas breves entre jóvenes universitarios (17–35 años) procedentes de Andalucía Oriental sobre temas personales (familia, trabajo, etc.). Aparte de un enfoque lingüístico, el corpus tiene un enfoque pedagógico de enseñanza de ELE. Las transcripciones están publicadas en libro; el cederrón da acceso a las grabaciones y a los vídeos. La transliteración es ortográfica y se completa con signos fonéticos y ortográficos que procuran representar la complejidad de la interacción oral (en gran medida según los criterios de VAL.ES.CO, cf. infra). Las transcripciones ofrecen varios metadatos mediante fichas técnicas (sexo, procedencia, nivel de estudios de los informantes, el contexto físico de la grabación, etc.).

9 Los materiales no siempre son fácilmente accesibles. Algunos corpus no se incluyeron por tal motivo: el Corpus del Español Hablado en Jaén (compilado por J.A. Moya Corral entre 1974–1975; conversaciones semidirigidas de 33 informantes) y elEstudio Sociolingüístico de la Ciudad de Granada (HAGA) (compilado por J.A. Moya Corral entre 1995–1998; conversaciones dirigidas de 237 informantes de Granada y otras localidades de la provincia).

158

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

Corpus Lingüístico del Habla de Almería – – 108 entrevistas o 57h de grabación no todas transcritas (situación marzo de 2014); Objetivo: 100h de grabación – Grupo de investigación ILSE (Estudio del Discurso Oral en Español) de la Universidad de Almería. Coordinación: L. Cortés Rodríguez – Almería – Proyecto en curso Este corpus reúne grabaciones realizadas en 40 barrios de Almería. Incluye textos de diferentes situaciones comunicativas, libres y condicionadas (entrevistas, conferencias, clases, emisiones de radio, etc.) (Cortés/Carbonero/Bañón 2006). Las entrevistas, accesibles en el sitio web, se organizan en bloques temáticos; tratan temas variados de la vida cotidiana y las actitudes lingüísticas del participante (i.e. aspectos lingüísticos relacionados con Almería). Las transcripciones son ortográficas; se basan en el sistema SGML y siguen las normas del TEI. El motor de búsqueda da acceso a los audios de las entrevistas, y los clasifica según tres parámetros sociolingüísticos (sexo, edad y nivel sociocultural). Sin embargo, aún no se puede consultar el corpus entero. Formación de Dialectos (FORDIAL) (Fordial-Málaga y Fordial-Granada) – Acceso tras contactar con el Departamento de Lingüística de la Universidad de Málaga – Fordial-Málaga: 71h de grabación; Objetivo: 216 participantes en total. – Grupo de investigación Estudios de Español Actual. Coordinación de FordialMálaga: J.A. Villena – Málaga y Granada – Proyecto en curso El corpus FORDIAL documenta la lengua de hablantes inmigrantes de antecedentes rurales en los núcleos urbanos de Málaga y Granada. El muestreo consta de entrevistas semidirigidas y conversaciones libres (la vida de los participantes, sus migraciones, la casa, etc.) (Villena et al. 2003; Moya Corral/Villena Ponsoda 2005). Su composición se basa en los criterios utilizados para PRESEEA (cf. supra) y se hace en función de la edad, el sexo, el nivel de instrucción y el período de estancia en la ciudad del inmigrante. La transcripción es ortográfica y respeta las normas del TEI.

Vernáculo Urbano Malagueño (V.U.M.) – Corpus integrado en PRESEEA-Málaga (véase supra) – 238h de grabación transcritas – Coordinación: J.A. Villena Ponsoda – Málaga – Proyecto finalizado

Panorama de los corpus y textos del español peninsular contemporáneo

159

El corpus V.U.M., compilado en los años 1990, reúne conversaciones espontáneas e informales de 291 hablantes (entrevistas semidirigidas, discusiones, exposiciones individuales) (Ávila Muñoz 1998). Está elaborado en función de las redes sociales y diferentes áreas de Málaga. La transcripción es ortográfica, respeta las normas del TEI y SGML e incluye anotaciones para determinados aspectos fonéticos (segmentales y suprasegmentales), estilísticos, no verbales y paralingüísticos.

10

1.2.2.2 Corpus representativos de otras variantes peninsulares

Corpus C-ORAL-ROM (parte española) – Cederrón en venta: – 300.000 palabras transcritas – Universidad Autónoma de Madrid. Coordinación: E. Cresti y M. Moneglia – Sobre todo la variante centro-peninsular – Proyecto finalizado La parte española del C-ORAL-ROM se basa en CORLEC (cf. supra). La mitad de los textos representa el registro formal (conferencias, debates, etc.), la otra mitad un registro más bien informal (monólogos, diálogos, conversaciones telefónicas, etc.). Para más datos sobre los objetivos y los criterios de composición del corpus en general, ↗1 Anthologies et corpus pan-romans.

Corpus Oral Didáctico Anotado Lingüísticamente (CORDIAL) – (consulta online); publicación en libro y cederrón (Martínez 2012) – 119.000 palabras transcritas; 6h de grabación – El grupo Lablita (Laboratorio de Lingüística Italiana, Universidad de Firenze). Coordinación: C. Nicolás Martínez – Madrid – Proyecto finalizado CORDIAL está diseñado como recurso para la enseñanza de ELE, pero también resulta útil para investigaciones lingüísticas. Reúne 240 grabaciones espontáneas (diálogos y conversaciones), no espontáneas y públicas (entrevistas, conferencias, etc.) con sus transcripciones ortográficas. La anotación y el etiquetaje siguen en las pautas del C-ORAL-ROM (cf. supra) e incluye rasgos prosódicos, funciones comunicativas y otras

10 Los corpus de difícil acceso no se incluyen aquí. Se trata entre otros del Corpus del Español Oral en Bilbao y área metropolitana (1982–1984; 200h; entrevistas semidirigidas transcritas) y del Corpus de Español Oral en Bilbao (300h; entrevistas semidirigidas transcritas).

160

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

propiedades orales (reformulaciones, pausas, etc.). El corpus incluye información metalingüística sobre los hablantes y el tema de la grabación, así como datos específicos para su utilización en clases de ELE (por ej. nivel de dificultad). El motor de búsqueda online da acceso a los archivos (descargables) tanto de audio como de texto. Los criterios de selección son: tipología de textos, nivel de dificultad, tema y funciones comunicativas. El motor no permite búsquedas por palabras ni por colocaciones específicas. Corpus del español conversacional de Barcelona y su área metropolitana – Publicación en libro (Vila Pujol 2001) – Grupo GRIESBA (Grupo de Investigación del Español de Barcelona). Coordinación: M.R. Vila Pujol – 100 informantes; 10 conversaciones transcritas publicadas – Barcelona – Proyecto finalizado El objetivo de este corpus es documentar y estudiar el conocimiento del castellano de los hablantes bilingües de Barcelona (español-catalán) y medir las interferencias con el catalán (Etxebarria Arostegui/Vila Pujol 2005). Contiene transcripciones ortográficas de conversaciones semidirigidas e informales (cara a cara y telefónicas). La selección de los informantes se hizo según variables sociolingüísticas (clase social, origen geográfico familiar, nivel de instrucción, edad). Las conversaciones se completan con cuestionarios sociolingüísticos sobre el nivel y el uso del catalán y del castellano. La transcripción incluye indicaciones de elementos de la oralidad (pausas, énfasis, interrupciones, etc.) así como intervenciones en catalán. Corpus Oral de Asturias (CODA) – Publicación prevista en papel y en formato digital – Universidad de Oviedo. Coordinación: Álvaro Arias-Cachero – 250h de grabación – Asturias – Proyecto inédito hasta la fecha: material en proceso de transcripción y/o revisión Este corpus del asturiano y del castellano de Asturias contiene varios subcorpus orales, entre los cuales se destacan el Corpus Oral de Oviedo y el Corpus Oral de Gijón, que siguen las directrices del PRESEEA (cf. supra). Contiene tanto conversaciones libres como entrevistas grabadas en entornos rurales y urbanos. La composición toma en cuenta variables sociolingüísticas como el sexo, la edad y el nivel sociocultural de los informantes.

Panorama de los corpus y textos del español peninsular contemporáneo

161

Corpus de Salamanca – Publicación en libro (Fernández Juncal 2005) – Universidad de Salamanca; Coordinación: C. Fernández Juncal – 7h de grabación transcritas – Salamanca (variante centropeninsular) – Proyecto finalizado La composición del corpus de Salamanca se hizo conforme a las normas del MC-NC (cf. supra), sin formar parte de él. Consta de entrevistas semidirigidas de informantes seleccionados en función de criterios sociolingüísticos (sexo, nivel de instrucción, edad, profesión y ciudad de residencia). El corpus no da acceso a las grabaciones. Valencia.Español.Coloquial (Val.Es.Co) – (consulta de la versión actual Valesco 2.0, cf. Cabedo/ Pons Bordería 2013). Publicación en libro de la versión anterior (Briz/Grupo Val. Es.Co 2002). – 341h de grabación; 46 conversaciones transcritas – Grupo Val.Es.Co. Coordinación: A. Briz – Habla de Valencia (ciudad y área metropolitana) – Proyecto en curso El corpus Val.Es.Co incluye conversaciones libres e informales, grabadas en secreto, además de otros géneros orales (grabaciones telefónicas, de radio, de televisión, etc.) (Pons Bordería/Ruiz Gurillo 2005). Además de documentar el habla coloquial espontánea de Valencia, aspira a facilitar el estudio de la estructura de la conversación y sus unidades. Con este objetivo, aplica un sistema de transcripción homogéneo muy detallado (con indicaciones de superposiciones, alternancia de turnos, pausas, entonación, y anotaciones con información extra- y paralingüística como risas, vacilaciones, toses, etc.). La plataforma virtual actual, todavía en versión beta, da acceso a 46 conversaciones transcritas (más de 120.000 palabras). Otras partes del corpus están pendientes de publicación. La página web permite leer conversaciones en su totalidad, que dejan exportarse a ficheros Word, Excel o XML. También es posible buscar partes relevantes del corpus mediante un motor de búsqueda avanzado. Se prevén tres tipos de consulta: (a) búsqueda por intervenciones (filtrado según las características del hablante: sexo, edad, profesión, lengua); (b) búsqueda por grupo entonativo; (c) búsqueda por palabras. Para esta última opción hay lematización y etiquetaje POS mediante el programa Freeling, aunque el etiquetaje todavía se encuentra en proceso de revisión. Para acceder a los audios conviene contactar con el grupo de investigación.

162

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

2 Muestra de textos representativos En el siguiente apartado ejemplificaremos dos de los corpus mencionados arriba, a saber Val.Es.Co y CREA. Esta selección de corpus nos permite en primer lugar contrastar un corpus general (CREA), que incluye ante todo textos escritos, con otro de índole especializada, compuesto para estudiar el lenguaje coloquial (Val.Es.Co; véase Torruella/Llisteri 1999 para una tipología de corpus). Además, CREA abarca diferentes variantes geográficas mientras que Val.Es.Co solo se centra en el habla de la ciudad de Valencia, lo que posibilita esbozar diferencias diatópicas entre las muestras escogidas. Por fin, en Val.Es.Co es posible realizar búsquedas de índole sociolingüística. Esto facilita tanto la investigación diafásica como el sondeo de interferencias entre el cat. y esp. de Valencia (Briz 2004). Examinaremos para dichos corpus dos muestras de textos representativos comentando la variación diatópica, diafásica y diamésica. Sin embargo, es imposible realizar aquí comentarios lingüísticos exhaustivos que incluyan, por ej., un análisis superestructural y macroestructural de los textos. Por lo tanto, nos limitaremos a hacer algunas reflexiones sobre el nivel microestructural, es decir, solo apuntaremos algunos rasgos lingüísticos típicos del lenguaje contenido en ellos.

2.1 El lenguaje oral. Estudio de caso: la conversación informal Val.Es.Co 2.0, conversación 12, intervenciones 73–143. El fragmento analizado proviene de una conversación informal entre amigas, cuyo tema es el examen práctico de conducir. El registro de este texto se sitúa, por ende, en el ámbito coloquial y familiar, lo que se refleja lingüísticamente en la presencia de varios rasgos de oralidad presentes en el nivel microestructural del texto. Además de los rasgos coloquiales, el fragmento manifiesta fenómenos típicos del lenguaje juvenil y de la interferencia del cat., discutidos abajo. Fonéticamente, se advierte la pérdida sistemática de la /d/ intervocálica en los part. p. de la conj. I, como en dao (5), negaos (18), mirao (24), saltao (25), acojonao (30), presentao (49) y entrao (64). Asimismo exhibe este fragmento el uso de una contracción, pa (17), considerada como un vulgarismo, y de varias abreviaturas no estándares, como teleco (8 y 10) y computes (16). También es significativa la aparición de interrupciones entre los interlocutores, lo que causa solapamientos, indicados mediante corchetes ([…] […]). Los procedimientos de intensificación y atenuación igualmente son representativos de la comunicación coloquial (por ej. Cortés Rodríguez/Bañón Hernández 1997a, 56–60). Así se observa en varias ocasiones que se pronuncia una o más palabras de un enunciado con más intensidad para subrayar su contenido semántico-pragmático: por ej. PAVITO (10), cuyo significado irónico está también reforzado por el compl. adnominal con dem. de estos que sigue. En este ejemplo no solo la entonación sirve

Panorama de los corpus y textos del español peninsular contemporáneo

163

para expresar la actitud paternalista sino también el sufijo -ito, que, por tanto, podemos calificar de despectivo. Que el empleo del diminutivo puede desempeñar varias funciones pragmáticas queda plenamente mostrado hacia el final del extracto, donde los sufijos -ito/a(s) (también -ica, véase infra) realizan un papel afectivo en la referencia a la instructora de la autoescuela: gafita(a)s (61 y 67), morenitaa (63), cortito (65 y 67) y bufandita (68). Asimismo, la repetición puede intensificar la expresividad de un enunciado, o simplemente ser una manera para conectar las diferentes secuencias (por ej. 31 y 33 dice «me ha hecho aparcar»; Cortés Rodríguez/ Bañón Hernández 1997b, 66). Entre los fenómenos sintácticos propios del registro coloquial señalamos i) el uso del art. def. con los sust. de parentesco (2 la mamá),11 ii) la posposición del dem. (30 el chico este), iii) la omisión de prep. (4 las cinco y veinte en vez de a las cinco y veinte); iv) la concordancia errónea (3 tranquilos); v) la presencia de oraciones sincopadas (30 le dice// unas aberraciones tíaa↑ que-que- el chico este↑ to(do) acojonao); vi) el uso de oraciones explicativas introducidas por es que (4, 13, 16); y vii) el empleo repetido del estilo directo en estructuras narrativas, en las cuales un verbum dicendi, como decir (o dir en cat.), realiza el paso de una a otra voz (por ej. 20, 25, 31, 33, 38; Blas Arroyo 1999, 112–118). En lo que atañe a la estructura cohesiva del texto se destaca el uso del marcador discursivo pue(s) (1, 13, 25): en ciertos casos funciona como una expresión retardataria, que prepara el terreno para comenzar la comunicación, tal como bueno (1 y 27) (Cabedo Nebot 2014; Estellés/Pons Bordería 2014). Entre las expresiones de cooperación interlocutiva se distinguen los estimulantes conversacionales de las expresiones reguladoras de la alternancia en el turno de palabra. Los mecanismos que indican a otro que el contacto sigue vigente y le permite continuar utilizando el canal, como aah (50), pertenecen a estas, mientras que los vocativos, como tía (por ej. 4, 8, 23), y los comprobativos, con los que un hablante se dirige al interlocutor para pedir su complicidad y reafirmación, como ¿no? (por ej. 3, 23, 31), ¿eh? (42) y ¿ah sí? (74), pueden considerarse como estimulantes conversacionales (Cortés Rodríguez/Bañón Hernández 1997a, 60–63). La edad joven de los interlocutores se revela también en la elección de los ítems léxicos, como animalada(s) (13, 19, 27, 28) y chorradaas (29) (Cortés Rodríguez /Bañón Hernández 1997a, 74) y el tipo de vocativos, por ej. chiquis (1). Por último, cabe destacar la influencia del cat. en los diferentes niveles de la lengua. En el nivel morfológico encontramos el uso del sufijo oriental -ica en bonica (58 y 67). Asimismo, se considera como un catalanismo la construcción sintáctica en la cual una interrog. directa está introducida por que, ya que refleja la estructura de las preguntas directas de respuesta sí/no del cat. que suelen iniciarse por esta

11 Es necesario destacar que las secuencias art. def. con N propio se consideran un catalanismo (Sinner 2004, 233–236).

164

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

partícula: Que tens ganas? ‘¿Tienes hambre?’ (Blas Arroyo 2009, 23–24; Blas Arroyo 2011, 384; Briz 2004, 126; Sinner 2004, 286–288). En el fragmento que nos ocupa aparece esta interferencia dos veces: la primera se observa en una interrog. directa total, es decir, con respuesta sí/no (y ¿qué estábais todos allí esperandoo?, 6), y en la segunda en una interrogativa directa parcial introducida por un pron. interrog. (¿que a qué caduca?, 52). Como Briz (2004, 126) observa, el uso de que al comienzo de estructuras interrog. directas no siempre es átono, como se ejemplifica en la primera ocurrencia. Igualmente, observamos casos de cambio de código, es decir, el uso de dos lenguas por parte de un hablante en el curso de una misma intervención o turno, o en el cambio de una intervención a otra (Blas Arroyo 1999, 69). Estos cambios de código se sitúan tanto en el nivel interoracional, por ej. aparcar diu «AIXINA era el tros que faltava » dice (38), como en el nivel intraoracional, por ej. como el ingenier (11) y pa conduir (17).

5

10

15

20

25

30

C: bueno chiquis↑ pues me voy↑// llamo más tarde me voy a preparar la cena↑ llamo a la mamá↑/ y paso por casa del primo Santi que como/ siempre me vengo con él (()) dice prima ya me lo diráas ¿noo? Y yo síi síi tranquilos// qué alegría / es que nos ha- nos han hecho de rogaar↑ tíaa↑ las cinco y veinte que nos han d- dao las no[tas] B: [y ¿qué] estábais todos allí esperandoo?§ C: §no↓ solo estábamos los que creíamos que estábamos apro(bados) A: (()) tía/ cuéntale lo del (()) había↓ tenía uno↑ de teleco§ C: §eh- ese- ese que te he dicho yo que ha suspendido que se lo han dicho seguro↓ et- ee- era de teleco↓ típico PAVITO/ de estos§ A: § mari como [el ingenier] […] C: [pues eso] resulta que hacía cada animalada conduciendoo↑ es que cuandoél ya ha venido conmigo↓ ya había hecho las prácticas↑ y yo no lo he visto haciendo esas burradas↑ A: es que hay algunos computes que/ que/ [que/] C: [pa conduir/]§ A: § a nivel habi- de habilidades son muy [(negaos)] C: [y nada] y me contaba el otro chico allí esperando las animaladas que ha hecho// él iba dice tuerce a la derecha↓ y el tío TO(D)O RECTO ↓/// le he dicho a la derecha ¡ah! A: (RISAS) B: tía qué fuerte ¿no? C: y luego le decía la instructora no has mirao ni un- un cruce a la derecha/ tee has saltao todo/ ¿mirabas hacia la izquierda? y dice ¡claro! y dice pue¿tú no sabes que la preferencia se tiene a la derecha↓? A: bueno/ unas animaladas [pero]= C: [unas animalad-] A: = y encima aún le dice [salen del examen/ unas chorradaas↑] C: [le dice// unas] aberraciones tíaa↑ que-que- el chico este↑ to(do) acojonao/ ¿no?/ y dice Emilio dice me ha hecho apar[car] A: [este] instructor

Panorama de los corpus y textos del español peninsular contemporáneo

35

40

45

50

55

60

65

165

C: y dice↓ me ha hecho aparcar// eso es buena señal [¿no?] A: [aay↑] todavía creía que iba a aprobar, tía B: qué iluso ¿no? C: y Emilio [(())] A: [(())] no te hagas ilusiones C: aparcar diu AIXINA era el tros que faltava dice/ buen- HORRIBLE dice lo ha he[cho (())] A: [y todavía] aún le di- sale/ todo convencido de que iba a aprobarle↑ C: dice [con esperanza] A: [(())] me partía [¿eh?/ me partía]= B: [tía ///°qué fuerte°] A: = yo digo estee↑ C: pero qué to- noo/ he tenido un fallito me decía B: pero yo qué [sé pero yo no sé↑]= C: (()) B: = tantas- si tienen tantos fal- fa- mm- o sea si tienen tantas fal[tas pues] C: [¿sabes por qué] se ha presentao? porque le caducaba el teórico B: aah C: [(()) ya es la segunda vez] B: pero ¿que a qué caduca? ¿a los tres meses? C: si o a los seis/ sí A: pero coño si sabes que te va a caducar [prepáratelo bien↑]= C: [prepáratelo] C: [(())] la instructora que venía hoy conmigo/ Marii↑ A: se necesita [tener una]= C: [°qué cosa más bonica°] A: = PACIENCIA y una [°(())°] C: [CARIÑO] / VENGA/ HAZLO BIEN / °tú tranquila / [(sigamos)°] A: [¿es la de gafitaas?] C: sí / [una-] A: [¿more]nitaa? C: sí / de hooy↑ ah pero no- ¿no la has [visto cuando ha entrao?] A: [la que estaba de pelo cortito] B: [la que- síi] A: ¿que es muy monin- que es muy bonicaa?// pelo cortito moreno con gafitas

2.2 El lenguaje escrito. Caso de estudio: la noticia Corpus de Referencia del Español Actual (CREA), España, Madrid, diario El Mundo, 09/12/2004, Más de 40 llamadas alertaron al 112. La noticia, el género periodístico por excelencia, se reconoce fácilmente tanto por la composición de información como por los rasgos lingüísticos que exhibe. En cuanto a su composición, demuestra la denominada pirámide invertida, metáfora usada para el método de estructurar el contenido de mayor a menor importancia (Pountain 2003, 184). Dada la estructura de la pirámide invertida, los titulares desempeñan un papel importante al evocar la información más relevante del relato: en este caso, se ubica en

166

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

el subtítulo que informa que un conductor suicida causó la muerte de una pareja por conducir en sentido contrario. En esta noticia, el titular, al contrario, contiene información periférica que sirve para captar la atención del lector. Luego, el primer párrafo, también llamado la entrada, repite la información dada en el subtítulo y la amplía con datos sobre el lugar del accidente y el rescate heroico de los demás pasajeros por un camionero. Los demás párrafos completan la información básica y afinan de manera minuciosa los detalles del suceso. El estilo típico de la prensa deriva de diferentes requisitos de este género, que resultan a veces incompatibles. En concreto, el lenguaje periodístico pretende, ante todo, informar, y tiene que cumplir este objetivo de manera clara, concisa y atrayente. En primer lugar, esto se refleja lingüísticamente en una sintaxis sencilla y transparente, en la cual predomina el orden SVO. Segundo, las frases son relativamente cortas, al contrario de otros géneros escritos, como el lenguaje judicial. Aparte de la coord., también se usa la subord., sobre todo del tipo rel. y adv. El uso de construcciones absolutas, como en al circular (3), al colisionar (7) y al ver (28), y de frases con part., como en envuelto en llamas (10) y alertada de la existencia (45) no solo permiten variar con las subord. adv. y las rel. sino que facilitan también la concisión de expresión. Este último requisito lo cumple también el empleo de la prep. tras en vez de después de, como en tras cortar (10), tras el golpe (23) y tras ver (29). En cuanto a la morfología verbal, prevalece la pers. 3 sg./pl. y el pret., por ej. alertaron (1), lograron (9), rescató (10), se produjo (14), murieron (24), aunque se usa en el subtítulo el pres. histórico provoca (3). Otros rasgos típicos de los géneros escritos en general son el uso de la pas. con ser (fue presenciado, 27), y de nominalizaciones en vez de estructuras verbales (conducción, 20; Pountain 2003, 184). El fragmento demuestra igualmente el deseo del periodista de captar la atención del lector no solo con los títulos sino también en el cuerpo de la noticia mediante un léxico variado, por ej. los sinónimos kamikaze (24) – conductor suicida (25); pareja (7) – matrimonio (8); turismo (8) – vehículo (10) – coche (21); siniestro (9) – accidente (14); había golpeado (20s.) - colisionó (21) – chocó (40); una patrulla de la Guardia Civil (44) – al vehículo de las fuerzas de seguridad (46s.), y el uso de adj. valorativos como en terrible siniestro (9), conducción temeraria (20) y siniestra trayectoria (47). Aparte de los rasgos característicos para el género periodístico escrito, señalamos el leísmo (frenarle 46) como propiedad del esp. madrileño. Más de 40 llamadas alertaron al 112 Un «kamikaze» provoca la muerte de una pareja al circular en sentido contrario por la carretera de Burgos 5 Un «kamikaze» que circulaba en sentido contrario por la A-1 (carretera de Burgos) ha provocado la muerte de una pareja, y la suya propia, al colisionar con un turismo que circulaba correctamente. Los dos hijos del matrimonio, de cuatro y seis años, lograron salir con vida de este terrible siniestro gracias a un

Panorama de los corpus y textos del español peninsular contemporáneo

10

15

20

25

30

35

40

45

167

camionero, que les rescató del vehículo, envuelto en llamas, tras cortar con un cuchillo sus cinturones de seguridad. El niño se encuentra herido grave y su hermana, leve. El accidente se produjo en el kilómetro 54,600 de la vía a las 23.50 horas de este miércoles, pocos minutos después de que Emergencias 112 recibiera más de 40 llamadas que alertaban de la presencia de un Seat Ibiza que circulaba desde el kilómetro 42 en sentido contrario por la A-1, es decir, hacia la salida de Madrid en lugar de hacia la entrada. Después de 12 kilómetros de conducción temeraria, el Seat Ibiza, que había golpeado dos kilómetros antes a otro coche sin provocar heridos, colisionó frontalmente con un Renault Safrane, en el que viajaba una pareja con dos niños de cuatro y seis años. Los dos turismos se incendiaron tras el golpe, y tres personas murieron calcinadas, entre ellas el presunto «kamikaze». Tanto el padre como el conductor suicida tenían unos 40 años de edad. El accidente fue presenciado por dos camioneros que circulaban en sentido contrario, y que al ver que los coches ardían acudieron a intentar sofocar las llamas con los extintores. Tras ver que no podían acabar con el fuego, uno de ellos rompió con un cuchillo los cinturones de seguridad que sujetaban a los pequeños y los arrastró fuera del coche cuando las llamas ya les alcanzaban, indicó el portavoz de Emergencias 112 a elmundo.es. Una UVI del Summa trasladó a los menores al hospital madrileño de La Paz. La niña presentaba «una fractura en el fémur y en ambas muñecas», mientras que el niño tenía «quemaduras de tercer grado en un pie» e ingresó en estado «muy grave», según una fuente de Emergencias 112. La Guardia Civil se ha hecho cargo de la investigación del accidente, en la que hubo un tercer vehículo implicado, un Audi A4 que chocó con los dos primeros, pero en el que no hubo víctimas, informaron fuentes de la Benemérita. Una patrulla de la Guardia Civil que se encontraba en el kilómetro 52 de la A-1, sentido Irún, alertada de la existencia del conductor suicida cambió de sentido para tratar de frenarle. Sin embargo, éste logró evitar al vehículo de las fuerzas de seguridad y proseguir su siniestra trayectoria, que acabó apenas unos kilómetros después de forma trágica.

En síntesis, los análisis de los dos fragmentos exponen cómo se diferencian los géneros textuales y orales a base de la presencia/ausencia de ciertos fenómenos lingüísticos tanto en el nivel fonético, léxico-semántico y morfosintáctico, como en el nivel discursivo-pragmático.

168

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

3 Bibliografía 3.1 Corpus Ávila Muñoz, Antonio Manuel/Lasarte Cervantes, María/Villena Ponsoda, Juan Andrés (edd.) (2008), El español hablado en Málaga II. Corpus oral para su estudio sociolingüístico. Nivel de estudios medio, Málaga, Editorial Sarriá. Barros García, Pedro, et al. (edd.) (2012), COGILA. Español oral conversacional: corpus y guía didáctica, Granada, EUG. Briz, Antonio/Grupo Val.Es.Co. (edd.) (2002), Corpus de conversaciones coloquiales, Madrid, Arco Libros. Cabedo, Adrián/ Pons Bordería, Salvador (edd.) (2013), Corpus VAL.ES.CO 2.0., (21.03.2014). Cestero, Ana María/Molina Martos, Isabel/Paredes García, Florentino (edd.) (2012), La lengua hablada en Madrid. Corpus PRESEEA-MADRID (distrito de Salamanca). I. Hablantes de Instrucción Superior, Alcalá de Henares, Universidad de Alcalá. Davies, Mark (2002–), Corpus del Español: 100 million words, 1200s–1900s, (21.03.2014). Esgueva, Manuel/Cantarero Margarita, (edd.) (1981), El habla de la ciudad de Madrid. Materiales para su estudio, Madrid, Consejo Superior de Investigaciones Científicas. Fernández Juncal, Carmen (ed.) (2005), Corpus de habla culta de Salamanca, Burgos, Instituto Castellano y Leonés de la Lengua. Gómez Molina, José Ramón (coord.) (2001), El español hablado de Valencia. Materiales para su estudio. I. Nivel sociocultural alto, Valencia, Universitat de València. Gómez Molina, José Ramón (coord.) (2005), El español hablado de Valencia. Materiales para su estudio. II. Nivel sociocultural medio, Valencia, Universitat de València. Gómez Molina, José Ramón (coord.) (2007), El español hablado de Valencia. Materiales para su estudio. III. Nivel sociocultural bajo, Valencia, Universitat de València. Lasarte Cervantes, María, et al. (edd.) (2008), El español hablado en Málaga III. Corpus oral para su estudio sociolingüístico. Nivel de estudios superior, Málaga, Editorial Sarriá. Martínez, Carlota Nicolás (ed.) (2012), Corpus C-Or-DiAL (Corpus Oral Didáctico Anotado Lingüísticamente), Madrid, Liceus. Moreno, Francisco, et al. (edd.) (2002), La lengua hablada en Alcalá de Henares. Corpus PRESEEA – Alcalá. I. Hablantes de instrucción superior, Alcalá de Henares, Universidad de Alcalá. Moreno, Francisco, et al. (edd.) (2005), La lengua hablada en Alcalá de Henares. Corpus PRESEEA – Alcalá. II. Hablantes de instrucción media, Alcalá de Henares, Universidad de Alcalá. Moreno, Francisco, et al. (edd.) (2007), La lengua hablada en Alcalá de Henares. Corpus PRESEEA – Alcalá. II. Hablantes de instrucción primaria, Alcalá de Henares, Universidad de Alcalá. Moya Corral, Juan Antonio (coord.) (2007), El español hablado en Granada. Corpus oral para su estudio sociolingüístico. I. Nivel de estudios alto, Granada, EUG. Moya Corral, Juan Antonio (coord.) (2008), El español hablado en Granada. Corpus oral para su estudio sociolingüístico. II. Nivel de estudios medio, Granada, EUG. Moya Corral, Juan Antonio (coord.) (2009), El español hablado en Granada. Corpus oral para su estudio sociolingüístico. III. Nivel de estudios bajo, Granada, EUG. Pineda, Miguel Ángel (ed.) (1983), Material de encuestas para el estudio del habla urbana culta de Sevilla, Sevilla, Universidad de Sevilla. Real Academia Española (RAE), Banco de datos (CREA) (en línea). Corpus de referencia del español actual, (21.03.2014).

Panorama de los corpus y textos del español peninsular contemporáneo

169

Samper Padilla, José Antonio/Hernández Cabrera, Clara Eugenia/Troya Déniz, Magnolia (1998), Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH), Las Palmas de Gran Canaria, Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria-ALFAL. Subirats, Carlos/Ortega, Marc (2012), Corpus del Español Actual, (21.03.2014). Vida Castro, Matilde (ed.) (2007), El español hablado en Málaga. Corpus oral para su estudio sociolingüístico, I Nivel de estudios bajo, Málaga, Editorial Sarriá. Vila Pujol, María Rosa/Grupo GRIESBA de la Universitat de Barcelona (edd.) (2001). Corpus del español conversacional de Barcelona y su área metropolitana, Barcelona, Edicions Universitat de Barcelona.

3.2 Fuentes secundarias Alonso, Laura, et al. (2007), The SenSem Project: Syntactico-Semantic Annotation of Sentences in Spanish, in: Nicolas Nicolov (ed.), Recent Advances in Natural Language Processing IV: Selected Papers from RANLP 2005, Amsterdam/Philadelphia, Benjamins, 89–98. Ávila Muñoz, Antonio Manuel (1998), Elaboración, anotación y análisis el Corpus Oral del Proyecto V. U.M. Léxico de frecuencia del español hablado en la ciudad de Málaga, Málaga, Universidad de Málaga. Blas Arroyo, José Luis (1999), Lenguas en contacto: consecuencias lingüísticas del bilingüismo social en las comunidades de habla del este peninsular, Madrid/Frankfurt am Main, Iberoamericana/ Vervuert. Blas Arroyo, José Luis (2009), Materiales para la descripción sociolingüística del español hablado en Castellón, in: José Luis Blas Arroyo/Beatriz Navarro Morales/Juan Carlos Casañ Núñez (edd.), Corpus sociolingüístico de Castellón de la Plana y su área metropolitana, Castellón de la Plana, Universitat Jaume I, 7–52. Blas Arroyo, José Luis (2011), Spanish in Contact with Catalan, in: Manuel Díaz-Campos (ed.), The Handbook of Hispanic Sociolinguistics, Oxford, Wiley-Blackwell, 374–394. Briz, Antonio (2004), El castellano de la Comunidad Valenciana, Revista Internacional de Lingüística Iberoamericana 2:4, 119–129. Briz Gómez, Antonio/Albelda Marco, Marta (2009). Estado actual de los corpus de lengua española hablada y escrita: I+D. El español en el mundo. Anuario de del Instituto Cervantes 2009, (21.03.2014) Cabedo Nebot, Adrián (2014), On the delimitation of discursive units in colloquial Spanish: Val.Es.Co application model, in: Salvador Pons Bordería (ed.), Models of Discourse Segmentation. Explorations across Romance Languages, Amsterdam/Philadelphia, Benjamins, 157–183. Cortés Rodríguez, Luis/Bañón Hernández, Antonio-M. (1997a), Comentario lingüístico de textos orales: I. Teoría y práctica (La tertulia), Madrid, Arco/Libros. Cortés Rodríguez, Luis/Bañón Hernández, Antonio-M. (1997b), Comentario lingüístico de textos orales: II. El debate y la entrevista, Madrid, Arco/Libros. Cortés, Luis/Carbonero, Pedro/Antonio Bañón (2006), Corpus para el estudio de las hablas andaluzas I. El corpus del habla de Sevilla y el corpus del habla de Almería, Oralia 8, 161–188. Estellés, Maria/Pons Bordería, Salvador (2014), Absolute initial position, in: Salvador Pons Bordería (ed.) Models of Discourse Segmentation. Explorations across Romance Languages, Amsterdam/ Philadelphia, Benjamins, 121–155. Etxebarria Arostegui, Maitena/Vila Pujol, María Rosa (2005), Corpus para el estudio de las interferencias lingüísticas: los corpus de Barcelona, Lérida y Bilbao, Oralia 8, 213–242.

170

Renata Enghels, Clara Vanderschueren et Miriam Bouzouita

Fernández-Ordóñez, Inés (2011), Nuevos horizontes en el estudio de la variación gramatical del español: el Corpus Oral y Sonoro del Español Rural, in: Germà Colón Domènech/ Gimeno Betí, Lluís, (edd.), Noves tendències en la dialectologia contemporània, Castelló de la Plana, Universitat Jaume I, 173–203. García-Miguel, José M./González Domínguez, Fita/Vaamonde, Gael (2010), ADESSE. A Database with Syntactic and Semantic Annotation of a Corpus of Spanish, Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC), Valletta, (21.03.2014). Hofland, Knut et al. (2005), COLA: a Spanish spoken corpus of youth language, (24.03.2014). Moreno, Francisco (2005), Corpus para el estudio del español en su variación geográfica y social. El corpus PRESEEA, Oralia 8, 123–139. Moya Corral, Juan Antonio/Villena Ponsoda, Juan Andrés (2005), Corpus para el estudio de las hablas andaluzas II: los corpus de Málaga, Granada y Jaén, Oralia 8, 189–212. Pons Bordería, Salvador/Ruiz Gurillo, Leonor (2005), Corpus para el estudio de la conversación coloquial. El corpus VAL.ES.CO (Valencia.Español.Coloquial), Oralia 8, 243–263. Pountain, Christopher (2003), Exploring the Spanish Language, London, Arnold. Rabanales, Ambrioso (1992), Fundamentos teóricos y pragmáticos del «Proyecto de estudio coordinado de la norma lingüística culta del español hablado en las principales ciudades del mundo hispánico», Boletín de Filología de la Universidad de Chile 33, 251–272. Real Academia Española (RAE) (s.d.), El Corpus del Español del Siglo XXI (CORPES), (19.03.2014). Samper Padilla, José Antonio (2005), Macrocorpus para el estudio de la norma lingüística culta, Oralia 8, 105–122. Sebastián Gallés, Nuria, et al. (2000), LEXESP: Léxico informatizado del español, Barcelona, Edicions de la Universitat de Barcelona. Sinner, Carsten (2004), El castellano de Cataluña, Tübingen, Niemeyer. Taulé, Mariona/Martí, M. Antònia/Recasens, Marta (2008), Ancora: Multilevel Annotated Corpora for Catalan and Spanish, Proceedings of 6th International Conference on Language Resources and Evaluation, Marrakesh, (21.03.2014). Taulé, Mariona et al. (2012), IARG-AnCora: Anotación de los corpus AnCora con argumentos implícitos, Procesamiento del Lenguaje Natural 49, 181–184, (31.03.2014). Torruella, Joan/Llisteri, Joaquim (1999), Diseño de corpus textuales y orales, in: José Manuel Blecua et al. (edd.), Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona, Editorial Milenio, 45–77. Vázquez, Gloria/Fernández Montraveta, Ana (2008), Annotation de corpus: Sur la délimitation des arguments et des adjoints, SKY Journal of Linguistics 21, 243–269. Vázquez, Gloria/Fernández Montraveta, Ana (2010), Propuesta de análisis del significado oracional por niveles, Actas del IX Congreso de Lingüística General, Valladolid, Universidad de Valladolid, 2336–2348. Villena, Juan Andrés et al. (2003), Proyecto de investigación de la formación de dialectos (FORDIAL), Estudios de lingüística 17, 607–638.

Lihat lebih banyak...

Panorama de los corpus y textos del español peninsular contemporáneo

Descripción

Comentarios