INGLÉS TÉCNICO-CIENTÍFICO: USO DE COMBINACIONES LÉXICAS RECURRENTES (CLR) EN UN CORPUS UN CORPUS DE ARTICULOS DE INVESTIGACIÓN DE CIENCIAS EXPERIMENTALES

Share Embed


Descripción

Inglés técnico-científico: Uso de combinaciones léxicas Recurrentes (CLR) en un corpus un corpus de articulos de investigación de ciencias experimentales

Nombres: Silvia C. Beck
Analía V. Gozzarino
Institución: Universidad Nacional de Río Cuarto
Dirección electrónica: [email protected]
[email protected]

Abstract
La fluidez en la producción lingüística está dada, entre otras cosas, por el uso apropiado de combinaciones léxicas recurrentes (CLR). Estas expresiones, llamadas 'clusters' o 'bundles' en inglés y que contribuyen a la construcción del significado y a la coherencia de un texto, son altamente frecuentes en la producción científica publicada en inglés. Se ha comprobado que estas expresiones representan un desafío para los hablantes no nativos del inglés ya sean estudiantes universitarios o investigadores, al comunicar sus resultados de investigación de forma fluida y apropiada a los miembros de la comunidad científica con los que desean dialogar. El propósito de este estudio es, por lo tanto, explorar, describir y comparar la estructura y función de las CLR que aparecen en un corpus de manuscritos de ciencias experimentales escritos en inglés por investigadores hispano-parlantes para su publicación y en un corpus de artículos de investigación de las mismas disciplinas publicados en revistas científicas de prestigio internacional. Para dicha comparación se usará el programa de análisis lingüístico 'Wordsmith Tools' para la identificación, comparación, y análisis estadístico de dichas combinaciones en ambos corpus. Esta comparación permitirá no sólo establecer si existe sobre uso, uso escaso, o mal uso de estas expresiones por parte de los escritores hispano-parlantes, y su valor en el discurso académico de las ciencias experimentales, sino que también proveerá datos para el diseño de materiales para los cursos de escritura científica que se dictan en la Universidad Nacional de Río Cuarto (UNRC).

Palabras clave: combinaciones léxicas recurrentes – corpus – articulo de investigación
Introducción
"Consult a native speaker". Este es un comentario recurrente de los evaluadores de las revistas internacionales cuando evalúan manuscritos para su publicación. Este es el comentario que los investigadores y doctorandos de la UNRC reciben después de presentar su manuscrito para su publicación en revistas internacionales. El comentario hace referencia a problemas de lengua, pero más específicamente a problemas fraseológicos o de idiomaticidad.

Desde los primeros estudios de corpus (Sinclair, 1991) hace ya más de dos décadas, se ha demostrado la importancia del vocabulario en la organización del lenguaje y el significado. También se ha revelado que los hablantes nativos del inglés prefieren usar expresiones lexicales que consisten de unidades de varias palabras y que siguen un patrón regular en contextos sociales específicos. Es decir, el lenguaje se produce en secuencias pre-fabricadas y el uso de estas secuencias hace a un texto más o menos idiomático (Howarth, 1998).

La enseñanza del inglés como lengua extranjera en la Argentina, en lo que a vocabulario se refiere, se ha caracterizado por la enseñanza de cada palabra en su contexto. Este énfasis en la enseñanza de palabras aisladas de su fraseología puede hacer que los alumnos no estén bien preparados al momento de procesar y producir textos académico/científicos en inglés. La fluidez en el uso del lenguaje con propósitos académicos está dada, entre otras cosas, por el uso apropiado de CLR, las que muestran no solo idiomaticidad, sino también pertenencia a una comunidad discursiva específica (Hyland, 2008; Biber, 2004; Adel & Erman, 2012). Estas expresiones, llamadas 'clusters'(Scott, 2004) o 'bundles' (Biber, 1999) en inglés son "extended collocations, sequences of three or more words that statistically co-occur in a register" (Cortes, 2004). Es decir, son secuencias de tres o más palabras que aparecen con una frecuencia estadísticamente significativa en un género. Estas combinaciones contribuyen a la construcción del significado y a la coherencia de un texto, y son altamente frecuentes en la producción científica publicada en inglés. Además, cabe destacar que las CLR se diferencian de otras unidades fraseológicas (modismos - colocaciones) en que 1) se extraen o identifican automáticamente de un corpus, 2) no tienen un significado idiomático, 3) no se perciben a simple vista (Biber y Barbieri, 2007), 4) no constituyen unidades gramaticales completas - Biber et al (1999) encontraron que menos del 5% de estas secuencias representan unidades estructurales completas en géneros académicos- y 5) se distribuyen en forma diferente en los distintos géneros.

Se ha comprobado que las CLR representan un desafío para los hablantes no nativos del inglés, ya sean estudiantes universitarios o investigadores al comunicar sus resultados de investigación de forma fluida y apropiada a los miembros de la comunidad científica con los que desean dialogar. El propósito de este estudio es, por lo tanto, explorar, describir y comparar la estructura y función de las CLR que aparecen en un corpus de manuscritos de ciencias experimentales escritos en inglés por investigadores hispano-parlantes para su publicación y en un corpus de artículos de investigación (AI) de las mismas disciplinas publicados en revistas científicas de prestigio internacional. Se espera que los resultados informen nuestra práctica pedagógica en los cursos de escritura científica que se dictan en la UNRC. En esta presentación solo se expondrán resultados parciales sobre la primera etapa del trabajo.

Metodología
Para este estudio se utilizan dos corpus diseñados y construidos por nuestro equipo de investigación. El corpus especializado -Spanish-speaking scientists' corpus of English manuscripts- SSSEM (Martinez, 2011), se compone de 43 manuscritos, y consta de 123,551 palabras. El SSSEM es un corpus "dinámico" (Ragan, 2001:209) de manuscritos de las ciencias experimentales producidos en inglés por investigadores hispano-parlantes de la UNRC. Se construye con la versión final que los investigadores entregan para una revisión de la lengua cuando la consideran lista para su publicación. Los manuscritos son posteriormente enviados a revistas internacionales y modificados por las muchas personas que intervienen en la construcción de un AI (Knorr-Cetina, 1981, Burrough-Boenisch, 2003). Este corpus se construye sólo con los manuscritos cuya versión final recibe publicación.

Como corpus de referencia se utilizó el Agro Corpus construido en el 2005. Consta de 900.368 palabras de AI representativos de un género, el AI de las ciencias experimentales (Swales, 1990). Fue diseñado siguiendo los criterios de diseño propuestos por Sinclair (1991, 2005) y Barnbrook (1996), teniendo en cuenta las proporciones de los materiales, representatividad, especificidad, uso de documentos completos, y la disponibilidad en formato electrónico. Está compuesto de artículos extraídos de las versiones on-line de revistas indexadas por el Science Citation Index (SCI) Report. Contiene 218 artículos completos, con el formato Introducción-Método-Resultados-Discusión (IMRD, Swales, 1990) extraídos de revistas que fueron recomendadas por especialistas de nuestra universidad.

El software utilizado en el estudio fue WordSmith Tools 5 (Scott, 2008). Se compone de tres herramientas diseñadas especialmente para el análisis lingüístico, "Wordlist", "Concord", y "Keyword". En esta primera etapa, se utilizó "Wordlist" para construir y comparar las listas de CLR, proporcionándonos acceso inmediato a las palabras y frases que fueron significativamente (P 0,05) usadas en exceso, y/o en forma escasa por los investigadores hispanoparlantes. El análisis se llevo a cabo siguiendo los procedimientos sugeridos por Granger (1998:12), "interlanguage error analysis" que nos permite comparar datos entre dos corpus y encontrar patrones de uso recurrentes que distinguen el interlenguaje de los investigadores hispanoparlantes del lenguaje de los AI publicados. Primero se crearon listas de CLR de los dos corpus. Para ser incluida en las listas una secuencia debía aparecer por lo menos 5 veces por millón de palabras, y tener un rango de por lo menos 5 textos. Biber et al. (1999) incluyeron secuencias con una frecuencia de más de 10 veces por millón de palabras y que aparecían en 5 textos o más. Nosotros, sin embargo, decidimos por un punto de corte menor debido al tamaño de nuestro corpus especializado. Las frecuencias de estos dos corpus de distintos tamaños se normalizaran a 10.000 para hacerlas comparables. Las secuencias de contenido y las contenidas en otras secuencias fueron excluidas para evitar expresiones que dependen del contexto. Primero, estas expresiones fueron clasificadas de acuerdo a su estructura siguiendo la taxonomía de Biber et al. (1999)(Apencice A). Luego se compararon las listas usando la función de comparación de listas de WordSmith. Este análisis cuantitativo nos dio información sobre frecuencia, forma y uso excesivo y escaso. Un análisis más cualitativo o funcional, indicando posibles causas, se llevará a cabo en una segunda etapa.

Resultados
Como se observa en la Tabla 1, en el corpus SSSEM se identificó la secuencia in the presence of como la más frecuentemente utilizada por los hispanoparlantes (11%) la cual supera con una marcada diferencia a on the other hand en el segundo lugar (5 %). En el corpus de referencia, the end of the (0.55 %) emerge como la más recurrente, seguida por at the end of (0.49 %). Como aun no están normalizadas las frecuencias, solo podemos hacer una descripción de lo que se observa a simple vista. Al comparar las 15 primeras combinaciones de cada lista se observa que sólo cuatro son comunes a ambas -in the presence of, in the absence of, in the case of, e in the present study- (Tabla 1). La secuencia in the presence of está entre las más utilizadas en ambos corpus. Estos resultados coinciden con los obtenidos por Hyland (2008) quien, también, identifica a estas cuatro combinaciones entre las más frecuentes en su corpus de géneros académicos.

Tabla 1: 15 primeras combinaciones léxicas recurrentes en el SSSEM y el corpus de referencia. (**: Expresiones en común con Hyland (2008). Negrita: secuencias en común en ambos corpus).

CORPUS SSSEM
Frec.
CORPUS DE REFERENCIA
Frec.
1. in the presence of**
71
1. the end of the**
79
2. on the other hand**
30
2. at the end of**
71
3. in the absence of
22
3. in the absence of
68
4. it is known that
18
4. in the presence of
68
5. the presence of the
14
5. in the present study**
66
6. in the case of**
14
6. in the case of
60
7. on the basis of**
13
7. has been shown to**
56
8. and in the presence
13
8. the total number of
56
9. were carried out with
12
9. as a result of**
54
10. in agreement with the
12
10. at the time of
52
11. with respect to the**
11
11. there were no significant
51
12. one of the most
10
12. it is possible that
49
13. in the present study**
10
13. as a function of
45
14. it was observed that
10
14. it is likely that
43
15. are shown in table
9
15. the size of the
43

El análisis estructural, siguiendo la taxonomía de Biber (1999) (Apéndice A), reveló que los patrones gramaticales más utilizados en ambos corpus son: frases preposicionales, nominales y verbales. Jablonkai (2010) y Hyland (2008) obtuvieron resultados similares y concluyeron que la mayoría de estas expresiones en géneros académicos son parte de frases nominales y preposicionales. En nuestra investigación, no obstante, los patrones difieren en cuanto a su frecuencia. Los escritores hispanoparlantes prefieren las frases preposicionales por sobre las verbales y las nominales. En el corpus de referencia, contrariamente, se utilizan los tres patrones gramaticales con una frecuencia similar (Tabla 2).

Tabla 2: patrones gramaticales de CLR más recurrentes en ambos corpus
SSSEM
CORPUS REFERENCIA
1) Frase preposicional: in the presence of (44%)
2) Frase verbal: were carried out with (19%)
3) Frase nominal: the presence of the (18%)
1) Frase nominal: the total number of (31%)
2) Frase preposicional: in the absence of (31%)
3) Frase verbal: has been shown to(31%)


Las Tablas 3 y 4 muestran las sub-categorías gramaticales más frecuentemente utilizadas por ambos grupos. Se observa que los hispanohablantes sólo utilizan 7 de las 11 estructuras identificadas por Biber (1999) mostrando una marcada preferencia por frase preposicional + of (32 %). Se observa también la ausencia de frases nominales acompañadas de otros modificadores, verbos/adjetivos posmodificados por cláusulas introducidas por to, cláusulas adverbiales y cláusulas verbales posmodificadas por that.

Tabla 3: Sub-categorías de patrones gramaticales más frecuentes en el corpus SSSEM
CORPUS SSSEM
Ejemplo más frecuente
1) Frase preposicional + of
in the presence of
2) Otras frases preposicionales
on the other hand
3) Frase nominal + of
the presence of the
4) Construcción pasiva + frase preposicional
were carried out with
5) It+ frase verbal/frase adjetiva
it is known that
6) Frase nominal/pronombre + be
experiments were carried out
7) Be + frase nominal/frase adjetiva
was similar to that
8) Frase nominal + otros posmodificadores
-
9) Verbo/adjetivo + cláusula introducida por to
-
10) Cláusula adverbial
-
11) Frase verbal + cláusula that
-










Tabla 4: Sub-categorías de patrones gramaticales más frecuentes en el corpus de referencia
CORPUS DE REFERENCIA
Ejemplo m
1) Frase nominal + of
the total number of
2) Frase preposicional + of
in the absence of
3) Construcción pasiva + frase preposicional
has been shown to
4) Otras frases preposicionales
in the present study
5) It + frase verbal/frase adjetiva
it is possible that
6) Be + frase nominal + frase adjetiva
were no significant differences
7) Frase nominal + otros posmodificadores
an increase in the
8) Frase nominal/pronombre + be
this study was to
9) Cláusula adverbial
as compared to the
10) Verbo/adjetivo + cláusula introducida por to
is likely to be
11) Frase verbal + cláusula that
is possible that the

Estos resultados coinciden con los obtenidos por Zalazar (2011): las frases nominales post-modificadas por of, las construcciones verbales pasivas y las frases preposicionales superan en frecuencia a otras construcciones gramaticales.
La comparación electrónica entre las dos listas brindó información sobre el uso excesivo y escaso de las CLR en el SSSEMC. Esta nueva lista demostró diferencias estadísticamente significativas en su uso. La Tabla 5 muestra las 15 CLR que resultan comparativamente usadas en forma excesiva y escasa en el SSSEM. Como puede observarse, las combinaciones que contienen la frase the presence son excesivamente utilizadas por los hispanoparlantes mientras que la mayoría de las secuencias indicadas por Hyland (2008) como de uso frecuente por la comunidad científica angloparlante (**) resultan ser escasamente usadas o no usadas.

Tabla 5: 15 primeras CLR usadas excesivamente y escasamente
SSSEM
USO EXCESIVO
USO ESCASO
in the presence of**
the end of the**
and in the presence
at the end of**
were carried out with
has been shown to**
on the other hand **
as a result of**
it was observed that
in the present study**
it is known that
at the time of
in order to obtain
there were no significant
the other hand it
it is possible that
carried out in a
the total number of
absence and in the
in the case of**
the activity of the
the size of the**
in agreement with the
it is likely that
the absence and in
were no significant differences
in this context the
with the exception of
rate constant for the
a wide range of**

Conclusión
Este estudio tuvo como objetivo identificar y comparar las CLR, en términos de frecuencia y estructura gramatical en dos corpus. En esta primera etapa, los resultados obtenidos muestran importantes diferencias entre ambos grupos. La primera discrepancia se vincula con los patrones gramaticales utilizados. Los hispanohablantes muestran una marcada preferencia por el uso de frases preposicionales dejando de lado los grupos nominales que frecuentemente utilizan los expertos. Allen (2009) y Miura (2008) explican este fenómeno aludiendo a la dificultad que representa para los no-nativos la construcción de frases nominales en inglés. Otro punto de divergencia es que los hispanoparlantes no emplean CLR más complejas como frases adjetivas, estructuras introducidas por it, cláusulas adverbiales y cláusulas introducidas por to y por that (Zalazar, 2011; Chen y Baker, 2010). Granger (1998:156) explica esta preferencia aludiendo a que los escritores no-nativos tienden a "aferrarse a ciertas frases y expresiones fijas con las cuales se sienten seguros" y denomina "phraseological teddy bears" a esas opciones lexicales que los no-nativos perciben como más seguras. Esta excesiva dependencia fraseológica se vincula al uso excesivo de ciertas combinaciones. Los escritores hispanoparlantes usan una cantidad menor de unidades fraseológicas identificadas en las listas de nativos, con la excepción de un grupo pequeño de combinaciones de alta frecuencia a las que tienden a usar en forma excesiva (Cortés, 2004; Granger, 1998). Por ejemplo, usan excesivamente on the other hand para introducir una proposición que contrasta con una anterior, carried out para describir procedimientos e in agreement with para relacionar sus propios resultados con los de otros. Los autores de AI en revistas internacionales otorgan más diversidad a sus producciones utilizando un amplio repertorio de expresiones tales como in contrast to, was performed using e is consistent with (Zalazar, 2011). Las CLR usadas excesiva y escasamente contribuyen a la noción de repitencia, falta de variedad estilística, repertorio limitado y formas de expresión menos variadas (Ädel, 2012), en resumen a la falta de idiomaticidad a la que alude el comentario "consult a native speaker". Aunque esta es solo la primera etapa del estudio, los resultados dejan entrever las posibles implicancias pedagógicas para los cursos de escritura científica de la UNRC.

Referencias
Ädel, A. & Erman, B. (2012): "Recurrent word combinations in academic writing by native and non-native speakers of English: A lexical bundles approach." En English for Specific Purposes, Vol. 31, pp. 81-92.
Allen, D. (2009): "Lexical Bundles in Learner Writing: An Analysis of Formulaic Language in the ALESS Learner Corpus". Komaba Journal of English Education, Vol.1, pp. 105-127.
Barnbrook, G. (1996): "Language and computers: a practical introduction to the computer analysis of language." Edinburgh: Edinburgh University Press.
Biber, D., Johansson, S., Leech, G., Conrad, S. and Finegan, E. (1999): Longman Grammar of Spoken and Written English. Longman, Harlow.
Biber, D. y Barbieri, F. (2007): "Lexical bundles in university spoken and written registers." En English for Speci c Purposes, Vol. 26, pp.263–286.
Burrough-Boenisch, J. (2003): "Shapers of published NNS research articles." En Journal of Second Language Writing, Vol. 12, pp. 223-243.
Chen, Y., y Baker, P. (2010): "Lexical bundles in L1 and L2 academic writing". En Language Learning and Technology. Vol., 14, N* 2, pp. 30-49
Cortes, V. (2006): "Teaching lexical bundles in the disciplines: An example from a writing intensive history class." En Linguistics and Education, Vol. 17, pp. 391–406.
Cortes, V. (2004): "Lexical bundles in published and student disciplinary writing: Examples from history and biology." En English for Specific Purposes, Vol. 23, pp.397-423.
Granger, S. y Tribble, C. (1998) Learner corpus data in the foreign language classroom: Form-focused instruction and data-driven learning. En S. Granger (Ed.) Learner English on Computer. (pp. 199-211). London: Longman.
Howarth, P. (1998): The phraseology of learners academic writing. En A. Cowie (Ed.), Phraseology: Theory, analysis, and application (pp. 161–1186). Oxford: Oxford University Press.
Hyland, K. (2008): "As can be seen: Lexical bundles and disciplinary variation". En English for Specific Purposes, Vol 27, pp. 4-21.
Jablonkai, R. (2010) "English in the context of European integration: A corpus-driven analysis of lexical bundles in English EU documents" En English for Specific Purposes, Vol., 29, pp. 253–267.
Knorr-Cetina, K. (1981): The manufacture of knowledge. An essay on the constructivist and contextual nature of science. Oxford: Pergamon.
Martinez, I. (2011). Spanish-speaking scientists' corpus of English manuscripts (SSSEM).
Miura, A. (2008). "A comparison and analysis of spoken and written corpora: English learner proficiency and noun phrase construction." En Corpus Research, Vol., 15. Japanese Association for English Corpus Studies.
Ragan P H. (2001): "Classroom Use of a Systemic functional Small Llearner Corpus." En Ghadessy M., Henry, A., Roseberry, R L. (eds.). Small Corpus Studies and ELT. Amsterdam: John Benjamins Publishing Co. pp. 207-236.
Scott, M. (2004): WordSmith Tools. Oxford: OUP.
Scott, M. (2008). Oxford WordSmith Tools (Version 5.0) [Computer software]. Oxford: Oxford University Press.
Sinclair, J. (1991) Corpus, Concordance, Collocation. Oxford: Oxford University Press.
Sinclair, J. (2005): "Corpus and Text - Basic Principles." En Developing Linguistic Corpora: a Guide to Good Practice, ed. M. Wynne. Oxford.
Swales, J. (1990). Genre Analysis: English in academic and research settings. Glasgow: Cambridge University Press.
Zalazar, D., (2011): "Lexical bundles in scientific English: A corpus-based study of native and non-native language." Universidad de Barcelona.








Apéndice A

Clasificación estructural (Biber, 1999)

1) CLR que incorporan frase nominal:
a) frase nominal + of
b) frase nominal + otros posmodificadores
c) frase nominal + be + (…)
2) CLR que incorporan frase verbal:
a) construcción pasiva + frase preposicional
b) Be + frase nominal + frase adjetiva
c) It + frase verbal /frase adjetiva
3) CLR que incorporan frase preposicional:
a) frase preposicional + of
b) otras construcciones con frase preposicional
4) CLR que incorporan fragmentos con cláusulas:
a) frase verbal + cláusula introducida por that
b) verbo/adjetivo +cláusula introducida por to
c) cláusula adverbial















Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.