Posts etiquetados ‘lingüística de corpus’

El libro de Manuel Alcántara Plá Introducción al análisis de estructuras lingüísticas en corpus, publicado en 2007, se encuentra disponible gratuitamente online acá.

Anuncios

En un momento tan duro para el pueblo chileno, con quienes quiero expresar mi profunda solidaridad, vale la pena anunciar una útil novedad editorial proveniente de esos lares.

Giovanni Parodi acaba de publicar por Iberoamericana/Vervuert Lingüística de Corpus: de la teoría a la empiria. En este texto “se discuten algunas de las nuevas conceptualizaciones que caracterizan a la Lingüística de Corpus y se propone una nueva mirada al uso y explotación de los corpora textuales en formato digital”. Acá puede descargarse el índice. Resulta interesante el aporte que la Escuela de Valparaíso sigue haciendo al desarrollo de esta ¿metodología o subdisciplina? dentro del mundo panhispánico. +info

Reproduzco acá una noticia que publiqué en el portal del grupo ILSE y Oralia. El Instituto de Lingüística Forense ofrece para descargar gratuitamente una muestra de corpus de mensajes de texto, formato que desafía la clásica distinción entre texto oral y escrito. Este subcorpus cuenta con 1000 textos en inglés provenientes de 50 participantes y muestra manifestaciones diversas de la contracción léxica típica en este medio digital. El archivo contiene un programa instalable en la computadora que permite, en principio, búsquedas detalladas por palabra o por información de los hablantes (edad, género, nivel educativo). Para descargar, tocar acá.

La editorial Edinburgh University Press ofrece acceso online gratuito a sus publicaciones periódicas hasta fines de febrero de 2009 inclusive (y sin necesidad de suscribirse). Entre estas publicaciones, se incluyen las publicaciones de lingüística Corpora (dedicada a la lingüística de corpus) y Word Structure (dedicada a la morfología). Fuente: Corpora List.

En el último número de Corpora se publicaron, por ejemplo, los artículos “A comparative analysis of lexical bundles in academic history writing in English and Spanish”, de Viviana Cortés, y “The ACTRES parallel corpus: an English-Spanish translation corpus”, de Marlén Izquierdo et al. También, en el número 1(1), se publicó el interesante “Spoken and written register variation in Spanish: A multi-dimensional analysis”, de D. Biber, M. Davies et al.

He leído estos días en Linguist List sobre un (otro) grupo de investigación en L2 y lingüística de corpus. En este caso, se trata de un interesante proyecto en el ámbito iberoamericano que estudia el español. Los datalles:

El WOSLAC (Word Order in Second Language Acquisition Corpora) es un grupo de investigación del Departamento de Filología Inglesa de la Universidad Autónoma de Madrid. Este grupo estudia el orden de palabras en la adquisición de L2 usando un corpus (CEDEL2) escrito de estudiantes de español e inglés como L2. En particular, les interesa averiguar cómo adquieren el español los hablantes nativos de inglés. +info

El corpus CEDEL2 tiene actualmente 400 mil palabras, y aspira a llegar al millón pronto. Está siendo confeccionado a partir de la participación desinteresada de estudiantes y hablantes nativos de todo el mundo (unos 1400 hasta ahora), especialmente de Estados Unidos. Cuando esté terminado, será puesto a disposición de la comunidad académica. Se puede participar en este enlace.

Matías Raia me pasó un enlace curioso: Wordle. Se trata de un portal que analiza páginas web (tipo blog o portal de noticias, con servicio RSS) o fragmentos textuales, contabiliza la frecuencia relativa de aparición de las palabras presentes, y forma una “nube” de frecuencias (es decir, una manifestación gráfica de la frecuencia). Pueden probarlo tocando acá.

Por ejemplo, analicé ayer la página web del periódico argentino Clarín, y obtuve esto. Las dos palabras más destacadas, como puede apreciarse, son “menos” “pesos”. Parece tener una adecuada lectura de la realidad, el programita este…

La publicación lexicográfica International Journal of Lexicography (OUP) acaba de presentar un número especial de homenaje al importante analista del discurso John Sinclair. Temáticas: lexicografía, lingüística de corpus, confección de diccionarios, colocación, gramática, etc. Fuente: Funknet.

A continuación la lista de contenidos (el primer artículo se puede descargar gratuitamente). +info

  1. The Lexicographical Legacy of John Sinclair. Patrick Hanks
  2. Corpus-driven Lexicography. Ramesh Krishnamurthy
  3. Sinclair, Phraseology, and Lexicography. Rosamund Moon
  4. A Multilingual Matter: Sinclair and the Bilingual Dictionary. Geoffrey Williams
  5. Why Does Africa Need Sinclair? Gilles-Maurice de Schryver
  6. Lexicography, Grammar, and Textual Position. Michael Hoey and Matthew Brook O’Donnell
  7. The Lexis of Electronic Gaming on the Web: A Sinclairian Approach. Vincent B.Y. Ooi
  8. Approximate Lexicography and Web Search. Kenneth W. Church
  9. Between Chaos and Structure: Interpreting Lexical Data Through a Theoretical Lens. James Pustejovsky and Anna Rumshisky