“Tesoro Lexicográfico” (RAE) online

Incluí en enlaces-diccionarios el Nuevo Tesoro Lexicográfico de la Lengua Española de la RAE. Es una base de datos con los diccionarios de la RAE desde 1726 hasta 1992, incluyendo los diccionarios de autoridades y los diccionarios historicos. La búsqueda de lemas permite elegir los diccionarios o períodos, y arroja la entrada escaneada de los diccionarios correspondientes. Más abajo, la entrada (parcial) de “lengua” en el diccionario de 1734:

“Lista de Frecuencia de Palabras del Español de Chile” (de S. Sadowsky) para descargar

 

Otra buena noticia para la Lingüística de Corpus hispanoamericana y otra vez proveniente de Chile. Se puede descargar online (pesa poco más de 6 megas) la Lista de Frecuencias de Palabras del Castellano de Chile (LIFCACH). Se trata de un conjunto de 102 listas de frecuencias léxicas extraídas de los distintos subcorpora del impresionante Corpus Dinámico del Castellano de Chile (CODICACH). El CODICACH (son curiosos estos acrónimos…) está siendo desarrollado por Scott Sadowsky (Universidad de Concepción, Chile) desde 1997 y contiene actualmente alrededor de 830 millones de palabras. Este corpus privilegia los medios de prensa escritos, y por tanto no pretende ser representativo del castellano de Chile. Sadowsky también ofrece artículos y powerpoints para descarga en su página web. Fuente: Linguist list.

Nota: cuando lo descargué, sólo era posible hacerlo, sin problemas, del “Servidor secundario” que aparece en la pantalla de bienvenida. Tampoco lo he visualizado claramente, pero debe ser porque estoy poco acostumbrado a manejar tantos datos en crudo.

Corpus de inglés académico oral de la Universidad de Michigan

El Corpus MICASE (de inglés académico oral transcripto) del Instituto de Inglés de la Universidad de Michigan -y del cual hablé en algún post anterior- incorporó ahora un video (que toma unos cuantos minutos en cargarse y amenaza con colapsar las computadoras de mediana edad) y una presentación powerpoint (en PDF) que explican cómo utilizar el corpus online, cómo buscar en los resultados, y cómo crear materiales didácticos a partir de los hallazgos. Lo incorporé de forma permanente a los enlaces. Fuente: Linguist list y Corpora list.

Posteriormente, se subió el video a youtube, en 5 partes (que suman unos 50 minutos) de buena calidad. Esta es la primera parte:

Las demas partes pueden verse cliqueando aquí: parte 2, parte 3, parte 4, parte 5.

Lingüística de corpus: portales y corpus Ancora (Barcelona) y Grial (Chile)

Estos días incorporé a los enlaces a corpus cuatro portales que me han parecido muy interesantes (ver más abajo). En particular, resulta impresionante el trabajo de investigación que está llevando a cabo la Escuela de Lingüística de Valparaíso y su corpus-de-corpus Grial, proyecto dirigido por Giovanni Parodi

 

CBL. Portal muy completo de enlaces actualizados en el área de Lingüística de Corpus destinado a la Lingüística Aplicada. Esto significa que, a pesar de ser riguroso, no es un portal técnico para lingüistas computacionales exclusivamente. Actualizado por David Lee (Departamento de Inglés y Comunicación, Universidad de la Ciudad de Hong Kong).

 

DAVIES. Página web de Mark Davies, profesor de Lingüística de Corpus del Departamento de Lingüística e Inglés de la Universidad Brigham Young (Utah). Davies fue también profesor de Lingüística Española. Mantiene numerosos y útiles corpus: del español, del portugués, del inglés americano y británico (todos estos incluidos en mis enlaces), además de un corpus diacrónico del inglés y un corpus de la revista Time. Pueden descargarse casi todos sus artículos.

 

ANCORA. El AnCora es un corpus anotado del español y del catalán con 500 mil palabras para cada lengua. Fue desarrollado por el Centre de Llenguatge i Computació (Universidad de Barcelona) y el Grupo de Procesamiento del Lenguaje Natural (Universidad Politécnica de Cataluña). La anotación incluye la categoría morfológica, constituyentes y funciones sintácticas, estructura argumental y papeles temáticos, etc. Cuenta con un potente buscador disponible online.

 

GRIAL. El corpus El Grial es una “interfaz computacional para anotación e interrogación de corpus en español” desarrollada por la Escuela de Lingüística de Valparaíso (Pontificia Universidad Católica de Valparaíso, Chile) y con dirección de Giovanni Parodi. Posee un buscador muy completo que, entre otros parámetros, permite seleccionar el modo, registro, género y temática del (sub)corpus a indagar, además del tipo de ítem (forma, lema y/o etiqueta sintáctica) a buscar. El corpus (de más de 60 millones de palabras y en desarrollo) incluye muchos corpus distintos, etiquetados morfo-sintácticamente. También pueden cargarse y anotarse (temporalmente) corpus ajenos. +info 

De paso menciono que la revista Signos, de este grupo de investigación, ha estrenado nuevo portal y, sobre todo, ha sido indexada al ISI web of knowledge de Thomson, es decir, es la primera revista de lingüística en español cuyo factor de impacto es medido por Thomson.

Centro Virtual Cervantes: diccionarios, gramáticas, actas de congresos, tesis, revistas

 

El Instituto Cervantes posee muchísimo poder institucional y económico que le permite brindar recursos online variados y, en ocasiones, útiles. Como sucede con este tipo de organismos, el balance forzado entre norma lingüística y descripción sociolingüística, o también entre divulgación e investigación científica, obliga a utilizar las herramientas que proporciona con cautela. A continuación listo algunos recursos interesantes:

 

OBRAS CVC. Obras de Referencia del Centro Virtual Cervantes. Incluye los recursos de la Biblioteca del Profesor de Español, el corpus de neologismos, y descargas de los Anuarios del Cervantes, de las actas de los congresos de la Asociación Internacional de Hispanistas (1962-1995) y de los Congresos de la Lengua (1992-2007), etc.

 

NEOLOGISMOS. Parte del banco de datos BOBNEO de neologismos actuales en español y catalán. Llevado a cabo desde 1992 por el Observatori de Neologia del Instituto Universitario de Lingüística Aplicada de la Universidad Pompeu Fabra (Barcelona).

 

ELE. Diccionario de Español como Lengua Extranjera del Instituto Cervantes (700 términos).

 

HISPANIA. Revista clásica de didáctica del español y el portugués de la American Association of Teachers of Spanish and Portuguese. Disponible 1988-1995.

 

SIGNA. Revista de la Asociación Española de Semiótica publicada por el Instituto de Semiótica Literaria, Teatral y Nuevas Tecnologías de la UNED (Madrid). Disponible 1992-2007.

 

ANUARIOS. Anuarios del Instituto Cervantes El Español en el Mundo (1998-2005).

 

BIBLIOTECA CVC. Biblioteca Virtual Cervantes. No pertenece al Centro Virtual Cervantes, sino a la Universidad de Alicante y al Grupo Santander. Incluye descargas de tesis doctorales recientes de universidades españolas, ediciones facsímile de gramáticas y diccionarios clásicos del español, revistas online, actas para descargar de los congresos de historia de la lengua española, etc.

Corpus online de español como L2 e inglés

Agregué a ENLACES algunos corpus online que pueden resultar útiles. En particular, yo uso en ocasiones el último, que es un complemento fundamental a los diccionarios de inglés online.

 

SPLLOC. Corpus de discurso oral de estudiantes de español (Spanish Leaner Language Oral Corpus). Incluye archivos de sonido (mp3 y wav) y transcripciones de libre acceso, recolectados en clases de alumnos de español hablantes nativos de inglés. Abarca distintos niveles, edades, tareas, y géneros discursivos (que pueden combinarse en el buscador). El proyecto es fruto de la colaboración de las Universidades de Southampton, Newcastle y York (Reino Unido) durante 2006-8 (aún no se ha completado).

 

MICASE. Corpus (transcripto) de inglés académico oral de la Universidad de Michigan, de casi 2 millones de palabras (152 transcripciones). Presenta un potente buscador que permite ajustar parámetros como edad, sexo, puesto académico, área científica, evento de habla, etc., y buscar una transcripción o la ocurrencia de una palabra/frase en el corpus total.

 

COLLINS. El corpus Collins online consta de 56 millones de palabras de inglés contemporáneo escrito y oral. El buscador sólo permite distinguir entre inglés británico, americano, y transcripciones de inglés británico oral. Es parte del Bank of English, corpus de 524 millones de palabras que inició la Universidad de Birmingham en 1991, y del Collins Word Web (2500 millones de palabras!).