Archivos de la categoría ‘corpus online’

El Spanish Learner Language Oral Corpora es un corpus oral de español L2 disponible gratuitamente online compilado por investigadores de las universidades británicas de Southampton, Newcastle y Greenwich. Como comentamos en un post anterior, pueden descargarse los archivos de sonido y las transcripciones y cuenta con un buscador con varios parámetros ajustables (nivel, edad, tarea y género discursivo).

Ahora se pone a disposición de la comunidad un nuevo subcorpus de 300 archivos sonoros digitales y sus transcripciones, ordenados por tareas y niveles. Disponibles para descarga acá.

Anuncios

Reproduzco acá una noticia que publiqué en el portal del grupo ILSE y Oralia. El Instituto de Lingüística Forense ofrece para descargar gratuitamente una muestra de corpus de mensajes de texto, formato que desafía la clásica distinción entre texto oral y escrito. Este subcorpus cuenta con 1000 textos en inglés provenientes de 50 participantes y muestra manifestaciones diversas de la contracción léxica típica en este medio digital. El archivo contiene un programa instalable en la computadora que permite, en principio, búsquedas detalladas por palabra o por información de los hablantes (edad, género, nivel educativo). Para descargar, tocar acá.

Direct es un grupo de investigación brasilero que desde 1991 analiza el discurso profesional en portugués, inglés y español. Pertenece al Programa de Estudos Pós-Graduados em Lingüística Aplicada e Estudos da Linguagem (LAEL) de la Pontifícia Universidade Católica de São Paulo (Brasil). Sus investigaciones se enmarcan dentro de la Lingüística Sistémico-Funcional, la Lingüística de Corpus, la Enseñanza de Segundas Lenguas, y los estudios de la metáfora y la traducción. Los coordinadores son Leila Barbara y Tony Berber Sardinha (vicecoordinador). Pueden consultarse más grupos de investigación iberoamericanos aquí.

El grupo desarrolla desde hace años una serie de corpus. El banco de portugués (brasilero) contiene más de 240 millones de palabras; puede accederse online a una muestra de 1.1 millones de palabras, en el que pueden distinguirse géneros discursivos y modo oral (hay unas 200 mil palabras) o escrito. El banco de inglés, de 193.5 millones de palabras, también permite el acceso restringido a un subcorpus de 214 mil palabras (con géneros y modos variados).

En el portal del grupo pueden descargarse varios de sus papers e información sobre sus proyectos. Además, se ofrecen gratuitamente varias herramientas de lingüística de corpus para analizar corpus que el internauta cargue. +info

Incluí en enlaces-diccionarios el Nuevo Tesoro Lexicográfico de la Lengua Española de la RAE. Es una base de datos con los diccionarios de la RAE desde 1726 hasta 1992, incluyendo los diccionarios de autoridades y los diccionarios historicos. La búsqueda de lemas permite elegir los diccionarios o períodos, y arroja la entrada escaneada de los diccionarios correspondientes. Más abajo, la entrada (parcial) de “lengua” en el diccionario de 1734:

 

Otra buena noticia para la Lingüística de Corpus hispanoamericana y otra vez proveniente de Chile. Se puede descargar online (pesa poco más de 6 megas) la Lista de Frecuencias de Palabras del Castellano de Chile (LIFCACH). Se trata de un conjunto de 102 listas de frecuencias léxicas extraídas de los distintos subcorpora del impresionante Corpus Dinámico del Castellano de Chile (CODICACH). El CODICACH (son curiosos estos acrónimos…) está siendo desarrollado por Scott Sadowsky (Universidad de Concepción, Chile) desde 1997 y contiene actualmente alrededor de 830 millones de palabras. Este corpus privilegia los medios de prensa escritos, y por tanto no pretende ser representativo del castellano de Chile. Sadowsky también ofrece artículos y powerpoints para descarga en su página web. Fuente: Linguist list.

Nota: cuando lo descargué, sólo era posible hacerlo, sin problemas, del “Servidor secundario” que aparece en la pantalla de bienvenida. Tampoco lo he visualizado claramente, pero debe ser porque estoy poco acostumbrado a manejar tantos datos en crudo.

El Corpus MICASE (de inglés académico oral transcripto) del Instituto de Inglés de la Universidad de Michigan -y del cual hablé en algún post anterior- incorporó ahora un video (que toma unos cuantos minutos en cargarse y amenaza con colapsar las computadoras de mediana edad) y una presentación powerpoint (en PDF) que explican cómo utilizar el corpus online, cómo buscar en los resultados, y cómo crear materiales didácticos a partir de los hallazgos. Lo incorporé de forma permanente a los enlaces. Fuente: Linguist list y Corpora list.

Posteriormente, se subió el video a youtube, en 5 partes (que suman unos 50 minutos) de buena calidad. Esta es la primera parte:

Las demas partes pueden verse cliqueando aquí: parte 2, parte 3, parte 4, parte 5.

Estos días incorporé a los enlaces a corpus cuatro portales que me han parecido muy interesantes (ver más abajo). En particular, resulta impresionante el trabajo de investigación que está llevando a cabo la Escuela de Lingüística de Valparaíso y su corpus-de-corpus Grial, proyecto dirigido por Giovanni Parodi

 

CBL. Portal muy completo de enlaces actualizados en el área de Lingüística de Corpus destinado a la Lingüística Aplicada. Esto significa que, a pesar de ser riguroso, no es un portal técnico para lingüistas computacionales exclusivamente. Actualizado por David Lee (Departamento de Inglés y Comunicación, Universidad de la Ciudad de Hong Kong).

 

DAVIES. Página web de Mark Davies, profesor de Lingüística de Corpus del Departamento de Lingüística e Inglés de la Universidad Brigham Young (Utah). Davies fue también profesor de Lingüística Española. Mantiene numerosos y útiles corpus: del español, del portugués, del inglés americano y británico (todos estos incluidos en mis enlaces), además de un corpus diacrónico del inglés y un corpus de la revista Time. Pueden descargarse casi todos sus artículos.

 

ANCORA. El AnCora es un corpus anotado del español y del catalán con 500 mil palabras para cada lengua. Fue desarrollado por el Centre de Llenguatge i Computació (Universidad de Barcelona) y el Grupo de Procesamiento del Lenguaje Natural (Universidad Politécnica de Cataluña). La anotación incluye la categoría morfológica, constituyentes y funciones sintácticas, estructura argumental y papeles temáticos, etc. Cuenta con un potente buscador disponible online.

 

GRIAL. El corpus El Grial es una “interfaz computacional para anotación e interrogación de corpus en español” desarrollada por la Escuela de Lingüística de Valparaíso (Pontificia Universidad Católica de Valparaíso, Chile) y con dirección de Giovanni Parodi. Posee un buscador muy completo que, entre otros parámetros, permite seleccionar el modo, registro, género y temática del (sub)corpus a indagar, además del tipo de ítem (forma, lema y/o etiqueta sintáctica) a buscar. El corpus (de más de 60 millones de palabras y en desarrollo) incluye muchos corpus distintos, etiquetados morfo-sintácticamente. También pueden cargarse y anotarse (temporalmente) corpus ajenos. +info 

De paso menciono que la revista Signos, de este grupo de investigación, ha estrenado nuevo portal y, sobre todo, ha sido indexada al ISI web of knowledge de Thomson, es decir, es la primera revista de lingüística en español cuyo factor de impacto es medido por Thomson.