Estos días incorporé a los enlaces a corpus cuatro portales que me han parecido muy interesantes (ver más abajo). En particular, resulta impresionante el trabajo de investigación que está llevando a cabo la Escuela de Lingüística de Valparaíso y su corpus-de-corpus Grial, proyecto dirigido por Giovanni Parodi

CBL. Portal muy completo de enlaces actualizados en el área de Lingüística de Corpus destinado a la Lingüística Aplicada. Esto significa que, a pesar de ser riguroso, no es un portal técnico para lingüistas computacionales exclusivamente. Actualizado por David Lee (Departamento de Inglés y Comunicación, Universidad de la Ciudad de Hong Kong).

DAVIES. Página web de Mark Davies, profesor de Lingüística de Corpus del Departamento de Lingüística e Inglés de la Universidad Brigham Young (Utah). Davies fue también profesor de Lingüística Española. Mantiene numerosos y útiles corpus: del español, del portugués, del inglés americano y británico (todos estos incluidos en mis enlaces), además de un corpus diacrónico del inglés y un corpus de la revista Time. Pueden descargarse casi todos sus artículos.

ANCORA. El AnCora es un corpus anotado del español y del catalán con 500 mil palabras para cada lengua. Fue desarrollado por el Centre de Llenguatge i Computació (Universidad de Barcelona) y el Grupo de Procesamiento del Lenguaje Natural (Universidad Politécnica de Cataluña). La anotación incluye la categoría morfológica, constituyentes y funciones sintácticas, estructura argumental y papeles temáticos, etc. Cuenta con un potente buscador disponible online.
GRIAL. El corpus El Grial es una “interfaz computacional
para anotación e interrogación de corpus en español” desarrollada por la Escuela de Lingüística de Valparaíso (Pontificia Universidad Católica de Valparaíso, Chile) y con dirección de Giovanni Parodi. Posee un buscador muy completo que, entre otros parámetros, permite seleccionar el modo, registro, género y temática del (sub)corpus a indagar, además del tipo de ítem (forma, lema y/o etiqueta sintáctica) a buscar. El corpus (de más de 60 millones de palabras y en desarrollo) incluye muchos corpus distintos, etiquetados morfo-sintácticamente. También pueden cargarse y anotarse (temporalmente) corpus ajenos. +info
De paso menciono que la revista Signos, de este grupo de investigación, ha estrenado nuevo portal y, sobre todo, ha sido indexada al ISI web of knowledge de Thomson, es decir, es la primera revista de lingüística en español cuyo factor de impacto es medido por Thomson.