Saturday 12 December 2009

Método CCT para crear un glosario fino, fino

Un glosario bueno y de fiar es un tesoro. Sobre todo si lo puedes utilizar con tu herramienta de traducción asistida favorita. Encontrarlos no es difícil, aquí mismamente tienes uno de pesca de la Fundación CETMAR. El mayor problema es meterlo a una base de datos terminológica pues la mayoría de estos archivos tienen un formato precioso pero doloroso si lo que quieres es trabajar sin perder mucho tiempo. Lo que hacen algunos de mis compañeros del metal es descargarlos y buscar en ellos como si fueran diccionarios tradicionales o se guardan un marcador en el navegador para consultarlos cuando lo necesitan. Ninguna de las dos soluciones me vale porque a la hora de la verdad y de las prisas suelen camuflarse en un mar de marcadores o en un pozo de carpetas y me olvido de que los tengo. Eso si no contamos con que al dueño de la página en el que esté alojado no le de por borrar o cambiar de sitio el archivo y anda a preguntarle al tío Google dónde está ahora.

Así pues, lo que hago es meterlo directamente a una base de datos terminológica que tengo siempre enchufada a mi programita de traducción asistida. No obstante, y como he dicho al principio, la mayoría de estos archivos son un tostón de PDF. Si bien tienen una maquetación de lo más mona, extraer información en bruto de ellos es complicado y tedioso. Así que lo ideal es convertirlos a un formato más agradable para nuestros fines: una hoja de cálculo o una base de datos en bruto. ¿Cómo? Con paciencia, pero aplicando truquillos a tutiplén porque la hora de traductor está cara.

Lo primero es sacar todos esos datos del antro de perdición en el que se encuentran mediante un bello cortipega y depositarlos en un hogar en blanco. Después de sobreponernos al resultado hay que estudiar el texto para descubrir patrones repetitivos y aprovecharlos para automatizar lo máximo posible el proceso. Be water my friend. En el caso de este archivo podrán observar ustedes que el esquema básico está compuesto por tres términos (ES-EN-FR) y una definición. A mano sacaremos los trozos gordos que no van en la base terminológica como el primer párrafo, los últimos y las letras gordas. También rellenamos algunos huecos en el formato para que cuadre todo en el esquema que hemos planteado, en este glosario sustituimos esto:

PRODFIT
Programa informático de evaluación de stock basado en la forma generalizada del modelo de producción, con ajuste de equilibrio de índices de abundancia basados en la biomasa.


por esto:

PRODFIT
PRODFIT
PRODFIT

Programa informático de evaluación de stock basado en la forma generalizada del modelo de producción, con ajuste de equilibrio de índices de abundancia basados en la biomasa.


A continuación tiramos de la herramienta de buscar y reemplazar y eliminamos las marcas de párrafo que dividen el texto de las definiciones por un espacio. De esta forma sólo habrá una marca de párrafo después de cada término y de la definición. Un consejo: el ratón es tu enemigo. Utiliza la "f" de buscar y la "r" de reemplazar, se tarda mucho menos, lo prometo.

Una vez eliminadas las marcas de párrafo que nos sobran volvemos a buscar y reemplazar y sustituimos las marcas de párrafo que quedan por un bello símbolo que no aparezca en el texto original. Yo he utilizado un asterisco. Este archivo ya tiene buena pinta.
Ya sólo queda crear una bonita tabla: Seleccionar todo - Convertir texto en tabla - Cuatro columnas - Separar texto en función de un carácter de tu elección (*) y listo. Si todo ha salido bien tendremos cuatro columnas y en cada una de ellas el campo correspondiente. Si se nos ha pasado alguna marca de párrafo las columnas tendrán el contenido intercambiado y habrá que eliminar los asteriscos que hayan quedado fuera de sitio en el archivo con buena pinta y volver a convertir el texto en tabla.

A partir de aquí pueden ustedes hacer con el archivo lo que quieran. Yo lo meto en una hoja de cálculo, le añado más columnas como "autor del glosario", "tema" y demás y lo importo a mi base de datos. En todo el proceso he perdido unos 37 minutos pero ya no volveré a perder ni uno abriendo el navegador, buscando el glosario, etc, sino que lo veré como por arte de magia en la ventanita de mi TAO favorito.

Espero que les sirva de ayuda. Si tienen ustedes un método mejor ilumínenme en los comentarios por favor.

1 comment: