nov 02 2009

Cómo recolectar las palabras en negrita de un PDF

Published by at 3:39 am under Devel,Euskera,OOo,pdf

Screenshot-A-Ama-1-10.pdf Ése es el problema: tengo un PDF con un texto. Algunas de las palabras de ese texto están en negrita. Quiero crear un script que recoja todas esas palabras. ¿Cómo lo hago? Supongo que habrá varios métodos, a mí se me ha ocurrido éste:

Abrir el PDF con OpenOffice.org (con el soporte de importar y editar PDF’s activado). Se abrirá en Draw. Incluir la siguiente macro en StarBasic. Ejecutar la macro. El meollo de la cuestión estriba en que dicha macro recorre todos los elementos de texto del fichero recién cargado y cada vez que encuentre un trozo en negrita, es decir se cumple que:

if (oTextPortion.charWeight > 100) then

añadirá ese trozo o palabra a una hoja de cálculo (en Calc). Yo lo he probado con este extracto de fichero PDF (extraído del Orotariko Euskal Hiztegia, porque necesitaba la lista de palabras de ese diccionario…)

2 responses so far

2 Responses to “Cómo recolectar las palabras en negrita de un PDF”

  1. yoon 02 nov 2009 at 4:00 am

    Solo por curiosidad:

    ¿Que objetivo tiene recolectar las palabras en negrilla de un texto en pdf??

  2. adminon 02 nov 2009 at 6:30 pm

    Supongamos – es un suponer – que tenemos un diccionario en Euskera en formato PDF (las entradas del diccionario están en negrita… y sólo la primera palabra de cada entrada). También tenemos el mismo diccionario disponible para consulta vía web. Tecleas una palabra y te da la descripción. Ahora supongamos que quieres obtener una copia de la versión web. ¡Fácil! Tecleas la lista de palabras una a una y vas guardando los resultados. Great! Er…. pero ¿cómo obtienes la lista de palabras, esas que estaban en negrita? ¡Ah! ¡Sí! con un script que publicaron en diariolinux.com :-)

Trackback URI | Comments RSS

Leave a Reply

« Back to text comment