Hace unos momentos, antes de escribir éste post, estaba queriendo sacar información de un archivo PDF (precisamente el texto) para poder manipularlo a mi antojo. Obviamente empecé a buscar por la web para ver que me encontraba y 5 webs que se supone que brindan el servicio de conversión online de archivos no funcionaban o funcionaban mal, es decir, convertían pero el resultado final era un documento ininteligible. Por lo que empecé a buscar ya un poco más precisamente y me topé con que en las distros GNU/Linux tenemos una herramienta que hace ésto y un poco más.

La herramienta se llama xpdf la cual es una aplicación súmamente pequeña pero super potente con la cual se pueden hacer varias cosas como por ejemplo extraer el texto de un archivo PDF y pasarlo a cualquier otra clase de documento o, también, extraer las imágenes de un archivo PDF para obtenerlas de manera independiente.

Para instalar ésta aplicación obviamente hay que tener los repos actualizados:

$ sudo apt update

Y ya con eso podemos instalar la aplicación:

$ sudo apt install xpdf

Convirtiendo un PDF a ODT

Para hacer una conversión (o mejor dicho, para extraer el texto) de un archivo PDF basta con ejecutar el siguiente comando:

$ pdftotext archivo.pdf archivo.odt

Eso es todo, pero hay una pequeña salvedad. El formato de texto original no debe ser muy complicado ya que de lo contrario el archivo convertido será un desastre o, en su defecto, no podrá realizarse la conversión. Por eso a ésta herramienta la veo más como un extractor de texto manipulable.

Extraer imágenes de un archivo PDF

Para extraer las imágenes de un PDF, la herramienta nos proporciona una subherramienta muy potente llamada PDFIMAGES. Para usarla, basta con hacer lo siguiente:

$ pdfimages -all archivo.pdf /ruta/de/destino/de/las/imágenes

Y listo, con eso vamos a obtener todas las imágenes de un PDF.

Si necesitás manipular archivos PDFs ésta es tu herramienta.


No olviden seguirnos en las redes sociales: