Categorias

Como extrair imagens de um documento Word/LibreOffice com inteligência

Todo mundo já passou por uma situação dessas. Se não passou, deve se considerar afortunado. Você pede uma ou mais imagens para um projeto para o cliente e recebe de volta… um documento Word com tudo colado lá dentro.

Em um mundo ideal, desenvolvedores e designers trabalhariam com arquivos .jpg ou .png de alta resolução ou até mesmo com arquivos de editores de imagens, com camadas separadas. Entretanto, não é assim que funciona no dia a dia e, muitas vezes, é necessário exportar as imagens de seus respectivos documentos de texto.

Você pode copiar a imagem, colar em um editor gráfico, exportar/salvar e repetir o processo para a imagem seguinte ou pode usar a nossa dica.

Na prática, um arquivo Word (e isso vale tanto para o pacote Microsoft Office, quanto para documentos de texto gerados em outras soluções, como LibreOffice ou OpenOffice) é um coletivo de arquivos, combinando XML, texto, imagens e outros componentes, todos colados juntos dentro de uma extensão interpretada pelo editor de texto.

É possível acessar essa estrutura simplesmente mudando a extensão do arquivo. Talvez seja necessário habilitar o seu sistema operacional para exibir as extensões dos nomes dos arquivos. Se o seu arquivo termina em .doc ou .odt, altere a extensão para .zip e navegue pelo seu conteúdo. Todas as imagens embutidas no documento estarão armazenadas em um subdiretório em um formato conveniente.

Exemplo: renomeamos o arquivo Fotos da Aula 1.odt para Fotos da Aula 1.zip.

Na pasta Pictures, estão todas as fotos que precisamos, em seus tamanhos originais. Agora, é só uma questão de “extrair” todas as fotos para o local adequado.