P A T H | Dicas Alteryx - Utilizando a ferramenta PDF para Texto

INTRODUÇÃO

Para aqueles que nos acompanham a mais tempo, devem estar se perguntar “Mas vocês já não falaram disso antes?”. E para vocês caros espectadores atentos, a resposta é “sim”, já falamos sobre leitura de PDF mais de uma vez.

A primeira vez que falamos sobre ela foi na dica “ANALISANDO DOCUMENTOS COM PDF INPUT” (hyperlink) em 2020. E novamente falamos sobre leitura de PDF na dica “COMO UTILIZAR A FERRAMENTA IMAGE INPUT PARA INTERPRETAR IMAGENS PNG, JPEG, BMP OU PDF” (hyperlink) em 2021.

E com essas dicas percebemos o quanto o Alteryx vem melhorando sua habilidade de ler arquivos em PDF. Agora trazemos para vocês a mais nova ferramenta do pacote Intelligence Suite, a ferramenta de PDF para Texto (PDF to Text).

Para essa dica utilizaremos um extrato bancário com movimentações fictícias.

PASSO 01: ENTENDENDO AS ENTRADAS E SAÍDAS DA FERRAMENTA

A ferramenta de “PDF para Texto”, possui 2 entradas. A entrada “D” (entrada de Dados), e a entrada “T” (Template), ambas são opcionais.

A Entrada de Dados requer o caminho para o arquivo PDF, então podemos utilizar a configuração da própria ferramenta para determinar um arquivo específico, ou podemos utilizar a entrada “D” para conectarmos por exemplo a uma ferramenta de Diretório.

Já a entrada de Template requer um exemplo de conteúdo do PDF, e a ferramenta mais recomendada para essa conexão é a “Modelo de Imagem”.

PASSO 01: ENTENDENDO AS ENTRADAS E SAÍDAS DA FERRAMENTA

Quando pensamos em leitura de PDF já pensamos em complexidade de leitura e erros de conversão, e nesse caso, a ferramenta de PDF para Texto resolve os 2 problemas com uma configuração simples e intuitiva e resultados impressionantes.

Vamos primeiramente entender as configurações:

Inserir Arquivo

Na parte superior iremos selecionar o caminho para o arquivo PDF que queremos ler. Caso exista uma conexão na entrada “D”, iremos apenas selecionar qual coluna da nossa base de dados contem o caminho para o arquivo PDF.

Opções de extração de texto

Nesta configuração iremos selecionar qual tipo de leitura será realizada, se selecionarmos a opção “Ler Conteúdo de Texto e imagem” o Alteryx irá interpretar de forma dinâmica textos e imagens utilizando OCR, sendo essa forma mais fácil deixando a inteligência do Alteryx decidir, mas pode ser mais custosa do que precisaria ser.

Selecionando a opção “Ler apenas conteúdo de Texto”, será feita a interpretação dos caracteres sem a utilização de OCR, sendo essa forma até 10x mais rápida que a anterior, mas com isso vem algumas configurações a mais como “pontuação de risco” e “gerar imagens dos gráficos”.

A Pontuação de Risco nos permite analisar a precisão da interpretação do PDF, linhas com risco baixo (low), estão em bom estado para serem utilizadas. Linhas com risco médio ou alto (medium / High), devem passar por um tratamento na ferramenta Image Tool com utilização de OCR.

Idioma

Aqui determinamos qual ou quais idiomas compõe o conteúdo do arquivo PDF ( E SIM, TEMOS PORTUGUÊS )

Opções de Saída

Nas opções de saída determinamos qual conteúdo é importante após toda a análise configurada anteriormente.

Linhas – Separação em cada linha por linha da página, mantendo seu formato padrão com múltiplos espaços e separações de conteúdo

Cadeia de Caracteres – Separação por página, mantendo uma linha única com todos os dados para cada página

Tabela Delimitada por Barras Verticais – Separação por página, mantendo uma linha com todos os registros das páginas, mas com a separação de barra para cada quebra de linha

Tabela Alteryx – Separação Linha por Linha, mas com uma certa limpeza de dados, removendo espaços duplicados e espaços desnecessário

5. Pré-visualização

Nessa parte é possível ver como está o conteúdo do arquivo PDF lido.

ATENÇÃO: Também podemos utilizar o wildcard (*) na configuração do caminho, mas nesse caso não teremos a pré-visualização dos dados.

Utilizando a ferramenta PDF para Texto

O que você vai aprender?

INTRODUÇÃO

PASSO 01: ENTENDENDO AS ENTRADAS E SAÍDAS DA FERRAMENTA

PASSO 01: ENTENDENDO AS ENTRADAS E SAÍDAS DA FERRAMENTA

19 de janeiro de 2022

Pronto! Agora você já sabe os usos da mais nova ferramenta PDF para Texto.

P A T H | Dica Alteryx Cloud – 2 maneiras de remover os zeros à esquerda dos nossos dados

P A T H | Dicas Tableau – Como mostrar apenas o rótulo dos últimos 3 meses de um gráfico de evolução mensal

P A T H | Dicas Tableau Prep – Quais opções de limpeza estão disponíveis em cada ferramenta?

P A T H | Dicas Tableau – Como criar uma ação de parâmetro que indique o mês selecionado e retorne o mês atual

P A T H | Dicas Alteryx – Criando um ID único por linha ou grupo

P A T H | Dicas Tableau – Como adicionar extensões de visualização à sua planilha

Powered by P A T H @2022. Brasil - Portugal - Uruguai - Paraguai