Como extrair texto de PDF automaticamente sem codificação!

Aplicativos neste fluxo de trabalho

Como Funciona

Crie seu extrator automatizado de PDF para texto em um minuto! Solução perfeita para quem lida com grandes quantidades de CVs ou outros documentos recebidos! Extraia dados de documentos usando fluxo de trabalho remoto no Latenode.com!

‍
Neste artigo, você verá como criar um fluxo de trabalho automatizado sem código que extrairá dados dos arquivos PDF no seu Google Drive usando API e Chat GPT, além de preencher o formulário do Planilhas Google com os dados.

Além disso, você pode obter o modelo desse cenário que pode copiar e usar gratuitamente!

Você pode atualizar este modelo ou usá-lo não apenas para extração de texto em PDF.

Visão geral do cenário

Vamos primeiro dar uma olhada em todo o cenário do PDF Scraper e depois detalhar cada etapa.

‍

Como funciona esse cenário de extração de PDF? Uma vez por hora, ele pega todos os CVs em formato PDF do Google Drive, converte para arquivos txt usando solicitação HTTP, então o assistente chatGPT extrai os dados necessários e preenche a Planilha do Google.

Principais etapas do cenário:

Gatilho de programação. Ativa o cenário em um período de tempo definido.
Google Drive. Aqui temos 2 nós: Localizar arquivo e Baixar arquivo.
Javascript. Usaremos nós Javascript com copiloto de IA para formatação de arquivos em todo o cenário. Primeiro, pedi à IA para me dar um código que convertesse arquivos do Google Drive para o formato base64.
Solicitação HTTP. Use a API para extrair texto de PDF usando documentos de API de serviços de terceiros testados.
Bate-papoGPT. O assistente ChatGPT extrai os dados do texto.
Planilhas Google. Preenche a planilha com essas informações,

Desagregação do cenário

E aqui vai uma instrução passo a passo para aqueles que querem aprender o processo. Lembre-se dos modelos gratuitos e prontos para uso no final do artigo.

Preparativos

Para este cenário, você precisará ter a capacidade de usar Open AI Assistants e qualquer conversor de API.

Assistente OpenAI

Isso é simples. Entre na sua conta OpenAI e vá para assistentes, e clique no botão “criar” no canto superior direito. Você verá o painel de configurações do assistente.

Ilustração das configurações corretas do assistente de IA

Aqui você precisa:

Dê um nome ao seu assistente
Dê instruções sobre como você quer que ele responda, e algum contexto. Recomendamos que você peça para ele usar arquivos anexados, porque senão, ele pode esquecer de fazer isso.
Escolha um modelo
Selecione as ferramentas disponíveis e adicione arquivos que o assistente pode usar. Não esqueça de ativar a recuperação para tornar possível a adição de arquivos.

Copie o ID do assistente (você o vê na coluna Nome) e vá para Chaves API, crie um e salve-o.

Conversor de PDF para TXT

Use qualquer um que você goste. Eu peguei ConvertAPI porque tem um teste gratuito e fornece muitas informações.

‍

Ilustração do aplicativo ConvertAPI para criar um conversor automático de PDF para texto

Crie um cenário

Agora mudamos para Latenode.com. Aqui, temos que criar o cenário de conversão de pdf para texto: (Você não precisa criá-lo do zero, basta copiar o modelo no final do artigo)

Gatilho de agendamento

Clique em “Add node” na aba de cenário, escolha “Schedule” na lista. Clique no nó para configurá-lo. Especifique o intervalo e o fuso horário, salve as alterações. Também adicionei um gatilho em Run once, apenas por conveniência.

Nós do Google Drive

Clique em “Adicionar nó”, procure pela pasta do Google Drive na aba de ações e escolha o nó “Localizar arquivo”.
Para fazer funcionar, você tem que fazer login na conta do Gmail para obter o token de acesso, escolher a unidade e Pesquisar nome. Neste caso, quero extrair dados de arquivos que têm CV no nome.

‍

Em seguida, adicione “Baixar arquivo” da mesma pasta de ação do Google Drive.

Ilustração de como baixar o arquivo que você precisa para criar o conversor de PDF-texto AI

Use id dos resultados do nó anterior e, em seguida, clique em run node uma vez para salvar as alterações e fazer os dados fluírem pelo cenário. Você obterá o arquivo na saída.

Javascript #1: Converter para base64

Ilustração do código JS que você precisa para extrair texto

Esse é o código que a IA me deu. Você pode pegá-lo aqui(#1). Substitua const fileContentPath pelo seu objeto do nó anterior.

Solicitação HTTP

Encontre a solicitação HTTP na lista de ações. Para entender como criá-la, visite ConvertAPI documentação. Aqui podemos obter informações sobre como configurar a solicitação.

Veja como ficou minha solicitação de conversão de PDF para txt.

Ilustração das configurações corretas de solicitações HTTP

‍

Eu uso um objeto do nó Find file Google Drive para especificar o nome do arquivo baixado e o conteúdo do arquivo em base64 do nó Javascript. E adicione o par Content-Type=application/json em Headers.

Execute node uma vez para obter o arquivo da solicitação HTTP.

Javascript #2

Outro nó de código, #2 aqui.

Desta vez, pedi à IA para extrair o texto do arquivo txt.

Nós ChatGPT

Enfrentaremos 3 nós GPT aqui:

Criar Tópico
Criar mensagem
Criar execução

Cada nó executa uma ação com o OpenAI.

Primeiro criamos um tópico ou conversa com o Assistente GPT

Ilustração de como criar nós ChatGPT e como usar a chave AP

Insira sua chave Open AI API, pronto! Execute node uma vez e obtenha o id do thread criado na saída.

Criar mensagem:

ilustração como criar a massagem certa para o Assistente de Suporte de IA

Aqui você precisa de uma chave API novamente. No campo thread ID, coloque o resultado do nó anterior. Você o verá na janela auxiliar depois de clicar no campo de entrada.

Em “Message content” dê algumas instruções adicionais se quiser e coloque o filecontent do último nó Javascript. O extrator de PDF automatizado está um passo mais perto!

Criar execução

Ilustração Como criar sua corrida para assistir ao resultado

Este nó recebe a resposta do scraper de PDF.

Especifique o nó como seu assistente OpenAI e use o ID do assistente GPT.

Javascript #3

Aqui usamos o nó JS pela última vez para criar 3 objetos JSON separados a partir da resposta dos Assistentes.

Aqui está o exemplo, basta colocar seus dados em content const.

planilhas do Google

Vamos colocar esses dados em algum lugar. O Planilhas Google é uma boa opção para esse cenário de extração de dados em PDF no latenode.com.

ilustração das configurações do Planilhas Google que você precisa

Efetue login na conta do Gmail mais uma vez para obter o token de acesso, escolha a unidade e a planilha, coloque jsons nos campos, salve o cenário e clique em executar uma vez para executar ou implantar o cenário para ativar o gatilho de agendamento.

Mensuráveis

Após a execução bem-sucedida do cenário, este fluxo de trabalho extrairá o texto do arquivo PDF no seu Google Drive e o colocará na sua Planilha Google.

É assim que se cria um extrator de PDF sem código no latenode.

Como prometi, aqui está o modelo deste fluxo de trabalho. Basta copiá-lo e seguir este artigo guia para configurá-lo.

Há um vídeo sobre isso, não perca tempo lendo!

Se você quiser que alguém o ajude, confira nosso canal no Discord, temos alguns desenvolvedores prontos para ajudar!

‍

Obtenha este modelo

Categorias

TI e Desenvolvimento

Publicidade e Marketing

Perguntas frequentes

Posso usar o Latenode se não estiver familiarizado com programação?

Sim, o Latenode foi projetado para usuários de todos os níveis de habilidade. Ele oferece recursos avançados para aqueles proficientes em JavaScript e ferramentas visuais intuitivas e assistência de IA para iniciantes. Seja você um desenvolvedor experiente ou um novato, o Latenode fornece uma experiência amigável ao usuário, adaptada ao seu nível de habilidade.‍‍

O Latenode pode ser integrado com serviços e APIs de terceiros?

Sim, o Latenode suporta integração com uma ampla gama de serviços e APIs de terceiros. Você pode conectar o Latenode a várias plataformas online, bancos de dados e sistemas de software para automatizar transferências de dados, disparar ações e otimizar fluxos de trabalho. O Latenode também fornece ferramentas e recursos para facilitar o processo de integração.

Existe uma versão gratuita do Latenode disponível?

Sim, o Latenode oferece uma versão gratuita que permite que você explore seus recursos. Esta versão inclui um subconjunto de recursos do Latenode, permitindo que você comece com a automação e experimente seus benefícios. Você pode então decidir se deseja atualizar para um plano pago para obter recursos e funcionalidades adicionais.

O que é Latenode?

Latenode é uma ferramenta de automação visível e intuitiva projetada para capacitar os clientes a otimizar seus fluxos de trabalho por meio da automação. Ela permite que os clientes criem estratégias computadorizadas por meio da conexão de diversas ofertas e gadgets de internet, permitindo que automatizem obrigações e decorem a produtividade com sucesso.

Como o Latenode ajuda a maximizar oportunidades?

Ao integrar todas as suas ferramentas de marketing em um só lugar por meio da integração de dados, o Latenode ajuda você a obter uma visão abrangente de suas operações. Isso permite que você identifique oportunidades potenciais mais facilmente e tome decisões informadas com base em dados precisos.