¡Cómo extraer texto de un PDF automáticamente sin necesidad de codificación!

Aplicaciones en este flujo de trabajo

¿Cómo funciona?

¡Construye tu extractor de PDF a texto automatizado en un minuto! ¡La solución perfecta para quienes trabajan con grandes cantidades de CV entrantes u otros documentos! ¡Extrae datos de documentos usando el flujo de trabajo remoto en Latenode.com!

En este artículo, verá cómo crear un flujo de trabajo automatizado sin código que extraerá datos de los archivos PDF en su Google Drive usando API y Chat GPT, y llenará el formulario de Google Sheet con los datos.

Además, ¡puedes obtener la plantilla de ese escenario que puedes copiar y usar tú mismo de forma gratuita!

Puedes actualizar esta plantilla o usarla no solo para la extracción de texto PDF.

Descripción general del escenario

Primero, echemos un vistazo a todo el escenario del raspador de PDF y luego desglosemos cada paso.

¿Cómo funciona este escenario de extracción de PDF? Una vez por hora, toma todos los CV en formato PDF de Google Drive, los convierte a archivos TXT mediante una solicitud HTTP y luego el asistente de chatGPT extrae los datos necesarios y completa la hoja de cálculo de Google.

Pasos principales del escenario:

Disparador de programación. Activa el escenario en un periodo de tiempo determinado.
Google Drive. Aquí tenemos 2 nodos: Buscar archivo y Descargar archivo.
Javascript. Usaremos nodos de Javascript con AI Copilot para formatear archivos en todo el escenario. Primero, le pedí a AI que me diera un código que convirtiera archivos de Google Drive al formato base64.
Solicitud HTTP. Utilice la API para extraer texto de un PDF utilizando documentos API de servicios de terceros probados.
ChatGPT. El asistente ChatGPT extrae los datos del texto.
Hojas de cálculo de Google. Rellena la hoja con esa información,

Desglose del escenario

A continuación, se ofrecen instrucciones paso a paso para quienes quieran aprender el proceso. Recuerde que al final del artículo encontrará plantillas gratuitas y listas para usar.

Preparativos

Para este escenario, necesitarás tener la capacidad de utilizar Open AI Assistants y cualquier convertidor de API.

Asistente OpenAI

Es muy sencillo. Inicie sesión en su cuenta de OpenAI y luego vaya a asistentesy haz clic en el botón “crear” en la esquina superior derecha. Verás el panel de configuración del asistente.

Ilustración de la configuración correcta del asistente de IA

Aquí necesitas:

Dale un nombre a tu asistente
Dale instrucciones sobre cómo quieres que responda y algo de contexto. Te recomendamos que le pidas que utilice archivos adjuntos, ya que de lo contrario, puede olvidarse de hacerlo.
Escoge un modelo
Seleccione las herramientas disponibles y agregue archivos que el asistente puede utilizar. No olvide activar la recuperación para que sea posible agregar archivos.

Copia el ID del asistente (lo ves debajo de la columna Nombre), luego ve a Claves API, crea uno y guárdalo.

Convertidor de PDF a TXT

Usa el que más te guste. Yo tomé Convertir API Porque tiene una prueba gratuita y proporciona mucha información.

Ilustración de la aplicación ConvertAPI para crear un convertidor automático de PDF a texto

Crear escenario

Ahora pasamos a Latenode.comAquí tenemos que crear el escenario de conversión de PDF a texto: (No es necesario crearlo desde cero, simplemente copia la plantilla al final del artículo)

Activador de programación

Ilustración del disparador de programación

Haga clic en “Agregar nodo” en la pestaña de escenario y elija “Programación” en la lista. Haga clic en el nodo para configurarlo. Especifique el intervalo y la zona horaria y guarde los cambios. También agregué un disparador en Ejecutar una vez, solo para mayor comodidad.

Nodos de Google Drive

Haga clic en “Agregar nodo”, busque la carpeta de Google Drive en la pestaña de acciones y elija el nodo “Buscar archivo”.
Para que funcione, debes iniciar sesión en tu cuenta de Gmail para obtener el token de acceso, elegir la unidad y buscar el nombre. En este caso, quiero extraer datos de archivos que tienen CV en su nombre.

A continuación, agregue “Descargar archivo” desde la misma carpeta de acciones de Google Drive.

Ilustración de cómo descargar el archivo que necesita para crear un convertidor de texto a PDF con IA

Utilice el ID de los resultados del nodo anterior y, a continuación, haga clic en Ejecutar nodo una vez para guardar los cambios y hacer que los datos fluyan a través del escenario. Obtendrá el archivo en la salida.

Javascript #1: Convertir a base64

Ilustración del código JS que necesitas para extraer texto

Ese es el código que me dio la IA. Puedes tomarlo. aquí(#1). Reemplace const fileContentPath con su objeto del nodo anterior.

Solicitud HTTP

Busque la solicitud HTTP en la lista de acciones. Para saber cómo crearla, visite ConvertAPI documentaciónAquí podemos obtener información sobre cómo configurar la solicitud.

Así es como se ve mi solicitud de conversión de PDF a TXT.

Ilustración de la configuración correcta de las solicitudes HTTP

Utilizo un objeto del nodo Buscar archivo de Google Drive para especificar el nombre del archivo descargado y el contenido del archivo en base64 desde el nodo Javascript. Y agrego el par Content-Type=application/json en los encabezados.

Ejecute el nodo una vez para obtener el archivo de la solicitud HTTP.

Javascript #2

Otro nodo de código, #2 aquí.

Esta vez, le pedí a AI que extrajera texto del archivo txt.

Nodos ChatGPT

Aquí nos enfrentaremos a 3 nodos GPT:

Crear hilo
Crear un mensaje
Crear Ejecutar

Cada nodo realiza una acción con OpenAI.

Primero creamos un hilo o conversación con el Asistente GPT

Ilustración de cómo crear nodos ChatGPT y cómo utilizar la clave AP

¡Inserta tu clave API de Open AI y listo! Ejecuta el nodo una vez y obtén el ID del hilo creado en la salida.

Crear un mensaje:

Aquí necesitas una clave API nuevamente. En el campo de ID de subproceso, coloca el resultado del nodo anterior. Lo verás en la ventana de ayuda después de hacer clic en el campo de entrada.

En “Contenido del mensaje” proporciona instrucciones adicionales si lo deseas y coloca el contenido del archivo del último nodo de Javascript. ¡El extractor de PDF automático está un paso más cerca!

Crear Ejecutar

Ilustración Cómo crear tu carrera para ver el resultado

Este nodo recibe la respuesta del raspador de PDF.

Especifique el nodo como su asistente OpenAI y use el ID del asistente GPT.

Javascript #3

Aquí usamos el nodo JS por última vez para crear 3 objetos json separados a partir de la respuesta del Asistente.

Aquí está la ejemplo, simplemente ponga sus datos en contenido const.

Google Sheets

Coloquemos estos datos en algún lugar, Google Sheets es una buena opción para este escenario de extracción de datos en PDF en latenode.com.

Ilustración de la configuración de Hojas de cálculo de Google que necesita

Inicie sesión en la cuenta de Gmail una vez más para obtener el token de acceso, elija la unidad y la hoja, coloque json en los campos, guarde el escenario y haga clic en ejecutar una vez para ejecutar o implementar el escenario para activar el disparador de programación.

Resultados

Después de una ejecución exitosa del escenario, este flujo de trabajo extraerá el texto del archivo PDF en su Google Drive y lo colocará en su hoja de cálculo de Google.

Así es como se crea un extractor de PDF sin código en latenode.

Como prometí, aquí está la plantilla de este flujo de trabajo. Solo tienes que copiarla y seguir este artículo de guía para configurarla.

Hay un vídeo al respecto, ¡no te molestes en leerlo!

Si quieres que alguien te ayude, visita nuestro canal de Discord, ¡tenemos algunos desarrolladores listos para ayudarte!

Consigue esta plantilla

Categorías

TI y desarrollo

Marketing publicitario

Preguntas Frecuentes

¿Puedo usar Latenode si no estoy familiarizado con la programación?

Sí, Latenode está diseñado para usuarios de todos los niveles. Ofrece funciones avanzadas para aquellos que dominan JavaScript y herramientas visuales intuitivas y asistencia de IA para principiantes. Ya sea que sea un desarrollador experimentado o un novato, Latenode ofrece una experiencia fácil de usar adaptada a su nivel de habilidad.

¿Puede Latenode integrarse con servicios y API de terceros?

Sí, Latenode admite la integración con una amplia gama de servicios y API de terceros. Puede conectar Latenode a varias plataformas en línea, bases de datos y sistemas de software para automatizar transferencias de datos, activar acciones y agilizar flujos de trabajo. Latenode también proporciona herramientas y recursos para facilitar el proceso de integración.

¿Existe una versión gratuita de Latenode disponible?

Sí, Latenode ofrece una versión gratuita que te permite explorar sus capacidades. Esta versión incluye un subconjunto de las funciones de Latenode, lo que te permite comenzar con la automatización y experimentar sus beneficios. Luego, puedes decidir si deseas actualizar a un plan pago para obtener funciones y recursos adicionales.

¿Qué es Latenode?

Latenode es una herramienta de automatización intuitiva y visual diseñada para permitir a los clientes optimizar sus flujos de trabajo mediante la automatización. Permite a los clientes crear estrategias automatizadas mediante la conexión de diversos servicios y dispositivos de Internet, lo que les permite automatizar tareas y mejorar la productividad de manera eficaz.

¿Cómo ayuda Latenode a maximizar las oportunidades?

Al integrar todas sus herramientas de marketing en un solo lugar mediante la integración de datos, Latenode le ayuda a obtener una visión integral de sus operaciones. Esto le permite identificar oportunidades potenciales con mayor facilidad y tomar decisiones informadas basadas en datos precisos.