Comment extraire automatiquement du texte d’un PDF sans codage !
En utilisant notre produit, les utilisateurs peuvent rationaliser leur flux de travail et extraire efficacement du texte à partir de fichiers PDF en quelques minutes. Notre système automatisé élimine le besoin de saisie manuelle des données, réduisant ainsi le risque d'erreurs et augmentant la productivité globale. En quelques clics, les utilisateurs peuvent extraire simultanément du texte de plusieurs fichiers PDF, ce qui en fait un outil précieux pour les entreprises et les particuliers.
Créez votre extracteur automatique de PDF en texte en une minute ! Solution parfaite pour ceux qui traitent de grandes quantités de CV ou d'autres documents entrants ! Extrayez les données des documents à l'aide du flux de travail à distance sur Latenode.com !
Les Dans cet article, vous verrez comment créer un flux de travail automatisé sans code qui extraira les données des fichiers PDF sur votre Google Drive à l'aide de l'API et de Chat GPT, et remplira le formulaire Google Sheet avec les données.
Vous pouvez également obtenir le modèle de ce scénario que vous pouvez copier et utiliser vous-même gratuitement !
Vous pouvez mettre à niveau ce modèle ou l'utiliser non seulement pour l'extraction de texte PDF.
Aperçu du scénario
Jetons d’abord un œil à l’ensemble du scénario du scraper PDF, puis décomposons chaque étape.
Les
Comment fonctionne ce scénario d'extraction de PDF ? Une fois par heure, il récupère tous les CV au format PDF à partir de Google Drive, les convertit en fichiers txt à l'aide d'une requête HTTP, puis l'assistant chatGPT extrait les données nécessaires et remplit la feuille de calcul Google.
Principales étapes du scénario :
Déclencheur de planification. Active le scénario à une période de temps définie.
Google Drive. Ici, nous avons 2 nœuds : Rechercher un fichier et Télécharger un fichier.
Javascript. Nous utiliserons des nœuds Javascript avec AI Copilot pour le formatage des fichiers tout au long du scénario. Tout d'abord, j'ai demandé à AI de me fournir un code qui convertit les fichiers de Google Drive au format base64.
Requête HTTP. Utilisez l'API pour extraire du texte d'un PDF à l'aide de la documentation API des services tiers éprouvés.
ChatGPT. L'assistant ChatGPT extrait les données du texte.
Feuilles Google. Remplit la feuille avec ces informations,
Décomposition du scénario
Et voici une instruction étape par étape pour ceux qui veulent apprendre le processus. N'oubliez pas les modèles gratuits et prêts à l'emploi à la fin de l'article.
Les préparatifs
Pour ce scénario, vous devrez avoir la possibilité d'utiliser Open AI Assistants et n'importe quel convertisseur d'API.
Assistant OpenAI
C'est simple. Connectez-vous à votre compte OpenAI, puis accédez à assistants, puis cliquez sur le bouton « Créer » dans le coin supérieur droit. Vous verrez le panneau des paramètres de l'assistant.
Ici, vous devez :
Donnez un nom à votre assistant
Donnez-lui des instructions sur la manière dont vous souhaitez qu'il réponde et un peu de contexte. Nous vous recommandons de lui demander d'utiliser des fichiers joints, car sinon, il peut oublier de le faire.
Choisi un modèle
Sélectionnez les outils disponibles et ajoutez des fichiers que l'assistant peut utiliser. N'oubliez pas d'activer la récupération pour rendre l'ajout de fichiers possible.
Copiez l'ID de l'assistant (vous le voyez sous la colonne Nom), puis accédez àClés API, créez-en un et enregistrez-le.
Convertisseur PDF en TXT
Utilisez ce que vous voulez. J'ai pris ConvertAPI car il propose un essai gratuit et fournit de nombreuses informations.
Les
Créer un scénario
Passons maintenant àLatenode.com. Ici, nous devons créer le scénario de conversion PDF en texte : (Vous n'avez pas besoin de le créer à partir de zéro, copiez simplement le modèle à la fin de l'article)
Déclencheur de planification
Cliquez sur « Ajouter un nœud » dans l’onglet scénario, choisissez « Planifier » dans la liste. Cliquez sur le nœud pour le configurer. Spécifiez l’intervalle et le fuseau horaire, enregistrez les modifications. J’ai également ajouté un déclencheur sur Exécuter une fois, juste pour plus de commodité.
Nœuds Google Drive
Cliquez sur « Ajouter un nœud », recherchez le dossier Google Drive dans l’onglet Actions et choisissez le nœud « Rechercher un fichier ». Pour que cela fonctionne, vous devez vous connecter à votre compte Gmail pour obtenir un jeton d'accès, choisir le lecteur et rechercher le nom. Dans ce cas, je souhaite extraire des données de fichiers dont le nom contient CV.
Les
Ajoutez ensuite « Télécharger le fichier » à partir du même dossier d’action de Google Drive.
Utilisez l'ID des résultats du nœud précédent, puis cliquez une fois sur Exécuter le nœud pour enregistrer les modifications et faire circuler les données dans le scénario. Vous obtiendrez le fichier dans la sortie.
Javascript #1 : Convertir en base64
C'est le code que l'IA m'a donné. Tu peux le prendre ici(#1). Remplacez const fileContentPath par votre objet du nœud précédent.
Requête HTTP
Recherchez la requête HTTP dans la liste des actions. Pour comprendre comment la créer, visitez ConvertAPI Documentation. Ici, nous pouvons obtenir des informations sur la configuration de la demande.
Voici à quoi ressemble ma demande de conversion PDF en TXT.
Les
J'utilise un objet du nœud Rechercher un fichier de Google Drive pour spécifier le nom du fichier téléchargé et le contenu du fichier en base64 à partir du nœud Javascript. Et j'ajoute la paire Content-Type=application/json dans les en-têtes.
Exécutez node une fois pour obtenir le fichier à partir de la requête HTTP.
Cette fois, j'ai demandé à l'IA d'extraire le texte du fichier txt.
Nœuds ChatGPT
Nous serons confrontés ici à 3 nœuds GPT :
Créer un fil
Créer un message
Créer une exécution
Chaque nœud effectue une action avec OpenAI.
Nous créons d'abord un fil de discussion ou une conversation avec l'assistant GPT
Insérez votre clé API Open AI, c'est tout ! Exécutez node une fois et récupérez l'ID du thread créé dans la sortie.
Créer un message:
Ici, vous avez à nouveau besoin d'une clé API. Dans le champ ID du thread, saisissez le résultat du nœud précédent. Vous le verrez dans la fenêtre d'aide après avoir cliqué sur le champ de saisie.
Dans « Contenu du message », donnez des instructions supplémentaires si vous le souhaitez et placez le contenu du fichier à partir du dernier nœud Javascript. L'extracteur PDF automatisé est un pas de plus !
Créer une exécution
Ce nœud reçoit la réponse du scraper PDF.
Spécifiez le nœud comme votre assistant OpenAI et utilisez l’ID de l’assistant GPT.
Javascript #3
Ici, nous utilisons le nœud JS la dernière fois, pour créer 3 objets JSON distincts à partir de la réponse des assistants.
Voici le (ici), mettez simplement vos données dans le contenu const.
Google Sheets
Mettons ces données quelque part, Google Sheets est une bonne option pour ce scénario d'extraction de données PDF sur latenode.com.
Connectez-vous à nouveau à votre compte Gmail pour obtenir le jeton d'accès, choisissez le lecteur et la feuille, puis placez les fichiers JSON dans les champs, enregistrez le scénario et cliquez sur Exécuter une fois pour exécuter ou déployer le scénario afin d'activer le déclencheur de planification.
Résultats
Après une exécution de scénario réussie, ce flux de travail extraira le texte du fichier PDF sur votre Google Drive et le placera dans votre feuille de calcul Google.
Voici comment créer un extracteur PDF sans code sur latenode.
Comme promis, voici le modèle de ce workflow. Copiez-le simplement et suivez cet article de guide pour le configurer.
Il y a une vidéo à ce sujet, ne vous embêtez pas à lire !
Si vous souhaitez que quelqu'un vous aide, consultez notre chaîne Discord, nous avons des développeurs prêts à vous aider !
Puis-je utiliser Latenode si je ne suis pas familier avec la programmation ?
Oui, Latenode est conçu pour les utilisateurs de tous niveaux. Il offre des fonctionnalités avancées pour ceux qui maîtrisent JavaScript et des outils visuels intuitifs et une assistance IA pour les débutants. Que vous soyez un développeur expérimenté ou novice, Latenode offre une expérience conviviale adaptée à votre niveau de compétence.
Latenode peut-il s’intégrer à des services et API tiers ?
Oui, Latenode prend en charge l'intégration avec une large gamme de services et d'API tiers. Vous pouvez connecter Latenode à diverses plateformes en ligne, bases de données et systèmes logiciels pour automatiser les transferts de données, déclencher des actions et rationaliser les flux de travail. Latenode fournit également des outils et des ressources pour faciliter le processus d'intégration.
Existe-t-il une version gratuite de Latenode disponible ?
Oui, Latenode propose une version gratuite qui vous permet d'explorer ses fonctionnalités. Cette version comprend un sous-ensemble des fonctionnalités de Latenode, vous permettant de commencer avec l'automatisation et de profiter de ses avantages. Vous pouvez ensuite décider de passer à un plan payant pour bénéficier de fonctionnalités et de ressources supplémentaires.
Qu'est-ce que Latenode ?
Latenode est un outil d'automatisation visible et intuitif conçu pour permettre aux clients de rationaliser leurs flux de travail grâce à l'automatisation. Il permet aux clients de créer des stratégies informatisées en connectant diverses offres et gadgets Internet, leur permettant d'automatiser les tâches et d'améliorer efficacement la productivité.
Comment Latenode aide à maximiser les opportunités ?
En intégrant tous vos outils marketing en un seul endroit grâce à l'intégration de données, Latenode vous aide à obtenir une vue complète de vos opérations. Cela vous permet d'identifier plus facilement les opportunités potentielles et de prendre des décisions éclairées basées sur des données précises.