HTML-Verarbeitung und Verarbeitung von Remote-PDF-Dokumenten - n8n-Workflow

Nutzen Sie diesen leistungsstarken n8n-Workflow, um HTML-Inhalte in PDFs umzuwandeln und präzise Text aus lokalen sowie externen PDF-Dokumenten zu extrahieren – unter Verwendung spezialisierter n8n-Nodes und der CustomJS API.

Workflow-Vorschau

Bereit zur Automatisierung?

Laden Sie diese n8n-Workflow-Vorlage herunter und beginnen Sie sofort mit der Nutzung.

Zielgruppe

Automatisierungsspezialisten, die Dokumentenerstellung und Textextraktion bewältigen müssen.
Entwickler, die nach fortgeschrittenen n8n-Vorlagen zur PDF-Verarbeitung suchen.
Nutzer der CustomJS API, die Anwendungsbeispiele für die spezifische Nutzung ihrer n8n-Nodes sehen möchten.
Jeder, der eine zuverlässige Methode sucht, um statische Informationen aus PDF-Dokumenten innerhalb einer n8n-Automatisierung auszulesen.

Überblick

Der Umgang mit PDF-Dokumenten ist eine häufige Anforderung in der Unternehmensautomatisierung, erfordert jedoch oft Spezialwerkzeuge. Dieser umfassende n8n-Workflow löst zwei gängige Herausforderungen: die Umwandlung beliebiger HTML-Inhalte in ein portables PDF-Dokument und anschließend die Extraktion wertvoller Textdaten sowohl aus neu erstellten PDFs als auch aus extern gehosteten Dateien (per URL). Diese spezielle n8n-Vorlage nutzt die Funktionalität spezialisierter n8n-Nodes (CustomJS PDF Toolkit) für eine nahtlose Dokumentenverarbeitung. Durch den Einsatz dieses n8n-Workflows erhalten Sie die Fähigkeit, Prozesse wie die Dokumentenarchivierung, das Erfassen von Webinhalten und die Datenaufnahme aus komplexen PDF-Formaten zu optimieren.

Funktionsweise

Dieser n8n-Workflow beginnt mit einem einfachen Manuellen Trigger, der es dem Benutzer ermöglicht, den Prozess durch Klicken auf 'Workflow testen' problemlos zu starten. Die Kernlogik verzweigt sich sofort in zwei unterschiedliche parallele Pfade, um verschiedene Anwendungsfälle für den spezialisierten PDF-n8n-Node zu demonstrieren:


  1. Pfad 1: Dynamische HTML-Konvertierung und Extraktion

Der Flow wechselt zum n8n-Node 'HTML to PDF', der eine statische HTML-Eingabe (

Hello World

) entgegennimmt und diese in ein PDF-Binärobjekt umwandelt. Hierfür werden die Anmeldeinformationen der CustomJS API verwendet.
Die resultierende PDF-Binärdatei wird an den ersten n8n-Node 'Convert PDF into Text' weitergeleitet. Dieser Node verarbeitet die Datei-Binärdaten direkt und extrahiert den Text, was bestätigt, dass das HTML erfolgreich konvertiert und für den n8n-Workflow lesbar gemacht wurde.


  1. Pfad 2: Extraktion aus Remote-PDF-URL

Der parallele Pfad beginnt mit einem n8n-Node vom Typ 'Code'. Dieser Node dient dazu, eine Eingabe für eine externe PDF-URL zu definieren und simuliert so eine externe Quelle für PDF-Daten, die der n8n-Workflow benötigt.
Die Daten (der URL-Pfad) werden dann an den n8n-Node 'Convert PDF into Text1' gesendet. Dieser leistungsstarke n8n-Node ist so konfiguriert, dass er das PDF von der angegebenen URL abruft, wodurch das manuelle Herunterladen der Datei entfällt. Anschließend führt er die Textextraktion direkt aus dem Remote-Dokument durch.

Installationsanleitung

Um diese n8n-Workflow-Vorlage zu installieren und ihr volles Potenzial auszuschöpfen, befolgen Sie diese Schritte:


  1. Custom N8N Node installieren: Dieser n8n-Workflow ist auf ein Drittanbieterpaket angewiesen. Sie müssen zuerst das Paket @custom-js/n8n-nodes-pdf-toolkit in Ihrer n8n-Instanz installieren.

  2. n8n-Workflow importieren: Kopieren Sie die bereitgestellten JSON-Daten. Navigieren Sie in Ihrer n8n-Oberfläche zu 'Workflows', klicken Sie auf 'Neu' und wählen Sie 'Aus JSON importieren'.

  3. Anmeldedaten einrichten: Sowohl die n8n-Node-Instanzen 'HTML to PDF' als auch 'Convert PDF into Text' benötigen 'CustomJS API'-Anmeldedaten. Stellen Sie sicher, dass Sie eine Verbindung mit dem entsprechenden API-Schlüssel und den Servicedetails eingerichtet haben. Ohne diese Anmeldedaten schlägt der n8n-Workflow fehl.

  4. n8n-Trigger testen: Klicken Sie auf den n8n-Trigger-Node 'When clicking ‘Test workflow’' und führen Sie den Workflow einmal aus, um zu überprüfen, ob beide parallelen Extraktionspfade erfolgreich ausgeführt werden und die extrahierten Textdaten zurückliefern.

Node-Details

When clicking ‘Test workflow’ (Manueller Trigger): Der initiale n8n-Triggerpunkt für diesen Demonstrations-n8n-Workflow. Er startet beide Dokumentenverarbeitungspfade gleichzeitig.
HTML to PDF: Ein spezialisierter n8n-Node, der die CustomJS API nutzt, um einen HTML-Code-String (

Hello World

) in eine PDF-Datei-Binärdatei umzuwandeln, die dann für nachfolgende n8n-Nodes zur Verfügung steht.
Convert PDF into Text: Diese Instanz des PdfToText n8n-Nodes ist so konfiguriert, dass sie die Binärausgabe des vorherigen 'HTML to PDF'-Schritts übernimmt und den gesamten Klartextinhalt extrahiert. Er verarbeitet die intern im n8n-Workflow generierten Daten.
Code: Dieser n8n-Node fungiert als dynamischer Eingabegenerator und erstellt speziell eine JSON-Nutzlast, die den URL-Pfad zu einem externen PDF-Dokument enthält. Dies bereitet die Eingabe für den nachfolgenden n8n-Node vor.

  • Convert PDF into Text1: Diese zweite Instanz des PdfToText n8n-Nodes ist so konfiguriert, dass sie eine Ressource vom Typ 'url' verwendet. Sie zieht dynamisch die PDF-Datei unter dem angegebenen Pfad (={{ $json.path }}) und extrahiert die Textinformationen direkt aus der Remote-Quelle. Dies demonstriert die Flexibilität im Design Ihres n8n-Workflows.

Ähnliche n8n-Workflows

Kostenlos

Knoten: 4 Knoten
Aktualisiert: Dezember 26 2025
Alle anzeigen
Erstellt von

Hervorgehoben*