HTMLとリモートPDFドキュメント処理 - n8n ワークフロー

この強力なn8nワークフローを活用して、HTMLコンテンツをPDFに変換し、専用のn8nノードとCustomJS APIを使用して、ローカルおよびリモートのPDFドキュメントからテキストを正確に抽出します。

ワークフロープレビュー

自動化の準備はいいですか?

このn8nワークフローテンプレートをダウンロードして、今すぐ使い始めましょう。

こんな方におすすめ

ドキュメント生成とテキスト抽出を扱う必要がある自動化スペシャリスト
高度なPDF処理n8nテンプレートを探している開発者
特定のn8nノードの使用例を確認したいCustomJS APIユーザー
n8nオートメーション内でPDFドキュメントから静的情報を解析する信頼性の高い方法を探している方

概要

ビジネスオートメーションにおいてPDFドキュメントの扱いは頻繁に必要とされますが、多くの場合、専門的なツールが必要です。この包括的なn8nワークフローは、2つの一般的な課題を解決します。それは、任意のHTMLコンテンツをポータブルなPDFドキュメントに変換すること、そして新規生成されたPDFと外部でホストされている既存のファイル(URL経由)の両方から価値のあるテキストデータを抽出することです。この特定のn8nテンプレートは、専用のn8nノード機能(CustomJS PDF Toolkit)を利用して、シームレスなドキュメント処理を実現します。このn8nワークフローを使用することで、ドキュメントのアーカイブ、Webコンテンツのキャプチャ、複雑なPDF形式からのデータ取り込みといったプロセスを効率化する能力が得られます。

仕組み

このn8nワークフローはシンプルなマニュアルトリガーから始まり、ユーザーは「ワークフローをテスト」をクリックするだけで簡単にプロセスを開始できます。中核となるロジックは、すぐに2つの明確な並列パスに分岐し、専用PDF n8nノードの異なるユースケースを実証します。


  1. パス1:動的なHTML変換と抽出

フローは「HTML to PDF」n8nノードに進み、静的なHTML入力(

Hello World

)を受け取り、PDFバイナリオブジェクトに変換します。これにはCustomJS API認証情報が使用されます。
結果として得られたPDFバイナリは、最初の「Convert PDF into Text」n8nノードに渡されます。このノードはファイルバイナリを直接処理してテキストを抽出し、HTMLが正常に変換され、n8nワークフローで読み取り可能になったことを確認します。


  1. パス2:リモートPDF URLからの抽出

並列パスは「Code」n8nノードから開始されます。このノードは、n8nワークフローが必要とする外部PDFデータソースをシミュレートするために、リモートPDF URL入力を定義するために使用されます。
次に、データ(URLパス)は「Convert PDF into Text1」n8nノードに送信されます。この強力なn8nノードは、提供されたURLからPDFを取得するように設定されており、手動でファイルをダウンロードする必要がなくなります。その後、リモートドキュメントから直接テキスト抽出を実行します。

インストールガイド

このn8nワークフローテンプレートをインストールし、その全機能を活用するには、次の手順に従ってください。


  1. Custom N8Nノードのインストール: このn8nワークフローはサードパーティパッケージに依存します。まず、お使いのn8nインスタンスに@custom-js/n8n-nodes-pdf-toolkitパッケージをインストールする必要があります。

  2. n8nワークフローのインポート: 提供されたJSONデータをコピーします。n8nインターフェースで「Workflows」に移動し、「New」をクリックして「Import from JSON」を選択します。

  3. 認証情報の設定: 「HTML to PDF」と「Convert PDF into Text」の両方のn8nノードインスタンスで「CustomJS API」認証情報が必要です。適切なAPIキーとサービス詳細で接続が設定されていることを確認してください。これらの認証情報がないと、n8nワークフローは失敗します。

  4. n8nトリガーのテスト: 「When clicking ‘Test workflow’」n8nトリガーノードをクリックし、ワークフローを一度実行して、両方の並列抽出パスが正常に実行され、抽出されたテキストデータを返すことを確認します。

ノード詳細

「ワークフローをテスト」をクリックしたとき (マニュアルトリガー): このデモn8nワークフローの初期n8nトリガーポイントです。両方のドキュメント処理パスを同時に開始します。
HTML to PDF: CustomJS APIを使用してHTMLコードの文字列(

Hello World

)をPDFファイルバイナリに変換する専用のn8nノード。その後、下流のn8nノードで利用可能になります。
Convert PDF into Text: このPdfToText n8nノードのインスタンスは、前の「HTML to PDF」ステップのバイナリ出力を受け取り、すべてのプレーンテキストコンテンツを抽出するように設定されています。このn8nワークフロー内で生成された内部データを処理します。
Code: このn8nノードは動的入力ジェネレーターとして機能し、特に外部PDFドキュメントへのURLパスを含むJSONペイロードを作成します。これにより、後続のn8nノードに必要な入力を準備します。

  • Convert PDF into Text1: PdfToText n8nノードのこの2番目のインスタンスは、「url」リソースを使用するように設定されています。指定されたパス(={{ $json.path }})にあるPDFファイルを動的に取得し、リモートソースから直接テキスト情報を抽出します。これは、n8nワークフロー設計の柔軟性を示しています。

関連するn8nワークフロー

無料

ノード: 4 ノード
更新済み: 12月 26 2025
すべて表示
作成者

特徴*