Eine Low-Code-Plattform, die die Einfachheit von No-Code mit der Leistung von Full-Code verbindet 🚀
Jetzt kostenlos starten
Konvertieren von HTML in PDF mit Puppeteer: Stilkonfiguration und Paginierung
25. März 2025
7
min lesen

Konvertieren von HTML in PDF mit Puppeteer: Stilkonfiguration und Paginierung

Georgi Miloradowitsch
Forscher, Texter und Usecase-Interviewer
Inhaltsverzeichnis

Die Konvertierung von HTML in PDF ist für die Erstellung standardisierter Dokumente wie Berichte, Rechnungen und Kundenmaterialien von entscheidender Bedeutung. Puppenspieler, ein Browser-Automatisierungstool, hilft Ihnen bei der Verwaltung von Stilen, Layouts und Seitenumbrüchen für eine professionelle PDF-Ausgabe. Hier ist ein kurzer Überblick über die Möglichkeiten von Puppenspieler:

  • PDFs generieren: Verwenden Sie Puppeteer, um HTML in ansprechende PDFs zu konvertieren, während Sie JavaScript ausführen und benutzerdefiniertes CSS anwenden.
  • Kontrollstile: Definieren Sie Seitengrößen, Ränder, Schriftarten, Kopf- und Fußzeilen und mehr mithilfe von druckspezifischem CSS.
  • Seitenumbrüche verwalten: Verwenden Sie CSS-Regeln, um das Aufteilen von Tabellen, Überschriften oder Bildern auf mehrere Seiten zu vermeiden.
  • Leistung optimieren: Verbessern Sie die Qualität und reduzieren Sie die Dateigröße durch Skalierung, Bildoptimierung und effiziente Ressourcenverwaltung.

Quick-Start: Installieren Sie Puppeteer mit npm install puppeteer, laden Sie Ihr HTML (als String, lokale Datei oder URL) und konfigurieren Sie PDF-Einstellungen wie Abmessungen, Ränder und Hintergrunddarstellung. Verwenden Sie @media print CSS-Regeln für eine bessere Kontrolle über Druckstile.

Hauptfunktionen:

  • Seitenanpassung mit @page Regeln.
  • Kopf-/Fußzeilenvorlagen für professionelle Layouts.
  • Mehrseitige Inhaltsverwaltung, um ungünstige Aufteilungen in Tabellen oder Text zu vermeiden.

Mit Puppeteer können Sie die PDF-Generierung automatisieren und anpassen, um konsistente, qualitativ hochwertige Ergebnisse zu erzielen.

🌐 Konvertieren Sie HTML in PDF mit Puppenspieler in Node.js 🚀 Voller Schritt ...

Puppenspieler

Erste Schritte mit Puppeteer

Erfahren Sie, wie Sie Puppeteer zum Erstellen von PDFs einrichten und verwenden. Folgen Sie diesen Schritten, um loszulegen.

Einrichtung

Bevor Sie beginnen, stellen Sie sicher, dass Node.js Version 14.0.0 oder höher auf Ihrem System installiert ist. So richten Sie alles ein:

  • Installieren Sie Node.js: Laden Sie es herunter von nodejs.org und schließen Sie die Installation ab.
  • Erstellen Sie einen Projektordner: Erstellen Sie einen neuen Ordner für Ihr Projekt.
  • Initialisieren Sie das Projekt: Öffnen Sie ein Terminal in Ihrem Projektordner und führen Sie npm init -y.
  • Installieren Sie Puppenspieler: Verwenden Sie den Befehl npm install puppeteer um Puppeteer zu Ihrem Projekt hinzuzufügen.

Erstes PDF-Generierungsskript

Hier ist ein einfaches Skript zum Konvertieren von HTML in PDF mit Puppeteer:

const puppeteer = require('puppeteer');

async function generatePDF() {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  // Set page content
  await page.setContent(`
    <html>
      <body>
        <h1>Sample PDF Document</h1>
        <p>Generated with Puppeteer</p>
      </body>
    </html>
  `);

  // Generate PDF
  await page.pdf({
    path: 'output.pdf',
    format: 'Letter',
    margin: {
      top: '1in',
      right: '1in',
      bottom: '1in',
      left: '1in'
    }
  });

  await browser.close();
}

generatePDF();

Speichern Sie dieses Skript unter generate-pdf.js. Führen Sie es aus, indem Sie Folgendes eingeben: node generate-pdf.js in Ihrem Terminal. Das Skript erstellt eine PDF-Datei im US-Letter-Format (8.5 × 11 Zoll) mit 1-Zoll-Rändern.

HTML-Quelloptionen

Puppeteer bietet mehrere Möglichkeiten zum Laden von HTML-Inhalten für die PDF-Generierung:

  • Direktes Laden von Inhalten: Verwenden Sie eine Zeichenfolge, die das HTML enthält.
    await page.setContent(htmlString);
    
  • Lokaler Dateizugriff: Laden Sie eine HTML-Datei von Ihrem lokalen System.
    await page.goto(`file:${path.join(__dirname, 'template.html')}`);
    
  • Remote-URL-Laden: HTML von einer Live-Website abrufen.
    await page.goto('https://yourwebsite.com/page-to-convert');
    

Achten Sie beim Arbeiten mit externen Ressourcen wie Bildern oder Stilen darauf, dass diese eingebettet sind, absolute URLs verwenden oder lokal gespeichert sind.

Tipps für eine bessere Leistung

Um eine reibungslose PDF-Erstellung zu gewährleisten, beachten Sie die folgenden Hinweise:

  • Wasser page.waitForNetworkIdle() um zu warten, bis alle Netzwerkanforderungen abgeschlossen sind.
  • Legen Sie entsprechende Timeouts für das Laden von Ressourcen fest.
  • Behandeln Sie das Laden von Schriftarten explizit, um Darstellungsprobleme zu vermeiden.

Sobald Ihr HTML fertig ist, können Sie mit der Anpassung der Stile und Einstellungen des PDFs fortfahren.

PDF-Stileinstellungen

Um Ihren Inhalt für die PDF-Ausgabe anzupassen, verwenden Sie @media print Regeln. Hier ist ein Beispiel:

@media print {
  /* Hide navigation menus and non-essential elements */
  nav, button, .no-print {
    display: none;
  }

  /* Adjust text for better readability in PDFs */
  body {
    font-size: 12pt;
    line-height: 1.5;
  }

  /* Ensure accurate background rendering */
  * {
    -webkit-print-color-adjust: exact;
  }
}

Wenn Sie Ihre bildschirmbasierten Stile beibehalten möchten, anstatt druckspezifische Stile anzuwenden, fügen Sie vor dem Generieren der PDF-Datei diese Zeile ein:

await page.emulateMediaType('screen');

Sobald die Druckstile angewendet wurden, können Sie mit den Layoutanpassungen fortfahren.

Seitenlayouteinstellungen

Definieren Sie PDF-Abmessungen mithilfe von Puppeteer-Optionen oder CSS @page Regeln. Für Puppeteer können Sie die folgende Konfiguration verwenden:

await page.pdf({
  format: 'Letter',
  margin: {
    top: '0.75in',
    right: '0.5in',
    bottom: '0.75in',
    left: '0.5in'
  },
  landscape: false,
  preferCSSPageSize: true
});

Für individuellere Seitengrößen verwenden Sie CSS @page Regeln:

@page {
  size: 8.5in 11in;
  margin: 0.75in 0.5in;
}

Nachdem Sie das Layout eingerichtet haben, können Sie die Designelemente für ein elegantes Erscheinungsbild optimieren.

Text- und Designelemente

Um den Inhalt optisch klar und professionell zu gestalten, verwenden Sie diese CSS-Regeln:

body {
  font-family: 'Arial', sans-serif;
  color: #333333;
}

h1, h2, h3 {
  page-break-after: avoid;
  color: #000000;
}

table {
  width: 100%;
  border-collapse: collapse;
  page-break-inside: avoid;
}

img {
  max-width: 100%;
  height: auto;
  page-break-inside: avoid;
}

Fügen Sie für einheitliche Hintergrundfarben, insbesondere in kritischen Abschnitten, diese Regel hinzu:

.color-critical {
  -webkit-print-color-adjust: exact;
}

Diese Anpassungen stellen sicher, dass Ihr PDF leicht lesbar und optisch ansprechend ist.

sbb-itb-23997f1

Seitenumbruchsteuerung

CSS-Eigenschaften für Seitenumbrüche

Durch effektives Verwalten von Seitenumbrüchen wird ein reibungsloser Seitenfluss gewährleistet. Verwenden Sie diese CSS-Eigenschaften, um die Inhaltstrennung zu steuern:

/* Start new page before chapters */
.chapter {
  page-break-before: always;
}

/* Keep headings together with their content */
h2, h3 {
  page-break-after: avoid;
}

/* Avoid splitting tables or figures */
table, figure {
  page-break-inside: avoid;
}

Diese Regeln sorgen dafür, dass Ihr Dokument übersichtlich und leserlich bleibt. Nachdem Sie Seitenumbrüche eingerichtet haben, sollten Sie Kopf- und Fußzeilen entsprechend diesen Einstellungen konfigurieren.

Richten Sie Kopf- und Fußzeilen in Puppeteer ein, um Ihrem PDF ein professionelles Aussehen zu verleihen:

await page.pdf({
  displayHeaderFooter: true,
  headerTemplate: `
    <div style="font-size: 10px; padding: 0 0.5in; width: 100%;">
      <span class="title"></span>
      <span class="date" style="float: right;"></span>
    </div>
  `,
  footerTemplate: `
    <div style="font-size: 10px; text-align: center; width: 100%;">
      Page <span class="pageNumber"></span> of <span class="totalPages"></span>
    </div>
  `,
  margin: {
    top: '1in',
    bottom: '1in'
  }
});

Achten Sie darauf, die Ränder so anzupassen, dass Kopf- und Fußzeile richtig passen, ohne Ihren Inhalt zu überlappen.

Verwaltung mehrseitiger Inhalte

Konzentrieren Sie sich bei eingerichteten Seitenumbrüchen und Kopf-/Fußzeilen auf die Verwaltung von Inhalten über mehrere Seiten hinweg. Eine gute Layoutkontrolle sorgt dafür, dass Ihr Dokument übersichtlich und professionell bleibt:

/* Keep captions with their images */
figure {
  display: table;
  page-break-inside: avoid;
}

figcaption {
  display: table-caption;
  caption-side: bottom;
}

/* Avoid splitting list items or table rows */
li, .table-row {
  page-break-inside: avoid;
}

/* Allow large tables to break across pages */
.table-wrapper {
  page-break-inside: auto;
}

Umfassen Sie große Tabellen, die sich über mehrere Seiten erstrecken, in einem Container, der Umbrüche zulässt, ohne dass die Zeilen unterbrochen werden. So bleiben die Daten auch bei langen Datensätzen leicht verständlich.

TIPP: Aktivieren Sie die printBackground Option in Puppeteer zum Rendern aller visuellen Elemente, einschließlich Hintergrundfarben und Bildern:

await page.pdf({
  printBackground: true,
  preferCSSPageSize: true
});

PDF-Qualität und -Leistung

Um die Qualität und Leistung von PDF-Dateien zu verbessern, müssen Skalierung, Bildbearbeitung und Ressourcenverwaltung berücksichtigt werden. Diese Schritte gewährleisten ein ansprechendes Erscheinungsbild und eine effiziente Funktionalität des fertigen Dokuments.

Methoden zur Inhaltsskalierung

Durch die korrekte Skalierung von Inhalten bleibt der Inhalt lesbar und das Design konsistent. Puppeteer bietet detaillierte Skalierungssteuerungen für die PDF-Darstellung:

await page.pdf({
  scale: 0.8,
  preferCSSPageSize: true,
  format: 'Letter'
});

Werte unter 1 verkleinern den Inhalt, Werte über 1 vergrößern ihn. Die Skalierung mit preferCSSPageSize stellt sicher, dass das PDF den durch CSS definierten Abmessungen entspricht:

@page {
  size: 8.5in 11in;
  margin: 0.5in;
}

Bildqualitätsmanagement

Die Wahl des richtigen Bildformats ist entscheidend. PNG eignet sich gut für detaillierte Grafiken wie Diagramme und Logos, kann aber die Dateigröße erhöhen. JPEG ist eine bessere Option für Fotos, während WebP wird oft konvertiert, wodurch die Dateigröße möglicherweise noch weiter ansteigt.

Um die Bildschärfe zu verbessern, erhöhen Sie den Skalierungsfaktor des Geräts:

await page.setViewport({
  width: 1200,
  height: 800,
  deviceScaleFactor: 2
});

Häufige Probleme und Lösungen

Durch die Bewältigung allgemeiner Herausforderungen wie Ressourcenverwaltung, Dateigröße und Fehler kann die Leistung erheblich gesteigert werden.

  • Ressourcenmanagement
    Verwenden Sie eine einzelne Browserinstanz und -seite, um mehrere PDF-Anfragen zu verarbeiten und so den Aufwand zu reduzieren:
    const browser = await puppeteer.launch({
      args: ['--no-sandbox', '--disable-setuid-sandbox']
    });
    
    const page = await browser.newPage();
    for (const request of requests) {
      await generatePDF(page, request);
    }
    
  • Optimierung der Dateigröße
    Minimieren Sie die Dateigröße, indem Sie unnötige Elemente entfernen und Bilder optimieren:
    await page.evaluate(() => {
      document.querySelectorAll('.no-print').forEach(el => el.remove());
    
      document.querySelectorAll('img').forEach(img => {
        img.loading = 'lazy';
        img.decoding = 'async';
      });
    });
    
  • Fehlerbehandlung
    Implementieren Sie Strategien zur Behandlung von Fehlern wie Timeouts und Wiederholungsversuchen:
    const generatePDF = async (page, options) => {
      try {
        await page.goto(options.url, {
          waitUntil: 'networkidle0',
          timeout: 30000
        });
        return await page.pdf(options);
      } catch (error) {
        console.error('PDF generation failed:', error);
        throw error;
      }
    };
    

Schlussfolgerung

Die Verwendung von Puppeteer zum Konvertieren von HTML in PDF bietet effektive Tools zum Erstellen professioneller Dokumente.

Wichtige Schritte

  • Übernehmen Sie die Druckmedieneinstellungen mit page.emulateMediaType('print').
  • Verwenden Sie CSS-Regeln wie page-break-inside: avoid um sicherzustellen, dass Elemente wie Tabellenzeilen intakt bleiben.

Diese Techniken bauen auf früheren Styling- und Layoutmethoden auf und dienen als solide Basis für eine fortgeschrittenere Automatisierung.

Erweiterte Automatisierungsoptionen

Mit diesen zusätzlichen Automatisierungsfunktionen können Sie die PDF-Erstellung weiter vorantreiben:

  • Umgebungskonfiguration
    Richten Sie Cache-Verzeichnisse und Browsereinstellungen ein, um konsistente Ergebnisse auf verschiedenen Plattformen sicherzustellen.
  • Performance-Verbesserungen
    Passen Sie die Timeout-Einstellungen an und fügen Sie Wiederholungsmechanismen hinzu, um die Zuverlässigkeit während des Generierungsprozesses zu verbessern.

Wenn Sie diese Methoden in der Produktion einsetzen, schließen Sie Fehlerbehandlung und Protokollierung ein, um konsistente und zuverlässige PDF-Ausgaben zu gewährleisten.

Zusammenhängende Artikel

Verwandte Blogs

Anwendungsfall

Unterstützt von