Eine Low-Code-Plattform, die die Einfachheit von No-Code mit der Leistung von Full-Code verbindet 🚀
Jetzt kostenlos starten
3. März 2025
8
min lesen

Funktionsweise der Headless-Browser-Erkennung und Umgehung dieser

Georgi Miloradowitsch
Forscher, Texter und Usecase-Interviewer
Inhaltsverzeichnis

Headless-Browser sind leistungsstarke Tools für Automatisierung, Tests und Web Scraping. Websites verfügen jedoch über erweiterte Methoden, um sie zu erkennen und zu blockieren. Hier ist ein kurzer Überblick darüber, wie die Erkennung funktioniert und wie man sie umgehen kann:

So erkennen Websites Headless-Browser

  1. Browserseitige Techniken:
    • User-Agent-Analyse: Erkennt ungewöhnliche oder inkonsistente Browserkennungen.
    • JavaScript-Ausführung: Kennzeichnet fehlende oder geänderte JavaScript-Funktionen.
    • Canvas-Fingerprinting: Identifiziert eindeutige Grafik-Rendering-Signaturen.
    • Berechtigungszustände: Überprüft auf Anomalien in den Browserberechtigungen.
    • Plugin-Erkennung: Sucht nach fehlenden Standard-Plugins.
  2. Serverseitige Techniken:
    • Anforderungsmusteranalyse: Verfolgt Zeitpunkt und Häufigkeit von Anforderungen.
    • Header-Prüfung: Untersucht HTTP-Header auf Inkonsistenzen.
    • IP-Verhaltensverfolgung: Markiert verdächtige IP-Aktivitäten oder Proxy-Nutzung.
    • Browser-Fingerprinting: Kombiniert mehrere Signale, um eindeutige Kennungen zu erstellen.

So umgehen Sie die Erkennung

  • Browsereinstellungen ändern:
    • Verwenden Sie allgemeine Benutzeragenten.
    • Passen Sie Fenstergröße und Ansichtsfenster an Standardgeräte an.
    • Deaktivieren Sie Automatisierungsflags (z. B. --disable-blink-features=AutomationControlled).
  • Verwenden Sie Anti-Erkennungstools:
    • Tools wie Puppenspieler-Versteck und ZenRows kann echtes Benutzerverhalten nachahmen.
    • Zu den Funktionen gehören Fingerabdruckänderungen, Proxy-Rotation und Interaktionssimulation.
  • Optimieren Sie die IP- und User-Agent-Rotation:
    • Rotieren Sie IPs und Benutzeragenten basierend auf Zeit, Standort und Gerätetyp.
    • Verwenden Sie Residential Proxies für eine bessere Authentizität.
  • Behandeln Sie CAPTCHAs:
    • Verwenden Sie CAPTCHA-Lösungstools wie 2Captcha or Anti-Captcha.
    • Fügen Sie Verzögerungen und Sitzungsverwaltung hinzu, um CAPTCHA-Auslöser zu reduzieren.

Schnellvergleichstabelle

Erkennungsmethode Was überprüft wird Bypass-Strategie
Benutzeragentenanalyse Browserkennungen Verwenden Sie allgemeine User-Agent-Zeichenfolgen
JavaScript-Ausführung JavaScript-Umgebung Stellen Sie vollständige JavaScript-Unterstützung sicher
Leinwand Fingerabdruck Signaturen für das Rendern von Grafiken Verwenden Sie Anti-Fingerprinting-Tools
Musteranalyse anfordern Zeitpunkt/Häufigkeit der Anfragen Fügen Sie zufällige Verzögerungen hinzu und verteilen Sie Anfragen
IP-Verhaltensverfolgung Proxy- oder VPN-Nutzung Rotieren Sie private IPs

Web Scraping und Automatisierung erfordern eine sorgfältige Konfiguration, um eine Erkennung zu vermeiden. Wenn Sie verstehen, wie die Erkennung funktioniert, und ethische Umgehungsmethoden verwenden, können Sie Risiken minimieren und gleichzeitig die Website-Richtlinien einhalten.

Bypass-Erkennung mithilfe von Plugins, Einstellungen und Proxys

Von Websites verwendete Erkennungsmethoden

Moderne Websites verwenden sowohl browserseitige als auch serverseitige Techniken, um Headless-Browser zu identifizieren und zu blockieren. Hier sehen Sie genauer, wie diese Methoden funktionieren.

Browserseitige Erkennung

Dieser Ansatz konzentriert sich auf das Aufspüren von Inkonsistenzen in Browsereigenschaften und -verhalten, die häufig auf die Verwendung von Headless-Browsern hinweisen. Diese Methoden heben Unterschiede zwischen Headless-Setups und Standardbrowsern hervor.

Erkennungsmethode Was überprüft wird Warum es funktioniert
Benutzeragentenanalyse Login Headless-Browser verwenden oft ungewöhnliche oder inkonsistente Benutzeragenten
JavaScript-Ausführung JavaScript-Umgebung Bei Headless-Setups fehlen möglicherweise Standard-JavaScript-Funktionen oder diese werden geändert
Leinwand Fingerabdruck Grafik-Rendering Headless-Browser können eindeutige Rendering-Signaturen erzeugen
Berechtigungszustände Browserberechtigungen Headless-Browser haben Probleme mit der Handhabung Notification.permission Staaten
Plugin-Erkennung Verfügbare Plugins Headless-Browser enthalten normalerweise keine Standard-Browser-Plugins

Unternehmen mögen Fingerprint Pro verwenden über 70 Browsersignale, um eindeutige Kennungen zu generieren. Ihre Methode kombiniert verschiedene Fingerprinting-Techniken, um Benutzer effektiv zu identifizieren:

„Browser-Fingerprinting ist die Grundlage für die Geräteintelligenz und ermöglicht es Unternehmen, Website-Besucher auf Websites auf der ganzen Welt eindeutig zu identifizieren.“ – Fingerprint Pro

Serverseitige Erkennung

Die serverseitige Erkennung untersucht Anforderungsmuster und Netzwerkverhalten, um verdächtige Aktivitäten zu identifizieren. Hier sind einige gängige Strategien:

  1. Musteranalyse anfordern: Server verfolgen den Zeitpunkt und die Häufigkeit von Anfragen, da es bei menschlichen Benutzern normalerweise natürliche Abweichungen gibt.
  2. Kopfprüfung: HTTP-Header werden auf Inkonsistenzen analysiert, die auf einen Headless-Browser hinweisen könnten.
  3. IP-Verhaltensverfolgung: Systeme kennzeichnen ungewöhnliche Aktivitäten, wie beispielsweise mehrere Anfragen von einer einzigen IP, die Verwendung von Proxys oder VPNs oder geografische Nichtübereinstimmungen.
  4. Browser Fingerprinting: Browsersignale werden serverseitig kompiliert, um eindeutige Kennungen für Besucher zu erstellen.

In Kombination helfen diese Techniken Websites dabei, nicht-menschlichen Datenverkehr wirksam zu erkennen und zu blockieren.

Sichere Möglichkeiten zur Verringerung der Entdeckung

Sobald Sie die Erkennungsmethoden verstanden haben, können Sie gezielte Schritte unternehmen, um das Erkennungsrisiko zu minimieren. Diese Strategien passen Ihr technisches Setup an das typische Benutzerverhalten an und machen es für Systeme schwieriger, Automatisierung zu erkennen.

Änderungen der Browsereinstellungen

Durch Anpassen Ihrer Browsereinstellungen können Sie dafür sorgen, dass er sich mehr wie der Browser eines normalen Benutzers verhält.

Einstellungs-Art Empfohlene Änderung Impact der HXNUMXO Observatorien
User Agent Verwenden Sie eine allgemeine Browserzeichenfolge Maskiert Automatisierungssignaturen
Fenstergröße Stellen Sie Standardauflösungen ein (z. B. 1920 x 1080). Imitiert echte Desktop-Displays
WebTreiber Automatisierungsflags deaktivieren Reduziert erkennbare Signale
Sichtfenster Aktivieren Sie bei Bedarf die mobile Emulation Passt sich gerätespezifischem Verhalten an

Zum Beispiel mit Chrome --disable-blink-features=AutomationControlled Flag kann verhindern, dass Websites Automatisierungstools identifizieren. Dieser Ansatz reduziert nachweislich das Erkennungsrisiko und behält gleichzeitig die legitime Funktionalität bei.

Anti-Erkennungs-Tools

Tools wie Puppeteer Stealth, ausgestattet mit 17 Evasion-Modulen, bieten erweiterte Methoden für ethische Automatisierung. Ebenso erreicht ZenRows eine Erfolgsquote von 98.7 % bei der Umgehung von Anti-Bot-Maßnahmen unter Einhaltung der Website-Richtlinien.

Zu den Hauptfunktionen dieser Tools gehören:

  • Browser-Fingerabdrücke ändern
  • Anpassen von Anfrageheadern
  • Rotierende Proxies
  • Simulation von Mausbewegungen
  • Nachahmung von Tastatureingabemustern

„Der ZenRows Scraping Browser stärkt Ihre Puppeteer-Browserinstanz mit erweiterten Ausweichmöglichkeiten, um einen tatsächlichen Benutzer zu imitieren und Anti-Bot-Prüfungen zu umgehen.“

IP- und User-Agent-Änderungen

Nachdem Sie Ihren Browser und Ihre Tools optimiert haben, konzentrieren Sie sich auf die Rotation von IP-Adressen und User Agents, um natürliche Browsing-Muster nachzubilden. Hier sind einige effektive Techniken:

  • Zeitbasierte Rotation: Ändern Sie die Benutzeragenten auf der Grundlage typischer täglicher Nutzungsmuster, erhöhen Sie die Frequenz während der Spitzenzeiten und verteilen Sie die Anfragen so, dass sie organischer erscheinen.
  • Geographische Ausrichtung: Verwenden Sie IP-Adressen und User Agents, die zu Ihrer Zielregion passen. Wenn Sie beispielsweise auf US-Dienste zugreifen, wählen Sie User Agents aus, die gängigen amerikanischen Browsern ähneln.
  • Gerätespezifische Auswahl: Passen Sie Benutzeragenten an die Art des Inhalts an, auf den Sie zugreifen. Verwenden Sie für für Mobilgeräte optimierte Seiten mobile Browsersignaturen, um die Konsistenz zu wahren.

Ein Online-Händler implementierte diese Strategien und konnte beispielsweise seine Kosten um 40 % senken und gleichzeitig die Datengenauigkeit um 25 % verbessern.

sbb-itb-23997f1

Einrichten von Erkennungsumgehungen

Um das Risiko einer Erkennung zu verringern, konfigurieren Sie Ihren Browser und Ihre Tools so, dass sie das normale Verhalten Ihrer Benutzer effektiv imitieren.

Anpassen der Chrome-Einstellungen

Optimieren Sie die Chrome-Einstellungen, um die Wahrscheinlichkeit einer Erkennung zu verringern. Hier sind die wichtigsten zu konfigurierenden Parameter:

Rahmen Befehlsflagge Sinn
Automatisierungssteuerung --disable-blink-features=AutomationControlled Maskiert Automatisierungssignale
Fenstergröße --window-size=1920,1080 Passt sich den Standard-Desktop-Auflösungen an
User Agent --user-agent="Mozilla/5.0 ..." Imitiert eine Standard-Browser-Identifikation

Um Chrome mit diesen Einstellungen zu starten, verwenden Sie den folgenden Befehl:

chrome --headless --disable-blink-features=AutomationControlled --window-size=1920,1080

Sobald Chrome richtig konfiguriert ist, können Sie die Tarnung mithilfe spezieller Tools weiter verbessern.

Nutzung Puppenspieler-Versteck

Puppenspieler-Versteck

Puppeteer Stealth ist ein Tool, das Browsereigenschaften ändert, um Automatisierungssignale zu verschleiern. Es enthält mehrere Module zur Vermeidung von Problemen. So richten Sie es ein:

const puppeteer = require('puppeteer-extra'); 
const StealthPlugin = require('puppeteer-extra-plugin-stealth'); 
puppeteer.use(StealthPlugin());

Wie in der Puppeteer Stealth-Dokumentation vermerkt:

„Es ist wahrscheinlich unmöglich, alle Möglichkeiten zur Erkennung von Headless-Chromium zu verhindern, aber es sollte möglich sein, es so schwierig zu machen, dass es unerschwinglich wird oder zu viele Fehlalarme auslöst, um praktikabel zu sein.“ – Puppeteer Stealth-Dokumentation

Strategien zum Umgang mit CAPTCHAs

Neben der Einrichtung des Browsers sind für CAPTCHAs häufig spezielle Lösungen erforderlich. Moderne CAPTCHA-Lösungsdienste bieten unterschiedliche Effizienz- und Preisniveaus:

Service Kosten pro 1,000 CAPTCHAs Eigenschaften
2Captcha $0.77 Grundlegende CAPTCHA-Lösung
DeathByCaptcha $1.39 KI + menschliche Löser
Anti-Captcha $1.00 Unterstützt Automatisierungstools

Adrian Rosebrock demonstrierte beispielsweise einen KI-basierten CAPTCHA-Bypass für die E-ZPass New York Website, indem Sie ein Modell anhand von Hunderten von CAPTCHA-Bildern trainieren.

So gehen Sie mit CAPTCHAs um:

  • Beginnen Sie mit der Optimieren der Browserkonfiguration, um diese Probleme nach Möglichkeit zu vermeiden.
  • Verwenden Sie die Sitzungsverwaltung, um eine konsistente Benutzeridentität aufrechtzuerhalten.
  • Fügen Sie zufällige Verzögerungen zwischen den Anfragen hinzu, um menschliche Browsing-Muster zu imitieren.
  • Setzen Sie Residential Proxies ein, um Anfragen auf natürliche Weise auf verschiedene Standorte zu verteilen.

Richtlinien und Regeln

Bevor Sie mit Web Scraping beginnen, müssen Sie unbedingt die Einhaltung gesetzlicher Standards sicherstellen. Hier eine kurze Übersicht:

Anforderung Beschreibung Impact der HXNUMXO Observatorien
Nutzungsbedingungen Von der Website festgelegte Regeln zur Automatisierung Kann den automatisierten Zugriff einschränken oder verbieten
Datenschutz Gesetze wie die DSGVO oder andere Datenschutzbestimmungen Beeinflusst, wie Daten gesammelt und gespeichert werden können
Zugangspreise Beschränkungen in robots.txt oder angegebenen Begriffen Definiert, wie häufig Anfragen gestellt werden können

Website-Regeln für Meetings

Halten Sie sich an diese Praktiken, um innerhalb der Grenzen der akzeptablen Nutzung zu bleiben:

  • Anfrageratenmanagement: Verteilen Sie Ihre Anfragen im Abstand von 5–10 Sekunden, um das Surfverhalten eines Menschen zu simulieren und eine Erkennung zu vermeiden.
  • Robots.txt-Konformität: Überprüfen und befolgen Sie stets die Anweisungen in der robots.txt-Datei einer Website.
  • Richtlinien zur Datenverwendung: Sammeln Sie nur Daten in Übereinstimmung mit den Nutzungsrichtlinien der Website.

Andere Automatisierungsoptionen

Wenn Sie Probleme mit der Erkennung oder dem Zugriff haben, ziehen Sie diese Alternativen zu herkömmlichen Headless-Browsern in Betracht:

Alternative Das bringt das Programm Bester Anwendungsfall
Offizielle APIs Bietet strukturierten, dokumentierten Datenzugriff Wenn die Website API-Funktionalität bietet
RSS-Feeds Einfache und autorisierte Updates Ideal für die Inhaltsüberwachung oder -aggregation
Datenpartnerschaften Bietet autorisierten, zuverlässigen Zugriff Geeignet für große Datenmengen

Um die Sicherheit zu erhöhen und die Compliance sicherzustellen, isolieren Sie Ihre Headless-Umgebungen und setzen Sie strenge Zugriffskontrollen durch. Wenn Automatisierung unvermeidbar ist, verwenden Sie rotierende IP-Adressen und führen Sie Verzögerungen zwischen den Anfragen ein, um verantwortungsvolle Zugriffsmuster beizubehalten. Diese Anpassungen helfen dabei, effizientes Scraping mit ethischen Praktiken in Einklang zu bringen.

Zusammenfassung

In diesem Abschnitt werden die zuvor besprochenen technischen Methoden und ethischen Strategien hervorgehoben.

Überprüfung der Nachweismethoden

Heutzutage verlassen sich Websites auf fortschrittliche Techniken, um Headless-Browser zu identifizieren. Fingerprinting ist zu einer primären Methode geworden und hat das traditionelle clientbasierte Cookie-Tracking überholt. Es ist erwähnenswert, dass automatisierte Bots für etwa 25 % des gesamten Website-Verkehrs verantwortlich sind.

Erkennungsschicht Schlüsseltechniken Gemeinsame Indikatoren
Browserseitig Fingerprinting, JavaScript-Prüfungen Anzeichen der Automatisierung
Serverseitig Verkehrsanalyse, IP-Untersuchung Anforderungszeitpunkt, Proxy-Nutzung
Verhaltens- Interaktionstracking, Navigationsanalyse Klickmuster, Scrollverhalten

Diese Erkenntnisse bilden die Grundlage für die Implementierung sicherer Bypass-Techniken.

Sichere Bypass-Methoden

Um einer Entdeckung zu entgehen, sollten Sie die folgenden praktischen Strategien in Betracht ziehen:

Strategie Implementierung Effektivität
Stealth-Werkzeuge Tools wie Nicht erkannter Chromedriver oder Puppeteer-Stealth Wirksam, um grundlegende Erkennung zu vermeiden
Anfragezeitpunkt Einführung von Verzögerungen von 5–10 Sekunden Imitiert menschliche Browsing-Muster
Proxy-Rotation Verwendung von Residential IPs mit Standortausrichtung Reduziert die Wahrscheinlichkeit, blockiert zu werden

Durch die Kombination dieser Techniken können Sie dafür sorgen, dass Ihre Automatisierungsbemühungen unbemerkt bleiben.

Nächste Schritte

  1. Wählen Sie Werkzeuge: Entscheiden Sie sich für Stealth-Tools wie Undetected Chromedriver oder Puppeteer-Stealth.
  2. Konfiguration einrichten: Benutzen browser.createIncognitoBrowserContext() Aktivieren Sie zur Sitzungsisolierung den WebRTC-Leckschutz und passen Sie die Zeitzonen- und Spracheinstellungen an den Standort Ihres Proxys an.
  3. Ressourcen optimieren: Wenden Sie Drosselung an, speichern Sie Daten im Cache, um redundante Anfragen zu reduzieren, und verteilen Sie Aufgaben auf mehrere IPs, um die Last gleichmäßig zu verteilen.

Ähnliche Blog-Beiträge

Verwandte Blogs

Anwendungsfall

Unterstützt von