Website Crawling Optionen

Dieser Karteireiter des Dialogfensters Neues Projekt erstellen enthält die Optionen, die sich auf Verbindungseinstellungen zu einer Website, Links und Inhaltsanalyse beziehen.:

Website Crawling Optionen

Robots.txt befolgen

Diese einfache Textdatei enthält die Regeln, die Search Bots und andere Website Crawler befolgen müssen. Sie finden weiterführende Informationen über die robots.txt-Protokollspezifikationen auf der offiziellen Seite.

Diese Option ermöglicht das crawlen einer Website genau so, wie es ein Search Bot tut, wenn er die Website indexiert. Wenn die Option aktiviert ist (Standardeinstellung), wird der Site Visualizer-Bot nicht versuchen, auf verbotene URLs zuzugreifen. Wenn deaktiviert, wird der Bot des Programms alle Links crawlen, die im HTML-Text einer Seite gefunden werden.

Redirects zulassen

Legt fest, ob eine URL angesprungen wird, auf die ein Link zurückverweist.

Außerhalb des Startverzeichnisses beginnen

Wenn diese Option aktiviert ist, wird die gesamte Website gecrawled. Deaktivieren Sie die Option, wenn Sie nur ein bestimmtes Verzeichnis einer Website crawlen wollen. In diesem Fall geben Sie die Website URL im Karteireiter Allgemein einschließlich des zu crawlenden Verzeichnisses und eines abschließenden Schrägstrichs (slash) ein, z.B. 'http://example.com/dir/'. Wenn Sie die Website URL ohne den abschließenden Schrägstrich eingeben (z. B. 'http://example.com/page'), bedeutet das, dass Sie nur das Hauptverzeichnis von http://example.com/ durchsuchen wollen, und /dir/ und andere Verzeichnisse weglassen.

Anzahl Worte zählen

Diese Eigenschaft ist recht nützlich bei der SEO-Analyse der Seiten einer Website. Die Größe des Inhalts ist einer der wichtigsten Ranking-Faktoren. Wenn die Option aktiviert ist, wird die Anzahl der Worte auf jeder Seite gezählt und in der Tabellenspalte Anzahl Worte der Seiten-Tabelle gespeichert. Mit anderen Worten, Site Visualizer wird die Länge des Inhalts einer jeden Seite in Worten zählen. Die Regeln für diesen Algorithmus lauten wie folgt:

  • Nur der Inhalt in den <BODY>-HTML-Tags wird gezählt. Jeglicher Text in anderen Tags (<TITLE>, <META> etc.) wird nicht berücksichtig.
  • Text von Scripts (eingeschlossen im <SCRIPT>...</SCRIPT>-Tag) wird nicht gezählt.
  • Jegliche andere Buchstabenfolge (außer Leerzeichen, Tabulatoren und Zeilenumbrüchen), die in irgendwelchen Tags eingeschlossen ist, wird als Wort betrachtet.

Beispiel:

<a alt="Irgendein ALT Text" title="Irgendein Titel">Nur diese 8 Worte werden eine Wortzählung beeinflussen</a>

URLs einschließen

Diese Eigenschaft macht es möglich, nur bestimmte URLs (oder Verzeichnisse) zu crawlen. Das kann bei besonders beim Crawlen von extrem großen Websites nützlich sein.

Klicken Sie dazu auf den Einschließen-Link. Es öffnet sich ein Dialogfenster, in das sie die URLs (oder Teile einer URL eingeben können, wie z. B. eine Verzeichnis oder Dateinamen etc., die gecrawled werden soll – eine pro Zeile. Nur Links, die mindestens eine der angegebenen Zeichenkette in ihrer URL-Addresse enthalten, werden gecrawled.

URLs ausschließen

Diese Option lässt Sie eine Liste von URLs oder Verzeichnissen festlegen, die beim crawlen übersprungen werden sollen. Die Methode ist identisch zu der für das Einschließen von URLs. Link, die zumindest eine der angegebenen Zeichenkette in ihrer URL-Adresse enthalten, werden nicht gecrawled:

Bestimmte URLs nicht crawlen

Die Startseite einer WEbsite wird unabhängig von jeglicher Festlegung in den Listen von URLs einschließen und URLs ausschließen gecrawled.

Lösche Parameter aus URLs

Hier öffnet sich ein Dialogfenster, das es Ihnen ermöglicht, bestimmte Parameter aus einer URL-Zeichenkette zu entfernen. In den meisten Fällen können dies Parameter wie session IDs, category IDs, verschiedene Vorschaumodi und viele andere sein, die eine URL anders erscheinen lassen, aber dennoch auf dieselbe Seite einer Website verweisen. Das Entfernen dieser Parameter macht eine Sitemap sauberer und schlanker, was wiederum das Analysieren einer Website vereinfacht. Außerdem ermöglicht es, an Google und andere Suchmaschinen, URLs ohne diese "Müll"-Parameter zu übergeben.

Tragen Sie die Parameter, die Sie von einer URLs ausschließen wollen, in dem Dialogfenster ein. Eine Zeile sollte einen einzelnen Parameter enthalten (ohne '?', '&', oder irgendwelche anderen Begrenzungszeichen). Das folgende Bild zeigt den Satz Parameter für das crawlen eines phpBB-Forums:

Lösche Parameter von URLs

Klicken Sie auf OK, um die Parameterlisten in dem aktuellen Projekt zu speichern.

Crawl Secured Pages

This feature allows you to crawl pages of a website protected with login and password. In the dialog box appears, type the URL of the login page and click Connect link:

Crawl protected website

At the second step, please specify your login (username) and password, then click Test link. Your credentials will be sent to the login page you've specified, and the result page will be opened with your browser. If the credentials you've provided are correct and logging to the website was successful, the result page at your browser will contain secured information (or an inscription like 'You've been successfully logged in', or something like this).

Click Save button and start crawling. Once the spider reaches the login page, it will use your credentials to log in to the secured area and will proceed crawling.

Tag-Typ prüfen

Miet diesen Parametern können Sie festlegen, welche Tags ausgelesen und zu der Links-Tabelle hinzugefügt werden sollen. Das ist dann nützlich, wenn Sie z. B. das Auftreten von Links zu Bildern, CSS-Dateien oder JavaScript-Dateien verhindern wollen:

  • <IMG> – deaktivieren Sie die Option, wenn Sie die <IMG>-Bildertags beim Auslesen des HTML-Textes der Website überspringen und das Hinzufügen zur Links-Tabelle verhindern wollen.
  • <LINK> – diese Tags werden in den meisten Fällen verwendet, um vom HTML-Text einer Seite zu einer oder mehrerer Cascading Style Sheets (*.CSS)-Dateien zu verlinken. Ebenso wie das <IMG>-Tag ist das <LINK>-Tag nur ein Verweis auf eine Datei und kein Hyperlink zur Seite einer Website. Es wird auch kein für eine SEO-Analyse nützliches "Gewicht" transportiert, so dass die Option deaktiviert werden kann.
  • <SCRIPT> – dieses Tag, so wie zuvor <IMG> und <LINK>, ist ein Verweis auf eine JavaScript (*.JS)-Datei. Wenn Sie diese Verweise in Ihrer Links-Tabelle nicht brauchen, lassen Sie die Option deaktiviert.

Externe Links prüfen

Wenn diese Option aktiviert ist, werden auch die Links der von Ihnen gecrawlten Website geprüft, die auf externe Seiten verweisen. So können Sie tote externe Links Ihrer Website finden.

Anzahl Threads

Dieser Parameter legt die Anzahl der parallelen Threads beim crawlen einer Website fest. Der Maximal wert ist 25, der Standardwert 5.

Bitte beachten Sie, dass das erhöhen dieses Wertes nicht immer zu einem Geschwindigkeitszuwachs beim crawlen einer Website führt. Je höher der Wert, desto mehr Systemressourcen (RAM und CPU) werden vom Crawl-Bot des Site Visualizer verwendet, was einen negativen Effekt auf andere, laufende Anwendungen haben kann. Finden Sie den optimalen Wert für Threads für Ihren Computer, wenn Sie mit dem Programm arbeiten.

Verzögerung beim Seitenzugriff

Diese Option ist nur verfügbar, wenn die Anzahl der Threads auf 1 verringert wurde, denn nur dann ergibt die Verzögerung zwischen den URL-Anfragen einen Sinn. Mit dieser Einstellung können Sie verhindern, dass bestimmte Seiten Sie wegen zu häufiger URL-Anfrage sperren. Eine Verzögerung von zwei oder drei Sekunden sollte ausreichen.

Crawltiefe begrenzen

Lässt Sie die Tiefe beim URL-crawling festlegen:

  • 0 - nur die Startseite einer Website wird gecrawled z. B. http://example.com.
  • 1 - die Startseite und alle Seiten der ersten Ebene werde gecrawled, z.B. http://example.com/page1, http://example.com/page2 etc.
  • Weiter bis Ebene 9. Dies ist der Höchstwert für Seitenebenen.

Zeitüberschreitung URL-Zugriff

Die Verbindungsgeschwindigkeit zu verschiedenen Websites sowie auf verschiedene Seiten innerhalb einer Website sind normalerweise unterschiedlich Diese Option ermöglicht es, eine Höchst in Sekunden für den URL-Zugriff einzutragen. Wenn Sie den Wert verringern, erhöhen Sie die Crawl-Geschwindigkeit, da durch die Zeitüberschreitung keine Verbindung zu "langsamen" Seiten hergestellt wird. Gleichzeitig erscheint eine "Read timed out"-Meldung. Wenn Sie sicher sind, dass die Verbindung zu einigen Seiten oder zu einer Website langsam ist und Sie warten wollen, erhöhen Sie den Wert.

User Agent

Mit dieser Option können Sie eine Website mit einem beliebigen Search-Bot crawlen: Google bot, Yahoo! Slurp etc. Oder sie können eine eigene User Agent-Definition eintragen. Standardmäßig wird der Site Visualizer-User Agent verwendet.

 

Siehe auch:


Grafische Struktur einer Website

Einstellungen für die Grafische Sitemap