Website Crawling Optionen

Dieser Karteireiter des Dialogfensters Neues Projekt erstellen enthält die Optionen, die sich auf Verbindungseinstellungen zu einer Website, Links und Inhaltsanalyse beziehen.:

Website Crawling Optionen

Robots.txt befolgen

Diese einfache Textdatei enthält die Regeln, die Search Bots und andere Website Crawler befolgen müssen. Sie finden weiterführende Informationen über die robots.txt-Protokollspezifikationen auf der offiziellen Seite.

Diese Option ermöglicht das crawlen einer Website genau so, wie es ein Search Bot tut, wenn er die Website indexiert. Wenn die Option aktiviert ist (Standardeinstellung), wird der Site Visualizer-Bot nicht versuchen, auf verbotene URLs zuzugreifen. Wenn deaktiviert, wird der Bot des Programms alle Links crawlen, die im HTML-Text einer Seite gefunden werden.

Redirects zulassen

Legt fest, ob eine URL angesprungen wird, auf die ein Link zurückverweist.

Außerhalb des Startverzeichnisses beginnen

Wenn diese Option aktiviert ist, wird die gesamte Website gecrawled. Deaktivieren Sie die Option, wenn Sie nur ein bestimmtes Verzeichnis einer Website crawlen wollen. In diesem Fall geben Sie die Website URL im Karteireiter Allgemein einschließlich des zu crawlenden Verzeichnisses und eines abschließenden Schrägstrichs (slash) ein, z.B. 'http://example.com/dir/'. Wenn Sie die Website URL ohne den abschließenden Schrägstrich eingeben (z. B. 'http://example.com/page'), bedeutet das, dass Sie nur das Hauptverzeichnis von http://example.com/ durchsuchen wollen, und /dir/ und andere Verzeichnisse weglassen.

Analyze Content

Enables count of words, sentences, syllables, complex words, and characters of a page content. Basing upon these values, the following readability scores are being counted (use reports of Content category to view them):

  • Flesch Reading Ease
  • Flesch-Kincaid Grade Level
  • Gunning Fog
  • SMOG
  • Coleman-Liau
  • Automated Readability
  • Dale–Chall Readability

URLs einschließen

Diese Eigenschaft macht es möglich, nur bestimmte URLs (oder Verzeichnisse) zu crawlen. Das kann bei besonders beim Crawlen von extrem großen Websites nützlich sein.

Klicken Sie dazu auf den Einschließen-Link. Es öffnet sich ein Dialogfenster, in das sie die URLs (oder Teile einer URL eingeben können, wie z. B. eine Verzeichnis oder Dateinamen etc., die gecrawled werden soll – eine pro Zeile. Nur Links, die mindestens eine der angegebenen Zeichenkette in ihrer URL-Addresse enthalten, werden gecrawled.

URLs ausschließen

Diese Option lässt Sie eine Liste von URLs oder Verzeichnissen festlegen, die beim crawlen übersprungen werden sollen. Die Methode ist identisch zu der für das Einschließen von URLs. Link, die zumindest eine der angegebenen Zeichenkette in ihrer URL-Adresse enthalten, werden nicht gecrawled:

Bestimmte URLs nicht crawlen

Die Startseite einer WEbsite wird unabhängig von jeglicher Festlegung in den Listen von URLs einschließen und URLs ausschließen gecrawled.

Lösche Parameter aus URLs

Hier öffnet sich ein Dialogfenster, das es Ihnen ermöglicht, bestimmte Parameter aus einer URL-Zeichenkette zu entfernen. In den meisten Fällen können dies Parameter wie session IDs, category IDs, verschiedene Vorschaumodi und viele andere sein, die eine URL anders erscheinen lassen, aber dennoch auf dieselbe Seite einer Website verweisen. Das Entfernen dieser Parameter macht eine Sitemap sauberer und schlanker, was wiederum das Analysieren einer Website vereinfacht. Außerdem ermöglicht es, an Google und andere Suchmaschinen, URLs ohne diese "Müll"-Parameter zu übergeben.

Tragen Sie die Parameter, die Sie von einer URLs ausschließen wollen, in dem Dialogfenster ein. Eine Zeile sollte einen einzelnen Parameter enthalten (ohne '?', '&', oder irgendwelche anderen Begrenzungszeichen). Das folgende Bild zeigt den Satz Parameter für das crawlen eines phpBB-Forums:

Lösche Parameter von URLs

Klicken Sie auf OK, um die Parameterlisten in dem aktuellen Projekt zu speichern.

Custom Search

Intended for text search inside a page source code (including content, HTML tags, comments):

Custom search

Click Add button to add new search condition, click Delete or Delete All in order to delete the current one or all conditions. Double-click a cell of the table to edit it: change search text, rename current search, check or uncheck Case Sensitive and RegEx columns. If the RegEx cell is checked, the application considers search text as a regular expression (PCRE). Click OK to save the changes.

Once the crawling is complete, run Custom Search report. It will contain all the URLs the search text (or regular expression) has been found at, as well as number of its occurrences.

If you are not familiar to regular expressions, just contact us. We'll help you to compose it.

Use Chromium Rendering

Some websites use client-side JavaScript. This means that the HTML source code (or a part of it) of a page is being created by JavaScript. But in order to execute this script, we need a program that can do that - a web browser. Only after that, we can get the source HTML code and parse it for links, headings, images, and other HTML tags.

Site Visualizer has embedded Chromium browser that allows to render website pages just like a Google Chrome browser: run client-side JavaScript, apply CSS styles, load additional resources, etc. The Use Chromium Rendering option is intended for crawling such JavaScript websites.

Please note that rendering each URL (execute JavaScript, load all resources, etc) occupies a lot of time. So, please use this option ONLY if you cannot crawl a website in the usual way.
If you're experiencing troubles during a crawl process (website's limited bandwidth, empty responses, Internet errors, etc.), try to decrease crawl thread number to 5, or even less.

Crawl Secured Pages

On access to protected area, the program will ask for your credentials:

Crawl protected website

In the dialog box appears, specify the username and password. If the credentials are correct, Site Visualizer will crawl the secured pages.

Tag-Typ prüfen

Miet diesen Parametern können Sie festlegen, welche Tags ausgelesen und zu der Links-Tabelle hinzugefügt werden sollen. Das ist dann nützlich, wenn Sie z. B. das Auftreten von Links zu Bildern, CSS-Dateien oder JavaScript-Dateien verhindern wollen:

  • <IMG> – deaktivieren Sie die Option, wenn Sie die <IMG>-Bildertags beim Auslesen des HTML-Textes der Website überspringen und das Hinzufügen zur Links-Tabelle verhindern wollen.
  • <LINK> – diese Tags werden in den meisten Fällen verwendet, um vom HTML-Text einer Seite zu einer oder mehrerer Cascading Style Sheets (*.CSS)-Dateien zu verlinken. Ebenso wie das <IMG>-Tag ist das <LINK>-Tag nur ein Verweis auf eine Datei und kein Hyperlink zur Seite einer Website. Es wird auch kein für eine SEO-Analyse nützliches "Gewicht" transportiert, so dass die Option deaktiviert werden kann.
  • <SCRIPT> – dieses Tag, so wie zuvor <IMG> und <LINK>, ist ein Verweis auf eine JavaScript (*.JS)-Datei. Wenn Sie diese Verweise in Ihrer Links-Tabelle nicht brauchen, lassen Sie die Option deaktiviert.

Wenn diese Option aktiviert ist, werden auch die Links der von Ihnen gecrawlten Website geprüft, die auf externe Seiten verweisen. So können Sie tote externe Links Ihrer Website finden.

Check Bookmarks

When turning this option on, links to the same page but with different bookmarks will be recognized as different as well. For instance, example.com/somepage#b1 and example.com/somepage#b2 would be recognized as links to two different pages, and would be added to the Pages table separately. Every of these bookmarks (#b1 and #b2) will be checked for presence on example.com/somepage. In case of fail, the corresponding Response column will contain #b1 Not Found message.

Store Response Headers

Check this option on (by default) in order to store headers that were received in response on access to a internal URL during the crawling.

Anzahl Threads

Dieser Parameter legt die Anzahl der parallelen Threads beim crawlen einer Website fest. Der Maximal wert ist 25, der Standardwert 5.

Bitte beachten Sie, dass das erhöhen dieses Wertes nicht immer zu einem Geschwindigkeitszuwachs beim crawlen einer Website führt. Je höher der Wert, desto mehr Systemressourcen (RAM und CPU) werden vom Crawl-Bot des Site Visualizer verwendet, was einen negativen Effekt auf andere, laufende Anwendungen haben kann. Finden Sie den optimalen Wert für Threads für Ihren Computer, wenn Sie mit dem Programm arbeiten.

Verzögerung beim Seitenzugriff

Diese Option ist nur verfügbar, wenn die Anzahl der Threads auf 1 verringert wurde, denn nur dann ergibt die Verzögerung zwischen den URL-Anfragen einen Sinn. Mit dieser Einstellung können Sie verhindern, dass bestimmte Seiten Sie wegen zu häufiger URL-Anfrage sperren. Eine Verzögerung von zwei oder drei Sekunden sollte ausreichen.

Crawltiefe begrenzen

Lässt Sie die Tiefe beim URL-crawling festlegen:

  • 0 - nur die Startseite einer Website wird gecrawled z. B. http://example.com.
  • 1 - die Startseite und alle Seiten der ersten Ebene werde gecrawled, z.B. http://example.com/page1, http://example.com/page2 etc.
  • Weiter bis Ebene 9. Dies ist der Höchstwert für Seitenebenen.

Zeitüberschreitung URL-Zugriff

Die Verbindungsgeschwindigkeit zu verschiedenen Websites sowie auf verschiedene Seiten innerhalb einer Website sind normalerweise unterschiedlich Diese Option ermöglicht es, eine Höchst in Sekunden für den URL-Zugriff einzutragen. Wenn Sie den Wert verringern, erhöhen Sie die Crawl-Geschwindigkeit, da durch die Zeitüberschreitung keine Verbindung zu "langsamen" Seiten hergestellt wird. Gleichzeitig erscheint eine "Read timed out"-Meldung. Wenn Sie sicher sind, dass die Verbindung zu einigen Seiten oder zu einer Website langsam ist und Sie warten wollen, erhöhen Sie den Wert.

User Agent

Mit dieser Option können Sie eine Website mit einem beliebigen Search-Bot crawlen: Google bot, Yahoo! Slurp etc. Oder sie können eine eigene User Agent-Definition eintragen. Standardmäßig wird der Site Visualizer-User Agent verwendet.

 

Siehe auch:


Grafische Struktur einer Website

Einstellungen für die Grafische Sitemap