Website Crawling Optionen
Dieser Karteireiter des Dialogfensters Neues Projekt erstellen enthält die Optionen, die sich auf Verbindungseinstellungen zu einer Website, Links und Inhaltsanalyse beziehen.:
Robots.txt befolgen
Diese einfache Textdatei enthält die Regeln, die Search Bots und andere Website Crawler befolgen müssen. Sie finden weiterführende Informationen über die robots.txt-Protokollspezifikationen auf der offiziellen Seite.
Diese Option ermöglicht das crawlen einer Website genau so, wie es ein Search Bot tut, wenn er die Website indexiert. Wenn die Option aktiviert ist (Standardeinstellung), wird der Site Visualizer-Bot nicht versuchen, auf verbotene URLs zuzugreifen. Wenn deaktiviert, wird der Bot des Programms alle Links crawlen, die im HTML-Text einer Seite gefunden werden.
Redirects zulassen
Legt fest, ob eine URL angesprungen wird, auf die ein Link zurückverweist.
Außerhalb des Startverzeichnisses beginnen
Wenn diese Option aktiviert ist, wird die gesamte Website gecrawled. Deaktivieren Sie die Option, wenn Sie nur ein bestimmtes Verzeichnis einer Website crawlen wollen. In diesem Fall geben Sie die Website URL im Karteireiter Allgemein einschließlich des zu crawlenden Verzeichnisses und eines abschließenden Schrägstrichs (slash) ein, z.B. 'http://example.com/dir/'. Wenn Sie die Website URL ohne den abschließenden Schrägstrich eingeben (z. B. 'http://example.com/page'), bedeutet das, dass Sie nur das Hauptverzeichnis von http://example.com/ durchsuchen wollen, und /dir/ und andere Verzeichnisse weglassen.
Analyze Content
Enables count of words, sentences, syllables, complex words, and characters of a page content. Basing upon these values, the following readability scores are being counted (use reports of Content category to view them):
- Flesch Reading Ease
- Flesch-Kincaid Grade Level
- Gunning Fog
- SMOG
- Coleman-Liau
- Automated Readability
- Dale–Chall Readability
URLs einschließen
Diese Eigenschaft macht es möglich, nur bestimmte URLs (oder Verzeichnisse) zu crawlen. Das kann bei besonders beim Crawlen von extrem großen Websites nützlich sein.
Klicken Sie dazu auf den Einschließen-Link. Es öffnet sich ein Dialogfenster, in das sie die URLs (oder Teile einer URL eingeben können, wie z. B. eine Verzeichnis oder Dateinamen etc., die gecrawled werden soll – eine pro Zeile. Nur Links, die mindestens eine der angegebenen Zeichenkette in ihrer URL-Addresse enthalten, werden gecrawled.
URLs ausschließen
Diese Option lässt Sie eine Liste von URLs oder Verzeichnissen festlegen, die beim crawlen übersprungen werden sollen. Die Methode ist identisch zu der für das Einschließen von URLs. Link, die zumindest eine der angegebenen Zeichenkette in ihrer URL-Adresse enthalten, werden nicht gecrawled:
Lösche Parameter aus URLs
Hier öffnet sich ein Dialogfenster, das es Ihnen ermöglicht, bestimmte Parameter aus einer URL-Zeichenkette zu entfernen. In den meisten Fällen können dies Parameter wie session IDs, category IDs, verschiedene Vorschaumodi und viele andere sein, die eine URL anders erscheinen lassen, aber dennoch auf dieselbe Seite einer Website verweisen. Das Entfernen dieser Parameter macht eine Sitemap sauberer und schlanker, was wiederum das Analysieren einer Website vereinfacht. Außerdem ermöglicht es, an Google und andere Suchmaschinen, URLs ohne diese "Müll"-Parameter zu übergeben.
Tragen Sie die Parameter, die Sie von einer URLs ausschließen wollen, in dem Dialogfenster ein. Eine Zeile sollte einen einzelnen Parameter enthalten (ohne '?', '&', oder irgendwelche anderen Begrenzungszeichen). Das folgende Bild zeigt den Satz Parameter für das crawlen eines phpBB-Forums:
Klicken Sie auf OK, um die Parameterlisten in dem aktuellen Projekt zu speichern.
Custom Search
Intended for text search inside a page source code (including content, HTML tags, comments):
Click Add button to add new search condition, click Delete or Delete All in order to delete the current one or all conditions. Double-click a cell of the table to edit it: change search text, rename current search, check or uncheck Case Sensitive and RegEx columns. If the RegEx cell is checked, the application considers search text as a regular expression (PCRE). Click OK to save the changes.
Once the crawling is complete, run Custom Search report. It will contain all the URLs the search text (or regular expression) has been found at, as well as number of its occurrences.
Use Chromium Rendering
Some websites use client-side JavaScript. This means that the HTML source code (or a part of it) of a page is being created by JavaScript. But in order to execute this script, we need a program that can do that - a web browser. Only after that, we can get the source HTML code and parse it for links, headings, images, and other HTML tags.
Site Visualizer has embedded Chromium browser that allows to render website pages just like a Google Chrome browser: run client-side JavaScript, apply CSS styles, load additional resources, etc. The Use Chromium Rendering option is intended for crawling such JavaScript websites.
Crawl Secured Pages
On access to protected area, the program will ask for your credentials:
In the dialog box appears, specify the username and password. If the credentials are correct, Site Visualizer will crawl the secured pages.
Tag-Typ prüfen
Miet diesen Parametern können Sie festlegen, welche Tags ausgelesen und zu der Links-Tabelle hinzugefügt werden sollen. Das ist dann nützlich, wenn Sie z. B. das Auftreten von Links zu Bildern, CSS-Dateien oder JavaScript-Dateien verhindern wollen:
- <IMG> – deaktivieren Sie die Option, wenn Sie die <IMG>-Bildertags beim Auslesen des HTML-Textes der Website überspringen und das Hinzufügen zur Links-Tabelle verhindern wollen.
- <LINK> – diese Tags werden in den meisten Fällen verwendet, um vom HTML-Text einer Seite zu einer oder mehrerer Cascading Style Sheets (*.CSS)-Dateien zu verlinken. Ebenso wie das <IMG>-Tag ist das <LINK>-Tag nur ein Verweis auf eine Datei und kein Hyperlink zur Seite einer Website. Es wird auch kein für eine SEO-Analyse nützliches "Gewicht" transportiert, so dass die Option deaktiviert werden kann.
- <SCRIPT> – dieses Tag, so wie zuvor <IMG> und <LINK>, ist ein Verweis auf eine JavaScript (*.JS)-Datei. Wenn Sie diese Verweise in Ihrer Links-Tabelle nicht brauchen, lassen Sie die Option deaktiviert.
Externe Links prüfen
Wenn diese Option aktiviert ist, werden auch die Links der von Ihnen gecrawlten Website geprüft, die auf externe Seiten verweisen. So können Sie tote externe Links Ihrer Website finden.
Check Bookmarks
When turning this option on, links to the same page but with different bookmarks will be recognized as different as well. For instance, example.com/somepage#b1 and example.com/somepage#b2 would be recognized as links to two different pages, and would be added to the Pages table separately. Every of these bookmarks (#b1 and #b2) will be checked for presence on example.com/somepage. In case of fail, the corresponding Response column will contain #b1 Not Found message.
Store Response Headers
Check this option on (by default) in order to store headers that were received in response on access to a internal URL during the crawling.
Anzahl Threads
Dieser Parameter legt die Anzahl der parallelen Threads beim crawlen einer Website fest. Der Maximal wert ist 25, der Standardwert 5.
Verzögerung beim Seitenzugriff
Diese Option ist nur verfügbar, wenn die Anzahl der Threads auf 1 verringert wurde, denn nur dann ergibt die Verzögerung zwischen den URL-Anfragen einen Sinn. Mit dieser Einstellung können Sie verhindern, dass bestimmte Seiten Sie wegen zu häufiger URL-Anfrage sperren. Eine Verzögerung von zwei oder drei Sekunden sollte ausreichen.
Crawltiefe begrenzen
Lässt Sie die Tiefe beim URL-crawling festlegen:
- 0 - nur die Startseite einer Website wird gecrawled z. B. http://example.com.
- 1 - die Startseite und alle Seiten der ersten Ebene werde gecrawled, z.B. http://example.com/page1, http://example.com/page2 etc.
- Weiter bis Ebene 9. Dies ist der Höchstwert für Seitenebenen.
Zeitüberschreitung URL-Zugriff
Die Verbindungsgeschwindigkeit zu verschiedenen Websites sowie auf verschiedene Seiten innerhalb einer Website sind normalerweise unterschiedlich Diese Option ermöglicht es, eine Höchst in Sekunden für den URL-Zugriff einzutragen. Wenn Sie den Wert verringern, erhöhen Sie die Crawl-Geschwindigkeit, da durch die Zeitüberschreitung keine Verbindung zu "langsamen" Seiten hergestellt wird. Gleichzeitig erscheint eine "Read timed out"-Meldung. Wenn Sie sicher sind, dass die Verbindung zu einigen Seiten oder zu einer Website langsam ist und Sie warten wollen, erhöhen Sie den Wert.
User Agent
Mit dieser Option können Sie eine Website mit einem beliebigen Search-Bot crawlen: Google bot, Yahoo! Slurp etc. Oder sie können eine eigene User Agent-Definition eintragen. Standardmäßig wird der Site Visualizer-User Agent verwendet.
Siehe auch: