robots.txt
Die robots.txt ist eine Textdatei, in der Webmaster verschiedene Direktiven für Suchmaschinen-Bots eintragen können, die wichtig für die Indexierung von Webseiten-Inhalten sind. Allerdings sollte man dabei beachten, dass die robots.txt lediglich eine Richtlinie für die Bots darstellt, die sie aber nicht unbedingt einhalten müssen.
Die robots.txt-Datei muss im Root-Verzeichnis eines Webservers liegen und vollständig kleingeschrieben sein.
Beispiele und Befehle für eine robots.txt
Den Aufbau einer robots.txt erfolgt meist in zwei Abschnitten. Als Erstes wird festgelegt für welche Crawler die Anweisung gelten soll. Anschließend folgt der Befehl, der festlegt welcher Bereich ausgeschlossen bzw. zugänglich gemacht werden soll.
Hier ein Beispiel für den Aufbau einer robots.txt:
#Kommentar (ein Kommentar beginnt mit einer Raute)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.local-growth.de/sitemap.xml
Liste mit Suchmaschinenbots/agents für die robots.txt:
Suche | User-Agent |
Google Google-Bildersuche Google-Adwords Google-Adsense Yahoo MSN / bing Teoma/Ask Internet Archive Exalead |
Googlebot Googlebot-Image Adsbot-Google MediaPartners-Google Slurp Msnbot / bingbot Teoma ia_archiver Exabot |
Liste mit Kommandos und Befehle für die robots.txt:
Kommando | Bedeutung | Beispiel |
---|---|---|
# | Kommentar für dich | # das ist die robotx.txt für ***** |
* | Wildcard (für User Agent und URL-Fragmente) | Disallow: /*? |
$ | Pfadende (z.B. um bestimmte Datei-Typen auszuschließen) | Disallow: /*.pdf$ |
User-agent: | Für welchen Bot den die Anweisung gilt | User-agent: Googlebot |
Allow: | Erlauben (default Wert) | Allow: /erlaubtes-verzeichnis/ |
Disallow: | Verbieten | Disallow: /ziel-verzeichnis/ |
Sitemap: | Speicherort der Sitemap(s) | Sitemap: https://www.local-growth.de/sitemap.xml |
Beispiele für Kombinationen aus Kommandos und Bots:
Ein bestimmtes Verzeichnis für alle Bots sperren
User-agent: *
Disallow: /gesperrtes-verzeichnis/
Einzelne URLs von der Indexierung aussperren
User-agent: *
Disallow: /verzeichnis/gesperrte-URL.html
Nur dem Googlebot den Zugriff erlauben
User-agent: Googlebot
Allow: /
User-agent: * (damit werden alle anderen Crawler außer der Googlebot ausgeschlossen)
Disallow: /
Nur den Googlebot aussperren
User-agent: Googlebot
Disallow: /
Alle Suchmaschinen vollständig aussperren
User-agent: *
Disallow: /
Bestimmte Datei-Typen ausschließen
# Aussperren von PDF-Dateien
Disallow: /*.pdf
# Aussperren von JPG-Bildern
Disallow: /*.jpg
Disallow: /*.jpeg
# Aussperren von MP4-Dateien
Disallow: /*.mp4
# Aussperren von allen Excel-Dateien
Disallow: /*.xls
Disallow: /*.xlsx
XML Sitemap hinterlegen
Sitemap: https:www.vioma.de/google-sitemap.xml