robots.txt

Die robots.txt ist eine Textdatei, in der Webmaster verschiedene Direktiven für Suchmaschinen-Bots eintragen können, die wichtig für die Indexierung von Webseiten-Inhalten sind. Allerdings sollte man dabei beachten, dass die robots.txt lediglich eine Richtlinie für die Bots darstellt, die sie aber nicht unbedingt einhalten müssen.

Die robots.txt-Datei muss im Root-Verzeichnis eines Webservers liegen und vollständig kleingeschrieben sein.

Beispiele und Befehle für eine robots.txt

Den Aufbau einer robots.txt erfolgt meist in zwei Abschnitten. Als Erstes wird festgelegt für welche Crawler die Anweisung gelten soll. Anschließend folgt der Befehl, der festlegt welcher Bereich ausgeschlossen bzw. zugänglich gemacht werden soll.

Hier ein Beispiel für den Aufbau einer robots.txt:

#Kommentar (ein Kommentar beginnt mit einer Raute)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.local-growth.de/sitemap.xml

Liste mit Suchmaschinenbots/agents für die robots.txt:

Suche User-Agent
Google
Google-Bildersuche
Google-Adwords
Google-Adsense
Yahoo
MSN / bing
Teoma/Ask
Internet Archive
Exalead
Googlebot
Googlebot-Image
Adsbot-Google
MediaPartners-Google
Slurp
Msnbot / bingbot
Teoma
ia_archiver
Exabot

Liste mit Kommandos und Befehle für die robots.txt:

Kommando Bedeutung Beispiel
# Kommentar für dich # das ist die robotx.txt für *****
* Wildcard (für User Agent und URL-Fragmente) Disallow: /*?
$ Pfadende (z.B. um bestimmte Datei-Typen auszuschließen) Disallow: /*.pdf$
User-agent: Für welchen Bot den die Anweisung gilt User-agent: Googlebot
Allow: Erlauben (default Wert) Allow: /erlaubtes-verzeichnis/
Disallow: Verbieten Disallow: /ziel-verzeichnis/
Sitemap: Speicherort der Sitemap(s) Sitemap: https://www.local-growth.de/sitemap.xml

Beispiele für Kombinationen aus Kommandos und Bots:

Ein bestimmtes Verzeichnis für alle Bots sperren

User-agent: *
Disallow: /gesperrtes-verzeichnis/

Einzelne URLs von der Indexierung aussperren

User-agent: *
Disallow: /verzeichnis/gesperrte-URL.html

Nur dem Googlebot den Zugriff erlauben

User-agent: Googlebot
Allow: /

User-agent: * (damit werden alle anderen Crawler außer der Googlebot ausgeschlossen)
Disallow: /

Nur den Googlebot aussperren

User-agent: Googlebot
Disallow: /

Alle Suchmaschinen vollständig aussperren

User-agent: *
Disallow: /

Bestimmte Datei-Typen ausschließen

# Aussperren von PDF-Dateien
Disallow: /*.pdf
# Aussperren von JPG-Bildern
Disallow: /*.jpg
Disallow: /*.jpeg
# Aussperren von MP4-Dateien
Disallow: /*.mp4
# Aussperren von allen Excel-Dateien
Disallow: /*.xls
Disallow: /*.xlsx

XML Sitemap hinterlegen

Sitemap: https:www.vioma.de/google-sitemap.xml