Juni 17, 2025

Die Bedeutung von robots.txt für die Suchmaschinenoptimierung

Suchmaschinen-Roboter indexieren eine Website unabhängig von der Verfügbarkeit von robots.txt und sitemap.xml. Mit der robots.txt-Datei können Sie Suchmaschinen anweisen, was von der Indizierung auszuschließen ist und andere wichtige Parameter einstellen.

Es ist zu beachten, dass Crawler von Suchmaschinen bestimmte Regeln ignorieren, zum Beispiel:

Google Bot verwendet die Direktive Host und Crawl-Delay nicht.
Bestimmte spezialisierte Roboter umgehen allgemeine Direktiven, wenn diese nicht speziell für sie geschrieben sind.

Direktiven

Direktiven sind Regeln für Roboter. Es gibt eine W3C-Spezifikation vom 30. Januar 1994 und einen erweiterten Standard von 1996.

Häufig verwendete Direktiven

User-agent: ist die Direktive, mit der Robots.txt beginnt.

Beispiel:

User -agent: * # Anweisungen für alle Suchmaschinen-Roboter.
User -agent: GoogleBot # Anweisungen für den Google-Roboter.
Disallow: # verbietet die Indizierung der nach / angegebenen Inhalte.
Allow: # erlaubt die Indizierung von URLs.
Disallow: # funktioniert nicht ohne das Sonderzeichen /.
Allow: / # wird ignoriert, wenn nach / keine URL angegeben ist.

Sonderzeichen in robots.txt

Beachten Sie das Zeichen /, es kann zu einem großen Fehler führen, wenn Sie zum Beispiel Folgendes schreiben:

User -agent:*
Disallow: / # Dadurch kann die gesamte Website von der Indizierung ausgeschlossen werden.

Das Sonderzeichen * bedeutet jede, einschließlich leerer, Zeichenfolge, zum Beispiel:

Disallow: /cart/* # schließt alle Seiten nach der URL: site.de/cart/ von der Indizierung aus.

Das Sonderzeichen $ schränkt die Wirkung des Zeichens * ein und gibt eine strenge Einschränkung vor:

User -agent:*
Disallow: /catalog # mit diesem Zeichen wird catalog nicht indiziert, aber catalog.html wird indiziert.

Die Direktive sitemap gibt den Pfad zur Sitemap an und sieht so aus:

User -agent:* 
Allow: / 
Sitemap: http://www.site.de/sitemap.xml # muss mit http:// oder https:// angegeben werden.

Die Direktive Host gibt das Hauptspiegelbild der Website mit oder ohne www an.

User -agent:*
Allow: / 
Sitemap: http://www.site.de/sitemap.xml 
Host: www.site.de # der Pfad zur Domain sollte ohne http und ohne Schrägstriche angegeben werden.

Die Direktive Crawl-Delay begrenzt die Serverlast und legt eine Timeout für Suchmaschinen fest:

User -agent: * Crawl-delay: 2 # legt einen Timeout von 2 Sekunden fest.
User -agent: * 
Disallow: /search 
Crawl-delay: 4.5 # legt einen Timeout von 4.5 Sekunden fest.

Die Direktive Clean-Param ist notwendig, wenn die Seitenadressen dynamische Parameter enthalten, die den Inhalt nicht beeinflussen, z.B. Sitzungs-IDs, Benutzer, Referer usw.

Ein Roboter wird durch die Werte der Direktive Clean-Param nicht mehrfach die sich wiederholenden Informationen laden. Dadurch wird die Effizienz des Crawling Ihrer Website erhöht und die Serverlast verringert.

Beispielsweise Seiten mit folgender Adresse:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 
www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

Der Parameter ref wird nur verwendet, um nachzuvollziehen, von welcher Quelle die Anfrage kam, und ändert den Inhalt nicht. Auf allen drei Adressen wird dieselbe Seite mit dem Buch book_id=123 angezeigt. Wenn Sie die Direktive wie folgt angeben:

User -agent: GoogleBot
Disallow:
Clean-param: ref /some_dir/get_book.pl

wird der Google-Roboter alle Adressen der Seite auf eine reduzieren:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Es ist auch zu beachten, dass es für diese Direktive mehrere Optionen zur Konfiguration gibt.

Kyrillische Zeichen in robots.txt

Die Verwendung von Zeichen des russischen Alphabets ist in robots.txt verboten, dafür muss Punycode verwendet werden (ein standardisiertes Verfahren zur Umwandlung von Unicode-Zeichenfolgen in sogenannte ACE-Zeichenfolgen).

#Falsch:
User -agent: *
Disallow: /warenkorb
Host: internet-shop.de

#Richtig:
User -agent: *
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Host: xn----8sbalhasbh9ahbi6a2ae.xn--p1ai

Empfehlungen, was in der robots.txt geschlossen werden sollte

Das Administrationspanel - beachten Sie, dass der Pfad zu Ihrem Administrationspanel bekannt sein wird, stellen Sie sicher, dass das Passwort sicher ist.
Warenkorb, Bestellformular und Daten zu Lieferung und Bestellungen.
Seiten mit Filter-, Sortierungs- und Vergleichsparametern.

Fehler, die in robots.txt auftreten können

Eine leere Zeile - es ist nicht zulässig, eine leere Zeile in der Direktive user-agent zu haben, die nach den Regeln von robots.txt als "trennend" betrachtet wird.
Bei einem Konflikt zwischen zwei Direktiven mit gleich langen Präfixen hat die Direktive Allow Vorrang.
Für jede robots.txt-Datei wird nur eine Direktive Host verarbeitet. Wenn mehrere Direktiven angegeben sind, verwendet der Roboter die erste.
Die Direktive Clean-Param ist bereichsübergreifend und kann an beliebiger Stelle in der robots.txt-Datei angegeben werden.
Sechs Roboter folgen nicht den Regeln von robots.txt. Um ihre Indizierung auf der Website zu verbieten, sollten separate User-Agent-Parameter für jeden von ihnen erstellt werden.
Die Direktive User-agent sollte immer über der verbietenden Direktive stehen.
Eine Zeile für ein Verzeichnis. Es dürfen keine mehreren Verzeichnisse in einer Zeile geschrieben werden.
Der Dateiname muss genau so lauten: robots.txt. Keine Robots.txt, ROBOTS.txt usw. Nur Kleinbuchstaben im Namen.
In der Direktive host sollte der Pfad zur Domain ohne http und ohne Schrägstriche angegeben werden. Falsch: Host: http://www.site.de/, Richtig: Host: www.site.de (oder site.de)
Wenn die Website das geschützte Protokoll https verwendet, muss in der Direktive host (für den Google-Roboter) unbedingt mit dem Protokoll angegeben werden, also Host: https://www.site.de

Überprüfung von Fehlern in robots.txt mit Labrika

labrika → im linken Menü Technischer Audit → im Dropdown-Menü → Fehler robots.txt → robots.txt erneut überprüfen.

Es ist zu beachten, dass eine Datei, die größer als 32 kB ist, als vollständig erlaubend gelesen wird, unabhängig davon, was geschrieben steht.

Übermäßige Füllung von robots.txt. Anfänger-Webmaster sind von Artikeln beeindruckt, in denen gesagt wird, dass alles Unnötige in robots.txt geschlossen werden muss, und beginnen, alles außer dem Text auf genau bestimmten Seiten zu schließen. Das ist, milde gesagt, falsch. Erstens gibt es die Empfehlung von Google, Skripte, CSS und anderes nicht zu schließen, was den Robotern die Sicht auf die Website wie der Benutzer erschwert. Zweitens gibt es viele Fehler, die damit zusammenhängen, dass, wenn man etwas schließt, man auch ein anderes schließt. Es ist wichtig, die Zugänglichkeit von Seiten und ihren Elementen zu überprüfen. Am besten sollten in robots.txt nur offensichtlich unnötige Dinge für den Roboter geschlossen werden, wie Registrierungsformulare, Weiterleitungsseiten usw., während Duplikate mit Canonical entfernt werden sollten. Beachten Sie, dass das, was Sie an robots.txt geändert haben, nicht bedeutet, dass der Google-Roboter es sofort neu liest. Um diesen Prozess zu beschleunigen, reicht es, robots.txt im entsprechenden Bereich des Webmasters zu überprüfen.

Beispiele für korrekt konfiguriertes robots.txt für verschiedene CMS:

WordPress

User -Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

Host: site.de
Sitemap: http://site.de/sitemap.xml

ModX

User -agent: *
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?
Host: example.de
Sitemap: http://example.de/sitemap.xml

OpenCart

User -agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category

Joomla

User -agent:*
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/ 
Disallow: /cache/
Disallow: /components/
Disallow: /go.php
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=de* 
Disallow: /*format=* 
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark* 
Disallow: /*=download*
Disallow: /*user/* 
Disallow: /.html 
Disallow: /index.php?
Disallow: /index.html
Disallow: /* 
Disallow: /*%
Disallow: /*&
Disallow: /index2.php
Disallow: /index.php 
Disallow: /*tag  
Disallow: /*print=1 
Disallow: /trackback 
Host: Ihre Website

Bitrix

User -agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all= 
Host: sitename.de
Sitemap: http://www.sitename.de/sitemap.xml

In diesen Beispielen ist im User-Agent-Parameter das Zeichen * angegeben, das allen Suchmaschinen-Robotern den Zugang erlaubt. Um robots.txt für bestimmte Suchmaschinen anzupassen, wird anstelle des Sonderzeichens der Name des Roboters wie GoogleBot angegeben.

Kostenlose Testversion