blog-icon
Juni 17, 2025

robots txt Datei erstellen und Crawling effektiv steuern

Suchmaschinen-Roboter indexieren eine Website unabhängig von der Verfügbarkeit von robots.txt und sitemap.xml. Mit der robots.txt-Datei können Sie Suchmaschinen anweisen, was von der Indizierung auszuschließen ist und andere wichtige Parameter einstellen.

Diese praxisorientierte anleitung richtet sich an Webmaster, seo Verantwortliche und Entwickler, die mit einer klar strukturierten robots txt datei die suchmaschinenoptimierung, das crawling und die Indexierung ihrer Domain gezielt verbessern möchten.

Die datei robots legt für Bots, Crawler und Webcrawler fest, welche Inhalte, Ordner und Media auf der Website indexiert oder aus der Suche ausgeschlossen werden, wodurch Server-Ressourcen geschont und typische fehler im crawling frühzeitig erkannt werden.

Eine klar formulierte robots txt datei unterstützt die seo optimierung, verbessert die Sichtbarkeit in Suchmaschinen, stabilisiert das Ranking und sorgt dafür, dass nur wichtige Bereiche gecrawlt und im Index der Suchergebnissen von Google, Bing und Bingbot erscheinen.

Für Unternehmen, Agenturen und ein internes Marketing Team bedeutet eine gut konfigurierte robots txt datei, dass Crawler den verfügbaren Crawl-Budget effizient nutzen, unproduktiven Traffic reduzieren und dass jedes wichtige Blog Beitrag, Produkt Artikel oder Web Leistungsseite langfristig gefunden wird und die langfristige optimierung der technischen Signale unterstützt.

Es ist zu beachten, dass Crawler von Suchmaschinen bestimmte Regeln ignorieren, zum Beispiel:

  • Google Bot verwendet die Direktive Host und Crawl-Delay nicht.
  • Bestimmte spezialisierte Roboter umgehen allgemeine Direktiven, wenn diese nicht speziell für sie geschrieben sind.

Direktiven

Direktiven sind Regeln für Roboter. Es gibt eine W3C-Spezifikation vom 30. Januar 1994 und einen erweiterten Standard von 1996.

In der Praxis beginnt jede robots txt datei mit dem User Agent Block, in dem Sie für jeden Crawler oder für bestimmte Bots wie user agent googlebot disallow, Bingbot oder andere Tools genau festlegen, welchen Pfad und welche URL die Suchmaschinen durchsuchen dürfen.

Zusätzlich können Sie in der robots txt datei über Disallow, Allow, Noindex und weitere Regeln einzelne Verzeichnisse, Parameter und Cookies ausschließen, sensible Bereiche wie Admin, Login oder Impressum schützen und so interne Daten und Social Media Tracking Ressourcen gezielt steuern.

Für eine Standard Konfiguration bietet sich an, die txt datei als gut kommentierte Textdatei direkt im Hauptverzeichnis der Domain abzulegen, den Namen robots konsequent zu verwenden, über einen Generator oder manuelle Erstellung die datei robots regelmäßig zu aktualisieren und in WordPress oder anderen CMS keine widersprüchlichen Plugins einzusetzen.

Wenn Sie unterschiedliche Crawler getrennt behandeln, definieren Sie für jeden user agent disallow und Allow Zeile jeweils eine klare Regel, damit die Anweisungen eindeutig sind und nicht ignoriert werden.

Häufig verwendete Direktiven

User-agent: ist die Direktive, mit der Robots.txt beginnt.

Beispiel:

User -agent: * # Anweisungen für alle Suchmaschinen-Roboter. User -agent: GoogleBot # Anweisungen für den Google-Roboter. Disallow: # verbietet die Indizierung der nach / angegebenen Inhalte. Allow: # erlaubt die Indizierung von URLs. Disallow: # funktioniert nicht ohne das Sonderzeichen /. Allow: / # wird ignoriert, wenn nach / keine URL angegeben ist.

Sonderzeichen in robots.txt

Beachten Sie das Zeichen /, es kann zu einem großen Fehler führen, wenn Sie zum Beispiel Folgendes schreiben:

User -agent:* Disallow: / # Dadurch kann die gesamte Website von der Indizierung ausgeschlossen werden.

Das Sonderzeichen * bedeutet jede, einschließlich leerer, Zeichenfolge, zum Beispiel:

Disallow: /cart/* # schließt alle Seiten nach der URL: site.de/cart/ von der Indizierung aus.

Das Sonderzeichen $ schränkt die Wirkung des Zeichens * ein und gibt eine strenge Einschränkung vor:

User -agent:* Disallow: /catalog # mit diesem Zeichen wird catalog nicht indiziert, aber catalog.html wird indiziert.

Die Direktive sitemap gibt den Pfad zur Sitemap an und sieht so aus:

User -agent:* Allow: / Sitemap: http://www.site.de/sitemap.xml # muss mit http:// oder https:// angegeben werden.

Die Direktive Host gibt das Hauptspiegelbild der Website mit oder ohne www an.

User -agent:* Allow: / Sitemap: http://www.site.de/sitemap.xml Host: www.site.de # der Pfad zur Domain sollte ohne http und ohne Schrägstriche angegeben werden.

Die Direktive Crawl-Delay begrenzt die Serverlast und legt eine Timeout für Suchmaschinen fest:

User -agent: * Crawl-delay: 2 # legt einen Timeout von 2 Sekunden fest. User -agent: * Disallow: /search Crawl-delay: 4.5 # legt einen Timeout von 4.5 Sekunden fest.

Die Direktive Clean-Param ist notwendig, wenn die Seitenadressen dynamische Parameter enthalten, die den Inhalt nicht beeinflussen, z.B. Sitzungs-IDs, Benutzer, Referer usw.

Ein Roboter wird durch die Werte der Direktive Clean-Param nicht mehrfach die sich wiederholenden Informationen laden. Dadurch wird die Effizienz des Crawling Ihrer Website erhöht und die Serverlast verringert.

Beispielsweise Seiten mit folgender Adresse:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

Der Parameter ref wird nur verwendet, um nachzuvollziehen, von welcher Quelle die Anfrage kam, und ändert den Inhalt nicht. Auf allen drei Adressen wird dieselbe Seite mit dem Buch book_id=123 angezeigt. Wenn Sie die Direktive wie folgt angeben:

User -agent: GoogleBot Disallow: Clean-param: ref /some_dir/get_book.pl

wird der Google-Roboter alle Adressen der Seite auf eine reduzieren:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Es ist auch zu beachten, dass es für diese Direktive mehrere Optionen zur Konfiguration gibt.

Kyrillische Zeichen in robots.txt

Die Verwendung von Zeichen des russischen Alphabets ist in robots.txt verboten, dafür muss Punycode verwendet werden (ein standardisiertes Verfahren zur Umwandlung von Unicode-Zeichenfolgen in sogenannte ACE-Zeichenfolgen).

#Falsch: User -agent: * Disallow: /warenkorb Host: internet-shop.de #Richtig: User -agent: * Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0 Host: xn----8sbalhasbh9ahbi6a2ae.xn--p1ai

Empfehlungen, was in der robots.txt geschlossen werden sollte

  • Das Administrationspanel - beachten Sie, dass der Pfad zu Ihrem Administrationspanel bekannt sein wird, stellen Sie sicher, dass das Passwort sicher ist.
  • Warenkorb, Bestellformular und Daten zu Lieferung und Bestellungen.
  • Seiten mit Filter-, Sortierungs- und Vergleichsparametern.

Fehler, die in robots.txt auftreten können

Typische fehler in der robots txt datei entstehen durch unklare Syntax, falsch gesetzte Zeichen oder widersprüchliche Regeln, die wichtige Inhalte blockieren, den Zugriff für Crawler verhindern und im Extremfall das komplette crawling einer datei Website stoppen.

Solche fehler lassen sich schnell beheben, wenn Sie die robots txt datei mit geeigneten Online Tools oder der google search console testen, die Indexierung prüfen, einen Bericht über Probleme erhalten und anschließend gezielte Änderungen an der Textstruktur vornehmen.

Nach jeder korrigierten fehler Konfiguration sollten Sie die aktualisiert robots txt datei erneut im Browser öffnen, mit einem speziellen Test für Bots und Webcrawler überprüfen, ob die gewünschten URLs indexiert werden und ob keine wichtigen Bereiche versehentlich blockiert oder ausgeschlossen sind.

  • Eine leere Zeile - es ist nicht zulässig, eine leere Zeile in der Direktive user-agent zu haben, die nach den Regeln von robots.txt als "trennend" betrachtet wird.
  • Bei einem Konflikt zwischen zwei Direktiven mit gleich langen Präfixen hat die Direktive Allow Vorrang.
  • Für jede robots.txt-Datei wird nur eine Direktive Host verarbeitet. Wenn mehrere Direktiven angegeben sind, verwendet der Roboter die erste.
  • Die Direktive Clean-Param ist bereichsübergreifend und kann an beliebiger Stelle in der robots.txt-Datei angegeben werden.
  • Sechs Roboter folgen nicht den Regeln von robots.txt. Um ihre Indizierung auf der Website zu verbieten, sollten separate User-Agent-Parameter für jeden von ihnen erstellt werden.
  • Die Direktive User-agent sollte immer über der verbietenden Direktive stehen.
  • Eine Zeile für ein Verzeichnis. Es dürfen keine mehreren Verzeichnisse in einer Zeile geschrieben werden.
  • Der Dateiname muss genau so lauten: robots.txt. Keine Robots.txt, ROBOTS.txt usw. Nur Kleinbuchstaben im Namen.
  • In der Direktive host sollte der Pfad zur Domain ohne http und ohne Schrägstriche angegeben werden. Falsch: Host: http://www.site.de/, Richtig: Host: www.site.de (oder site.de)
  • Wenn die Website das geschützte Protokoll https verwendet, muss in der Direktive host (für den Google-Roboter) unbedingt mit dem Protokoll angegeben werden, also Host: https://www.site.de

Überprüfung von Fehlern in robots.txt mit Labrika

labrika → im linken Menü Technischer Audit → im Dropdown-Menü → Fehler robots.txt → robots.txt erneut überprüfen.

Es ist zu beachten, dass eine Datei, die größer als 32 kB ist, als vollständig erlaubend gelesen wird, unabhängig davon, was geschrieben steht.

Übermäßige Füllung von robots.txt. Anfänger-Webmaster sind von Artikeln beeindruckt, in denen gesagt wird, dass alles Unnötige in robots.txt geschlossen werden muss, und beginnen, alles außer dem Text auf genau bestimmten Seiten zu schließen. Das ist, milde gesagt, falsch. Erstens gibt es die Empfehlung von Google, Skripte, CSS und anderes nicht zu schließen, was den Robotern die Sicht auf die Website wie der Benutzer erschwert. Zweitens gibt es viele Fehler, die damit zusammenhängen, dass, wenn man etwas schließt, man auch ein anderes schließt. Es ist wichtig, die Zugänglichkeit von Seiten und ihren Elementen zu überprüfen. Am besten sollten in robots.txt nur offensichtlich unnötige Dinge für den Roboter geschlossen werden, wie Registrierungsformulare, Weiterleitungsseiten usw., während Duplikate mit Canonical entfernt werden sollten. Beachten Sie, dass das, was Sie an robots.txt geändert haben, nicht bedeutet, dass der Google-Roboter es sofort neu liest. Um diesen Prozess zu beschleunigen, reicht es, robots.txt im entsprechenden Bereich des Webmasters zu überprüfen.

Praktische Checkliste für robots.txt fehler und deren Behebung

  • Schritt für Schritt prüfen, ob die robots txt datei im Wurzelverzeichnis der Domain vorhanden ist, korrekt als robots txt datei benannt wurde und ob der Befehl Host, sitemap https www und Sitemaps inhaltlich zusammenpassen.
  • Mit einem kostenlosen robots txt Generator oder mit eigenen Anweisungen in einer HTML Textdatei die Regeln für jeden User Agent klar schreiben, unnötige Verzeichnisse ausschließen und so typische fehler frühzeitig beheben.
  • Regelmäßig in der google search console und in anderen Webmaster Tools überprüfen, welche URLs von Suchmaschinen gecrawlt, indexiert oder blockiert werden, ob Cookies, Media, Bilder oder Script dateien versehentlich blockiert sind und ob daraus fehler für das seo entstehen.
  • Bei komplexen Problemen Experten fragen, einen kurzen Bericht über alle gefundenen fehler erstellen, diese systematisch beheben und die finale robots txt datei im Testmodus gegen alternative beispiel Varianten vergleichen.

Beispiele für korrekt konfiguriertes robots.txt für verschiedene CMS:

Die folgenden beispiele und beispielen zu WordPress, ModX, OpenCart, Joomla und Bitrix zeigen, wie Sie für jedes System eine eigene robots txt datei erstellen, zusätzliche dateien für Media Content und Bilder schützen und dabei die gleichen Grund Regeln für User Agent und Disallow Befehl beachten.

Nutzen Sie die oben stehenden Configs als praxisnahe Referenz, passen Sie jede robots txt datei an die speziellen Einstellungen Ihrer Domain an und dokumentieren Sie für Ihr Team mit einer kurzen anleitung, welche Varianten bereits produktiv verwendet werden und welche nur zu Test Zwecken im Staging Web liegen.

WordPress

User -Agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: site.de Sitemap: http://site.de/sitemap.xml

ModX

User -agent: * Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Host: example.de Sitemap: http://example.de/sitemap.xml

OpenCart

User -agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category

Joomla

User -agent:* Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /go.php Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=de* Disallow: /*format=* Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark* Disallow: /*=download* Disallow: /*user/* Disallow: /.html Disallow: /index.php? Disallow: /index.html Disallow: /* Disallow: /*% Disallow: /*& Disallow: /index2.php Disallow: /index.php Disallow: /*tag Disallow: /*print=1 Disallow: /trackback Host: Ihre Website

Bitrix

User -agent: * Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: /upload/ Disallow: /search/ Disallow: /*/search/ Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*?print= Disallow: /*&print= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* Disallow: /*print_course=Y Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*?PAGEN Disallow: /*PAGEN_1= Disallow: /*PAGEN_2= Disallow: /*PAGEN_3= Disallow: /*PAGEN_4= Disallow: /*PAGEN_5= Disallow: /*PAGEN_6= Disallow: /*PAGEN_7= Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Host: sitename.de Sitemap: http://www.sitename.de/sitemap.xml

In diesen Beispielen ist im User-Agent-Parameter das Zeichen * angegeben, das allen Suchmaschinen-Robotern den Zugang erlaubt. Um robots.txt für bestimmte Suchmaschinen anzupassen, wird anstelle des Sonderzeichens der Name des Roboters wie GoogleBot angegeben.

Zusammenfassung zur robots.txt-Datei und praktische Empfehlungen

Eine sauber gepflegte robots txt datei besteht aus wenigen klaren Regeln, folgt einer einfachen Struktur und enthält nur das, was Sie wirklich für das crawling Ihrer Website und Ihre suchmaschinenoptimierung brauchen.

  • Definieren Sie für jede Domain und für jedes Projekt eine eigene robots txt datei, damit Suchmaschinen die Inhalte der jeweiligen Website eindeutig den richtigen Bereichen und Verzeichnisse zuordnen können.
  • Halten Sie die robots txt datei übersichtlich, kommentieren Sie wichtige Regeln direkt in der Text Zeile, vermeiden Sie überflüssige Einträge und löschen Sie veraltete Einstellungen oder blockierte dateien konsequent.
  • Stellen Sie sicher, dass die robots txt datei zusammen mit Sitemap XML, Meta robots Angaben und wichtigen HTML Noindex Anweisungen ein konsistentes Signal an alle Crawler sendet.
  • Überlegen Sie vor jeder Änderung, welche Folgen ein neuer Disallow Befehl haben kann, testen Sie die robots txt datei zunächst in einem sicheren Testbereich und erstellen Sie danach die finale Version für den produktiven Server.
  • Speichern Sie die txt datei immer im Hauptverzeichnis als robots.txt datei ohne Großbuchstaben im Namen und prüfen Sie nach jedem Upload, ob die txt korrekt vom Server ausgeliefert wird.
  • Vermeiden Sie doppelte oder veraltete txt dateien in verschiedenen Ordnern, damit jede Suchmaschine eindeutig erkennen kann, welche aktuelle txt Version für die jeweilige Domain gilt.

Dokumentieren Sie jede Änderung an der robots txt datei in einem kurzen Changelog, damit Sie bei einem unerwarteten fehler im Index oder bei einem Ranking Verlust schnell erkennen können, welche robots Einstellung in welcher robots txt Variante das Problem ausgelöst hat und wie Sie es dauerhaft beheben.

Als interne Dokumentation empfiehlt es sich, pro Projekt eine eigene robots txt datei vorzuhalten, in der Sie neben den aktiven Regeln auch Kommentare zu früheren robots Einstellungen und zu archivierten robots txt dateien eintragen.

Für neue Projekte kann das Team eine geprüfte Basis robots txt datei kopieren, die wichtigsten Regeln anpassen, zusätzliche robots Einträge für spezielle Bots ergänzen und die finale txt Struktur in einer Versionskontrolle sichern.

Bewahren Sie eine Sicherheitskopie der aktuellen txt datei und einer letzten funktionierenden txt Variante auf, um sie im Notfall schnell wiederherstellen zu können.

Aktualisiert am 20. Januar 2026.

Kostenlose Testversion

Starten Sie jetzt Ihre kostenlose Testversion