Suchmaschinen-Roboter indexieren eine Website unabhängig von der Verfügbarkeit von robots.txt
und sitemap.xml
. Mit der robots.txt
-Datei können Sie Suchmaschinen anweisen, was von der Indizierung auszuschließen ist und andere wichtige Parameter einstellen.
Es ist zu beachten, dass Crawler von Suchmaschinen bestimmte Regeln ignorieren, zum Beispiel:
Direktiven sind Regeln für Roboter. Es gibt eine W3C-Spezifikation vom 30. Januar 1994 und einen erweiterten Standard von 1996.
User-agent: ist die Direktive, mit der Robots.txt
beginnt.
Beispiel:
User -agent: * # Anweisungen für alle Suchmaschinen-Roboter. User -agent: GoogleBot # Anweisungen für den Google-Roboter. Disallow: # verbietet die Indizierung der nach / angegebenen Inhalte. Allow: # erlaubt die Indizierung von URLs. Disallow: # funktioniert nicht ohne das Sonderzeichen /. Allow: / # wird ignoriert, wenn nach / keine URL angegeben ist.
Beachten Sie das Zeichen /, es kann zu einem großen Fehler führen, wenn Sie zum Beispiel Folgendes schreiben:
User -agent:* Disallow: / # Dadurch kann die gesamte Website von der Indizierung ausgeschlossen werden.
Das Sonderzeichen * bedeutet jede, einschließlich leerer, Zeichenfolge, zum Beispiel:
Disallow: /cart/* # schließt alle Seiten nach der URL: site.de/cart/ von der Indizierung aus.
Das Sonderzeichen $ schränkt die Wirkung des Zeichens * ein und gibt eine strenge Einschränkung vor:
User -agent:* Disallow: /catalog # mit diesem Zeichen wird catalog nicht indiziert, aber catalog.html wird indiziert.
Die Direktive sitemap gibt den Pfad zur Sitemap an und sieht so aus:
User -agent:* Allow: / Sitemap: http://www.site.de/sitemap.xml # muss mit http:// oder https:// angegeben werden.
Die Direktive Host gibt das Hauptspiegelbild der Website mit oder ohne www an.
User -agent:* Allow: / Sitemap: http://www.site.de/sitemap.xml Host: www.site.de # der Pfad zur Domain sollte ohne http und ohne Schrägstriche angegeben werden.
Die Direktive Crawl-Delay begrenzt die Serverlast und legt eine Timeout für Suchmaschinen fest:
User -agent: * Crawl-delay: 2 # legt einen Timeout von 2 Sekunden fest. User -agent: * Disallow: /search Crawl-delay: 4.5 # legt einen Timeout von 4.5 Sekunden fest.
Die Direktive Clean-Param ist notwendig, wenn die Seitenadressen dynamische Parameter enthalten, die den Inhalt nicht beeinflussen, z.B. Sitzungs-IDs, Benutzer, Referer usw.
Ein Roboter wird durch die Werte der Direktive Clean-Param nicht mehrfach die sich wiederholenden Informationen laden. Dadurch wird die Effizienz des Crawling Ihrer Website erhöht und die Serverlast verringert.
Beispielsweise Seiten mit folgender Adresse:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123
Der Parameter ref wird nur verwendet, um nachzuvollziehen, von welcher Quelle die Anfrage kam, und ändert den Inhalt nicht. Auf allen drei Adressen wird dieselbe Seite mit dem Buch book_id=123 angezeigt. Wenn Sie die Direktive wie folgt angeben:
User -agent: GoogleBot Disallow: Clean-param: ref /some_dir/get_book.pl
wird der Google-Roboter alle Adressen der Seite auf eine reduzieren:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,
Es ist auch zu beachten, dass es für diese Direktive mehrere Optionen zur Konfiguration gibt.
Die Verwendung von Zeichen des russischen Alphabets ist in robots.txt verboten, dafür muss Punycode verwendet werden (ein standardisiertes Verfahren zur Umwandlung von Unicode-Zeichenfolgen in sogenannte ACE-Zeichenfolgen).
#Falsch: User -agent: * Disallow: /warenkorb Host: internet-shop.de #Richtig: User -agent: * Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0 Host: xn----8sbalhasbh9ahbi6a2ae.xn--p1ai
labrika → im linken Menü Technischer Audit → im Dropdown-Menü → Fehler robots.txt → robots.txt erneut überprüfen.
Es ist zu beachten, dass eine Datei, die größer als 32 kB ist, als vollständig erlaubend gelesen wird, unabhängig davon, was geschrieben steht.
Übermäßige Füllung von robots.txt. Anfänger-Webmaster sind von Artikeln beeindruckt, in denen gesagt wird, dass alles Unnötige in robots.txt geschlossen werden muss, und beginnen, alles außer dem Text auf genau bestimmten Seiten zu schließen. Das ist, milde gesagt, falsch. Erstens gibt es die Empfehlung von Google, Skripte, CSS und anderes nicht zu schließen, was den Robotern die Sicht auf die Website wie der Benutzer erschwert. Zweitens gibt es viele Fehler, die damit zusammenhängen, dass, wenn man etwas schließt, man auch ein anderes schließt. Es ist wichtig, die Zugänglichkeit von Seiten und ihren Elementen zu überprüfen. Am besten sollten in robots.txt nur offensichtlich unnötige Dinge für den Roboter geschlossen werden, wie Registrierungsformulare, Weiterleitungsseiten usw., während Duplikate mit Canonical entfernt werden sollten. Beachten Sie, dass das, was Sie an robots.txt geändert haben, nicht bedeutet, dass der Google-Roboter es sofort neu liest. Um diesen Prozess zu beschleunigen, reicht es, robots.txt im entsprechenden Bereich des Webmasters zu überprüfen.
Beispiele für korrekt konfiguriertes robots.txt für verschiedene CMS:
User -Agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: site.de Sitemap: http://site.de/sitemap.xml
User -agent: * Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Host: example.de Sitemap: http://example.de/sitemap.xml
User -agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category
User -agent:* Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /go.php Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=de* Disallow: /*format=* Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark* Disallow: /*=download* Disallow: /*user/* Disallow: /.html Disallow: /index.php? Disallow: /index.html Disallow: /* Disallow: /*% Disallow: /*& Disallow: /index2.php Disallow: /index.php Disallow: /*tag Disallow: /*print=1 Disallow: /trackback Host: Ihre Website
User -agent: * Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: /upload/ Disallow: /search/ Disallow: /*/search/ Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*?print= Disallow: /*&print= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* Disallow: /*print_course=Y Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*?PAGEN Disallow: /*PAGEN_1= Disallow: /*PAGEN_2= Disallow: /*PAGEN_3= Disallow: /*PAGEN_4= Disallow: /*PAGEN_5= Disallow: /*PAGEN_6= Disallow: /*PAGEN_7= Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Host: sitename.de Sitemap: http://www.sitename.de/sitemap.xml
In diesen Beispielen ist im User-Agent-Parameter das Zeichen * angegeben, das allen Suchmaschinen-Robotern den Zugang erlaubt. Um robots.txt für bestimmte Suchmaschinen anzupassen, wird anstelle des Sonderzeichens der Name des Roboters wie GoogleBot angegeben.