Czym jest dziwnie brzmiący nazwą plik…? Robots.txt – oznacza plik w formacie tekstowym, który pozwala webmasterowi lub administratorowi strony wskazać robotom (zwanym także robotom wyszukiwarek) informacje, komplet dyrektyw o blokowaniu bądź zezwalanie do crawlowania i analizy Twojej witryny. Ów plik przeznaczony jest wyłącznie do określania indeksowania plików, podstron przez konkretne roboty, ważne że nie zabrania dostępu do strony lub katalogu użytkownikowi Internetu.
Pochodzenie pliku robots.txt
Autorstwo tego pliku przypisuje się Martinowi Kosterowi, który pracował dla Webcrawlera w 1994 roku. Wynalezienie pliki powstało w czasie regulowania indeksowania robotów, które to działaly , plik miał wpływać na wywoływanie pewnej liczby irytacji, takich jak aktywacja skryptów i planowanie serwera.
Jaki jest związek między plikiem robots.txt a SEO?
Odwołanie do strony internetowej nie jest możliwe bez eksploracji zawartości przez silników strony , konkretnego CMS przez roboty. Przekazując im instrukcje za pośrednictwem tego pliku, możemy określić zasadniczo wyjaśnić, że konkretne struktury w URL nie są im przydatnymi treściami, które Twoim zdaniem nie przyniosą żadnej wartości dodanej w wynikach Google, Bing lub Yahoo.
Czy utworzenie pliku robots.txt gwarantuje lepsze odwołania?
W 2017 r. przeprowadzono badania które przekazał informacje na ten temat łatwość indeksowania, wnioski były jasne iż kryterium trafności jego algorytmu, dlatego wpływ na SEO nie jest mechaniczny, ponieważ platforma, która jest eksplorowana bardziej „skutecznie” oszczędza crawl budget wyszukiwarek.
Jakie treści powinny być zabronione dla SEO?
Po pierwsze, statyczne strony, stare struktury ktorych nie aktualizujesz ze względów ich przedawnienia, tego typu dane mogą stanowić część treści, których roboty nie powinny analizować.
Są to również informacje sklasyfikowane jako poufne, jako wrażliwe zasoby, ale przede wszystkim przeznaczone do odkrycia przez współpracowników wewnętrznych (dokumentacje, tzw. białe księgi, specyfikacje itp.). Następnie myślimy o zduplikowanych stronach, które często stanowią części ważna strona na WordPress i inne CMS-y. Są to również wyszukiwania w wewnętrznej wyszukiwarce, które, jeśli mogą dać ci kilka odpowiednich pomysłów do wykorzystania w kwestiach naturalnych odwołań, niekoniecznie są interesujące dla użytkowników wyszukiwarek.
Jakie inne zasady SEO powinieneś wiedzieć?
Nazwę tego pliku należy koniecznie zapisać w ten sposób w liczbie mnogiej: robots.txt. Każdy błąd w pisowni sprawi, że będzie bezużyteczny. Gdy witryna korzysta z pliku robots.txt, ale z różnych przyczyn nie może być zinterpretowana przez Google, wówczas robot przestaje pełnić funkcję indeksowania adresu i całej jego zawartości . Wystarczy powiedzieć, że jeśli zdecydujesz się dobrze zintegrować plik robots.txt, musi on być dostępny, czytelny i wskazywać instrukcje, które roboty mogą przyswoić pod groźbą zaprzestania eksploracji (a zatem indeksowania) nowych informacji, które oferujesz użytkownikom Internetu. Jeśli adres URL Twojego sklepu e-commerce lub Twojej strony informacyjnej już pojawia się w wynikach wyszukiwarki, możesz zakazać dostępu za pomocą dyrektywie w pliku robots.txt niczego nie zmieni: URL rzeczywiście pozostanie zaindeksowany. Wręcz przeciwnie, aby go zindeksować, musisz autoryzować indeksowanie i użyć metatagu noindex lub nagłówka X-Robots-Tag HTTP. Alternatywą jest zażądanie usunięcia z Search Console. Może istnieć tylko jeden plik robots.txt i absolutnie musi on być mniejszy niż 500 kb lub dokładnie 500 kb, większa waga i część instrukcji pliku nie będą brane pod uwagę. Plik robots.txt prawdopodobnie również zostanie zaindeksowany w Google lub innym silniku. Ponadto zalecam utworzenie pliku robots.txt dla każdej subdomeny i każdego protokołu (HTTP i HTTPS). Jeśli nie masz instrukcji do sformułowania, nic nie stoi na przeszkodzie, aby pozostawić pusty plik online.
Jak korzystać, umieszczać i aktualizować plik robots.txt?
Jak możemy stworzyć lub odczytać plik robots.txt?
Plik można łatwo utworzyć i zmodyfikować za pomocą prostego edytora tekstu, takiego jak Notatnik, Atom lub Notatnik.
Gdzie umieścić plik robots.txt?
Plik robots.txt musi koniecznie znajdować się w katalogu głównym witryny. Aby to zrobić, po prostu przeciągnij go do lokalizacji podanej na serwerze FTP.
Jak mogę to zaktualizować?
W Search Console każdy webmaster ma możliwość aktualizacji pliku robots.txt. W zakładce „ Eksploracja ” znajduje się w szczególności kategoria „ Narzędzie do testowania plików Robots.txt ”. W tym momencie możesz na przykład przetestować możliwe blokowanie strony. Klikając „Wyślij”, postępuj zgodnie z instrukcjami Google, aby zaktualizować plik, weźmie to pod uwagę dość szybko.
Aby wyświetlić plik , wystarczy wpisać w pasku adresu przeglądarki adres URL w tej formie: https://hadalawojciech.pl/robots.txt
Robots.txt: czego nie robić
- zmiana adresu URL pliku robots.txt (który nie znajduje się już w katalogu głównym)
- URL robots.txt, który zwraca błąd (404, 500…)
- plik robots.txt zastąpiony wersją przedprodukcyjną (w której blokowana jest instrukcja disallow / dyrektywa, która blokuje całą witrynę)
- pusta linia w bloku dyrektyw
- złe kodowanie pliku (musi być w UTF-8)
- zła kolejność bloków dyrektyw
Komendy robots.txt
Zezwalaj na indeksowanie wszystkich stron w witrynie
1. metoda
Klient użytkownika: *
Zabroń:
Nie umieszczamy niczego po „Disallow:”, co oznacza, że niczego nie blokujemy.
2. metoda
Agent użytkownika: *
Zezwalaj: /
Tutaj zezwalamy robotom na indeksowanie wszystkich stron.
Blokuj indeksowanie wszystkich stron
Klient użytkownika: *
Disallow: /
Blokuj indeksowanie określonego folderu
User-agent: *
Disallow: / folder /
Zablokuj GoogleBota podczas indeksowania folderu, z wyjątkiem określonej strony w tym folderze
User-agent: Googlebot
Disallow: / folder /
Allow: /dossier/nompage.html