Dlaczego robots.txt jest potrzebny naszej witrynie?

Plik robots.txt to jeden z mechanizmów Robots Exclusion Protocol. Zadaniem tego pliku jest informowanie automatów (botów) o tym, czego nie powinny robić na naszej stronie www. Robots.txt powinien znajdować się w katalogu głównym domeny. Jak działa i dlaczego jest potrzebny naszej witrynie?

Czym jest Robots Exclusion Protocol, a czym są automaty (boty)?

Boty wyszukują nowe materiały w Internecie, podążając za linkami  i indeksując całą zawartość stron WWW do katalogu wyszukiwarki. Roboty indeksujące odwiedzają witrynę, analizują jej strukturę i treść, a na  koniec umieszczają ją na odpowiedniej pozycji w wynikach wyszukiwania.

Natomiast Robots Exclusion Protocol informuje automaty (boty) o tym, czego nie powinny robić na danej stronie WWW. Posiada 2 mechanizmy – robots.txt (najważniejszy) i meta tagi (rzadziej używane).

Robots.txt – co to?

To mały i prosty plik tekstowy, który ma ogromny wpływ na to, w jaki sposób roboty indeksujące postrzegają naszą stronę WWW. Dzięki niemu możemy np. zabronić robotom indeksowania całej witryny lub tylko jej wybranej części. Krótko mówiąc, plik robots.txt ogranicza botom dostęp do naszej strony.

Plik robots.txt można stworzyć nawet w najprostszym edytorze tekstowym. Gdy już go utworzymy i umieścimy na serwerze, natychmiast zostaną aktywowane wszystkie zdefiniowane w nim zasady. Może być jednak tak, że to nie wystarczy. Plik robots.txt nie wymusza odpowiedniego zachowania, ale tylko o nim informuje. Roboty należące do popularnych wyszukiwarek internetowych będą przestrzegać sformułowanych przez nas zasad. Niestety inne roboty, a także spamerzy i oszuści, mogą je zignorować. Złośliwe boty należy zablokować z poziomu serwera lub w pliku .htaccess.

Robots.txt – jak wygląda?

Plik ten składa się z komentarzy (rozpoczynających się od znaku #) i rekordów oddzielonych pustymi liniami.

Rekord tworzą pola User-agent (oznaczają jakich programów dotyczy dany rekord) i pola Disallow (to przedrostki adresów stron WWW, których nie wolno ściągać).

Niektóre boty są w stanie zrozumieć także inne pola, np. takie, które ograniczają  ilość pobrań ze strony na minutę. Poniżej dwa przykłady tego, jak może wyglądać plik robots.txt.

  • Aby roboty indeksowały całą stronę, tak jakby nie było pliku robots.txt:

User-agent: *
Disallow:

  • Aby roboty nie indeksowały całej strony:

User-agent: *
Disallow: /

Robots.txt – na co uważać?

Mamy już ogólne pojęcie o tym, czym jest plik robots.txt i jakie jest jego zadanie. Do czego jeszcze jest potrzebny naszej witrynie? Dlaczego warto się upewnić, że plik robots.txt jest poprawnie skonfigurowany?

  • Nawet jeżeli nie chcemy ograniczać robotom dostępu do naszej strony, warto mieć chociaż domyślny plik robots.txt. Zapobiegnie to niepotrzebnemu transferowi i generowaniu logów błędów w statystykach.
  • Niepoprawnie skonfigurowany plik robots.txt, w którym nieumyślnie zablokujemy całą ważną stronę (lub strony), może być powodem drastycznego spadku w wynikach wyszukiwania.
  • Roboty wyszukiwarki i użytkownicy muszą widzieć taką samą stronę internetową. Plik robots.txt nie powinien blokować robotom dostępu do obrazków, plików CSS i skryptów JavaScript.
  • Zablokowanie robotom dostępu do naszej witryny w pliku robots.txt nie będzie równoznaczne
    z usunięciem jej z indeksu wyszukiwarki Google.
    W tym celu należy ustawić wartość „noindex” w meta tagu „robots”. Pamiętajmy jednak o tym, że blokada nie może być założona w dwóch miejscach jednocześnie.
  • Zanim ograniczymy robotom dostęp do danej strony, sprawdźmy czy nie zawiera ona linków zewnętrznych, które pochodzą z zewnętrznych serwisów. Jeżeli zablokujemy stronę z takimi linkami,
    to moc linków przychodzących nie będzie ani wykorzystywana, ani dystrybuowana dalej na kolejne podstrony podlinkowane z zablokowanej zawartości.

Każda strona powinna mieć swój plik robots.txt

Ten mały i prosty pliczek jest w stanie nam bardzo pomóc… lub sprawić nam nie lada kłopot, jeśli jest niepoprawnie skonfigurowany. Kiedy chcemy ograniczyć robotom indeksującym dostęp do naszej strony, korzystamy z pliku robots.txt. Gdy odnotowujemy słabe wyniki w wyszukiwarkach, również warto przyjrzeć się temu plikowi. Robots.txt jest więc bardzo potrzebny naszej witrynie i warto upewnić się, że jest właściwie skonfigurowany.