Robots.txt a SEO - przewodnik podstawowy
Plik robots.txt to prosty dokument tekstowy, ale pełni bardzo ważną rolę na każdej stronie internetowej. Bezpośrednio wpływa na to, jak dobrze twoja strona jest widoczna w wyszukiwarkach. Jego zadaniem jest wyznaczanie robotom (botom) wyszukiwarek, które części strony mogą sprawdzać, a które powinny omijać. Żeby twoja strona lepiej wypadała w Google czy innych wyszukiwarkach, warto zrozumieć, jak działa robots.txt i skonfigurować go odpowiednio.
Poprawnie ustawiony plik robots.txt pozwala decydować, na które treści roboty mają zwrócić uwagę, a w jakie miejsca nie powinny wchodzić. W efekcie pomagamy wyszukiwarce szybciej znaleźć i pokazać w wynikach to, co na stronie najważniejsze. W tym poradniku znajdziesz najważniejsze informacje o robots.txt: jak jest zbudowany, kiedy się go stosuje, jak unikać typowych błędów i jak wspiera SEO.
Robots.txt – co to jest i dlaczego jest ważny?
Co to jest robots.txt?
Robots.txt to zwykły plik tekstowy. Jego celem jest przekazywanie poleceń robotom, które przeglądają strony internetowe. Plik umieszcza się w głównym folderze serwera (root domeny). Działa w oparciu o Robots Exclusion Protocol, który powstał już w 1994 roku. Nadal jest obsługiwany przez większość robotów wyszukiwarek.
Kiedy robot wyszukiwarki odwiedza stronę, najpierw zagląda pod adres twojadomena.pl/robots.txt. Znajdujące się tam reguły mówią mu, które adresy możesz odwiedzać, a których ma nie ruszać.
Dlaczego robots.txt jest ważny dla SEO?
Znaczenie tego pliku rośnie wraz z wielkością strony. Jego główny cel to oszczędzanie zasobów, zarówno u Ciebie na serwerze, jak i u robotów wyszukiwarek. Dzięki robots.txt możesz wskazać, żeby robot nie zaglądał tam, gdzie nie ma wartościowych informacji, na przykład na podstrony logowania, koszyka lub na wyniki wewnętrznej wyszukiwarki.
Umiejętne korzystanie z robots.txt pomaga lepiej wykorzystać “budżet indeksowania” (crawl budget), czyli ilość czasu i zasobów, jakie wyszukiwarka poświęca na twoją stronę. Gdy roboty nie marnują czasu na niepotrzebne podstrony, szybciej znajdują i indeksują nowe i ważne treści. To pomaga w szybszej aktualizacji wyników wyszukiwania i poprawia pozycje strony w Google.

Jak działa robots.txt i do czego się go używa?
Jakie są podstawowe zadania robots.txt?
Robots.txt to “strażnik” twojej strony dla botów wyszukiwarek. Zawiera reguły określające, które foldery i adresy URL mogą być skanowane, a które nie. Ważne: robots.txt nie jest zabezpieczeniem przed ludźmi czy innymi robotami – jego zawartość jest publiczna.
Najczęstsze zastosowania tego pliku to ograniczanie robotom dostępu do podstron powstałych na przykład przez filtrowanie produktów, podstron testowych, podstron zawierających prywatne dane itd. Jest szczególnie potrzebny w dużych sklepach internetowych i rozbudowanych portalach.
Jak robots.txt wpływa na indeksowanie?
Robots.txt nie służy do całkowitego blokowania stron przed Google. Jeśli adres jest zablokowany przez robots.txt, bot Google go nie odwiedzi. Jednak jeśli do tej strony prowadzą gdzieś linki, Google może nadal dodać sam adres do wyników wyszukiwania, lecz bez opisu (“pusty wynik”).
Żeby mieć pewność, że dana strona nie pojawi się w wynikach, lepszym sposobem jest dodanie tagu meta robots z poleceniem “noindex” lub zabezpieczenie hasłem. Co ważne, gdy strona jest zablokowana przez robots.txt, robot nie widzi zawartości, więc nie będzie miał szansy przeczytać “noindexa”. Nie używaj więc obu metod jednocześnie w jednym miejscu.
Budowa i składnia robots.txt
User-agent – kto to robot?
Każdy robot, który wchodzi na stronę, może zostać rozpoznany po nazwie programu, czyli tzw. User-agencie. W robots.txt stosujesz polecenie User-agent, żeby ustalić, które polecenia dotyczą jakiego bota. Możesz ustawić reguły dla wszystkich botów (gwiazdka: *) albo dla pojedynczego (np. Googlebot).
Dzięki temu masz większą kontrolę nad dostępem – dla niektórych robotów możesz ustawić inne zasady niż dla reszty, na przykład zezwolić tylko Googlebotowi na wejście do wybranych katalogów.
Polecenia Allow i Disallow – jak blokować i zezwalać?
Najważniejsze komendy w robots.txt to Allow (zezwól) i Disallow (zabroń). Polecenie Disallow blokuje wstęp do wskazanej ścieżki (np. Disallow: /prywatne/ wyłącza cały katalog “prywatne”).
Z kolei Allow pozwala robotowi wejść tam, gdzie by normalnie nie mógł, ze względu na ogólne zakazy. Na przykład, jeśli cały folder jest zablokowany, ale jeden plik chcesz pokazać, możesz to ustawić komendą Allow: /katalog/ważny_plik.html. Roboty stosują bardziej szczegółowe reguły nad ogólnymi.
Podanie mapy strony (Sitemap) w robots.txt
Oprócz zarządzania dostępem, robots.txt może wskazywać, gdzie jest twoja mapa strony XML. Wystarczy dodać komendę Sitemap: i pełen adres mapy, na przykład: Sitemap: https://www.twojadomena.pl/sitemap.xml. Wskazanie mapy pomaga botom łatwiej znajdować wszystkie twoje podstrony, nawet takie, do których nie prowadzą linki.

Jak stworzyć i gdzie zamieścić robots.txt?
Gdzie umieścić plik robots.txt?
Robots.txt musi znajdować się w głównym katalogu domeny, czyli tam, gdzie jest strona główna (public_html, katalog główny). Adres pliku to twojadomena.pl/robots.txt – roboty tam właśnie go szukają. W innym miejscu plik nie będzie brany pod uwagę i boty uznają, że mogą wejść wszędzie.
Jak ręcznie napisać robots.txt?
Najłatwiej stworzyć ten plik przy pomocy Notatnika lub innego prostego edytora. Plik zapisujemy jako tekstowy .txt, bez żadnego formatowania. Przepisywanie nazw katalogów i plików musi być dokładne, z właściwymi dużymi/małymi literami.
Każdą regułę (każde polecenie) umieszczamy w osobnym wierszu. Ścieżki do katalogów kończymy ukośnikiem. Komentarze można dodawać po znaku kratki (#) – są widoczne tylko dla ludzi, roboty na nie nie reagują.
Jak korzystać z generatorów robots.txt?
Jeśli nie chcesz pisać pliku ręcznie lub boisz się błędów, użyj jednego z dostępnych w internecie generatorów. Wystarczy zaznaczyć, co dla jakiego robota ma być dostępne, a generator przygotuje gotowy kod. Upewnij się potem, że takie ustawienia są dla ciebie odpowiednie, bo automaty czasem mogą podpowiedzieć coś nieprzydatnego.
Robots.txt w systemach CMS
Większość nowoczesnych systemów do zarządzania stroną, jak WordPress, pozwala na dynamiczne generowanie robots.txt. Plik jest wtedy tworzony automatycznie i możesz zmieniać jego treść z poziomu panelu. To wygodne rozwiązanie, ale każdy CMS czy wtyczka mogą nadpisać twoje ustawienia – trzeba to sprawdzać szczególnie po aktualizacjach i zmianach konfiguracji.
Przykładowe reguły robots.txt
Jak blokować dostęp do wybranych folderów i stron?
| Cel | Kod |
|---|---|
| Zablokuj dostęp do katalogu |
User-agent: * |
| Zablokuj dostęp do jednego pliku |
User-agent: * |
| Zablokuj wszystkie pliki z końcówką .pdf |
User-agent: * |
Przy ustawianiu ścieżek uważaj na ukośniki i wielkość liter. Dla robotów /katalog/ i katalog/ to to samo.
Jak pozwolić robotom na dostęp tylko do wybranych plików?
User-agent: * Disallow: /katalog/ Allow: /katalog/ważny_plik.html
Ten zapis blokuje cały katalog “katalog”, oprócz pliku “ważny_plik.html”.
Jak pozwolić tylko Googlebotowi na dostęp?
User-agent: Googlebot Allow: / User-agent: * Disallow: /
Tutaj tylko Googlebot ma dostęp do wszystkiego, pozostałe roboty – do niczego.
Najczęstsze błędy z robots.txt
Błędy w składni i ich skutki
Nawet drobny błąd w robots.txt może spowodować, że robot nie będzie wiedział, co robić – efektem może być skanowanie wszystkiego lub zablokowanie ważnych podstron. Do najpopularniejszych błędów należą literówki, brak ukośników, albo nieprawidłowe użycie znaków “*” i “$”. Taki błąd może usunąć ważne strony z wyników albo sprawić, że cała twoja strona zniknie z Google.
Po każdej zmianie w pliku warto sprawdzić go w narzędziu do testowania robots.txt.
Zbyt mocne blokady ważnych plików
Czasami blokując katalogi, przypadkiem uniemożliwiamy robotom dostęp do plików CSS, JavaScript czy obrazków. To duży błąd, bo wtedy robot nie widzi strony tak, jak widzą ją użytkownicy, i może obniżyć jej ocenę, zwłaszcza dla urządzeń mobilnych. Zawsze sprawdzaj, czy nie blokujesz plików potrzebnych do prawidłowego wyświetlania strony. W Google Search Console znajdziesz narzędzia do wykrywania takiego problemu.
Jak testować poprawność robots.txt?
Narzędzia do sprawdzania robots.txt
Nie musisz czekać, aż Google sam wykryje pomyłkę w robots.txt. Istnieją darmowe narzędzia online oraz w panelach zarządzania stroną (np. Google Search Console), które pozwalają od razu zobaczyć, czy dany adres jest zablokowany czy nie. Warto korzystać z nich przed opublikowaniem nowej wersji robots.txt.
Sprawdzanie robots.txt w Google Search Console
Najłatwiej sprawdzisz plik w Google Search Console – po zalogowaniu się do swojego konta możesz skorzystać z testera robots.txt. Tester sprawdzi, jak robot Google widzi twoją stronę, zaakcentuje błędy w pliku i podpowie, które adresy są dla robotów dostępne, a które nie. Każdy kto zajmuje się SEO powinien używać tego narzędzia regularnie, zwłaszcza po wprowadzeniu zmian w robots.txt.
Robots.txt czy meta robots – co czego służy?
Kiedy używać robots.txt, a kiedy meta robots?
Zarówno robots.txt, jak i meta robots (tag w <head> strony) służą do kierowania robotami, ale ich działanie różni się. Robots.txt to narzędzie globalne – ustala zasady dla całych katalogów lub sekcji. Blokuje robotom wstęp, ale nie zakazuje pojawiania się samego adresu URL w Google.
Meta robots to szczegółowa instrukcja na poziomie pojedynczej strony HTML. Możesz użyć go m.in. do polecenia “nie dodawaj tej strony do wyników” (noindex), “nie śledź linków” (nofollow) czy “nie pokazuj kopii w cache” (noarchive). Dzięki temu masz większą kontrolę nad konkretnymi podstronami.
Czy robots.txt wystarczy, by zablokować stronę?
Nie. Jak już wspominano, robots.txt tylko powstrzymuje boty przed wejściem na stronę, ale nie blokuje samego adresu przed dodaniem do wyników, jeśli prowadzą do niego linki. Chcesz coś usunąć z wyszukiwania całkowicie? Użyj meta robots z komendą noindex. Uwaga: bot najpierw musi mieć dostęp do danej strony, by zobaczyć noindex, więc nie wolno blokować jej w robots.txt jednocześnie.
Praktyczne rady dotyczące robots.txt
Bezpieczeństwo i prywatność a robots.txt
Robots.txt nie służy do ukrywania danych. Każdy może otworzyć ten plik i zobaczyć, co w nim jest – także linki do katalogów zawierających ważne dane. Jeśli musisz naprawdę ukryć któryś katalog czy plik, zabezpiecz je hasłem lub innymi metodami (na przykład plikiem .htaccess). Robots.txt działa tylko na “grzeczne” roboty, nie zatrzyma tych ignorujących zasady.
Kiedy trzeba zaktualizować robots.txt?
- Dodajesz nową sekcję, którą chcesz ukryć przed robotami,
- Usuwasz stare foldery i niepotrzebne już reguły,
- Wprowadzasz zmiany w strukturze strony lub aktualizujesz CMS-a czy wtyczki,
- Zmienia się adres mapy witryny (sitemap.xml).
Pamiętaj, by regularnie testować i sprawdzać robots.txt w Google Search Console – tylko wtedy masz pewność, że roboty widzą twoją stronę tak, jak chcesz.