1. Wstęp – Co Z Tymi Meta Robotami?
Umiejętność zagospodarowania twojego kodu tak, aby skanowanie i indeksowanie witryny było proste i szybkie, może być trudnym i wymagającym zadaniem. Chociaż plik robots.txt zarządza dostępnością treści dla robotów indeksujących, nie informuje ich czy powinny one indeksować zawartość strony, czy też nie. Do tego służą metatagi robots i nagłówek x-robots-tag.
Zacznijmy jednak od początku. Nie da się w pełni kontrolować indeksacji za pomocą pliku robots.txt. To powszechne nieporozumienie.
Zasada noindex w pliku robots.txt nigdy nie była oficjalnie obsługiwana przez Google. W lipcu 2019 roku została oficjalnie wycofana. W artykule poruszmy więc garść informacji technicznych. Z tego felietonu dowiesz się:
– Co to jest metatag robots
– Dlaczego metatag robots jest ważny dla SEO?
– Wartości i atrybuty metatagu robots
– Jak skonfigurować metatag robots
– Co to jest X-Robots-Tag
– Jak skonfigurować X-Robots-Tag
– Kiedy używać metatagu robots, a kiedy x-robots-tag?
– Jak uniknąć błędów związanych z indeksowaniem i (de) indeksacją
2. Co To Jest Metatag Robots?
Metatag robots to fragment kodu HTML, który informuje wyszukiwarki jak pobierać lub indeksować określoną stronę. Jest umieszczony w sekcji <head> strony internetowej i wygląda tak:
<meta name = "robots" content = "noindex" />
bądź tak
<pre><meta name="robots" content="[PARAMETER]"></pre>
Chociaż ogólny tag <meta name = "robots" content = "[PARAMETER]">
jest standardowy, możesz również przekazywać dyrektywy określonym robotom, zastępując słowo „roboty” nazwą konkretnego User Agent. Na przykład, aby skierować dyrektywę konkretnie do Googlebota, użyj następującego kodu:
<meta name = "googlebot" content = "[DIRECTIVE]">
Chcesz użyć więcej niż jednej dyrektywy na stronie? Dopóki są one skierowane do tego samego „robota” (User Agent), wiele dyrektyw można uwzględnić w jednej meta dyrektywie – wystarczy je oddzielić przecinkami. Oto przykład:
<meta name = "robots" content = "noimageindex, nofollow, nosnippet">
Ten tag informuje roboty, aby nie indeksowały żadnych obrazów, linków ani nie wyświetlały fragmentu strony gdy pojawia się ona w SERP.
Jeśli używasz różnych dyrektyw metatagów robotów dla różnych klientów użytkownika wyszukiwania, musisz użyć osobnych tagów dla każdego bota.
2.1 Dlaczego Metatag Robots Jest Ważny W SEO?
Metatag robots jest powszechnie wykorzystywany do blokady ekspozycji stron w wynikach wyszukiwania, chociaż ma też inne zastosowania (więcej o nich później).
Istnieje wiele typów treści, których indeksowanie nie jest zalecane:
– Strony o niewielkiej lub żadnej wartości dla użytkownika
– Strony w środowisku przejściowym
– Strony administracyjne i strony z podziękowaniami
– Wyniki wyszukiwania wewnętrznego
– Strony docelowe PPC
– Strony o nadchodzących promocjach, konkursach lub premierach produktów
– Zduplikowana treść (użyj tagów kanonicznych, aby znaleźć najlepszą wersję do indeksowania);
Ogólnie rzecz biorąc – im większa jest Twoja witryna, tym więcej czasu zajmie Ci zarządzanie indeksowaniem. Chcemy również, aby Google i inne wyszukiwarki indeksowały platformę tak wydajnie, jak to tylko możliwe. Prawidłowe połączenie dyrektyw na poziomie strony z plikiem robots.txt i mapami witryn są tutaj kluczowe.
2.2 Jakie Są Wartości I Atrybuty Metatagu Robots?
Metatagi robots składają się z dwóch atrybutów: nazwy i treści (name and content).
Musisz określić wartości dla każdego z tych atrybutów. Przyjrzyjmy się więc czym są.
a) Atrybut nazwy i user-agent
Atrybut nazwy (name) określa które roboty powinny postępować zgodnie z tymi instrukcjami. Ta wartość jest również nazywana klientem użytkownika (na potrzeby tego felietonu będziemy używać anglojęzycznych zwrotów UA, User Agent), ponieważ roboty indeksujące muszą być identyfikowane za pomocą UA, aby zażądać strony. Twoje UA odzwierciedla przeglądarkę której używasz, ale User Agent Google to na przykład Googlebot lub Googlebot-image.
Wartość UA „robots” dotyczy wszystkich robotów. Możesz również dodać tyle metatagów robotów do sekcji <head>, ile potrzebujesz. Na przykład, jeśli chcesz zapobiec wyświetlaniu obrazów w wyszukiwarce obrazów Google lub Bing, dodaj następujące metatagi:
<meta name = "googlebot-image" content = "noindex" />
<meta name = "MSNBot-Media" content = "noindex" />
DYGRESJA. W atrybutach nazwy i zawartości wielkość liter nie jest rozróżniana. Atrybuty „Googlebot-Image”, „msnbot-media” i „Noindex” również działają w przypadku powyższych przykładów.
b) Atrybut treści i dyrektywy crawling/indexing
Atrybut content zawiera instrukcje dotyczące pobierania i indeksowania informacji na stronie. Brak określenia metatagu roboty interpretują go jako index i follow. Daje im to uprawnienia do wyświetlania strony w wynikach wyszukiwania i indeksowania wszystkich linków (chyba że określono inaczej w tagu rel = ”nofollow”).
Poniżej przedstawiono obsługiwane wartości atrybutu Content przez Google:
I. all
Domyślna wartość „index, follow”, nie ma potrzeby używania tej dyrektywy.
<meta name = "robots" content = "all" />
II. noindex
Instruuje wyszukiwarki, aby nie indeksowały strony. Zapobiega to wyświetlaniu jej w wynikach wyszukiwania.
<meta name = "robots" content = "noindex" />
III. nofollow
Częściowo uniemożliwia robotom indeksowanie wszystkich linków na stronie. Należy pamiętać, że adresy URL nadal mogą być indeksowane – zwłaszcza jeśli mają skierowane do siebie linki zwrotne.
<meta name = "robots" content = "nofollow" />
IV. None
Połączenie noindex, nofollow. Unikaj jej, ponieważ inne wyszukiwarki (np. Bing) nie obsługują takiej dyrektywy.
<meta name = "robots" content = "none" />
V. noarchive
Uniemożliwia Google wyświetlanie kopii strony z pamięci podręcznej w SERP.
<meta name = "robots" content = "noarchive" />
VI. nontranslate
Uniemożliwia Google tłumaczenie strony w SERP.
<meta name = "robots" content = "notranslate" />
VII. noimageindex
Uniemożliwia Google indeksowanie obrazów osadzonych na stronie.
<meta name = "robots" content = "noimageindex" />
VIII. unavailable_after:
Informuje Google, aby nie wyświetlał strony w wynikach wyszukiwania po określonej dacie / godzinie. Zasadniczo dyrektywa noindex z licznikiem czasu. Datę / godzinę należy podać w formacie RFC 850.
<meta name = "robots" content = "available_after: Niedziela, 19 września 19, 12:34:56 GMT" />
IX. nosnippet
Blokuje wyświetlanie fragmentów tekstu i wideo w SERP. W tym samym czasie działa również jako noarchive.
<meta name = "robots" content = "nosnippet" />
WAŻNA UWAGA
Od października 2019 roku Google oferuje bardziej szczegółowe opcje kontrolowania tego czy i jak chcesz wyświetlać fragmenty witryny w wynikach wyszukiwania. Jest to po części wina Europejskiej dyrektywy dotyczącej praw autorskich, która została po raz pierwszy wdrożona przez Francję.
Co najważniejsze, przepisy te dotyczą wszystkich właścicieli witryn. W jaki sposób? Ponieważ Google nie wyświetla już fragmentów (tekstu, obrazów ani wideo) z Twojej witryny użytkownikom we Francji, chyba że zdecydujesz się na korzystanie z ich nowych metatagów.
Poniżej omawiamy jak działa każdy z tych nowych tagów. Jeśli dotyczy to Twojej firmy i szukasz szybkiego rozwiązania, dodaj następujący fragment kodu HTML do każdej strony w witrynie aby poinformować Google, że nie chcesz żadnych ograniczeń:
<meta name = "robots" content = ”max-snippet: -1, max-image-preview: large, max-video-preview: -1" />
Pamiętaj, że jeśli korzystasz z Yoast SEO ten fragment kodu jest dodawany automatycznie na każdej stronie, chyba że dodano dyrektywy noindex lub nosnippet.
X. max-snippet
Określa maksymalną liczbę znaków, które Google może wyświetlać we fragmentach tekstu. Użycie 0 spowoduje rezygnację z fragmentów tekstu, -1 oznacza brak ograniczeń w podglądzie tekstu.
Następujący tag ustawi limit do 160 znaków (podobnie jak w przypadku standardowej długości opisu meta):
<meta name = "robots" content = "max-snippet: 160" />
XI. max-image-preview
Informuje Google, czy i jak duży obraz może wykorzystać jako fragmenty obrazu. Ta dyrektywa ma trzy możliwe wartości:
none – nie będzie wyświetlany żaden fragment obrazu
standard – może zostać wyświetlony domyślny podgląd obrazu
large – może zostać wyświetlony największy możliwy podgląd obrazu
<meta name = "robots" content = "max-image-preview: large" />
XII. max-video-preview
Ustawia maksymalną liczbę sekund dla fragmentu wideo. Podobnie jak w przypadku fragmentu tekstu, 0 spowoduje całkowitą rezygnację, -1 oznacza brak ograniczeń.
Następujący tag pozwoliłby Google wyświetlić maksymalnie 15 sekund:
<meta name = "robots" content = "max-video-preview: 15" />
UWAGA NA TEMAT KORZYSTANIA Z ATRYBUTU HTML DATA-NOSNIPPET
Oprócz nowych dyrektyw dotyczących robotów wprowadzonych w październiku 2019 r. firma Google wprowadziła również atrybut HTML data-nosnippet. Możesz użyć tego do oznaczenia fragmentów tekstu.
Dobrze jest to zrobić w HTML na elementach div, span i section. Data-nosnippet jest traktowana jako atrybut logiczny co oznacza, że jest poprawna z wartością lub bez niej.
Przykłdy:
<p>This is some text in a paragraph that can be shown as a snippet<span data-nosnippet>excluding this part</span></p>
<div data-nosnippet>This will not appear in a snippet</div><div data-nosnippet="true">And neither will this</div>
c) Korzystanie z tych dyrektyw
Większość pozycjonerów nie wychodzi poza dyrektywy noindex i nofollow, ale dobrze jest wiedzieć że są też inne opcje. Pamiętaj, że wszystkie wymienione powyżej dyrektywy są obsługiwane przez Google.
Sprawdźmy jak wygląda to na tle Bing.
źródło: Ahrefs.com
Możesz używać wielu dyrektyw jednocześnie i łączyć je. Ale jeśli są ze sobą sprzeczne (np. „Noindex, index”) lub jeden jest podzbiorem innego (np. „Noindex, noarchive”), Google zastosuje najbardziej restrykcyjny. W takich przypadkach będzie to po prostu „noindex”.
DYGRESJA. Dyrektywy dotyczące fragmentów mogą zostać zastąpione przez dane uporządkowane które pozwalają Google na użycie dowolnych informacji w adnotacji. Jeśli chcesz uniemożliwić Google wyświetlanie fragmentów, odpowiednio dostosuj adnotację i upewnij się, że nie masz żadnej umowy licencyjnej z Google.
UWAGA DOTYCZĄCA INNYCH DYREKTYW
Możesz również napotkać dyrektywy specyficzne dla innych wyszukiwarek. Przykładem może być „noyaca”, która uniemożliwia Yandex używanie własnego katalogu do generowania fragmentów wyników wyszukiwania.
Inne mogły być przydatne i używane w przeszłości, ale są już przestarzałe. Na przykład, dyrektywa „noodp” została użyta, aby uniemożliwić wyszukiwarkom używanie Open Directory Project do generowania fragmentów tekstów.
3. Jak Skonfigurować Metatag Robots
Teraz, gdy wiesz już jak działają i jak wyglądają wszystkie dyrektywy nadszedł czas, aby przejść do faktycznej ich implementacji.
Metatagi robotów powinny znaleźć się w sekcji <head> strony. Jeśli edytujesz kod za pomocą edytorów HTML takich jak Notepad ++ lub Brackets, jest to całkiem proste. Ale co, jeśli używasz CMS z wtyczkami SEO?
Skoncentrujmy się na najpopularniejszej opcji.
3.1 Wdrażanie metatagów robotów w WordPress przy użyciu Yoast SEO
Przejdź do sekcji „Zaawansowane” poniżej bloku edycji każdego posta lub strony. Skonfiguruj metatag robots zgodnie ze swoimi potrzebami. Poniższe ustawienia implementują dyrektywy „noindex, nofollow”.
Wiersz „Meta robots advanced” umożliwia implementację dyrektyw innych niż noindex i nofollow, takich jak noimageindex.
Możesz też zastosować te dyrektywy na całej witrynie. Przejdź do opcji „Wygląd w wyszukiwarce” w menu Yoast. Możesz tam ustawić metatagi robotów na wszystkich postach, stronach lub tylko w określonych taksonomiach, lub archiwach.
DYGRESJA. Yoast nie jest jedynym sposobem kontrolowania metatagów w WordPress. Istnieje wiele innych wtyczek o podobnej funkcjonalności.
3.2 Statyczny Plik Robots.txt
Najbardziej powszechny sposób tworzenia robots.txt. Jest to standardowa doga jaką trzeba przejść aby stworzyć plik robots.txt. Tworzymy zwykły plik z rozszerzeniem txt i umieszczamy ręcznie reguły dotyczące UA. Metoda ta nie jest prosta i wymaga znajomości wszystkich aspektów związanych z danym plikiem.
3.3 Generatory Robots.txt
Znacznie prostsza opcja dla każdego komu obca jest zaawansowana wiedza programistyczna. Jedynym obowiązkiem jest określenie jakie adres bądź roboty chcesz zablokować. Opcja ta jest szybka i wygodna. Zdecydowanie polecamy tę stronę.
3.4 Wariant Dynamiczny
Robots.txt można również wygenerować przy pomocy zewnętrznych aplikacji. Możemy generować go z poziomu systemu CMS i aktualizować w zależności od ustawień indeksacyjnych konkretnych sekcji strony. Jeśli wyłączysz z indeksowania część podstron, z automatu system doda do robots.txt odpowiednią regułę. To bardzo wygodne rozwiązanie.
3.5 Debugging I Testowanie
Doskonałym narzędziem do testowania robots.txt jest Google Search Control. Dzięki niemu sprawdzimy czy Google stosuje się do reguł, które stworzyliśmy dla konkretnego adresu URL. Dobrze sprawdza się ono w sklepach internetowych gdzie często występuje sporo reguł które są dosyć skomplikowane.
4. Co to jest znacznik X-Robots?
Podczas gdy metatag robots pozwala kontrolować indeksowanie na poziomie strony, x-robots-tag może być załączony jako część nagłówka HTTP tak, aby kontrolować indeksowanie strony jako całości a także bardzo konkretnych jej elementów.
Chociaż możesz użyć x-robots-tag do wykonywania tych samych dyrektyw indeksacji co meta roboty, dyrektywa x-robots-tag oferuje znacznie większą elastyczność i funkcjonalność niż metatag robots. W szczególności x-robots które pozwalają na wykorzystywanie wyrażeń regularnych, egzekucję dyrektyw indeksowania w plikach innych niż HTML i stosowanie parametrów na poziomie globalnym.
Metatag robots służy do implementowania dyrektyw noindex na stronach HTML. Ale co, jeśli chcesz uniemożliwić wyszukiwarkom indeksowanie plików takich jak obrazy lub pliki PDF? Wtedy do gry wchodzą tagi x-robots-tags.
X-Robots-Tag to nagłówek HTTP wysłany z serwera WWW. W przeciwieństwie do metatagu robots nie jest umieszczany w kodzie HTML strony. Oto jak to może wyglądać:
Sprawdzanie nagłówków HTTP jest nieco bardziej skomplikowane. Możesz to zrobić w stary sposób w Narzędziach dla programistów lub użyć rozszerzenia przeglądarki, takich jak Live HTTP Headers.
Rozszerzenie Live HTTP Headers monitoruje cały ruch HTTP (S) wysyłany przez Twoją przeglądarkę (nagłówki żądań) i odbierany (nagłówki odpowiedzi). Jest analizowany na żywo więc upewnij się że wtyczka jest aktywna. Następnie przejdź do strony lub pliku i sprawdź, czy wtyczka zawiera logs.
Sumując – podczas gdy metatag robots pozwala kontrolować indeksowanie na poziomie strony, tag x-robots-tag może być dołączony jako część nagłówka HTTP aby kontrolować indeksowanie strony jako całości, a także bardzo konkretnych jej elementów.
4.1 Jak skonfigurować X-Robots-Tag
Aby korzystać z x-robots-tag, musisz mieć dostęp do nagłówka swojej witryny .php, .htaccess lub pliku dostępu do serwera. Następnie trzeba dodać znaczniki x-robots-tag w konfiguracji serwera, w tym wszelkie jego parametry. Artykuł ten zawiera świetne przykłady tego, jak wygląda znacznik x-robots-tag, jeśli używasz którejkolwiek z tych trzech konfiguracji.
Oto kilka przypadków, dla których warto zastosować x-robots-tag:
– Kontrolowanie indeksacji treści, które nie są napisane w HTML (np. Flash lub wideo)
– Blokowanie indeksacji określonego elementu strony (np. Obrazu lub wideo), ale nie całej strony
– Kontrolowanie indeksacji, jeśli nie masz dostępu do kodu HTML strony (w szczególności do sekcji <head>) lub jeśli Twoja witryna używa globalnego nagłówka, którego nie można zmienić
– Dodawanie reguł określających, czy strona powinna być indeksowana (np. Jeśli użytkownik skomentował ponad 20 razy, zindeksuj jego stronę profilu)
– Konfiguracja zależy od typu używanego serwera internetowego oraz stron lub plików, które mają pozostać poza indeksem
Jak jest w praktyce? Linia kodu wygląda następująco:
Header set X-Robots-Tag “noindex”
W tym przykładzie uwzględniono najbardziej rozpowszechniony typ serwera – Apache. Najbardziej praktycznym sposobem dodania nagłówka HTTP jest modyfikacja głównego pliku konfiguracyjnego (zwykle httpd.conf) lub plików .htaccess. Brzmi znajomo? Jest to miejsce, w którym zdarzają się również przekierowania.
Używasz tych samych wartości i dyrektyw dla tagu x-robots-tag co metatag robots. Wprowadzenie tych zmian należy pozostawić doświadczonym webmasterom. Kopie zapasowe są wskazane, ponieważ nawet mały błąd w składni może zepsuć całą witrynę.
PORADA
Jeśli korzystasz z sieci CDN obsługującej aplikacje bezserwerowe dla Edge SEO, możesz modyfikować zarówno metatagi robotów, jak i znaczniki X-Robots na serwerze granicznym bez wprowadzania zmian w podstawowej bazie kodu.
4.2 Kiedy używać metatagu robots, a kiedy x-robots-tag?
Chociaż dodanie fragmentu kodu HTML wygląda na najłatwiejszą i najprostszą opcję, w niektórych przypadkach jest nieskuteczna.
a) Pliki inne niż HTML
Nie możesz umieścić fragmentu kodu HTML w plikach innych niż HTML takich jak pliki PDF lub obrazy. X-Robots-Tag to jedyny sposób.
Poniższy fragment kodu (na serwerze Apache) skonfigurowałby nagłówki HTTP noindex we wszystkich plikach PDF w witrynie.
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex"
</Files>
b) Stosowanie dyrektyw na dużą skalę
Jeśli chcesz zindeksować całą (pod) domenę, podkatalog, strony z określonymi parametrami lub cokolwiek innego co wymaga edycji zbiorczej, użyj tagów x-robots-tags.
Modyfikacje nagłówka HTTP można dopasować do adresów URL i nazw plików przy użyciu wyrażeń regularnych (regular expressions). Złożona edycja zbiorcza w HTML za pomocą funkcji wyszukiwania i zamiany zwykle wymagałaby więcej czasu i mocy obliczeniowej.
c) Ruch z wyszukiwarek innych niż Google
Google obsługuje zarówno metatagi robots, jak i x-robots-tags – ale nie dotyczy to wszystkich wyszukiwarek.
Na przykład Seznam, czeska wyszukiwarka obsługuje tylko metatagi robotów. Jeśli chcesz kontrolować sposób w jaki ta wyszukiwarka przeszukuje i indeksuje Twoje strony, używanie tagów x-robots-tag nie zadziała. Musisz użyć fragmentów HTML.
5) Jak Uniknąć Błędów Związanych Z Indeksowaniem I (de) Indeksacją
Chcesz wyświetlać wszystkie wartościowe strony, unikać powielania treści i nie umieszczać zadanych stron w indeksie? Skorzystaj z naszych porad. Jeśli zarządzasz ogromną witryną ważną rzeczą na którą należy zwrócić uwagę jest zarządzanie budżetem indeksowania.
Przyjrzyjmy się najczęściej popełnianym błędom dotyczącym dyrektyw robotów.
Błąd 1: Dodawanie dyrektyw noindex do stron niedozwolonych w pliku robots.txt
Nigdy nie zabraniaj indeksowania treści które próbujesz deindeksować w pliku robots.txt. Uniemożliwia to wyszukiwarkom ponowne zindeksowanie strony i wykrycie dyrektywy noindex.
Jeśli uważasz, że mogłeś popełnić ten błąd w przeszłości przeszukaj swoją witrynę za pomocą Audytu Witryny Ahrefs. Poszukaj stron z błędem „Strona Noindex otrzymuje ruch bezpłatny”.
Uważaj na brak zindeksowanych stron, które otrzymują ruch organiczny. Jeśli ostatnio nie dodałeś tagu noindex, prawdopodobnie jest to spowodowane blokadą indeksowania w pliku robots.txt. Sprawdź, czy nie występują problemy i je napraw.
Błąd 2: Złe zarządzanie mapami witryn
Jeśli próbujesz deindeksować zawartość za pomocą metatagu robots lub x- robots-tag, nie usuwaj jej z mapy witryny, dopóki nie zostanie pomyślnie usunięta. W przeciwnym razie ponowne indeksowanie strony przez Google może być wolniejsze.
Aby potencjalnie przyspieszyć proces deindeksacji, ustaw datę ostatniej modyfikacji w mapie witryny na datę dodania tagu noindex. Zachęcisz roboty do ponownego przeszukiwania kodu.
Inną sztuczką, którą możesz zrobić, jest przesłanie pliku mapy witryny z dopasowaną datą ostatniego trybu 404 aby zachęcić do ponownego indeksowania i ponownego przetwarzania.
DYGRESJA. John Muller mówi tutaj o stronach 404. Zakładamy, że ma to również sens w przypadku innych zmian, takich jak dodanie lub usunięcie dyrektywy noindex.
WAŻNA UWAGA
Długoterminowo nie uwzględniaj w mapie witryny stron niezindeksowanych. Po deindeksacji treści usuń ją z mapy witryny.
Jeśli obawiasz się że stara, pomyślnie odindeksowana treść może nadal istnieć w mapie witryny, sprawdź błąd „Mapa witryny strony Noindex” w Audycie witryny Ahrefs.
Błąd 3: Nieusuwanie dyrektyw noindex ze środowiska produkcyjnego
Zapobieganie pobieraniu i indeksowaniu czegokolwiek przez roboty w środowisku pomostowym to dobra praktyka. Czasami jednak zostaje ono wepchnięte do produkcji, zapomniane, a ruch organiczny spada.
Co gorsza, organiczny spadek ruchu może nie być tak zauważalny jeśli bierzesz udział w migracji witryny przy użyciu przekierowań 301. Jeśli nowe adresy URL zawierają dyrektywę noindex lub są niedozwolone w pliku robots.txt, przez pewien czas nadal będziesz otrzymywać ruch organiczny ze starych URL. Od indeksowanie starych adresów może zająć Google nawet kilka tygodni.
Ilekroć pojawią się takie zmiany w Twojej witrynie, miej oko na ostrzeżenia „Strona Noindex” w Audycie witryny Ahrefs:
Aby zapobiec podobnym problemom w przyszłości, uzupełnij listę kontrolną dla zespołu programistów o instrukcje usuwania reguł disallow z pliku robots.txt i dyrektyw noindex przed przekazaniem ich do wersji produkcyjnej.
Błąd 4: Dodanie tajnych adresów URL do pliku robots.txt zamiast ich indeksacji
Programiści często próbują ukryć strony z nadchodzącymi promocjami, rabatami lub premierami produktów blokując do nich dostęp w pliku robots.txt witryny. To zła praktyka, ponieważ ludzie nadal mogą przeglądać plik robots.txt. W związku z tym strony te są dziurawe.
Aby rozwiązać problem, nie umieszczaj tajnych stron w pliku robots.txt i nie korzystaj na nich z tagu noindex.
6. Najlepsze Praktyki Dotyczące Dyrektyw
1. Wszystkie dyrektywy meta (roboty lub inne) są analizowane podczas indeksowania adresu URL. Oznacza to, że jeśli plik robots.txt uniemożliwia indeksowanie adresu URL, wszelkie metadyrektywy na stronie (w kodzie HTML lub nagłówku HTTP) nie będą widoczne i zostaną w rzeczywistości zignorowane.
2. W większości przypadków użycie metatagu robots z parametrami „noindex, follow” powinno być stosowane jako sposób na ograniczenie pobierania kodu strony lub indeksacji zamiast używania pliku robots.txt.
3. Należy zauważyć, że złośliwe roboty indeksujące mogą całkowicie ignorować dyrektywy meta i jako taki protokół ten nie stanowi dobrego mechanizmu bezpieczeństwa. Jeśli masz prywatne informacje, których nie chcesz udostępniać publicznie, wybierz bezpieczniejsze podejście takie jak ochrona hasłem, aby uniemożliwić odwiedzającym przeglądanie poufnych stron.
4. Nie musisz używać zarówno meta robots, jak i x-robots-tag na tej samej stronie – byłoby to zbędne.
6.1 Czym Są Dyrektywy Allow i Disallow?
Czym w takim razie są dyrektywy allow / disallow? To nic innego jak rodzaj instrukcji dla pająka Google z informacją czy może odwiedzić dany adres i go pobrać do bazy danych i zaktualizować. Jeśli nie życzysz sobie aby robot odwiedził wycinek twojej strony internetowej – po prostu wykorzystaj linijkę kodu:
User-agent: * Disallow: blog.pl/
Komenda ta blokuje dostęp crawlerom do twojego bloga. Nie są one w stanie go skanować. Jeśli więc z reguły pająki odwiedzają naszą stronę, to po co wykorzystywać allow? Powiedzmy, że na twoim blogu jest artykuł, który chcesz zindeksować. Stosujemy wtedy regułę allow jako wyjątek dla:
User-agent: * Disallow: blog.pl/ Allow: blog.pl/Przykładowy Artykuł/
Inną funkcją allow jest blokowanie dostępu innym niż Googlowski robotom. Tak wygląda to w praktyce:
User-agent: * Disallow: / User-agent: Googlebot Allow:
Dyrektywa allow oraz disallow dają nam więc bardzo szerokie możliwości, ale jak już wiesz – skanery Google mogą ignorować nasze rozporządzenia i je omijać! Dlatego dyrektywy nie zawsze będą działać! Zasada jest bardzo prosta – im bardziej specyficzny wycinek strony obejmiesz dyrektywą, tym większa szansa że Google będzie go respektował.
6.2 Co To Jest User Agent?
Warto pamiętać, że roboty przeczesujące naszą stronę mogą zareagować zgoła inaczej dla każdej z dyrektyw pliku robots.txt . Jeśli ktoś łączy się z twoją stroną, prawdopodobnie robi to poprzez przeglądarkę jak Chrome czy Firefox. Aplikacje te przypisane mają odpowiednie nazwy, którymi są właśnie User Agent. Sprawia to że łatwiej je identyfikować.
6.3 Przekierowanie 410
Jeżeli chcemy aby strona przestała być indeksowana, odwiedzana i zapomniana przez roboty Google możemy wykorzystać Błąd 410 (Gone). Tak naprawdę, wbrew swojej nazwie 410 nie jest błędem. Oznacza on, że żądany zasób był wcześniej dostępny, ale został usunięty na trwałe. Serwer wie o tym zdarzeniu a klient nie powinien oczekiwać powrotu zasobu.
6.4 Przekierowania 301 Oraz 302
Jeśli chcesz przekierować niechciane treści bądź je przekierować tymczasowo – to 301 jest dobrym rozwiązaniem. Tutaj prezentujemy bardzo dokładny poradnik tego, jak powinno wyglądać zarządzanie przekierowaniami.
7. Do Czego Więc Tak Naprawdę Służą Meta Roboty?
– Metatag robots to po prostu rodzaj instrukcji, który mówi wyszukiwarkom co mają śledzić, a czego nie. Jest to fragment kodu w sekcji <head> witryny internetowej. To kod dający Ci możliwość decydowania o tym które strony chcesz ukryć przed robotami wyszukiwarek i które strony mają się indeksować.
– Inną funkcją tagu meta robots jest to, że informuje on roboty wyszukiwarek jakie linki mają śledzić, a które nie. Kiedy twoja witryna zawiera sporo linków wychodzących powinieneś wiedzieć, że tracisz link juice. W rezultacie ranking strony mocno cierpi. Aby więc zachować tę wartość dla siebie możesz poinstruować roboty wyszukiwarek, aby nie podążały za linkami wychodzącymi z Twojej witryny, ponieważ w ten sposób pobiorą również część Twojego link juice.
– Jeśli jednak nie masz metatagu robots, nie panikuj. Domyślnie roboty wyszukiwarek zindeksują twoją witrynę i BĘDĄ akceptować linki. Roboty wyszukiwarek śledzące twoje linki nie są wcale takie złe. Utrata soku nie wpłynie znacząco na twoją witrynę w zamian za przyciągnięcie uwagi innych witryn. Właściwie nie polecam w ogóle używania nofollow, jeśli nie masz zbyt wielu linków wychodzących.
7.1 Jak Dobrze Zarzącać Robots.txt I Meta Robotami?
Kiedy stosować i jak zarządzać meta robotami? To doskonałe pytanie, na które odpowiemy w prosty sposób. Nie ma idealnego rozwiązania. Jeżeli:
1. Masz ogromną dawkę treści, która nie jest gotowa. Preferujemy wtedy skorzystanie z robots.txt i wyłączenie jej z obiegu jeśli jest to wiele podstron, bądź z meta robots jeśli jest to pojedyncza strona.
2. Jeśli masz sporo URL z Duplicate Content i twój budżet indeksacyjny na to pozwala, możesz skorzystać z robots.txt – znacznie lepiej jednak jest użyc rel = “canonical” i pozwolić treści na skan przez pająki Google.
3. Co jeśli próbujesz przepuścić roboty indeksacyjne przez zbiór stron, ale nie chcesz, aby pojawiły się w wyszukiwarce? Wtedy sugerujemy wykorzystanie meta robotów “noindex, follow” BEZ WYKORZYSTYWANIA robots.txt disallow! Jeśli wykorzystasz disallow crawler nie będzie w stanie dostrzec zawartości meta robots i strona nie przekaże wartości dalej!
8. Popularne Błędy Związane z Meta Robotami
Jednym z największych błędów, jakich można doświadczyć podczas pracy na witrynach naszych klientów jest niezgodność pliku robots.txt z informacją podaną w metatagach robots.
Na przykład. Plik robots.txt ukrywa stronę przed indeksowaniem, ale metatagi robots działają odwrotnie. Z naszego doświadczenia wynika że Google przyznaje pierwszeństwo temu, co jest zabronione w pliku robots.txt.
Możesz jednak wyeliminować niezgodność między metatagami robots a plikiem robots.txt jasno wskazując wyszukiwarkom, które strony mają być indeksowane, a które nie.
Inne przykłady błędów to:
Błąd 1: Nazwa pliku zawiera duże litery
Błąd 2: Nie umieszczanie pliku Robots.Txt w katalogu głównym
Błąd 3: Niepoprawnie sformatowany User Agent
Błąd 4: Wzmianka o wielu katalogach w jednym wierszu Disallow
Błąd 5: Pusta linia w „User-Agent”
Błąd 6: Mirror Websites i adresy URL w Host Directive
Błąd 7: Wyświetlenie wszystkich plików w katalogu
Błąd 8: Brak instrukcji Disallow
Błąd 9: Blokowanie całej witryny
Błąd 10: Używanie różnych dyrektyw w sekcji *
Błąd 11: Zły nagłówek HTTP
Błąd 12: Brak mapy witryny
Błąd 13: Korzystanie z Noindex
Błąd 14: Blokowanie strony w pliku Robots.Txt, ale wciąż linkowanie do niej
9. Przyszłość Meta Robotów
Meta roboty raczej z nami zostaną. Ich funkcja oraz przydatność jest niekwestionowana. Dzięki robotom możemy w spokoju zarządzać treścią oraz linkami na stronie, co pomaga pająkom Google w pracy oraz identyfikacji treści.
Sztuczna inteligencja, Rank Brain oraz przyszłość przyniesie znacznie obfitszą ilość atrybutów, oraz znaczników treści. Roboty będą znacznie inteligentniejsze oraz przystosowane.
10. Inne Rzeczy, Których Nie Wiesz O Meta Robots I robots.txt
Aby można było go znaleźć, plik robots.txt musi znajdować się w katalogu najwyższego poziomu witryny
W pliku robots.txt rozróżniana jest wielkość liter: plik musi mieć nazwę „robots.txt” ( Robots.txt, robots.TXT bądź inny są błędne!).
Niektóre UA mogą ignorować Twój plik robots.txt. Jest to szczególnie powszechne w przypadku bardziej nikczemnych robotów, takich jak złośliwe oprogramowanie lub scrapery adresów e-mail
Plik /robots.txt jest publicznie dostępny: wystarczy dodać /robots.txt na końcu dowolnej domeny głównej, aby zobaczyć dyrektywy tej witryny (jeśli ta witryna zawiera plik robots.txt!). Oznacza to, że każdy może zobaczyć, jakie strony chcesz/bądź nie chcesz indeksować, więc nie używaj ich do ukrywania prywatnych informacji o użytkowniku
Każda sub domena w domenie głównej używa oddzielnych plików robots.txt. Oznacza to, że zarówno blog.przykład.com, jak i przykład.com powinny mieć własne pliki robots.txt (na blog.przykład.com/robots.txt i przykład.com/robots.txt).
Ogólnie sprawdzoną metodą jest wskazanie lokalizacji wszelkich map witryn powiązanych z tą domeną u dołu pliku robots.txt.
10.1 Techniczna Składnia Pliku robots.txt
Składnię pliku robots.txt można traktować jako język plików robots.txt. Istnieje pięć typowych terminów, które napotkasz na swojej drodze. Są to:
– User Agent: konkretny robot indeksujący, któremu wydajesz instrukcje dotyczące indeksowania (zwykle jest to wyszukiwarka).
– Disallow: polecenie używane do informowania UA, aby nie indeksował określonego adresu URL. Dla każdego adresu URL dozwolony jest tylko jeden wiersz „Disallow:”.
– Allow (dotyczy tylko Googlebota): polecenie informujące Googlebota, że może uzyskać dostęp do strony lub podfolderu, nawet jeśli jego strona nadrzędna lub podfolder są niedozwolone.
– Crawl-delay: ile sekund robot indeksujący powinien odczekać przed załadowaniem i zindeksowaniem zawartości strony. Pamiętaj, że Googlebot nie akceptuje tego polecenia, ale szybkość indeksowania można ustawić w Google Search Console.
– Mapa witryny (Sitemap): używana do wskazania lokalizacji wszelkich map witryn XML powiązanych z tym adresem URL. Zauważ, że to polecenie jest obsługiwane tylko przez Google, Ask, Bing i Yahoo.
10.2 Czym Jest Pattern-matching?
Jeśli chodzi o faktyczne adresy URL które mają być blokowane lub dozwolone, zrozumienie konfiguracji plików robots.txt może być skomplikowane, ponieważ pozwalają na użycie tzw. pattern-matching w celu pokrycia szeregu możliwych opcji adresów URL. Google i Bing stosują dwa wyrażenia regularne, których można używać do identyfikowania stron lub podfolderów, które użytkownik chce wykluczyć. Te dwa znaki to gwiazdka (*) i znak dolara ($).
* to symbol wieloznaczny reprezentujący dowolną sekwencję znaków
$ pasuje do końca adresu URL
Lista możliwych wzorców jest bardzo obszerna.
10.3 Gdzie Na Twojej Stronie Znajduje Się Plik robots.txt?
Wyszukiwarki i inne roboty indeksujące sieć (takie jak robot Facebooka, Facebot) zawsze wiedzą, że muszą szukać pliku robots.txt za każdym razem, gdy trafiają na konkretną stronę. Będą jednak szukać tego pliku tylko w jednym określonym miejscu: w katalogu głównym (zwykle w domenie głównej lub na stronie głównej).
Jeśli User Agent odwiedzi www.przykład.com/robots.txt i nie znajdzie tam określonego pliku to uzna, że witryna go nie ma i rozpocznie indeksowanie wszystkiego na stronie (a może nawet w całej witrynie). Nawet gdyby strona robots.txt istniała pod adresem przykład.com/index/robots.txt lub www.przykład.com/stronagłówna/robots.txt, nie zostałaby wykryta przez UA, a zatem witryna byłaby traktowana jakby w ogóle nie miał robots.txt.
Aby mieć pewność, że plik robots.txt zostanie znaleziony, zawsze umieszczaj go w katalogu głównym lub domenie głównej.
10.4 Dlaczego Potrzebujesz Pliku robots.txt?
Pliki robots.txt kontrolują dostęp pająków do niektórych obszarów witryny. Chociaż może to być niebezpieczne, jeśli przypadkowo zabronisz Googlebotowi indeksowania całej witryny (!!), w niektórych sytuacjach plik robots.txt może być bardzo przydatny.
– Rozpatrzmy niektóre przypadki:
– Zapobieganie pojawianiu się duplikowanych treści w SERP (pamiętaj, że meta roboty są często lepszym wyborem)
– Zachowanie prywatności całych sekcji witryny (na przykład witryny testowej)
– Zapobieganie wyświetlaniu wewnętrznych stron wyników wyszukiwania w publicznym SERP
– Określanie lokalizacji map witryn
– Uniemożliwianie wyszukiwarkom indeksowania niektórych plików w Twojej witrynie (obrazy, pliki PDF itp.)
– Określenie crawl delay (opóźnienia indeksowania), aby zapobiec przeciążeniu serwerów, gdy roboty indeksujące ładują wiele elementów treści jednocześnie
– Jeśli nie ma obszarów, do których chcesz kontrolować dostęp UA, możesz w ogóle nie korzystać z pomocy robots.txt.
10.5 Jak Sprawdzić, Czy Masz Plik robots.txt ?
Nie masz pewności, czy masz plik robots.txt? Po prostu wpisz swoją domenę główną, a następnie dodaj /robots.txt na końcu adresu URL. Na przykład seochess.pl/robots.txt.
Jeśli nie pojawi się żadna strona .txt, oznacza to, że nie masz obecnie (aktywnej) strony robots.txt.
11. Podsumowanie
Prawidłowe zrozumienie i zarządzanie pobieraniem i indeksowaniem Twojej witryny jest fundamentem SEO. Techniczne SEO może być dość skomplikowane, ale metatagi to coś, czego nie trzeba się bać.
Mam nadzieję, że jesteś teraz przygotowany do zastosowania sprawdzonych metod dotyczących długoterminowych rozwiązań na dużą skalę.
Podsumowując – czym jest meta robots?
To rodzaj czynnika ściśle związany z indeksacją podstrony oraz odnośników tam się znajdujących. Webmasterzy często wykorzystują wartości takie jak noindex (blokada indeksacji podstrony), nofollow (nadanie linkom na stronie atrybutu nofollow) czy nosnippet (blokowanie wyświetlań w wynikach wyszukiwania danej strony). Inaczej rzec ujmując – to fragmenty kodu, które dostarczają robotom indeksującym instrukcje dotyczące pobierania lub indeksowania treści stron internetowych. Podczas gdy dyrektywy w pliku robots.txt podają robotom sugestie dotyczące indeksowania stron witryny, meta dyrektywy robotów zawierają bardziej precyzyjne instrukcje dotyczące pobierania i indeksowania zawartości strony.
Istnieją dwa typy dyrektyw meta robotów: te, które są częścią strony HTML (np. Meta robotstag) i te, które serwer sieciowy wysyła jako nagłówki HTTP (na przykład x-robots-tag). Te same parametry (tj. Instrukcje pobierania lub indeksowania zawarte w metatagu, takie jak „noindex” i „nofollow” w powyższym przykładzie) mogą być używane zarówno z meta robotami, jak i z tagiem x-robots-tag; różnica polega na sposobie przekazywania tych parametrów robotom.
Dyrektywy meta dają robotom instrukcje dotyczące pobierania i indeksowania informacji znalezionych na określonej stronie internetowej. Jeśli dyrektywy te zostaną wykryte przez boty, ich parametry służą jako silne sugestie dotyczące zachowania danego robota. Ale tak jak w przypadku plików robots.txt, roboty nie muszą przestrzegać naszych meta dyrektyw, więc można bezpiecznie założyć, że niektóre złośliwe roboty internetowe zignorują je. W dalszej części artykuły prześledzimy między innymi to, jak wyglądają parametry oparte na meta robots.
Jakich zasad należy przestrzegać podczas korzystania z robots.txt?
Zasada numer jeden – plik “robots.txt” nie jest metodą zabezpieczenia dostępu do zasobów! Pająki odpowiedzialne za skanowanie strony w poszukiwaniu luk w bezpieczeństwie bądź automaty zbierające dane teleadresowe/e-mail często ignorują nasze wytyczne. Nie stosuj robots.txt do zabezpieczania swojej strony.
Innym częstym problemem jest to, że roboty zbyt szybko pobierają stronę WWW co obciąża serwer. Rozwiązaniem z pewnością jest blokowanie takich niechcianych wizyt w formie blokady UA bądź adresów IP.
Najbardziej powszechną funkcją robots.txt jest ukrywanie treści, której nie chcemy pokazać wyszukiwarce. Nie będzie ona indeksować zawartości stron określonych w danym pliku, ale może indeksować adresy URL jeśli znajdzie je na innych strona WWW! Zostaną wtedy wyświetlone teksty kotwicy!
NAJLEPSZE PRAKTYKI SEO DOTYCZĄCE ROBOTÓW:
Upewnij się, że nie blokujesz treści ani sekcji witryny, które chcesz zindeksować.
Warto wiedzieć, że linki na stronach zablokowanych przez plik robots.txt nie będą śledzone. Oznacza to że:
a) O ile nie prowadzą do nich również linki z innych stron dostępnych dla wyszukiwarek (tj. Stron niezablokowanych w pliku robots.txt, meta robots lub w inny sposób) zasoby, do których prowadzą linki, nie będą przeszukiwane i nie mogą być indeksowane.
b) Żaden Link Equity nie może zostać przekazany z zablokowanej strony do miejsca docelowego. Jeśli masz strony, do których chcesz przekazać wartość, użyj innego mechanizmu blokowania niż plik robots.txt.
– Nie używaj pliku robots.txt, aby zapobiec wyświetlaniu poufnych danych (takich jak prywatne informacje o użytkowniku) w wynikach SERP. Jeśli chcesz zablokować wyświetlanie swojej strony w wynikach wyszukiwania, użyj innej metody. Na przykład ochrony hasłem lub meta dyrektywy noindex.
– Niektóre wyszukiwarki mają wielu UA. Na przykład Google używa Googlebota do analizy wyników wyszukiwania i Googlebot-Image do wyszukiwania grafiki. Większość programów klienckich z tej samej wyszukiwarki przestrzega tych samych reguł, więc nie ma potrzeby określania dyrektyw dla każdego z wielu robotów w wyszukiwarce, ale posiadanie takiej możliwości pozwala precyzyjnie dostosować sposób indeksowania zawartości witryny.
– Wyszukiwarka buforuje zawartość pliku robots.txt, ale zwykle aktualizuje zawartość pamięci podręcznej co najmniej raz dziennie. Jeśli zmienisz plik i chcesz go zaktualizować szybciej niż ma to miejsce, możesz przesłać adres URL pliku robots.txt do Google.
To by było na tyle. Ten skomplikowany i trudny temat wymaga twojego zaangażowania oraz dobrej analizy. Tematyka robotów, ich znaczenia w SEO oraz indeksacji nie jest jednobiegunowa. Czasami warto z nich korzystać, a czasami nie. Wszystko zależy od celu, jaki chcemy osiągnąć.
Zostaw odpowiedź