Weblog om bl.a. SEO og SEM

Søgemaskineoptimering – SEO Blog med Rosenstand

Sådan bruger du robots.txt

Saturday, 20. September 2008 - 01:49 af Thomas Rosenstand

I den aldrig færdige historie om duplicate content har den lille frække sag kaldet robots.txt været nævnt nogle gange, og en gennemgang af mulighederne med den fil er blevet efterlyst. Derfor snupper vi lige et hurtigt kig på robots.txt og det, du kan gøre med den. En lille advarsel er på sin plads: Lad være med at rode med den, hvis du ikke ved, hvad du gør. Jeg er i min tid stødt på flere robots.txt, der effektivt har hindret en ønsket indeksering af hele hjemmesider eller dele af dem.

Hvad er robots.txt?

En robots.txt fil er en fil i txt format, som placeres i roden af din hjemmeside. Når en søgerobot som for eksempel Googlebot besøger din hjemmeside, vil den først og fremmest undersøge, om der findes en robots.txt – og gør der det, vil robotten som oftest rette sig efter de anvisninger, den får fra filen.

Lad os ramme en pæl gennem en myte: Hvis du ikke har behov for at spærre adgangen for en søgemaskine til dele af din hjemmeside, behøver du ikke have en robots.txt

Hvorfor spærre med robots.txt?

Hvis du har statiske printvenlige sider, er det et must, at disse ikke indekseres – for ellers får du problemer med duplicate content. Det kan også være tilfældet med PDF versioner af dit indhold.

Måske har du sider eller hele foldere med f.eks. passwordbeskyttet indhold, du ikke ønsker en søgerobots nysgerrige næse i. Det kan også være sider som indkøbskurven i en webshop eller lignende.

Hvordan bruges robots.txt?

Du kan skrive din robots.txt i f.eks. Notepad og uploade den til dit webhotel. Husk, at filen skal hedde robots.txt, og den skal ligge i “roden” af din hjemmeside. Når den er uploadet, skal du kunne se den i din browser ved at skrive din hjemmesideadresse/robots.txt

Hvis du vil spærre helt for adgangen til din hjemmeside for søgerobotter:

User-agent: *
Disallow: /

Pas på den! Med den vil INTET på din hjemmeside blive indekseret i Google eller andre søgemaskiner.

 Hvis du har f.eks. PDF filer i en mappe med navnet “PDF”, og du ikke vil have dem indekseret:

User-agent: *
Disallow: /PDF/

Her vil alt andet på hjemmesiden blive crawlet – men ikke mappen /PDF/

Hvis du har en bestemt side (fil) på din hjemmeside, du vil spærre for:

User-agent: *
Disallow: /hemmelig-fil.html

Her springer robotterne bare den ene fil over.

Hvis du vil spærre for en bestemt søgerobot og tillade alle andre:

User-agent: googlebot

Disallow: /

User-agent: *
Disallow:

Her vil Googlebot være spærret for – men alle andre robotter kan komme til.

Her kan du downloade en liste med over 300 kendte søgerobotter: Robotter

Hvis du vil spærre for adgangen til en folder – men tillade en enkelt fil i samme folder:

User-agent: *
Disallow: /folder/
Allow: /folder/maa-indekseres.html

Det er de væsentlige muligheder – og de kan kombineres, så det burde være muligt at opnå det, du gerne vil. Lad mig gentage: Én fodfejl er nok til at hele din hjemmeside eller vigtige dele af den fjernes fra søgemaskinernes indeks indtil fejlen rettes. Så tjek – dobbelttjek og gør det igen. Eller ring til en ven…

Google har glimrende information om emnet - og det har Robotstxt.org også.

Rosenstand out!

 


Seneste video fra mig:
Bookmark og del som du vil:
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • LinkedIn
  • StumbleUpon
  • Technorati
  • E-mail this story to a friend!
  • TwitThis

Relaterede artikler:

  1. Ændring i Google retningslinjer Gennem flere år har...
  2. Hvor mange bruger Chrome? Siden Google tirsdag aften...

17 kommentarer

  1.  Riisager skrev som kommentar:

    og så lad være med at tro når du har lukket en mappe eller fil – så kan folk ikke finde den

    http://www.alexa.com/search?q=%22Thanks%20for%20your%20order%22 :)

  2.  Vadskær skrev som kommentar:

    Kl. 01.49 natten til lørdag. Sidder du i USA eller er du bare nørdet?

  3.  Thomas Rosenstand skrev som kommentar:

    Nørdet :-)

  4.  Claus Heinrich skrev som kommentar:

    Godt, på sin plads med sådan en gennemgang.
    Kan også nævne at man kan blokerer querystrings ala
    User-agent: *
    Disallow: /hemmelig-fil.php?id=50
    DOG skal man være opmærksom på at den også vil blokerer alle andre querystrings der starter med 50, fx 500,501 osv. Men det kan være brugbart nogle gange. (Kender i en stopkode så man kun blokerer 50 og intet andet hører jeg det gerne :) )

  5.  Vadskær skrev som kommentar:

    Ind imellem kan man også se, hvad konkurrenter eller andre pønser på og roder med ved at kigge i deres robots.txt, hvis de nøjes med at beskytte de nye tiltag i robots.txt.

    Se f.eks. http://www.whitehouse.gov/robots.txt

  6.  Marcus Janby skrev som kommentar:

    Outstanding, Thomas! Rart at få dét på plads – altså ikke at du er nørdet, men at man ikke behøver denne robotfil ;-)

    Hvordan opstod myten om, at man Skulle have denne fil – selv når man ikke ville spærre noget??

  7.  Lars Bachmann skrev som kommentar:

    Robots.txt er faktisk en meget overset teknik. En lille tilføjelse er at man ikke skal forhindre søgerobotter afgang til hemmelige filer, ved hjælp af robots.txt, da alle jo kan se en sides robots.txt fil, og dermed også filnavnet til den hemmelige fil.

  8.  Thomas Rosenstand skrev som kommentar:

    Intet problem, Bachmann! Er du lidt lørdagsgroggy eller hva’? :-)

    RewriteCond %{HTTP_USER_AGENT} ^(Mozilla¦Opera)
    RewriteCond %{HTTP_USER_AGENT}!(Slurp¦surfsafely)
    RewriteRule ^robots\.txt$ /someotherfile [L]

  9.  Lars Bachmann skrev som kommentar:

    Undskyld, det var lørdag, jeg var fuld, det skal aldrig ske igen ( puha, der fik jeg lige et dejavue ) ;)

    Jeg ved godt at du aldrig kunne finde på det, så det vare mere ment som en service til dem som læser denne guide og skal lave en robots.txt for første gang. tro mig, jeg har set robots.txt filer indeholde URL’er til “hemmelige” filer ;)

    Og det er nok ikke lige dem der begynder at rode med en .htaccess fil.. ;)

    Hygge og god søndag

  10.  Dennis Drejer skrev som kommentar:

    Angående #8. Så kan du nemt med plugins i browseren ændre din useragent.

  11.  Thomas Rosenstand skrev som kommentar:

    Ja, det er ikke noget problem, og det er der mange metoder til. Også uden plugins. Men det er trods alt ikke så mange, der kan det – så det indsnævrer gruppen en del. Skal noget hemmeligt ligge online, skal det beskyttes på anden vis end med robots.txt, og faktisk var det heller ikke emnet her oprindeligt.

    Robots.txt handler først og fremmest om at undgå indeksering af hensyn til duplicate content og usability – ikke om at beskytte følsomme oplysninger.

  12.  Pål skrev som kommentar:

    …man kan også gå den helt anden (og mere nørdede vej) at blogge i sin robots.txt: http://www.webmasterworld.com/robots.txt

    …kan ikke helt huske forhistorien, men det var enten noget med nogen der blev sur på Google eller også var det noget med en blanding af øl og nørd… :-)

  13.  Nicolai Lønne skrev som kommentar:

    Hvis man vil udelukke alle søgebots fra en enkelt, måske lidt hemmelig side (som man jo deraf ikke kan smide i robots.txt), ikke kan passwordbeskytte siden og så videre, er der så noget galt med ?

  14.  Nicolai Lønne skrev som kommentar:

    hmmm… nå, man må ikke paste kode ind på Thomas’ blog. Kedeligt.
    Jeg prøvede at skrive:
    meta name=ROBOTS content=NOINDEX, FOLLOW

  15.  Thomas Rosenstand skrev som kommentar:

    Nicolai: Nej, det er der ikke noget galt med – men husk lige, at Google vil følge de links, der er på den “hemmelige” side, hvis du bruger det tag. Alternativt skal du bruge “Noindex,Nofollow”.

    Pål: Jeps – jeg kan godt huske den. Ret pudsig…

  16.  Nikolaj Astrup Madsen skrev som kommentar:

    God gennemgang. Endelig fik jeg det helt på plads:-)

  17.  Lasse Heindorff skrev som kommentar:

    Vadskær:

    Interessant observation. Nu hvor ejeren er lige præcis Det Hvide Hus, som jo alle bekendt er tilholdssted for en særdeles kløgtig administration, ville jeg ikke ha’ været overrasket, hvis jeg stødte på navnet Lewinsky én gang eller to i filen. Men desværre…

    Pål:

    Damn! Det er så nørdet, at det er cool. :-)

Læg en kommentar

Bemærk: Alle kommentarer skal godkendes og kan ikke ses af andre end dig selv, før de er godkendte. Naturligvis accepterer vi ikke anonyme kommentarer, men du kan bede os fjerne dit navn og erstatte det med et synonym. Vi skal bare vide, hvem du er. Glem fake mailadresser - din kommentar ryger direkte i spamfilteret, hvis du ikke er parat til at stå ved, hvad du skriver! Vi forbeholder os ret til at afvise kommentarer.