Sådan bruger du robots.txt
Thomas RosenstandI den aldrig færdige historie om duplicate content har den lille frække sag kaldet robots.txt været nævnt nogle gange, og en gennemgang af mulighederne med den fil er blevet efterlyst. Derfor snupper vi lige et hurtigt kig på robots.txt og det, du kan gøre med den. En lille advarsel er på sin plads: Lad være med at rode med den, hvis du ikke ved, hvad du gør. Jeg er i min tid stødt på flere robots.txt, der effektivt har hindret en ønsket indeksering af hele hjemmesider eller dele af dem.
Hvad er robots.txt?
En robots.txt fil er en fil i txt format, som placeres i roden af din hjemmeside. Når en søgerobot som for eksempel Googlebot besøger din hjemmeside, vil den først og fremmest undersøge, om der findes en robots.txt – og gør der det, vil robotten som oftest rette sig efter de anvisninger, den får fra filen.
Lad os ramme en pæl gennem en myte: Hvis du ikke har behov for at spærre adgangen for en søgemaskine til dele af din hjemmeside, behøver du ikke have en robots.txt
Hvorfor spærre med robots.txt?
Hvis du har statiske printvenlige sider, er det et must, at disse ikke indekseres – for ellers får du problemer med duplicate content. Det kan også være tilfældet med PDF versioner af dit indhold.
Måske har du sider eller hele foldere med f.eks. passwordbeskyttet indhold, du ikke ønsker en søgerobots nysgerrige næse i. Det kan også være sider som indkøbskurven i en webshop eller lignende.
Hvordan bruges robots.txt?
Du kan skrive din robots.txt i f.eks. Notepad og uploade den til dit webhotel. Husk, at filen skal hedde robots.txt, og den skal ligge i “roden” af din hjemmeside. Når den er uploadet, skal du kunne se den i din browser ved at skrive din hjemmesideadresse/robots.txt
Hvis du vil spærre helt for adgangen til din hjemmeside for søgerobotter:
User-agent: *
Disallow: /Pas på den! Med den vil INTET på din hjemmeside blive indekseret i Google eller andre søgemaskiner.
Hvis du har f.eks. PDF filer i en mappe med navnet “PDF”, og du ikke vil have dem indekseret:
User-agent: *
Disallow: /PDF/Her vil alt andet på hjemmesiden blive crawlet – men ikke mappen /PDF/
Hvis du har en bestemt side (fil) på din hjemmeside, du vil spærre for:
User-agent: *
Disallow: /hemmelig-fil.htmlHer springer robotterne bare den ene fil over.
Hvis du vil spærre for en bestemt søgerobot og tillade alle andre:
User-agent: googlebot
Disallow: /
User-agent: *
Disallow:Her vil Googlebot være spærret for – men alle andre robotter kan komme til.
Her kan du downloade en liste med over 300 kendte søgerobotter: Robotter
Hvis du vil spærre for adgangen til en folder – men tillade en enkelt fil i samme folder:
User-agent: *
Disallow: /folder/
Allow: /folder/maa-indekseres.html
Det er de væsentlige muligheder – og de kan kombineres, så det burde være muligt at opnå det, du gerne vil. Lad mig gentage: Én fodfejl er nok til at hele din hjemmeside eller vigtige dele af den fjernes fra søgemaskinernes indeks indtil fejlen rettes. Så tjek – dobbelttjek og gør det igen. Eller ring til en ven…
Google har glimrende information om emnet - og det har Robotstxt.org også.
Rosenstand out!
Skrevet af Thomas Rosenstand - Køb SEO-LEX 10.0 i dag og snup pladserne i Google!
Seneste video fra mig:
Relaterede artikler:
- Ændring i Google retningslinjer Gennem flere år har...
- Hvor mange bruger Chrome? Siden Google tirsdag aften...









Tilmeld dig vores nyhedsbrev her - og modtag nyheder gratis:



20. September 2008 - 08:32
og så lad være med at tro når du har lukket en mappe eller fil – så kan folk ikke finde den
http://www.alexa.com/search?q=%22Thanks%20for%20your%20order%22
20. September 2008 - 09:04
Kl. 01.49 natten til lørdag. Sidder du i USA eller er du bare nørdet?
20. September 2008 - 13:23
Nørdet
20. September 2008 - 15:08
Godt, på sin plads med sådan en gennemgang.
)
Kan også nævne at man kan blokerer querystrings ala
User-agent: *
Disallow: /hemmelig-fil.php?id=50
DOG skal man være opmærksom på at den også vil blokerer alle andre querystrings der starter med 50, fx 500,501 osv. Men det kan være brugbart nogle gange. (Kender i en stopkode så man kun blokerer 50 og intet andet hører jeg det gerne
20. September 2008 - 16:24
Ind imellem kan man også se, hvad konkurrenter eller andre pønser på og roder med ved at kigge i deres robots.txt, hvis de nøjes med at beskytte de nye tiltag i robots.txt.
Se f.eks. http://www.whitehouse.gov/robots.txt
20. September 2008 - 18:11
Outstanding, Thomas! Rart at få dét på plads – altså ikke at du er nørdet, men at man ikke behøver denne robotfil
Hvordan opstod myten om, at man Skulle have denne fil – selv når man ikke ville spærre noget??
20. September 2008 - 19:21
Robots.txt er faktisk en meget overset teknik. En lille tilføjelse er at man ikke skal forhindre søgerobotter afgang til hemmelige filer, ved hjælp af robots.txt, da alle jo kan se en sides robots.txt fil, og dermed også filnavnet til den hemmelige fil.
20. September 2008 - 20:41
Intet problem, Bachmann! Er du lidt lørdagsgroggy eller hva’?
RewriteCond %{HTTP_USER_AGENT} ^(Mozilla¦Opera)
RewriteCond %{HTTP_USER_AGENT}!(Slurp¦surfsafely)
RewriteRule ^robots\.txt$ /someotherfile [L]
21. September 2008 - 10:36
Undskyld, det var lørdag, jeg var fuld, det skal aldrig ske igen ( puha, der fik jeg lige et dejavue )
Jeg ved godt at du aldrig kunne finde på det, så det vare mere ment som en service til dem som læser denne guide og skal lave en robots.txt for første gang. tro mig, jeg har set robots.txt filer indeholde URL’er til “hemmelige” filer
Og det er nok ikke lige dem der begynder at rode med en .htaccess fil..
Hygge og god søndag
21. September 2008 - 21:01
Angående #8. Så kan du nemt med plugins i browseren ændre din useragent.
21. September 2008 - 21:39
Ja, det er ikke noget problem, og det er der mange metoder til. Også uden plugins. Men det er trods alt ikke så mange, der kan det – så det indsnævrer gruppen en del. Skal noget hemmeligt ligge online, skal det beskyttes på anden vis end med robots.txt, og faktisk var det heller ikke emnet her oprindeligt.
Robots.txt handler først og fremmest om at undgå indeksering af hensyn til duplicate content og usability – ikke om at beskytte følsomme oplysninger.
23. September 2008 - 21:46
…man kan også gå den helt anden (og mere nørdede vej) at blogge i sin robots.txt: http://www.webmasterworld.com/robots.txt
…kan ikke helt huske forhistorien, men det var enten noget med nogen der blev sur på Google eller også var det noget med en blanding af øl og nørd…
25. September 2008 - 15:32
Hvis man vil udelukke alle søgebots fra en enkelt, måske lidt hemmelig side (som man jo deraf ikke kan smide i robots.txt), ikke kan passwordbeskytte siden og så videre, er der så noget galt med ?
25. September 2008 - 15:34
hmmm… nå, man må ikke paste kode ind på Thomas’ blog. Kedeligt.
Jeg prøvede at skrive:
meta name=ROBOTS content=NOINDEX, FOLLOW
25. September 2008 - 16:14
Nicolai: Nej, det er der ikke noget galt med – men husk lige, at Google vil følge de links, der er på den “hemmelige” side, hvis du bruger det tag. Alternativt skal du bruge “Noindex,Nofollow”.
Pål: Jeps – jeg kan godt huske den. Ret pudsig…
7. October 2008 - 22:51
God gennemgang. Endelig fik jeg det helt på plads:-)
10. October 2008 - 21:52
Vadskær:
Interessant observation. Nu hvor ejeren er lige præcis Det Hvide Hus, som jo alle bekendt er tilholdssted for en særdeles kløgtig administration, ville jeg ikke ha’ været overrasket, hvis jeg stødte på navnet Lewinsky én gang eller to i filen. Men desværre…
Pål:
Damn! Det er så nørdet, at det er cool.