Een robots.txt bestand maken

Vorige week heb ik al aandacht besteed aan de vraag hoe je bepaalde pagina's uit de zoekmachines kunt houden in het artikel Over Robots en meta tags. Ik zei daarin dat er twee manieren zijn om dit te bewerkstelligen. De eerste manier heb ik toen in dat artikel besproken: het gebruik van de meta name="robots" tag. Vandaag bekijken we de tweede manier: het maken van een robots.txt bestand.

Over het robots.txt bestand

Het robots.txt bestand werkt op grond van het Robots Exclusion Protocol. Dit protocol stelt webmasters in staat om aan te geven welke delen van een site niet bekeken mogen worden door de robot van een specifieke zoekmachine.

Het bestand zelf is een doodgewoon tekst bestand (.txt) dat in de root directory van een site moet worden geplaatst. De root directory is de hoofddirectory van je site. Dus de locatie van het robots.txt bestand zou dus bijvoorbeeld kunnen zijn: http://www.jouwdomein.nl/robots.txt. Als je een gratis host hebt zul je dus niet in staat zijn om een robots.txt succesvol te gebruiken, omdat je geen toegang hebt tot de root directory van je host.

De syntax van het robots.txt bestand ziet er als volgt uit:

User-agent: [naam spider]
Disallow: [naam bestand of directory]

Het Bestand maken

Je opent eerst een nieuw .txt bestand met je HTML Editor. Nu gebruik je de bovenstaande syntax. Op de plaats van [naam spider] zet je de naam van de spider die je bepaalde delen van je site niet wilt laten indexeren. Op de plaats van [naam bestand of directory] plaats je de locatie en de naam van de documenten of directories die je niet wilt laten indexeren.

Bekijk onderstaande voorbeelden. Deze zullen het een en ander duidelijker maken.

Voorbeeld 1

User-agent: webcrawler
Disallow: /

In het bovenstaande voorbeeld wordt de robot webcrawler de toegang ontzegd tot alle directories.
De / na disallow wil dus zeggen: "alle directories".

Voorbeeld 2

User-agent: *
Disallow: /cgi-bin/
Disallow: /test/
Disallow: /prive/

In het tweede voorbeeld zien we een asterisk staan: * achter User-agent:. Dit betekent: "alle robots".
Alle robots mogen in dit voorbeeld dus alle directories bezoeken behalve de directories cgi-bin, test en prive.

Voorbeeld 3

User-agent: infoseek
Disallow: /artikelen/voorbeeld.html

User-agent: *
Disallow: /cgi-bin/
Disallow: /test/

In voorbeeld 3 mag de robot infoseek het bestand voorbeeld.html in de directory artikelen niet bekijken. De witregel wil zeggen dat er een nieuw commando volgt voor een user-agent. In dit geval wordt er aangegeven dat alle user-agents (dus ook infoseek!) de directories cgi-bin en test niet mogen bekijken.

Verwijzen naar een XML sitemap in robots.txt

Als je site gebruik maakt van een XML sitemap dan kan je zoekmachines wijzen op het bestaan van de sitemap in het robots.txt bestand. Dat doe je door de volgende code toe te voegen aan robots.txt:

Sitemap: http://www.jedomeinnaamhier.nl/sitemap.xml (of sitemap.xml.gz als je een gezipte sitemap hebt)

Vervang het adres door je eigen domeinnaam. Je dient de volledige URL naar de sitemap in te vullen, dus inclusief http:// en eventueel www.

Informatie over robots

Als je meer wilt weten over robots (ze worden ook wel spiders of crawlers genoemd), dan kun je eens kijken op de Web Robots Pages. Daar vind je onder andere een database met namen van robots, die je dus kunt invoeren na het User-agent: commando in je robots.txt bestand. Ook is er allerlei informatie beschikbaar over de verschillende functies die deze robots vervullen.

Ook erg handig is de robots.txt checker, waarmee je gemakkelijk kunt controleren of er fouten in je robots.txt bestand zitten.

Belangrijk om te weten is verder dat niet alle robots naar het robots.txt bestand kijken. De grote internationale zoekmachines als Google zullen het bestand wel respecteren, maar het maken van het bestand is dus geen garantie dat je de pagina's in geen enkele zoekmachine zult tegenkomen. Als je bepaalde pagina's aan niemand wilt tonen dan is het beter om dat bestand of die direcory totaal af te sluiten door middel van een wachtwoordbeveiliging.

Lees ook:

Over Robots en meta tags
Meta tags en Zoekmachines
Maak online je meta tags met onze Meta tag maker (generator)

Wat vond je van dit artikel?

Homepage-Maken Tip

De makkelijkste manier om je eigen website te maken?
Dat is via een website bouwer als Weebly. Hiermee kun je eenvoudig via je browser door middel van drag-en-drop een website bouwen. Je kunt volledig gratis beginnen met 500MB webruimte voor je site. Zo nodig kun je een betaald pakket nemen met eigen domeinnaam, "onbeperkte" opslag (fair use policy) en e-commerce mogelijkheden.

Weebly is daarom een prima optie als je snel een website in elkaar wilt zetten. Kennis van HTML of het installeren van een eigen content management systeem is niet nodig bij Weebly.

Klik hier om te starten met je Weebly website!

Een robots.txt bestand maken

Over het robots.txt bestand

Het Bestand maken

Verwijzen naar een XML sitemap in robots.txt

Informatie over robots

Homepage-Maken Tip

Zoekfunctie en Overige Info

Voorpagina

Artikelen

Populaire artikelen

Tutorials

Boeken

Overig

Webtools

Extra's

Scripts & Codes