Een robots.txt bestand maken
Vorige week heb ik al aandacht besteed aan de vraag hoe je bepaalde pagina's uit de zoekmachines kunt houden in het artikel Over Robots en meta tags. Ik zei daarin dat er twee manieren zijn om dit te bewerkstelligen. De eerste manier heb ik toen in dat artikel besproken: het gebruik van de meta name="robots" tag. Vandaag bekijken we de tweede manier: het maken van een robots.txt bestand.
Over het robots.txt bestand
Het robots.txt bestand werkt op grond van het Robots Exclusion Protocol. Dit protocol stelt webmasters in staat om aan te geven welke delen van een site niet bekeken mogen worden door de robot van een specifieke zoekmachine.
Het bestand zelf is een doodgewoon tekst bestand (.txt) dat in de root directory van een site moet worden geplaatst. De root directory is de hoofddirectory van je site. Dus de locatie van het robots.txt bestand zou dus bijvoorbeeld kunnen zijn: http://www.jouwdomein.nl/robots.txt. Als je een gratis host hebt zul je dus niet in staat zijn om een robots.txt succesvol te gebruiken, omdat je geen toegang hebt tot de root directory van je host.
De syntax van het robots.txt bestand ziet er als volgt uit:
User-agent: [naam spider]
Disallow: [naam bestand of directory]
Het Bestand maken
Je opent eerst een nieuw .txt bestand met je HTML Editor. Nu gebruik je de bovenstaande syntax. Op de plaats van [naam spider] zet je de naam van de spider die je bepaalde delen van je site niet wilt laten indexeren. Op de plaats van [naam bestand of directory] plaats je de locatie en de naam van de documenten of directories die je niet wilt laten indexeren.
Bekijk onderstaande voorbeelden. Deze zullen het een en ander duidelijker maken.
Voorbeeld 1
User-agent: webcrawler Disallow: / |
In het bovenstaande voorbeeld wordt de robot webcrawler de toegang ontzegd tot alle directories.
De / na disallow wil dus zeggen: "alle directories".
Voorbeeld 2
User-agent: * Disallow: /cgi-bin/ Disallow: /test/ Disallow: /prive/ |
In het tweede voorbeeld zien we een asterisk staan: * achter User-agent:. Dit betekent: "alle robots".
Alle robots mogen in dit voorbeeld dus alle directories bezoeken behalve de directories cgi-bin, test en prive.
Voorbeeld 3
User-agent: infoseek Disallow: /artikelen/voorbeeld.html User-agent: * Disallow: /cgi-bin/ Disallow: /test/ |
In voorbeeld 3 mag de robot infoseek het bestand voorbeeld.html in de directory artikelen niet bekijken. De witregel wil zeggen dat er een nieuw commando volgt voor een user-agent. In dit geval wordt er aangegeven dat alle user-agents (dus ook infoseek!) de directories cgi-bin en test niet mogen bekijken.
Verwijzen naar een XML sitemap in robots.txt
Als je site gebruik maakt van een XML sitemap dan kan je zoekmachines wijzen op het bestaan van de sitemap in het robots.txt bestand. Dat doe je door de volgende code toe te voegen aan robots.txt:
Sitemap: http://www.jedomeinnaamhier.nl/sitemap.xml (of sitemap.xml.gz als je een gezipte sitemap hebt)
Vervang het adres door je eigen domeinnaam. Je dient de volledige URL naar de sitemap in te vullen, dus inclusief http:// en eventueel www.
Informatie over robots
Als je meer wilt weten over robots (ze worden ook wel spiders of crawlers genoemd), dan kun je eens kijken op de Web Robots Pages. Daar vind je onder andere een database met namen van robots, die je dus kunt invoeren na het User-agent: commando in je robots.txt bestand. Ook is er allerlei informatie beschikbaar over de verschillende functies die deze robots vervullen.
Ook erg handig is de robots.txt checker, waarmee je gemakkelijk kunt controleren of er fouten in je robots.txt bestand zitten.
Belangrijk om te weten is verder dat niet alle robots naar het robots.txt bestand kijken. De grote internationale zoekmachines als Google zullen het bestand wel respecteren, maar het maken van het bestand is dus geen garantie dat je de pagina's in geen enkele zoekmachine zult tegenkomen. Als je bepaalde pagina's aan niemand wilt tonen dan is het beter om dat bestand of die direcory totaal af te sluiten door middel van een wachtwoordbeveiliging.
Lees ook:
- Over Robots en meta tags
- Meta tags en Zoekmachines
- Maak online je meta tags met onze Meta tag maker (generator)
Wat vond je van dit artikel?
Homepage-Maken Tip
De makkelijkste manier om je eigen website te maken?
Dat is via een website bouwer als Weebly. Hiermee kun je eenvoudig via je browser door middel van drag-en-drop een website bouwen. Je kunt volledig gratis beginnen met 500MB webruimte voor je site. Zo nodig kun je een betaald pakket nemen met eigen domeinnaam, "onbeperkte" opslag (fair use policy) en e-commerce mogelijkheden.
Weebly is daarom een prima optie als je snel een website in elkaar wilt zetten. Kennis van HTML of het installeren van een eigen content management systeem is niet nodig bij Weebly.