AI verkeer op je website tegenhouden of niet?

Om AI systemen zoals ChatGPT of Gemini van Google te trainen, gebruiken bedrijven onder meer teksten en informatie die ze op jouw website vinden. De systemen doorzoeken automatisch alle sites af en nemen jouw zorgvuldig samengestelde informatief van de site over en deze worden gebruikt voor AI aangedreven antwoorden.

Gelukkig heb je invloed op wat ze wel en niet mogen overnemen van je website. We stellen dan samen met de klant een Robotplan op. Hierin leggen we precies vast welke bot welke informatie wel of niet mag overnemen. Je kunt hiermee aangeven dat bepaalde delen van je site niet vindbaar moeten zijn in Google of juist wel voor AI-bots.

Welke AI-bots houden we rekening mee?

Om dit verkeer goed te regelen gebruiken we robots.txt. Een gestandaardiseerd bestand waarin we precies aangeven welke map wel of niet beschikbaar is voor welke bot.

Common Crawl verzamelt trainingsdata voor AI-modellen die vervolgens voor iedereen gratis te gebruiken is als open data. Ook grote bedrijven als OpenAI gebruiken de data van Common Crawl om AI-modellen te trainen.

GPTBot, de bot achter ChatGPT en het bijbehorende taalmodel GPT, maar ook veel andere AI-modellen.

Als een ChatGPT-user vraagt om informatie op te zoeken op een website, proberen de servers van OpenAI een webpagina te bezoeken en in te laden. Deze wordt niet gebruikt als trainingsdata, maar eenmalig om de vraag van die gebruiker te beantwoorden.

Naast het indexeren van websites voor zijn zoekmachine, heeft Google(-extended) ook een bot die trainingsdata verzamelt voor zijn AI-modellen. Als je die blokkeert heeft dat geen effect op je vindbaarheid op Google via Googlebot.

Claude-web is een belangrijke concurrent van OpenAI, die zich profileert als ‘veiliger’ dan andere AI-bedrijven.

Perplexity heeft een zoekmachine gebouwd, die zoekvragen probeert te beantwoorden door direct het antwoord te geven in plaats van een lijst linkjes. De benodigde kennis haalt een bot van websites op het internet.

Verder zien we bots als: Bingbot, DuckDuckBot, Applebot, Slurp, Exabot, SeznamBot, AndiBot, FirecrawlAgent, PhindBot, OAI-SearchBot, YouBot, CCBot.

Naast AI bots proberen we ook ander verkeer informatie mee te geven wat ze wel en niet mogen indexeren. Zo blokkeren we vaak standaard SEO bots als: AhrefsBot, SemrushBot, Moz, ScreamingFrogSEOSpider, SpyFu, SEOkicks-Robot, SimilarSitesBot, MJ12bot, DotBot, DataForSeoBot, SerpstatBot, NetcraftSurveyAgent, BLEXBot, MegaIndex.ru, LinkpadBot, PetalBot.

We kunnen dus per bot exact inregelen wat deze wel of niet mag indexeren.

Wat is dan een LLMs bestand?

LLMs.txt is een speciaal aanvullend tekstbestand waarmee websites beter begrepen kunnen worden door kunstmatige-intelligentiesystemen en grote taalmodellen. Doordat dit bestand zich in de root-map van jouw website bevindt, helpt het kunstmatige-intelligentiesystemen zoals ChatGPT, Google Gemini, Claude en Perplexity om de inhoud van de site nauwkeuriger en efficiënter te verwerken.

Onze plug-ins genereren deze bestanden automatisch, maar natuurlijk alleen als dit is toegestaan in de afspraken die we vastleggen in de Robots.txt

Meer weten over AI, bots en het blokkeren van verkeer?
Neem contact op met De Heren Van.

De Heren Van

GRATIS
BEKIJK