Vraag & Antwoord

Webdesign (HTML, CSS, Flash)

robots.txt

8 antwoorden
  • Hoi, Ik wil bij voorbaat alle zoekmachines [b:20a02033e1]niet[/b:20a02033e1] toelaten op mijn site, en alleen de grotere en/of Nederlandse wel toelaten (Google, MSN, Altavista, Ilse etc.). Dit met name om archivering door webarchivers te voorkomen, zoals die van [url]http://www.archive.org[/url]. Verder wil ik alle subdirectories en plaatjes ook uitsluiten van indexering. Eigenlijk komt het er dus op neer dat alleen de index-pagina geïndexeerd mag worden, zodat je bij Google bv. niet krijgt van 'Meerdere resultaten van [domein]' (ik had de vorige keer tig resultaten dynamisch gegenereerde pagina's (?page=&id=), en dat wil ik voorkomen). Daartoe had ik de volgende robots.txt opgesteld, maar ik weet niet of dit de efficiëntste manier is: [code:1:20a02033e1]User-agent: * Disallow: / #wordt alles verwijderd of alleen directories? # Allow the site to be indexed by the search engines specified below # Don't allow images to be indexed, nor subdirectories. # Google User-agent: googlebot Disallow: /images Disallow: /include Disallow: /css Disallow: /*? Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.gif$ Disallow: /*.psd$ Disallow: /*.bmp$ Disallow: /*.png$ # MSN User-agent: msnbot Disallow: /images Disallow: /include Disallow: /css Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.gif$ Disallow: /*.psd$ Disallow: /*.bmp$ Disallow: /*.png$ [/code:1:20a02033e1] Maar wellicht kan dit beter zo, alleen weet ik niet of de index.php dan wel geïndexeerd wordt (en alle andere directories en bestanden dus niet)? [code:1:20a02033e1]User-agent: * Disallow: User-agent: googlebot Disallow: / User-agent: msnbot Disallow: / [/code:1:20a02033e1] En als bovenstaande robots.txt beter is, is er dan ook een manier om meerdere bots in 1 keer te noemen zonder de wild-card te gebruiken? Bv.: [code:1:20a02033e1]User-agent: * Disallow: User-agent googlebot, msnbot Disallow: / [/code:1:20a02033e1] Is het met een robots.txt ook mogelijk om te voorkomen dat pagina's in de cache van Google en andere zoekmachines opgenomen worden, of gaat dit nog altijd via een meta-tag? Daar kan ik niks over vinden namelijk :oops:
  • Google heeft nog een andere bot speciaal voor plaatjes, etc. [code:1:767b2a470c] User-Agent: Googlebot-Image Disallow: / [/code:1:767b2a470c] Btw, veel succes. Het zal heel lastig worden... Niet alle spiders houden zich aan de regels van robots.txt.
  • Het bestaan van Googlebot-image was mij bekend, maar deze wordt toch ook geweigerd door: User-agent: * Disallow: / op te nemen bovenaan? Dus als ik het goed begrijp, hoef ik - in ieder geval bij Googlebot - de aparte disallows voor de extensies niet op te nemen omdat deze niet door Googlebot zelf worden geindexeerd, maar door Googlebot-image? Ik had een email gestuurd naar de helpdesk van MSN Search, omdat ik niet wist of MSN Search ook wildcards toestaat in een disallow (bij validatie wordt gemeldt dat Google dat toestaat, maar dat het 'volgens de regels' niet zo hoort). Ik heb een hele uitgebreide e-mail teruggekregen waarin de complete werking van de MSNbot wordt uitgelegd samen met een introductie van diegene die mij heeft geholpen en er wordt een stukje inlevingsvermogen getoond. Chapeau! Zo hoort een helpdesk antwoord te geven! :) Maar dat terzijde. Voor robots die zich niet houden aan robots.txt ga ik een PHP-script schrijven denk ik. Het schijnt ook mogelijk te zijn met .htaccess (mod_rewrite?). En anders is het jammer, je moet het ook weer niet te strict afsluiten want dan ga je mogelijk 'echte' bezoekers weren (denk ik).
  • Al eens gekeken op www.searchengineworld.com/robots/ ? Misschien word je daar wat wijzer mee (ik weet het niet). Wel is het zo dat het indexeren van veel pagina's op je site voordelig werkt voor zoekmachine-optimalisatie, dus het laten indexeren van slechts één pagina lijkt me niet zo handig. Trouwens, je kunt natuurlijk ook alle pagina's m.b.v. de robots-metatag op noindex zetten (als je ook een include voor je head hebt, doe je dat voor alle pagina's in één keer). Als je vervolgens de plaatjes in een map zet en die map met robots.txt op disallow zet, dan ben je ook klaar.
  • [quote:13b79fc67d="psychonetics"] Maar dat terzijde. Voor robots die zich niet houden aan robots.txt ga ik een PHP-script schrijven denk ik. Het schijnt ook mogelijk te zijn met .htaccess (mod_rewrite?). En anders is het jammer, je moet het ook weer niet te strict afsluiten want dan ga je mogelijk 'echte' bezoekers weren (denk ik).[/quote:13b79fc67d] Bedoel je mod_rewrite voor 'nette' URL's? Dat is sowieso wel verstandig, voor bezoekers, en prettige indexering.
  • [quote:cccc34bb6b="boelieboelie"]Al eens gekeken op www.searchengineworld.com/robots/ ? Misschien word je daar wat wijzer mee (ik weet het niet). Wel is het zo dat het indexeren van veel pagina's op je site voordelig werkt voor zoekmachine-optimalisatie, dus het laten indexeren van slechts één pagina lijkt me niet zo handig. [/quote:cccc34bb6b] Die site heb ik inderdaad al bezocht, maar ik vind dat daar niet zo heel veel uitgelegd wordt (of robots.txt is echt zo simpel als het lijkt 8) ), en dat die site vrij onoverzichtelijk is. Dat indexeren van 1 pagina slecht is voor SEO wist ik niet. Daar zal ik dan eens over na moeten gaan denken :roll: Soms zie je trouwens bij Google (alleen het eerste resultaat denk ik) meerdere links staan. Als je bijvoorbeeld op robots.txt zoekt, krijg je ook links als 'Robots.txt validator', 'SE tools', 'Spiders' en 'Search Engine World'. Wordt dat gedaan door Google of kan je zelf bepalen welke links daar komen te staan? En als het door Google wordt gedaan, is er dan iets waarmee je sommige van die links kan verwijderen of juist toevoegen of het in zijn geheel kan voorkomen? [quote:cccc34bb6b="boelieboelie"] Trouwens, je kunt natuurlijk ook alle pagina's m.b.v. de robots-metatag op noindex zetten (als je ook een include voor je head hebt, doe je dat voor alle pagina's in één keer). Als je vervolgens de plaatjes in een map zet en die map met robots.txt op disallow zet, dan ben je ook klaar.[/quote:cccc34bb6b] Ik heb meestal maar 1 head, die zit in index.php. De andere bestanden worden geinclude in een div. Dat zou dus vrij makkelijk moeten kunnen. Ik snap alleen niet waarom deze oplossing makkelijker zou zijn, want veel robots kijken toch niet meer naar de metatag? [quote:cccc34bb6b="fabiobruna"] Bedoel je mod_rewrite voor 'nette' URL's? Dat is sowieso wel verstandig, voor bezoekers, en prettige indexering.[/quote:cccc34bb6b] Ja dat bedoelde ik (heet dat niet multiviews?). Dan ga ik die uitdaging ook maar eens aan; nog nooit daarmee gewerkt :oops:
  • [quote:b42ef62dc3="psychonetics"]Dat indexeren van 1 pagina slecht is voor SEO wist ik niet.[/quote:b42ef62dc3]Ik bedoel daarmee overigens ook dat de aanwas aan pagina's meetelt. Anywayz, kijk zelf maar waar je rekening mee kunt houden: www.seomoz.org/articles/search-ranking-factors.php [quote:b42ef62dc3="psychonetics"]Soms zie je trouwens bij Google (alleen het eerste resultaat denk ik) meerdere links staan. [..] Wordt dat gedaan door Google of kan je zelf bepalen welke links daar komen te staan?[/quote:b42ef62dc3]Dat doet Google als Google denkt dat er nog een pagina is die net zo relevant is, daar heb je zelf weinig over te zeggen. (Wel kun je natuurlijk zorgen voor relevante pagina's.) [quote:b42ef62dc3="psychonetics"]Ik snap alleen niet waarom deze oplossing makkelijker zou zijn, want veel robots kijken toch niet meer naar de metatag?[/quote:b42ef62dc3]Zoekmachines kijken vaak niet naar de keywords en description, omdat er al jaren veel misbruik wordt gemaakt van die metatags. Ik raad overigens wel aan om een goede description te maken, het wordt weliswaar niet gebruikt voor positiebepaling, maar wel voor de omschrijving in de zoekmachine. Daarnaast zijn er diverse metatags die inderdaad weinig zinnig zijn, zoals author en copyright, maar met de robots-metatag wordt wel degelijk rekening gehouden!
  • [quote:e8f102cb47="psychonetics"]Soms zie je trouwens bij Google (alleen het eerste resultaat denk ik) meerdere links staan. [..] Wordt dat gedaan door Google of kan je zelf bepalen welke links daar komen te staan? [quote:e8f102cb47="boelieboelie"] Dat doet Google als Google denkt dat er nog een pagina is die net zo relevant is, daar heb je zelf weinig over te zeggen. (Wel kun je natuurlijk zorgen voor relevante pagina's.) [/quote:e8f102cb47] [/quote:e8f102cb47] Bedoeld psychonetics misschien dat er een verwijzing is geïndexeerd die verwijst naar zowel http://www.xyz.nl en http://xyz.nl? Want zoiets valt weer wel te regelen. Zie bijvoorbeeld: http://johnbokma.com/mexit/2004/04/12/rewritingurlsforgoogle.html

Beantwoord deze vraag

Weet jij het antwoord op deze vraag? Registreer of meld je aan met je account

Dit is een gearchiveerde pagina. Antwoorden is niet meer mogelijk.