© PXimport

WinHTTrack: lokaal websites bewaren!

Geplaatst: 19 februari 2021 - 07:12

Aangepast: 25 november 2022 - 10:47

Ronald Smit

Soms kom je unieke websites tegen met al even unieke informatie. Misschien al jarenlang niet meer onderhouden, zodat ze mogelijk op het punt van definitief verdwijnen staan. Jammer, want zo ben je de info ook kwijt. WinHTTrack biedt uitkomst: zo kun je lokaal websites bewaren!

Als je je bijvoorbeeld een beetje interesseert in historische documentatie van elektronica en (computer)hardware, loop je soms tegen een probleem aan. Tijdens je surftochten over het web kom je soms verdraaid interessante websites tegen. Alleen: soms zijn ze al vele jaren niet meer van updates voorzien. Verweesd dus. Blijkbaar betaalt iemand nog voor hosting van de site, of – nog onzekerder – is het een gebruikerssite van een of andere provider waar dan ook ter wereld. Feitelijk min of meer achterhaalde fenomenen die op het punt van verdwijnen staan. Daardoor kunnen schatten aan informatie verloren gaan. 

Denk aan bijvoorbeeld het debacle rondom Geocities. Toen het bedrijf daarachter de handdoek in de ring gooide, verdween daarmee een enorm deel aan vroege internetgeschiedenis. Het is zomaar een reden om een site te ‘redden’ en offline lokaal beschikbaar te maken direct vanaf je eigen pc (of NAS). Een andere reden kan zijn dat je in het vliegtuig of trein met beroerd internet gewoon een website vooraf wilt downloaden om offline eens rustig door te pluizen. 

Kan allemaal met HTTrack en de Windows-versie WinHTTRack. Je kunt de software downloaden vanaf https://www.httrack.com/page/2/en/index.html. Er zijn versies beschikbaar voor Windows, Linux en macOS. In dit artikel kijken we naar de Windows-versie. Vrees echter niet: het ziet er op alle besturingssystemen precies ’t zelfde uit. Waarbij geldt dat de app onder Linux & co draait via een lokale webserver – die alleen wordt gestart bij gebruik van de software – in je browser. De Windows-versie is een wat eenvoudig opgemaakt ‘echt’ programma.

Hou het netjes

Voordat we aan de slag gaan, is het wel zaak om even naar de fatsoensregels te kijken. Het is eigenlijk niet de bedoeling dat je in het wilde weg complete sites gaat downloaden. Degene die de website (wellicht nog) onderhoudt, betaalt namelijk hoogstwaarschijnlijk een maandelijks bedrag voor gemiddeld dataverkeer. Een site ‘leegtrekken’ kan daarop een aanslag vormen. Kortom: gebruik deze tool met beleid. Ook is het opletten wat de instellingen betreft, doe je dat niet helemaal oké dan loop je ’t risico zo ongeveer het complete internet te downloaden omdat er veel te veel externe links gevolgd gaan worden.

Project opzetten

Aan de slag. Als voorbeeld pakken we een van de alleroudste nog altijd in nagenoeg ongewijzigde vorm aanwezige website op het www: http://acme.com/. Ga nou niet ook precies die site downloaden, dat gaat de eigenaar niet leuk vinden. Is gewoon even een voorbeeldje! Start WinHTTrack, inmiddels te vinden in het menu Start. We gebruiken ACME even als voorbeeld omdat de uit 1991 stammende site grotendeels uit tekst bestaat en daarmee in z’n geheel lekker compact is, enkele Megabytes om precies te zijn (kom daar vandaag eens om…)

 Klik in het hoofdvenster van WinHTTRack op Volgende. Tik achter New project name (WinHTTrack is een beetje een mix van Nederlands en Engels) een naam voor het downloadproject in, in dit voorbeeld dus ACME. Standaard worden alle gedownloade sites bewaard in de map c:\My Web Sites; achter Base Path kun je hier een andere map opgeven. Bijvoorbeeld een share op je NAS.

Geef een projectnaam op.

© PXimport

Adres en op naar naar de opties

Klik weer op Volgende. Tik het webadres (URL) van de site in het grote witte vlak. Makkelijkst is uiteraard via Control-C de URL uit de adresbalk van je browser kopiëren en middels Control-V plakken. Ook kun je gebruik maken van de knop Add URL, maar dan zijn geen https-sites (alleen http) toe te voegen. Nu komen we bij het kloppend hart van (Win)HTTrack: klik op de knop Set options. De instellingen op de tabbladen Proxy, Scan Rules, Flow Control, Links, MIME types, Browser ID, Log, Index, Cache en Experts Only kun je in negen van de tien gevallen op de standaardinstellingen laten staan.

Tik of plak het webadres van de te downloaden site.

© PXimport

Limieten

Goed opletten wordt het op de tab Limits. Ten eerste kun je achter Maximum mirroring depth aangeven tot hoeveel niveau naar beneden links gevolgd mogen worden. Daarmee bedoelen we een link van homepage naar een achterliggende pagina (1), vanaf die pagina naar een daaronder liggende pagina (2), een link naar een daar weer onder liggende pagina (3) enzovoorts. Hoe dieper je gaat, hoe meer pagina’s er binnengehaald worden. Dat kan op complexe sites tientallen tot honderden Gigabytes aan data opleveren. Niet heel erg netjes en mogelijk lokaal uiteindelijk ook niet meer te behapstukken. 

Begin dus conservatief. Als later blijkt dat er essentiële pagina’s missen, kun je een project altijd opnieuw openen, de spiegeldiepte verhogen en de download opnieuw uitvoeren. In dat geval worden alléén de missende pagina’s binnengehaald. In dit voorbeeld – we weten dat het om een ultralichte site gaat – gaan we voor 5, en da’s best diep.

Extern op nul!

Zet vooral de Maximum external depth op 0. Doe je dat niet, dan worden ook off-site links gevolgd en voordat je ’t weet ben je dan ineens het halve internet aan ’t downloaden. Hou het bij alles wat bij de site hoort en laat externe pagina’s weg. De Max transfer rate (B/s) kun je anno 2021 met breedbandinternet van enkele honderden Mbps of meer downloadsnelheid wat ons betreft net zo goed op iets als 999999999 zetten, tenzij je de site niet wilt overbelasten met jouw downloadactie. Ook het veld leeg laten lijkt te werken, de maximale downloadsnelheid moet dan gehaald worden. Blijkt dat je daarmee voor urenlang je internetverbinding nagenoeg onbruikbaar maakt, dan moet je hier toch een remmende factor invoeren.

Let op de limieten.

© PXimport

Build

Op de tab Build kun je eventueel de lokale opslagstructuur naar wens aanpassen. Standaard wordt de oorspronkelijke site-structuur aangehouden qua mappen en bestanden. Da’s meestal het meest praktisch, maar als je wat anders wilt dan is dit de plek om dat te regelen.

Robot-instructies volgen of niet?

Op de tab Spider moet je even kijken naar het selectiemenu achter Spider:. Laat je daar de standaardselectie follow robot.txt rules staan, dan is de kans groot dat de site of grote delen daarvan niet binnengehaald worden. Minder netjes (maar wel gegarandeerd werkend) is de optie no robots.txt rules. Maar goed: als je een site maar één keertje download… Je hebt het niet van ons!

Historische laatste instellingen

Klik op OK en Volgende. Nu zie je een historisch stukje software in de Windows-versie (niet terug te vinden in de Linux-variant: het selectiemenu onder Remote connect dat overduidelijk nog uit het tijdperk van telefoonmodems stamt. Kies hier simpelweg de optie Do not connect to a provider (already connected) en schakel de optie Disconnect when finished uit, eventueel ook de optie Shutdown PC when finished. Klik op Voltooien en de download begint. Bij grote sites kan dit een proces van uren of zelfs dagen zijn, zeker als de betreffende site de downloadsnelheid beperkt (wat bij modernere sites vaak het geval zal zijn). 

Na afloop kun je het logboek nog even doorlopen om te kijken of er belangrijke zaken gemist zijn. Klik je op de knop Browse Mirrored website, dan opent de site in je browser. Dat deze nu lokaal geladen wordt is overduidelijk te zien aan de opbouw van de URL in de adresbalk en de linkinfo (te zien als je je muis even boven een link houdt).

Wat geschiedkundig interessante settings.

© PXimport

Klaar en offline browsen maar!

Wil je de site later openen, start dan de Verkenner en blader naar de genoemde map c:\My Web Sites (of een zelfgekozen alternatief). Dubbelklik op het bestand index.html en je ziet dat WinHTTrack een mooi menu heeft opgebouwd. Voor één gedownloade site niet zo heel interessant. Maar je raadt het al: als je meerder sites gaat binnenhalen en je gebruikt steeds dezelfde basismap, dan ontstaat vanzelf een handig ‘startmenu’.

Deel dit artikel
Voeg toe aan favorieten
ID.nl logo

ID.nl, onderdeel van Reshift BV, is in 2022 gestart en uitgegroeid tot de meest toonaangevende en complete consumentensite van Nederland. Het doel van ID.nl is om de consument te helpen met alle technologie die hoort bij het dagelijks leven: van smart-health-meters tot e-bikes, van warmtepompen tot zonnepanelen - en alles daar tussenin!

Duidelijk, betrouwbaar en onafhankelijk: ID.nl maakt moeilijke dingen makkelijk.

Contact

ID.nl

Nijverheidsweg 18

2031 CP Haarlem

info@id.nl

Telefoon: 023-5430000