WinHTTrack: website downloaden voor offline gebruik

© PXimport

WinHTTrack: website downloaden voor offline gebruik

Geplaatst: 29 april 2021 - 08:14

Aangepast: 25 november 2022 - 10:54

Ronald Smit

Soms kom je unieke websites tegen met al even bijzondere informatie. Misschien al jarenlang niet meer onderhouden, zodat ze mogelijk op het punt staan definitief te verdwijnen. In dit geval kun je de website downloaden voor offline gebruik .

Tijdens surftochten over het web kom je regelmatig verdraaid interessante websites tegen. Alleen: soms zijn ze al vele jaren niet meer van updates voorzien. Verweesd dus. Blijkbaar betaalt iemand nog voor hosting van de site, of – nog onzekerder – is het een lang vergeten gebruikerssite van een of andere provider waar dan ook ter wereld. 

Feitelijk min of meer achterhaalde fenomenen die op het punt van verdwijnen staan. Het is zomaar een reden om een site te ‘redden’ en offline lokaal beschikbaar te maken direct vanaf je eigen pc (of nas). Een andere reden kan zijn dat je in het vliegtuig of trein met beroerd internet gewoon een website vooraf wilt downloaden om offline eens rustig door te pluizen. 

Bovenstaande kan allemaal met WinHTTRack. Er zijn versies beschikbaar voor Windows, Linux en macOS. Wel is het eigenlijk niet de bedoeling dat je in het wilde weg complete websites gaat downloaden. Degene die de website onderhoudt, betaalt namelijk hoogstwaarschijnlijk een maandelijks bedrag voor gemiddeld dataverkeer. Een site ‘leegtrekken’ kan daarop een aanslag vormen. Gebruik deze tool daarom met beleid.

Project opzetten

Aan de slag. Als voorbeeld pakken we een van de alleroudste, nog altijd in nagenoeg ongewijzigde vorm, aanwezige websites op het web, acme.com. Deze gebruiken we hier als voorbeeld, maar ga nou niet ook precies die site downloaden, dat gaat de eigenaar niet leuk vinden. 

We gebruiken ACME even als voorbeeld omdat de uit 1991 stammende site grotendeels uit tekst bestaat en daarmee in z’n geheel lekker compact is. Enkele megabytes om precies te zijn (kom daar vandaag eens om…).

Start WinHTTrack, inmiddels na installatie te vinden in het menu Start. Klik in het hoofdvenster van WinHTTRack op Volgende. Tik achter New project name (WinHTTrack is een mix van Nederlands en Engels) een naam voor het downloadproject in, in dit voorbeeld dus ACME. Standaard worden alle gedownloade sites bewaard in de map c:\My Web Sites. achter Base Path kun je hier een andere map opgeven, zoals een share op de NAS.

 

© PXimport

Klik weer op Volgende. Tik het webadres (URL) van de site in het grote witte vlak. Het gemakkelijkste is uiteraard via Control-C de URL uit de adresbalk van je browser te kopiëren en met Control-V te plakken. Ook kun je gebruik maken van de knop Add URL, maar daarmee kun je geen https-sites toevoegen (alleen http). 

Nu komen we bij het kloppend hart van (Win)HTTrack: klik op de knop Set options. De instellingen op de tabbladen Proxy, Scan Rules, Flow Control, Links, MIME types, Browser ID, Log, Index, Cache en Experts Only kun je in negen van de tien gevallen op de standaardinstellingen laten staan.

Let even goed op bij de tab Limits. Ten eerste kun je achter Maximum mirroring depth aangeven tot hoeveel niveaus naar beneden links gevolgd mogen worden. Daarmee bedoelen we een link van de homepage naar een achterliggende pagina (een), vanaf die pagina naar een daaronder liggende pagina (twee), een link naar een daar weer onder liggende pagina (drie) enzovoorts.

Hoe dieper je gaat, hoe meer pagina’s er binnengehaald worden. Dat kan op complexe sites tientallen tot honderden gigabytes aan data opleveren. Niet heel erg netjes en mogelijk lokaal uiteindelijk ook niet meer te behapstukken.

Begin dus conservatief. Als later blijkt dat er essentiële pagina’s missen, kun je een project altijd opnieuw openen, de spiegeldiepte verhogen en de download opnieuw uitvoeren. In dat geval worden alléén de missende pagina’s binnengehaald.

 

© PXimport

Zet vooral de Maximum external depth op nul. Doe je dat niet, dan worden ook off-site links gevolgd en voordat je het weet ben je ineens het halve internet aan het downloaden. Hou het bij alles wat bij de site hoort en laat externe pagina’s weg. De Max transfer rate (B/s) kun je anno 2021 met breedbandinternet van enkele honderden Mb/s of meer downloadsnelheid wat ons betreft net zo goed op iets als 999999999 zetten, tenzij je de site niet wilt overbelasten met je downloadactie. 

Ook het veld leeg laten lijkt te werken. De maximale downloadsnelheid moet dan gehaald worden. Blijkt dat daarmee urenlang je internetverbinding nagenoeg onbruikbaar is, dan voer je hier toch een remmende factor in.

Meer instellingen

Op de tab Build kun je eventueel de lokale opslagstructuur naar wens aanpassen. Standaard wordt de oorspronkelijke site-structuur aangehouden qua mappen en bestanden. Dat is meestal het meest praktisch, maar als je wat anders wilt dan is dit de plek om dat te regelen.

Op de tab Spider kijk je even naar het selectiemenu achter Spider:. Laat je daar de standaardselectie follow robot.txt rules staan, dan is de kans groot dat de site of grote delen daarvan niet binnengehaald worden. Minder netjes (maar wel gegarandeerd werkend) is de optie no robots.txt rules. Maar goed: als je een site maar één keertje download …

 

© PXimport

Klik op OK en Volgende. Nu zie je een historisch stukje instellingen in de Windows-versie: het selectiemenu onder Remote connect dat overduidelijk nog uit het tijdperk van telefoonmodems stamt. Kies hier simpelweg de optie Do not connect to a provider (already connected) en schakel de optie Disconnect when finished uit. Eventueel ook de optie Shutdown PC when finished. Klik op Voltooien en de download begint. 

Bij grote sites kan dit een proces van uren of zelfs dagen zijn, zeker als de betreffende site de downloadsnelheid beperkt.

Na afloop kun je het logboek nog even doorlopen om te kijken of er belangrijke zaken missen. Klik je op de knop Browse Mirrored website, dan opent de site in de browser. Dat deze nu lokaal geladen wordt is overduidelijk te zien aan de opbouw van de URL in de adresbalk en de linkinfo (te zien als je de muiscursor even boven een link houdt).

Wil je de site later openen, start dan de Verkenner en blader naar de genoemde map c:\My Web Sites (of een zelfgekozen alternatief). Dubbelklik op het bestand index.html en je ziet dat WinHTTrack een mooi menu heeft opgebouwd! Je kun de site nu zo vaak bezoeken als je wilt, ook als de oorspronkelijke website online niet meer bestaat.

Deel dit artikel
Voeg toe aan favorieten
ID.nl logo

ID.nl, onderdeel van Reshift BV, is in 2022 gestart en uitgegroeid tot de meest toonaangevende en complete consumentensite van Nederland. Het doel van ID.nl is om de consument te helpen met alle technologie die hoort bij het dagelijks leven: van smart-health-meters tot e-bikes, van warmtepompen tot zonnepanelen - en alles daar tussenin!

Duidelijk, betrouwbaar en onafhankelijk: ID.nl maakt moeilijke dingen makkelijk.

Contact

ID.nl

Nijverheidsweg 18

2031 CP Haarlem

info@id.nl

Telefoon: 023-5430000