Vraag & Antwoord

Moederborden, processors, overklokken, casemodding en koeling

Pentium 4 of niet?

20 antwoorden
  • Hallo iedereen, Ik ben al enige tijd van plan een computer zelf in elkaar te zetten, en vraag me nu af wat voor processor ik er in zal gaan zetten. Ik heb eigenlijk nog niets uitgesloten, maar ik zit te denken over een P4. Ik heb ooit in de Computer Totaal gelezen dat een P-III een P4 makkelijk 'aankon' bij niet-geoptimaliseerde software. Waardoor komt dit? Ik ben niet van plan geoptimaliseerde software te gebruiken, dus kan het voordeliger zijn een Celeron, Xeon of AMD processor te nemen i. p. v. een P4. Wie weet waarom de P4 destijds zoveel nare reviews heeft gekregen, en waarom de P-III hem versloeg?
  • nah in principe is de P4 inmiddels gewoon 10 x beter dan een P3 .. onder andere qua cache en architectuur ... een celeron kan tricky zijn, want er zijn meerdere modellen in omloop, waarbij het het voornaamste verschil in de grootte van de cache zit ... Em dat maakt ene hele berg verschil in prestaties Celeron is in principe een ' armoede' processor te vergelijken met de duron van AMD, echter imho is de duron 10 x beter ... zie je vaak in echte low budget systems en op kantoren waar ze niet echte proceesorkr8 nodig hebben Qua prijs zijn de Xp's van AMD misschien wel aantrekkelijker dan een P4 en in mijn ogen minimaal net zo goed ( soms zelfs beter... heel zelden ook qua pure rekenkracht wat minder ) dan een P4... Al vind ik dat prijsverschil tegenwoordig meevallen ...
  • prima uitleg ..... (kopieren/plakken) .....FoXiERotjEknoR :P ik vind alleen dat ze nog echt wel goedkoper zijn, alleen als je naar de top-modelen gaat kijken is er niet zoveel verschil in prijs.
  • Ok, dank je voor die uitleg! Destijds zijn er wel veel nare reviews geweest over de P4, en benchmarks (ongeoptimaliseerd) die lieten zien dat de PIII veel sneller was. Hoe is dit dan te verklaren?? Dan weet ik tenminste waar ik op moet letten. Voorbeeld: http://www.turbotech.ch/articles2000/001125-p3dual_vs_p4k7.html
  • ik snap waarvoor je dat denkt, maar er staat op de site: [quote:21abc27e2b][i:21abc27e2b]Shocking as it might sound, a [b:21abc27e2b]dual[/b:21abc27e2b] Pentium III 800 MHz system gives you more power than a 1.5 GHz Pentium 4 or a 1.2 GHz Athlon[/i:21abc27e2b][/quote:21abc27e2b] dat zijn dus 2 processoren :wink: en dat is dus beter jah
  • *shine* En zoveel verschil met een standaard backup progje en knippen en plakken is er niet, imo uiteraard ... EEn img of een clone is wat dat betreft een heel ander verhaal... nu weer in het topic zien te kruipen ... nah ik zat laast weer eens in een blaadje te bladeren en zat ff bij alternate reclame te wipperen... maar vond het eigenlijk best tegenvallen van AMD... Ik d8 dat die verschillen echt groter waren bv vergeleken met een jaartje terug. alhoewel, ik vind ze nog steeds TE groot :wink:
  • Dan heb ik hier nog een link, van CNET: http://www.turbotech.ch/articles2000/001125-p3dual_vs_p4k7.html Nou, 't is wel duidelijk dat iedereen hier positiever is tegenover de P4. Maaruh, weet dan niemand hoe dat nou heette? Ik zal wel ff een uitgebreidere uitleg geven: (Volgens mij was het in de Computer Totaal dat ik dit las) De P4 heeft iets nieuws, dat de processor alvast bedenkt wat voor stap de volgende waarschijnlijk is. Die voert-ie dan ook uit. Was dit niet de goede stap, moet deze instructie eerst ongedaan worden gemaakt, en vervolgens moet de goede stap gemaakt worden. Dit maakt de P4 op ongeoptimaliseerde software zo langzaam in vergelijking (benchmarks) met de PIII. Moet ik er wel even bijzeggen dat de P4 bij geoptimaliseerde software wel 2x zo snel kan zijn. Hoe heet dit stap-van-te-voren systeem van Intel nou? En hebben andere processors dit ook? Zo ja, gebruikt AMD inmiddels ook zo'n soort systeem? Ik weet toch echt vrij zeker dat de Computer Totaal bij de release van de P4 zo'n soort review gaf, is er niemand die dit toevallig nog weet?
  • De pentium3 en de amd processoren zijn gemaakt om zo snel mogelijk te rekenen. De pentium4 processor is een ander ontwerp en is gemaakt om zo snel mogelijk data rond te pompen en zo hoog mogelijke kloksnelheden te behalen. De nieuwste pentium4 processoren zouden volgens benchmarks sneller zijn dan de athlon xp processoren.
  • Dank je... dan is bijna het hele probleem van de wereld. Alleen die term... Er was een term voor het stap vooruit nemen van de P4...
  • Ok, er is toen veel commentaar geweest op de P4, omdat de laatste P3 core, de Tualatin nog lang niet aan zijn einde zat, erg krachtig en tegelijkertijd niet veel stroom gebruikt. De Tualatin was echter bedoeld voor notebooks en servers. Dat neemt niet weg dat de eertse P4 Wiliamettes door de Tualatin is veel gevallen vierkant eruit werden getrokken. Inmiddels is dat absoluut niet meer relevant, aangezien de P4 al op een klok van 3,06GHz zit en de Tualatin op 1400MHz gehouden is. Bovendien is er inmiddels een nieuwe P4 core, the Northwood, die veel beter presteerd.
  • Was die term niet Branch Prediction?? Waarschijnlijk heb je dit gelezen in C!T van september 2002, het artikel over Intel Itanium en AMD Hammer... Hierin wordt namelijk gesproken over het 'gokken' naar de volgende opdracht (oftewel Branch Prediction) bij Intel's processor...
  • Wizz15, je bent geweldig!!! Volgens mij is dat het inderdaad. Ik heb het op internet nog ff nagekeken en het lijkt er zeker op!! Branch Prediction: http://x86.ddj.com/articles/branch/branchprediction.htm OK, nu kan ik mijn vraag beter formuleren: Welke processoren Predicten Branches (hmmm Nederengels?) Dus: Hebben de nieuwste Celeron's dat ook, en heeft AMD ook iets soortgelijks? En hoe zit het met de Xeon processoren? Echt bedankt, Wizz15!!! :D :D :D
  • De stabiliteit wordt niet alleen bepaald door de proc.
  • [quote:e0271d6df6]nah in principe is de P4 inmiddels gewoon 10 x beter dan een P3 .. onder andere qua cache en architectuur ... [/quote:e0271d6df6] Hmmm, eerder qua kloksnelheid en omdat Intel de PIII niet verder heeft ontwikkeld. [quote:e0271d6df6]een celeron kan tricky zijn, want er zijn meerdere modellen in omloop, waarbij het het voornaamste verschil in de grootte van de cache zit ..[/quote:e0271d6df6] Nee, het voornaamste verschil is of het een PIII Celeron of een P4 Celeron is. P4 Celeron is waardeloos, PIII Celeron veroudert. Dus geen van beide aanschaffen. [quote:e0271d6df6]Celeron is in principe een ' armoede' processor te vergelijken met de duron van AMD, echter imho is de duron 10 x beter [/quote:e0271d6df6] Vroeger wel, maar tegenwoordig is de Duron al een tijdje uit productie en ook de moeite niet meer waard - moderne Celeorns zullen beter presteren... [quote:e0271d6df6]Qua prijs zijn de Xp's van AMD misschien wel aantrekkelijker dan een P4 en in mijn ogen minimaal net zo goed ( soms zelfs beter... heel zelden ook qua pure rekenkracht wat minder ) dan een P4... [/quote:e0271d6df6] Prestatieverhoudingen verschillen sterk per applicatie... Verder zijn 865/875 moederborden duurder dan nForce2 voor AMD. AMD heeft nog steeds de beste prijs/prestatieverhouding, alleen voor de hoogste snelheden is dat een beetje discutabel. [quote:e0271d6df6]De P4 heeft iets nieuws, dat de processor alvast bedenkt wat voor stap de volgende waarschijnlijk is. Die voert-ie dan ook uit.[/quote:e0271d6df6] Branchprediction is niets nieuws, de Pentium 1 had dat al. Ze hebben de prediction wel steeds verbeterd, maar dat was ook noodzaak, omdat moderne CPU's veel zwaarder te lijden hebben van een misprediction. Pentium 4 lijdt daar echt zwaar onder. [quote:e0271d6df6]De pentium3 en de amd processoren zijn gemaakt om zo snel mogelijk te rekenen. De pentium4 processor is een ander ontwerp en is gemaakt om zo snel mogelijk data rond te pompen en zo hoog mogelijke kloksnelheden te behalen.[/quote:e0271d6df6] Tja, het zijn verschillende manieren om hetzelfde werk gedaan te krijgen. Het is niet zo dat een bepaalde methode beter is. Overigens is K7 ook ontworpen voor hoge kloksnelheden, wat bewezen wordt door het feit de K7 architectuur nog steeds de op een na hoogst geklokte CPU ter wereld is. P4 is alleen nog extremer. [quote:e0271d6df6]Hierin wordt namelijk gesproken over het 'gokken' naar de volgende opdracht (oftewel Branch Prediction) bij Intel's processor...[/quote:e0271d6df6] Als het om Itanium gaat heet het Branch Predication, de CPU probeert niet te voorspellen, maar voert gewoon beide mogelijkheden uit. [quote:e0271d6df6]Welke processoren Predicten Branches (hmmm Nederengels?) [/quote:e0271d6df6] Alle CPU's sinds de Pentium 1 hebben een BPU, Branch Prediction Unit, en zelfs de 486 misschien wel (gaat me een beetje te ver terug :wink: ) [quote:e0271d6df6]De stabiliteit wordt niet alleen bepaald door de proc.[/quote:e0271d6df6] Sterker nog, de CPU zelf is zelden of nooit verantwoordelijk voor instabiliteit van een systeem. TMaster, als ik je was zou ik naar www.Anandtech.com gaan en vervolgens een paar CPU reviews doorlezen, voornamelijk de benchmarks. Dan krijg je een idee van de prestatieverhoudingen. Vervolgens vergelijk je die met de prijzen en dan kun je kijken wat jou het beste uitkomt. Neem de geheugenprijzen en die van de moederborden ook meteen mee. Als je meer wilt leren over CPU architectuur juich ik dat toe (weinig doen dat hier :cry: ) en ik wil je er graag mee helpen. Maar voor het bepalen van wat de meest geschikte CPU voor je is heeft het weinig nut, omdat de architectuur zoveel verschillende aspecten heeft. Je moet ze allemaal begrijpen, voordat je de prestaties van een CPU kunt voorspellen - en zelfs dan blijft het natte vinger werk.
  • Ik vind stabiliteitsproblemen vaak terug te herleiden in een combinatie met types geheugen en de rest van de machine.
  • Om even in te haken op het verhaal van egslim:[quote:66554f02fa]Branchprediction is niets nieuws, de Pentium 1 had dat al. Ze hebben de prediction wel steeds verbeterd, maar dat was ook noodzaak, omdat moderne CPU's veel zwaarder te lijden hebben van een misprediction. Pentium 4 lijdt daar echt zwaar onder. [/quote:66554f02fa]De reden dat de eerste P4's daar zo onder te lijden hadden had ook te maken met de beperkte (128kB?) cache grootte van de Willamette core. De nieuwe generatie P4's met Northwood core heeft een cache van 512kB wat positiever uitpakt. De reden dan een misprediction zo beroerd uit kan pakken heeft te maken met de langere pipelines in moderne processoren. Stel je een processor voor als een lange lopende band waar in bv. 20 stappen een product in elkaar gezet wordt. Dat betekend dat het even tijd kost voor de eerste resultaten van de band af rollen (20 stappen om precies te zijn) Als dat eenmaal op gang gebracht is, heb je echter bij iedere opvolgende stap een product dat klaar is. Stel nou dat iemand aan het begin van die lopende band een 'verkeerd half-product' erin stopt (een misprediction dus), dan moet de gehele band leeg worden gehaald en opnieuw gevuld worden. Dan kost het dus weer 20 stappen voor er resultaat is. De P4 heeft langere Pipelines (meer stappen) dan bijv. de P3 en de Athlon(XP) waardoor mispredictions zwaarder wegen. In het ideale geval van géén mispredictions geldt echter: hoe langer de pipeline, hoe beter. Het is dus een ontwerp keuze. 1 stap staat gelijk aan 1 CPU cycle, dus er worden per seconde ettelijke miljoenen instructies uitgevoerd. Toch zorgen die mispredictions voor een meetbare vertraging. Geoptimaliseerde software betekent o.a. dat de software code en de branch prediction module goed op elkaar afgestemd zijn, waardoor er relatief weinig mispredictions plaats vinden. Om de data die uit de pipeline komt tijdelijk op te slaan en voor de prefetching van data ("het op voorhand ophalen van te gebruiken data") is een grotere cache van positieve invloed. Bovenstaande verhaal is trouwens ook verantwoordelijk voor de niet al te denderende prestaties van de nieuwe generatie Celeron's; deze hebben een weer een beperkte cache (128kB?) zoals de Willamettes, terwijl het ontwerp van de P4 daar juist zo sterk op leunt.
  • Weer een paar aanvullingen: :wink: [quote:873b00b976]De reden dat de eerste P4's daar zo onder te lijden hadden had ook te maken met de beperkte (128kB?) cache grootte van de Willamette core. De nieuwe generatie P4's met Northwood core heeft een cache van 512kB wat positiever uitpakt. [/quote:873b00b976] Willamette had 256kB cache, Celerons inderdaad slechts 128kB. Verder heeft het formaat van de cache geen invloed op de penalty van een verkeerd genomen branch, veel belangrijker is dat de gemiddelde latency erdoor wordt verlaagd. Instructies die speculatief zijn uitgevoerd (voordat de richting van de branch bekend is) worden nog niet naar de caches wegeschreven. Ze worden eerst opgeslagen in een aantal buffers. In bijna alle gevallen zullen de instructies die de richting van de branch moeten bepalen bovendien eerder klaar zijn dan de speculatief uitgevoerde instructies. [quote:873b00b976]Dan kost het dus weer 20 stappen voor er resultaat is.[/quote:873b00b976] Voor P4 is dat 23 stappen, omdat het eerst drie cycli duurt om de pipeline leeg te krijgen en daarna kan hij pas weer opnieuw gevuld worden. [quote:873b00b976]In het ideale geval van géén mispredictions geldt echter: hoe langer de pipeline, hoe beter. Het is dus een ontwerp keuze. [/quote:873b00b976] Het voordeel van een langere pipeline is dat de kloksnelheid hoger kan zijn. Op dezelfde kloksnelheid heeft een langere pipeline alleen nadelen.
  • [quote:4801ef7cf3="egslim"]Verder heeft het formaat van de cache geen invloed op de penalty van een verkeerd genomen branch, veel belangrijker is dat de gemiddelde latency erdoor wordt verlaagd.[/quote:4801ef7cf3]Je bedoelt latency tussen ALU, cache en main memory?[quote:4801ef7cf3]Instructies die speculatief zijn uitgevoerd (voordat de richting van de branch bekend is) worden nog niet naar de caches wegeschreven. Ze worden eerst opgeslagen in een aantal buffers.[/quote:4801ef7cf3]Die buffers zijn dan dus geen onderdeel van de cache? Of iig even groot in zowel de Willamette als de Northwood? Anders haal je daar wel voordeel uit lijkt me?[quote:4801ef7cf3]Voor P4 is dat 23 stappen, omdat het eerst drie cycli duurt om de pipeline leeg te krijgen en daarna kan hij pas weer opnieuw gevuld worden.[/quote:4801ef7cf3]Mijn 20 stappen waren maar een willekeurig rekenvoorbeeld. Bedankt voor de aanvulling / verbetering.[quote:4801ef7cf3]Het voordeel van een langere pipeline is dat de kloksnelheid hoger kan zijn. Op dezelfde kloksnelheid heeft een langere pipeline alleen nadelen.[/quote:4801ef7cf3]Ben ik gedeeltelijk met je eens. Ja, een langere pipeline zorgt ervoor dat je kloksnelheid hoger kan zijn. En nee, een langere pipeline op dezelfde kloksnelheid is altijd nadeling. Het is zeker zo op gelijke kloksnelheid de processor met de langste pipeline het langst bezig is met vullen daarvan. Echter, hoe langer de pipeline, hoe hoger de throughput. Throughput staat of valt echter met het gevuld houden van de pipeline met correcte data. In het geval van een gelijk aantal mispredictions t.o.v de processor met de kortere pipeline, holt de effectiviteit hard achteruit. Idd lees bijv. [url=http://www.baznet.freeserve.co.uk/Pentium4-page2.htm]hier[/url] dat de eerste P4's op 1,5 Ghz moesten draaien om een P3-1Ghz bij te benen. Verder hebben ze het trouwens over een 20 stappen pipeline. Ook stellen ze dat in het geval van een misprediction de laatst gelatchte instructie door de gehele pipeline moet om 'm leeg te krijgen. Ik vertrouw er echter op dat jij een betere kennis hebt van de P4 architectuur dan ik. Uiteindelijk maken de exacte cijfers ook niet zoveel uit, het gaat om de achterliggende theorie lijkt me.
  • [quote:0c2cb0b191]Je bedoelt latency tussen ALU, cache en main memory?[/quote:0c2cb0b191] Ja, de latency tussen de core (ALU + FPU + schedulers + etc.) en het geheugen. Cache heeft een veel lagere latency dan het geheugen ( bijvoorbeeld 7 klokcycli versus 200 cycli). Een grotere cache betekent dat dat de gezochte data zich vaker in de cache bevind. Dat brengt de gemiddelde latency omlaag. [quote:0c2cb0b191]Die buffers zijn dan dus geen onderdeel van de cache? Of iig even groot in zowel de Willamette als de Northwood? Anders haal je daar wel voordeel uit lijkt me?[/quote:0c2cb0b191] Deze buffers zijn geen onderdeel van de cache, maar van het mechanisme dat naar de caches schrijft. Dat schrijven gebeurt pas als de CPU zeker weet dat de gegevens de juiste zijn. Bij mijn weten zijn die buffers in Northwood even groot als die in Willamette, kan me vergissen. In bijna alle gevallen zal de instructie die de richting van de branch bepaalt eerder klaar zijn dan de speculatief uitgevoerde instructie, dus tegen de tijd dat de speculatief uitgevoerde instructie klaar is kan deze meteen worden weggeschreven. Grotere buffers zouden dus niet vaak zin hebben. [quote:0c2cb0b191]hoe langer de pipeline, hoe hoger de throughput.[/quote:0c2cb0b191] Een continue volledig gevulde pipeline (zonder branches) zal, onafhankelijk van de kloksnelheid en onafhankelijk van de lengte van de pipeline een instructie per cyclus kunnen uitbraken. Met een hogere kloksnelheid zal de throughput dus inderdaad hoger zijn, [i:0c2cb0b191]door die hogere kloksnelheid[/i:0c2cb0b191]. Met dezelfde kloksnelheid heeft een kortere pipeline evenveel throughput als een lange. Maar dat bedoelde je waarschijnlijk ook. [quote:0c2cb0b191]Idd lees bijv. hier dat de eerste P4's op 1,5 Ghz moesten draaien om een P3-1Ghz bij te benen. Verder hebben ze het trouwens over een 20 stappen pipeline.[/quote:0c2cb0b191] Je moet hierbij bedenken dat een P4 zeker niet hetzelfde is als een PIII met uitgerekte pipeline. P4 heeft een aantal geavanceerdere features, maar ook een enkele zwakke plekken ten opzichte van PIII. In die tijd was ook vrijwel alle software geoptimaliseerd voor PIII. En ik zie dat ik me een beetje onhandig heb uitgedrukt :oops: De lengte van het deel van de pipeline die geflushed moet worden bij een misprediction is inderdaad 20 stappen. De flush zelf duurt 3 cycli, zo kwam ik aan m'n 23. Dat zijn dus 23 cylci, geen 23 stappen :oops: Echter niet de gehele pipeline hoeft geflushed te worden, de totale lengte daarvan is 28 stappen.
  • Egslim, ik kon het niet laten toch nog hier en daar commentaar toe te voegen. :wink: [quote:479d172931="egslim"]Een grotere cache betekent dat dat de gezochte data zich vaker in de cache bevind. Dat brengt de gemiddelde latency omlaag.[/quote:479d172931]Volledig mee eens.[quote:479d172931]Deze buffers zijn geen onderdeel van de cache, maar van het mechanisme dat naar de caches schrijft. Dat schrijven gebeurt pas als de CPU zeker weet dat de gegevens de juiste zijn. Bij mijn weten zijn die buffers in Northwood even groot als die in Willamette, kan me vergissen.[/quote:479d172931]Dank je, weer wat geleerd. [quote:479d172931]Een continue volledig gevulde pipeline (zonder branches) zal, onafhankelijk van de kloksnelheid en onafhankelijk van de lengte van de pipeline een instructie per cyclus kunnen uitbraken. Met een hogere kloksnelheid zal de throughput dus inderdaad hoger zijn, [i:479d172931]door die hogere kloksnelheid[/i:479d172931]. Met dezelfde kloksnelheid heeft een kortere pipeline evenveel throughput als een lange. Maar dat bedoelde je waarschijnlijk ook.[/quote:479d172931]Ik ben nog eens in een van m'n oude leerboeken gedoken, nl. [url=http://www.amazon.com/exec/obidos/tg/detail/-/1558605967/qid=1056956560/sr=2-1/102-3455915-3256941?v=glance&s=books]deze[/url]. Daaruit haal ik hetvolgende: De verschillende bewerkingen van een CPU zijn te ontleden in kleine stapjes. Het aantal stapjes (stages) is zoals je zonder twijfel weet de lengte van de pipeline. Uiteraard is er een theoretische limiet aan het aantal stages van de pipeline, omdat je op een gegeven moment niet meer verder kunt opsplitsen. Echter, een enkele stage hoeft niet persé 1 enkelvoudig elementair stapje te zijn van het uitvoeren van een instructie; je kunt meerdere stapjes opnemen in 1 stage. Dat is een ontwerpkeuze. Stel nou dat een bepaalde instructie 4 CPU cycles kost (Cycles Per Instruction; CPI). De pipeline in CPU A is 2 stages groot, waardoor er per 2 cycles maar één keer output is (CPI=4/2=2). Bij 4 CPU cycles is er alleen output by cycles 2 en 4. Stel nou dat CPU B 4 stages heeft, waardoor er uiteindelijk per CPU cycle output gegenereerd wordt (CPI=4/4=1). Er is dus output bij cycles 1,2,3 en 4. Bij gelijke kloksnelheid is er dus wel degelijk een voordeel van de langere pipeline van CPU B boven CPU A. Er worden per CPU cycle nl. meer throughput gegenereerd (ook bij gelijke kloksnelheid). Uiteraard duurt het bij CPU B langer voor de pipeline gevuld is, maar als deze eenmaal loopt dan heeft ie een duidelijk voordeel t.o.v. CPU A. Uiteindelijk is het een design overweging, omdat een misprediction bij een langere pipeline zwaarder bestraft wordt (ongeacht de kloksnelheid).[quote:479d172931]Je moet hierbij bedenken dat een P4 zeker niet hetzelfde is als een PIII met uitgerekte pipeline. P4 heeft een aantal geavanceerdere features, maar ook een enkele zwakke plekken ten opzichte van PIII. In die tijd was ook vrijwel alle software geoptimaliseerd voor PIII.[/quote:479d172931]Weet ik. Tenminste, ik heb me nooit volledig in de PIII en P4 verdiept, maar ik neem graag aan dat er een paar fundamentele verschillen tussen zitten.[quote:479d172931]De lengte van het deel van de pipeline die geflushed moet worden bij een misprediction is inderdaad 20 stappen. De flush zelf duurt 3 cycli, zo kwam ik aan m'n 23. Dat zijn dus 23 cylci, geen 23 stappen[/quote:479d172931]Tja, stages, CPU cycles, caches, CPI, je ziet op den duur de bomen door het bos niet meer :wink: Een misprediction heeft dus een penalty van minimaal 23 cycles... [quote:479d172931]Echter niet de gehele pipeline hoeft geflushed te worden, de totale lengte daarvan is 28 stappen.[/quote:479d172931]Heej, waar haal je die info vandaan? Linkje?

Beantwoord deze vraag

Weet jij het antwoord op deze vraag? Registreer of meld je aan met je account

Dit is een gearchiveerde pagina. Antwoorden is niet meer mogelijk.