Vraag & Antwoord

Anders (software)

Van PDF naar WORD (2000/XP)

9 antwoorden
  • Wie kan mij vertellen hoe een PDF-bestand [b:35ef943f6b][u:35ef943f6b]met afbeeldingen[/u:35ef943f6b][/b:35ef943f6b] kan worden geconverteerd naar MS Word, zonder dat dit afbreuk doet aan Tekst (Opmaak etc) en de daarin opgenomen afbeeldingen.
  • Mits de PDF niet beschermd is tegen kopieren etc: Met Ghostscript en Ghostview (beiden gratis) kun je een PDF openen en deze vervolgens naar een standaard printerbestand wegschrijven (print to file). Dit bestand kun je dan weer openen met Word (bestand Openen> alle typen) en vervolgens weer wegschrijven naar een .doc. Het klinkt wat simpelere dan dat het waarschijnlijk in de praktijk zal zijn. Lees de documentatie bij Ghostscript- en view vooral goed: http://www.cs.wisc.edu/~ghost/
  • [quote:8c394d6046="Borretje"]Wie kan mij vertellen hoe een PDF-bestand [b:8c394d6046][u:8c394d6046]met afbeeldingen[/u:8c394d6046][/b:8c394d6046] kan worden geconverteerd naar MS Word, zonder dat dit afbreuk doet aan Tekst (Opmaak etc) en de daarin opgenomen afbeeldingen.[/quote:8c394d6046] Zie comment van Kansloos :ik denk niet dat je die 100 percent (indien niet beveiligd) in Word krijgt. Je zal wel moeten editten denk ik. PDF heeft niet voor niets beveiligingen. Sinds kort gebruik ik bepaalde gevallen de pgms die Kansloos opnoemt, maar de andere kant uit. Word naar PDF. Soms wil ik niet dat documenten hun eigen leven gaan leiden en distribueer ik ze in PDF formaat.
  • Het is me tot nu toe nog op geen enkele manier gelukt om teksten integraal uit een PDF-bestand te halen. doorgaans zit aan het eind van iedere regel een regeleinde, dus moet ik alles weer aan elkaar gaan plakken naar nette alinea's. Ik weet zo niet of dat probleem zich met GhostView voordoet, verder geen ervaring mee. Ik las wel laatst dat de nieuwste versie van OmniPage PDF-bestanden goed kan herkennen. En Omnipage bepaalt van oudsher ahv niet uitgevulde/ingesprongen regels waar alinea's beginnen/eindigen, dus die combinatie lijkt mij wel wat. Iemand ervaring mee?
  • Ja, ik heb als test vrijdag enkele enorme PDF's van de firma Foundry (leverancier van netwerkapparatuur) omgezet naar DOC en met zeer acceptabele, maar niet perfecte resultaten. Je krijgt tekst en afbeeldingen over, paginaopmaak ook, profielen weer minder en de rest moet ik nog bekijken. Verder klaagde Word dat de inhoudstabel corrupted was, maar dat kan ook aan Word hebben gelegen, was beta 1 van Office 11. Maar over geheel genomen lijkt me dit toch de beste optie. Zonder hier een dienst te willen beginnen, om welke PDF gaat het en hoe groot. Anders wil ik wel voor je proefdraaien eenmalig. groetjes Edmond
  • He Edmond :-) Ik ga er min of meer van uit, maar komt de tekst helemaal 1 op 1 in Word na het door OP halen? Oftewel: leest ie de tekens wel uit de source van het PDF-bestand, of past ie toch zijn OCR toe op de image, dus met kans op fouten?
  • Nou, ik ben er nog niet helemaal uit. Volgens mij is het een combinatie. Leest hij de tekst inderdaad rechtstreeks uit de PDF want daar kan ik geen fouten in ontdekken zo snel, maar gebruikt hij voor de combinatie tekst en opmaak, lijnen, tabellen en zo voort weer OCR. Dat is ook het punt waar het het meest fout gaat, dus lijnen die verkeerd staan, tabllen die klare tekst zijn geworden, noem maar op. Hier een example van uit de DOC: [i:7ec2b4b375]The soft [in | out] parameter specifies whether you want to refresh the routes received from the neighbor or sent to the neighbor: • soft in does one of the following: • If you enabled soft reconfiguration for the neighbor or peer group, soft in updates the routes by comparing the route policies against the route updates that the Layer 3 Switch has stored. Soft reconfiguration does not request additional updates from the neighbor or otherwise affect the session with the neighbor. • If you did not enable soft reconfiguration, soft in requests the neighbor’s entire BGP4 route table (Adj¬RIB-Out), then applies the filters to add, change, or exclude routes. • If a neighbor does not support dynamic refresh, soft in resets the neighbor session. • soft out updates all outbound routes, then sends the Layer 3 Switch’s entire BGP4 route table (Adj-RIB-Out) to the neighbor, after changing or excluding the routes affected by the filters. If you do not specify in or out, the Layer 3 Switch performs both options. The soft-outbound option causes the device to compile a list of all the routes it would normally send to the neighbor at the beginning of a session. However, before sending the updates, the Foundry switching router also applies the filters and route maps you have configured to the list of routes. If the filters or route maps result in changes to the list of routes, the switching router sends updates to advertise, change, or even withdraw routes on the neighbor as needed. This ensures that the neighbor receives only the routes you want it to contain. Even if the neighbor already contains a route learned from the switching router that you later decided to filter out, using the soft-outbound option removes that route from the neighbor.[/i:7ec2b4b375] Volgens mij klopt die tekst aardig met het origineel. Ik zal eens navragen bij Scansoft hoe en wat. mvrgroet Edmond
  • Overigens, snel gaat het niet. Een 5,658kb PDF van 616 pagina's wordt in bijna 3 uur tijd op een Pentium III met 256 RAM omgezet in een OCR-bestand van 311,558kb die weer in een half uurtje als een DOC van 5,154 kb opgeslagen kan worden. Bij het opslaan staan wel allerlei geavanceerde opties ter beschikking zoals het wel of niet opslaan van paginaeinden, het (proberen) op te slaan van opmaakprofielen en zo voort. Kijk maar eens op www.scansoft.nl voor nadere informatie over Omnipage Pro Office 12. mvrgroet Edmond
  • Zo dan, 3.5 uur, wel wat overdreven, maar hij bekijkt dus zowel de source als de image, dat laatste idd voor opmaakdingen, maar dus ook om ahv uitvullen/inspringen echte alinea-eindes te beredeneren. En vooral die Opmaak-Recognition zal wel intensief zijn (kolommen enzo)... die gebruik ik nooit zo. Ik doe romans, dus ik vind het integraal rippen van de text wat belangrijker, bij pdf's baalde ik tot nu toe dus van die regeleindes. Ook van de cijfers trouwens, die zie ik in je voorbeeld ook goed terugkomen. Als ik dat met Acrobat naar Word kopieer, zijn alle cijfers veranderd in punten. Borretje: ik ben bang dat je geen alternatief hebt dan Omnipage ervoor gebruiken, tenzij het eenmalig is, en niet zoveel, dan valt met Acrobat en het klembord nog wel te vogelen.

Beantwoord deze vraag

Weet jij het antwoord op deze vraag? Registreer of meld je aan met je account

Dit is een gearchiveerde pagina. Antwoorden is niet meer mogelijk.