Op deze website gebruiken we cookies om content en advertenties te personaliseren, om functies voor social media te bieden en om ons websiteverkeer te analyseren. Ook delen we informatie over uw gebruik van onze site met onze partners voor social media, adverteren en analyse. Deze partners kunnen deze gegevens combineren met andere informatie die u aan ze heeft verstrekt of die ze hebben verzameld op basis van uw gebruik van hun services. Meer informatie.

Akkoord

Vraag & Antwoord

Anders (software)

gigantisch data bestand, excel is te klein :s

rene_overtoom
16 antwoorden
  • Hai!

    Ik heb een ontzettend grote online enquete gehouden waar de eindgegevens in een statistisch programma (SPSS) weergegeven zouden moeten kunnen.

    Ik heb een HTML output van 6 MB, als ik deze exporteer naar excel als zijnde *.csv mis ik 75% !!
    Met andere woorden…..excel is TE KLEIN, er zijn te weinig kolommen :(

    1. Iemand een idee hoe ik toch de gevens totaal krijg?
    2. Of een idee hoe ik van een HTML output de gegevens in SPSS krijg?

    Groeten
    Rene
  • Kan je het niet opsplitsen in stukken?

    Hier staan de limieten van Excel : http://support.microsoft.com/kb/264626

    Ik kan met alleen de gegeven bestands grootte niet inschatten tegen welke limiet je aanloopt.
  • Ehhh nee dat kan helaas niet :-?
    Het is namelijk zo dat vraag 1 in verband moet worden gelegd met vraag 120 en als je verschillende doc's maakt dan kan dat helaas niet :\

    Ehhm waar ik tegen aan loop:
    VERTICAAL heb ik 303 rijen (303 ge-enqueteerde)
    HORIZONTAAL loop ik tegen het maximum aan :(

    Ik weet echt niet hoe ik dit moet oplossen, het kostte 4 maanden het onderzoek….en nu zit ik met een bestand waar ik niets mee kan ik had no way verwacht dat dit eenbottleneck zou vormen :s
  • Als het programma waarmee je het gaat inlezen het wel kan (dat weet ik niet) Dan zou je de tabel in je html document handmatig kunnen omzetten:

    - Maak een kopie van het origineel :)
    - Open de tabel in een text editor (ik gebruik hier graag editplus voor)
    - Zorg dat line wrap etc uitstat zodat je hele lange regels krijgt (en dus niet afgebroken op x tekens)
    - Verwijder alles boven en onder de tabel (dus HTML HEAD etc)
    - Verwijder de tabel kop ( <TABLE ..>)
    - Verwijder het einde van de tabel (</TABLE>)

    Je hebt nu de data over (<td>iets</td><td>nog iets</td>etc)
    De rijen heb je in de <TR> tags staan

    Nu gaan zoeken en vervangen:

    Vervang <td></td> door je scheidings teken bijvoorbeeld een ;
    Let op je antwoorden uit de enquete mogen dan geen ; bevatten anders moet je een andere nemen.

    Vervang nu alle overgebleven <td> door "" (niets)
    Vervang nu alle overgebleven </td> door "" (niets)

    Vervang nu alle </tr> door een nieuwe regel (je text editor moet dus kunnen vervangen over 2 regels)

    Vervang nu alle overgebleven </tr> door "" (niets)

    Als het goed is heb je nu een keurig csv bestand over, Sla dit ergens op.

    Als het je niet lukt mag je het ook even zippen en mailen, doe ik het voor je (5 minuten, later heb je het terug)
  • thx ik ben al goed op weg met editplus alleen hier kom ik niet uit

    [quote:5d31806fd5]Vervang nu alle </tr> door een nieuwe regel (je text editor moet dus kunnen vervangen over 2 regels)
    [/quote:5d31806fd5]

    Hoe doe ik dat precies?
  • Het is me gelukt alleen helaas staat alle data (zowel in het HTML bestand) nu onder elkaar en herkend SPSS (het betreffende verwerkingsprogramma) het bestand nu wel maar opent het niet juist :\

    Het is dat deze resultaten gevoelig zijn en dus niet naar buiten mogen worden gebracht anders had ik je hem kunnen mailen.

    Ik heb gedaan wat je zei maar bij het openen van het HTML bestand in editplus zag ik al alles onder elkaar staan :-?
  • Ok, ik snap je probleem nog niet helemaal.

    Je hebt een html bestand, dat open je in editplus.
    Je ziet dan iets van :

    [code:1:c47be8e87d]
    <html>
    <head>
    <title>Untitled Document</title>
    <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
    </head>

    <body bgcolor="#FFFFFF" text="#000000">
    <table width="300" border="0" cellspacing="0" cellpadding="10">
    <tr>
    <td>&nbsp;</td>
    <td>&nbsp;</td>
    <td>&nbsp;</td>
    </tr>
    <tr>
    etc.
    [/code:1:c47be8e87d]

    Je haalt alles boven <table> weg.
    Je krijgt dan dit :

    [code:1:c47be8e87d]
    <table width="300" border="0" cellspacing="0" cellpadding="10">
    <tr>
    <td>&nbsp;</td>
    <td>&nbsp;</td>
    <td>&nbsp;</td>
    </tr>
    <tr>
    etc.
    [/code:1:c47be8e87d]

    Nu de tabel defenitie weg :

    [code:1:c47be8e87d]
    <tr>
    <td>&nbsp;</td>
    <td>&nbsp;</td>
    <td>&nbsp;</td>
    </tr>
    <tr>
    etc.
    [/code:1:c47be8e87d]

    Afhankelijk hoe je output is omgemaakt moet je ervoor zorgen dat je nu alles op 1 regel krijgt. Vervang

    [code:1:c47be8e87d]
    </td>
    <td>
    [/code:1:c47be8e87d]
    Door het scheidings (in dit voobeeld |) teken (dit is de splitsing tussen 2 cellen)

    Je krijgt dan dit:

    [code:1:c47be8e87d]
    <tr>
    <td>&nbsp;|&nbsp;|&nbsp;</td>
    </tr>
    <tr>
    etc.
    [/code:1:c47be8e87d]

    Verwijder nu de losse <td> en </td> ''s

    Je krijgt dan dit:

    [code:1:c47be8e87d]
    <tr>
    &nbsp;|&nbsp;|&nbsp;
    </tr>
    <tr>
    etc.
    [/code:1:c47be8e87d]

    Nu alle </tr> vervangen voor een nieuwe regel (of zoals in dit voorbeeld is dat niet nodig en mogen ze gewoon weg>

    [code:1:c47be8e87d]
    <tr>
    &nbsp;|&nbsp;|&nbsp;
    <tr>
    etc.
    [/code:1:c47be8e87d]

    Nu alle <tr> verwijderen

    [code:1:c47be8e87d]
    &nbsp;|&nbsp;|&nbsp;
    etc.
    [/code:1:c47be8e87d]

    Done!

    PS Als je perl hebt (op een server of thuis) gebruik dit, werkt perfect!
    http://coscorrosa.com/programs/cgi/html2csv/html2csv.pl
    Je hebt deze module nodig http://search.cpan.org/dist/HTML-TableExtract/
    Je hoeft 'm niet netjes te installeren gewoon eenmapje HTML maken in he CGI-BIN map en daarin het bestand TableExtract.pm
  • Ik zie al waar ik spaak loop. Je uitleg is COMPLEET helder alleen loop ik spaak bij je 4e en 5e quote.
    Ik krijg niet alles op 1 regel, de rest is me volgens mij goed gelukt. (nog niet te zien overigens in onderstaande quote) Kan je mij stap voor stap laten zien hoe ik precies alles op 1 lijn krijg?

    [code:1:188b9cceeb] <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD>40 - 60% </TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD>Geen</TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>
    <TD>Geen</TD>
    <TD></TD>
    <TD></TD>
    <TD></TD>[/code:1:188b9cceeb]
  • [img:9602dcd88f]http://members.home.nl/error404/1.gif[/img:9602dcd88f]

    [img:9602dcd88f]http://members.home.nl/error404/2.gif[/img:9602dcd88f]

    [img:9602dcd88f]http://members.home.nl/error404/3.gif[/img:9602dcd88f]

    [img:9602dcd88f]http://members.home.nl/error404/4.gif[/img:9602dcd88f]
  • Allereerst nog bedankt voor al je hulp tot zover! :)
    Alleen loopt mn PC vast (AMD 1400/512MB) bij die laatste actie :(
    Ik heb nu mn broers PC (3200+1024MB)het werk laten doen maar die loopt zo te zien ook vast, maar goed ik wacht wel af.

    Wat dat perl betreft, dat wil me helaas niet lukken :s

    http://www.reneovertoom.nl/cgi-bin/TableExtract.pm
    http://www.reneovertoom.nl/cgi-bin/HTML/TableExtract.pm

    Maar ik moet het bestand waarschijnlijk ook uppen neem ik aan anders kan hij weinig doen? Maar hoe moet ik het bestand dan noemen want hij moet toch ergens naar zoeken?
    Ik hoop dat je me nog niet zat bent ;)
  • Raar dat het vastloopt, zal wel (te) veel data zijn.
    Laat 'm maar eens een kwartiertje denken, ik heb het met grotere bestanden gedaan, zou moeten lukken, ook met jouw pc.

    Over Perl :
    Zet dit bestand in je CGI-Bin directory
    http://coscorrosa.com/programs/cgi/html2csv/html2csv.pl
    Zorg ervoor dat de eerste regel naar perl verwijst (zoasl het nu is gaat het op *nix machines 9 van de 10 keer goed)
    Eventueel moet je de extensie veranderen in .cgi ipv .pl
    Als je het script geplaatst het CHMOD je het 755

    Dit script heeft naast standaard modules ook de TableExtract module nodig. Als je deze in het HTML mapje laat staan is dat prima.

    Je moet nu je htmltabel oploaden naar je server. Zet 'm bijvoorbeeld in je documentroot (wwwdocs httpdocs mainwebsite_html oid)
    geef 'n een een naam bijvoorbeeld :geheimetabelnaam.html

    Nu ga je naar http://www.reneovertoom.nl/cgi-bin/html2csv.pl
    Je krijgt dan een schermpje waar je de url van de tabel moet invoeren.

    Het zou dan worden http://www.reneovertoom.nl/geheimetabelnaam.html

    Klik op Convert URL to CSV
    Je krijgt de vraag wat je met html2csv.pl wil doen, opslaan ! Dit is namelijk je csv.

    Succes!
  • woow dat perl script werkt !!! Super !! Ik ben nu echt al een eind op de goede weg !! :D
    Alleen 1 foutje :s

    http://www.reneovertoom.nl/probleem.jpg Jij een idee :| ?
  • Wow editplus heeft het probleem opgelost !! :) Ik had "valse witte ruimtes"

    Je bent mijn held :wink: 8) hartstikke bedankt voor al je hulp en duidelijke uitleg !! :)
  • Goed man ! :D

    Fijn dat het nu allemaal gelukt is, succes met het verwerken!
  • Beetje mosterd na een maaltijd die ik gemist heb.

    [quote:75c5b9db28="rene_overtoom"]Ehhh nee dat kan helaas niet :-?
    Het is namelijk zo dat vraag 1 in verband moet worden gelegd met vraag 120 en als je verschillende doc's maakt dan kan dat helaas niet :\[/quote:75c5b9db28]

    Waarom niet. Er is geen limiet aan de rekenvaardigheid van Excel als de data op een ander tabblad in hetzelfde bestand staat, of als de data in een ander bestand staat. Werk met koppelingen en het is net één groot rekenveld.

    Andere oplossing is Corel QuattroPro. Kan tot 1 miljoen rijen aan en evenveel kolommen, zo uit het hoofd.

    groetjes Edmond
  • Ik zie dat je probleem al is opgelost maar toch wil ik dit nog even meegeven. Dit is een Macro om te grote databases in excel te importeren:
    http://support.microsoft.com/default.aspx?scid=kb;nl;272729

    (ik kwam hem net pas tegen :) )

Beantwoord deze vraag

Dit is een gearchiveerde pagina. Antwoorden is niet meer mogelijk.