2008-05-20

Convertire doc in html

Avete mai provato ad usare la funzione "converti in HTML" di Microsoft Word? Il risultato ha molte caratteristiche divertenti: file enormi, con tag proprietari (che sono soltanto necessari a Word per poter ricostruire il tutto in .doc) e persino informazioni riservate (le Proprietà) che ciascuno potrebbe leggere chiedendo il codice della pagina al browser.
Non ci sono alternative? Certo! Vediamone qualcuna.

1) salviamo da Word come pagina web filtrata: questo dovrebbe eliminare buona parte dei tag proprietari, ma anche l'inserimento delle informazioni inserite nel dialogo Proprietà. Il file è ancora un po' pesantino, ma almeno nessuno legge le note che abbiamo inserito.

2) usiamo Gmail: è un tool di conversione semplice semplice, ma funziona. Spediamo su Gmail una posta con in allegato il documento Word che vogliamo tradurre. Tra i comandi di Gmail, clicchiamo su "View as HTML". Il documento verrà mostrato all'interno del browser; ora posizioniamo il mouse sulla pagina con il documento e scegliamo di vedere il codice della pagina: basterà copiarlo e incollarlo in un editor e salvarlo con l'estensione html. Se il nostro browser preferito non ci lascia copiare il codice, basta salvare la pagina dal menu File. Quando lo apriremo, noteremo che non è proprio un codice pulitissimo, ma è decente e possiamo sempre dargli una passata noi.

3) Editor Javascript: ce ne sono molti in giro per il web; come esempio, molto completo, consideriamo TinyMCE, nella cui pagina troviamo anche una demo che può essere utilizzata per il nostro scopo. Si tratta di copiare ed incollare il contenuto del file in questi editor. Di solito, come nel caso indicato, questi editor hanno anche un pulsante che mostra il codice HTML: selezioniamo tutto, copiamo, incolliamo nel nostro editor html preferito e siamo a posto! In questo modo abbiamo un codice pulitissimo.

4) Uso del HTMLTidy: è un programma open source che ha proprio lo scopo di pulire e correggere il codice html. In origine ha la sola interfaccia a linea di comando, cioé si usa dalla finestra DOS (Windows) o dalla shell (*nix, MacOS). Esistono però delle interfacce grafiche che ne facilitano l'uso; p.es. per il Mac consiglio l'ottimo Balthisar Tidy, (anche se viene indicato come versione 0.6 è praticamente completo) che permette l'accesso a tutte le caratteristiche della linea di comando in modo semplice. È sufficiente operare con il comando sul file html da ripulire, fornendo le opzioni corrette ed otteniamo in uscita un file che non solo è pulito e leggero, ma anche formattato in modo da poterlo leggere bene. Se usiamo la shell, un comando tipico è:
tidy -f errs.txt --word2000 mioFileWordHTML.html
dove l'opzione --word2000 è quella esplicita per i file creati da Word.

Tutto questo nel caso dovessimo ripulire pochi file; se invece ne abbiamo molti, allora può valer la spesa di acquistare un software apposito: Word Cleaner è un esempio, anche se 75€ sono giustificati solo da un lavoro pesante. Da considerare anche Textism, gratuito per documenti fino a 20kB (oltre è necessaria un'iscrizione).

Nessun commento: