Autore Topic: Parsing di una pagina html (Letto 2546 volte)

andy60 · « **il:** 09 Febbraio 2008, 07:27:28 »

Questa cosa mi ha sempre interessato: prendere direttamente i dati da una pagina web. Con vb avevo qualcosa x farlo. Ma non posso recuperarla. Voi avete scritto qualcosa in merito? Mi ci dedichero'..

giulio · « **Risposta #1 il:** 09 Febbraio 2008, 09:14:45 »

Ciao.

Se per "parsing" intendi estrarre da una pagina html dei dati che ti interessano,
puoi salvare quella pagina in formato .txt e poi trattarla come un semplice file di testo.

Per esempio prova:

lynx -dump www.google.it > google.txt

Avrai una pagina di testo semplice. lynx dovrebbe essere installato
su tutti i sistemi. Alcuni sistemi hanno links. Credo che si possa fare lo stesso
con wget, ma non ricordo le opzioni.

Ciao.

leo72 · « **Risposta #2 il:** 09 Febbraio 2008, 10:45:55 »

Codice: [Seleziona]


wget indirizzo_pagina

Questo scarica solo la pagina indicata.

giulio · « **Risposta #3 il:** 09 Febbraio 2008, 11:22:23 »

Citazione

leo72 ha scritto:
Codice: [Seleziona]
wget indirizzo_pagina
Questo scarica solo la pagina indicata.

...e grazie al ...gambero (lo sappiamo cosa fa wget)

prova a scaricare:

wget www.google.it -O gowget.txt

e

poi

lynx -dump www.google.it > google.txt

poi fai un cat per entrambi i *.txt

e mi dici quale dei due è più "trattabile".

Ciao.

leo72 · « **Risposta #4 il:** 09 Febbraio 2008, 18:18:30 »

Citazione

Avrai una pagina di testo semplice. lynx dovrebbe essere installato
su tutti i sistemi.

Su Ubuntu non lo è, va installato.

Citazione

...e grazie al ...gambero (lo sappiamo cosa fa wget)

Scusa, ma avevi detto:

Citazione

Credo che si possa fare lo stesso con wget, ma non ricordo le opzioni.

Credevo volessi sapere come usarlo, non avevo capito... :oops:

Pixel · « **Risposta #5 il:** 09 Febbraio 2008, 21:17:24 »

Ehm..ehm... usare Gambas no?
Il componente WebBrowser fa' questo e molto di più.
Ciao

giulio · « **Risposta #6 il:** 10 Febbraio 2008, 12:56:13 »

Citazione

leo72 ha scritto:
Citazione

Avrai una pagina di testo semplice. lynx dovrebbe essere installato
su tutti i sistemi.

Su Ubuntu non lo è, va installato.

Citazione

...e grazie al ...gambero (lo sappiamo cosa fa wget)

Scusa, ma avevi detto:
Citazione

Credo che si possa fare lo stesso con wget, ma non ricordo le opzioni.

Credevo volessi sapere come usarlo, non avevo capito... :oops:

Già, non hai capito. Ho scritto che non mi ricordavo
quali opzioni usare con wget per avere lo stesso risultato di lynx.
Ma se non sai cosa fa quel comando di lynx, non puoi sapere a cosa mi riferisco. Ciao.

leo72 · « **Risposta #7 il:** 10 Febbraio 2008, 13:27:21 »

So cosa fa lynx, è un browser testuale. Gli chievi di riversare l'output invece che su video in un file.
Scusami ancora ma non avevo capito che volevi sapere le opzioni di wget. :2birre:

News:

Autore Topic: Parsing di una pagina html (Letto 2546 volte)

andy60

Parsing di una pagina html

giulio

Re: Parsing di una pagina html

leo72

Re: Parsing di una pagina html

giulio

Re: Parsing di una pagina html

leo72

Re: Parsing di una pagina html

Pixel

Re: Parsing di una pagina html

giulio

Re: Parsing di una pagina html

leo72

Re: Parsing di una pagina html