Gambas-it

Archivi (sola lettura) => Programmazione (Gambas 2) => Topic aperto da: andy60 - 09 Febbraio 2008, 07:27:28

Titolo: Parsing di una pagina html
Inserito da: andy60 - 09 Febbraio 2008, 07:27:28
Questa cosa mi ha sempre interessato: prendere direttamente i dati da una pagina web. Con vb avevo qualcosa x farlo. Ma non posso recuperarla. Voi avete scritto qualcosa in merito? Mi ci dedichero'..
Titolo: Re: Parsing di una pagina html
Inserito da: giulio - 09 Febbraio 2008, 09:14:45
Ciao.

Se per "parsing" intendi estrarre da una pagina html dei dati che ti interessano,
puoi salvare quella pagina in formato .txt e poi trattarla come un semplice file di testo.

Per esempio prova:

lynx -dump www.google.it > google.txt

Avrai una pagina di testo semplice. lynx dovrebbe essere installato
su tutti i sistemi. Alcuni sistemi hanno links. Credo che si possa fare lo stesso
con wget, ma non ricordo le opzioni.

Ciao.
Titolo: Re: Parsing di una pagina html
Inserito da: leo72 - 09 Febbraio 2008, 10:45:55
Codice: [Seleziona]

wget indirizzo_pagina


Questo scarica solo la pagina indicata.
Titolo: Re: Parsing di una pagina html
Inserito da: giulio - 09 Febbraio 2008, 11:22:23
Citazione

leo72 ha scritto:
Codice: [Seleziona]

wget indirizzo_pagina


Questo scarica solo la pagina indicata.



...e grazie al ...gambero (lo sappiamo cosa fa wget)

prova a scaricare:

wget www.google.it -O gowget.txt

e

poi

lynx -dump www.google.it > google.txt

poi fai un cat per entrambi i *.txt

e mi dici quale dei due è più "trattabile".

Ciao.
Titolo: Re: Parsing di una pagina html
Inserito da: leo72 - 09 Febbraio 2008, 18:18:30
Citazione

Avrai una pagina di testo semplice. lynx dovrebbe essere installato
su tutti i sistemi.

Su Ubuntu non lo è, va installato.

Citazione

...e grazie al ...gambero (lo sappiamo cosa fa wget)

Scusa, ma avevi detto:
Citazione

Credo che si possa fare lo stesso con wget, ma non ricordo le opzioni.

Credevo volessi sapere come usarlo, non avevo capito...  :oops:
Titolo: Re: Parsing di una pagina html
Inserito da: Pixel - 09 Febbraio 2008, 21:17:24
Ehm..ehm... usare Gambas no?
Il componente WebBrowser fa' questo e molto di più.
Ciao
Titolo: Re: Parsing di una pagina html
Inserito da: giulio - 10 Febbraio 2008, 12:56:13
Citazione

leo72 ha scritto:
Citazione

Avrai una pagina di testo semplice. lynx dovrebbe essere installato
su tutti i sistemi.

Su Ubuntu non lo è, va installato.

Citazione

...e grazie al ...gambero (lo sappiamo cosa fa wget)

Scusa, ma avevi detto:
Citazione

Credo che si possa fare lo stesso con wget, ma non ricordo le opzioni.

Credevo volessi sapere come usarlo, non avevo capito...  :oops:



Già, non hai capito. Ho scritto che non mi ricordavo
quali opzioni usare con wget per avere lo stesso risultato di lynx.
Ma se non sai cosa fa quel comando di lynx, non puoi sapere a cosa mi riferisco. Ciao.
Titolo: Re: Parsing di una pagina html
Inserito da: leo72 - 10 Febbraio 2008, 13:27:21
So cosa fa lynx, è un browser testuale. Gli chievi di riversare l'output invece che su video in un file.
Scusami ancora ma non avevo capito che volevi sapere le opzioni di wget. :2birre: