Orien-tal: Aspiration sur machine et conversion en texte brut des urls

mardi 9 novembre 2010

Aspiration sur machine et conversion en texte brut des urls

Nous avons modifié notre script afin de récupérer les pages internet sur notre machine, avec la commande wget.
wget -O ./ PAGES-ASPIREES / ${fic%.*} / $j.html $nom

Ensuite, avec la commande lynx, nous récupérons le texte brut de chaque page.
lynx -dump $nom > ./ DUMP-TEXT / ${fic%.*} / $j.txt

Les résultats sont stockés dans des répertoires aux noms de leurs fichiers d'urls respectifs.
echo "<tr><td><a href=\"$nom\">$nom</a></td><td><a href=\"../PAGES-ASPIREES/${fic%.*}/$j.html\">PAGE ASPIREE</a></td><td><a href=\"../DUMP-TEXT/${fic%.*}/$j.txt\">PAGE DUMP</a></td></tr>" >> $tablo;

Orien-tal

mardi 9 novembre 2010

Aspiration sur machine et conversion en texte brut des urls

Aucun commentaire:

Enregistrer un commentaire