mardi 9 novembre 2010

Aspiration sur machine et conversion en texte brut des urls

Nous avons modifié notre script afin de récupérer les pages internet sur notre machine, avec la commande wget.
wget -O ./ PAGES-ASPIREES / ${fic%.*} / $j.html $nom


Ensuite, avec la commande lynx, nous récupérons le texte brut de chaque page.    
lynx -dump $nom > ./ DUMP-TEXT / ${fic%.*} / $j.txt


Les résultats sont stockés dans des répertoires aux noms de leurs fichiers d'urls respectifs.    
echo "<tr><td><a href=\"$nom\">$nom</a></td><td><a href=\"../PAGES-ASPIREES/${fic%.*}/$j.html\">PAGE ASPIREE</a></td><td><a href=\"../DUMP-TEXT/${fic%.*}/$j.txt\">PAGE DUMP</a></td></tr>" >> $tablo;

Aucun commentaire:

Enregistrer un commentaire