Nous avons modifié notre script afin de récupérer les pages internet sur notre machine, avec la commande wget.
wget -O ./ PAGES-ASPIREES / ${fic%.*} / $j.html $nom
Ensuite, avec la commande lynx, nous récupérons le texte brut de chaque page.
lynx -dump $nom > ./ DUMP-TEXT / ${fic%.*} / $j.txt
Les résultats sont stockés dans des répertoires aux noms de leurs fichiers d'urls respectifs.
echo "<tr><td><a href=\"$nom\">$nom</a></td><td><a href=\"../PAGES-ASPIREES/${fic%.*}/$j.html\">PAGE ASPIREE</a></td><td><a href=\"../DUMP-TEXT/${fic%.*}/$j.txt\">PAGE DUMP</a></td></tr>" >> $tablo;
Aucun commentaire:
Enregistrer un commentaire