Nous rencontrons des problèmes avec l'encodage des pages.
Nous n'arrivons pas à faire fonctionner notre boucle...
En attendant, nous vous mettons ci-dessous notre script avec wget et lynx qui fonctionne :
"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""
#!/bin/bash
echo "Donnez le nom du répertoire contenant les fichiers des URLs : ";
read REP;
echo "Donnez le nom du fichier html où stocker les tableaux des liens : ";
read tablo;
echo "<html><head><title>tableaux de liens</title></head><body>" > $tablo;
echo "<p align=\"center\"><hr color=\"blue\" width=\"50%\"/></p>" >> $tablo;
for fic in `ls $REP`
{
echo "<table align=\"center\" border=\"1\"><tr><td colspan=\"4\" align=\"center\" bgcolor=\"black\"><font color=\"white\"><b>Tableau ${fic%.*}</b></font></td></tr>" >> $tablo;
# Variable i pour compter les URLs
j=1;
mkdir ./PAGES-ASPIREES/${fic%.*}
mkdir ./DUMP-TEXT/${fic%.*}
for nom in `cat $REP/$fic`
{
wget -O ./PAGES-ASPIREES/${fic%.*}/$j.html $nom
lynx -dump -nolist $nom > ./DUMP-TEXT/${fic%.*}/$j.txt
echo "<tr><td>$j</td><td><a href=\"$nom\">$nom</a></td><td><a href=\"./PAGES-ASPIREES/${fic%.*}/$j.html\">PAGE ASPIREE</a></td><td><a href=\"./DUMP-TEXT/${fic%.*}/$j.txt\">PAGE DUMP</a></td></tr>" >> $tablo;
let "j+=1" ;
}
echo "</table>" >> $tablo;
echo "<p align=\"center\"><hr color=\"blue\" width=\"50%\"/></p>" >> $tablo;
}
echo "</body></html>" >> $tablo;
"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""
Aucun commentaire:
Enregistrer un commentaire