mardi 16 novembre 2010

script...

Nous rencontrons des problèmes avec l'encodage des pages.
Nous n'arrivons pas à faire fonctionner notre boucle...
En attendant, nous vous mettons ci-dessous notre script avec wget et lynx qui fonctionne :

"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""

#!/bin/bash
echo "Donnez le nom du répertoire contenant les fichiers des URLs : ";
read REP;
echo "Donnez le nom du fichier html où stocker les tableaux des liens : ";
read tablo;
echo "<html><head><title>tableaux de liens</title></head><body>" > $tablo;
echo "<p align=\"center\"><hr color=\"blue\" width=\"50%\"/></p>" >> $tablo;

for fic in `ls $REP`
{
    echo "<table align=\"center\" border=\"1\"><tr><td colspan=\"4\" align=\"center\" bgcolor=\"black\"><font color=\"white\"><b>Tableau ${fic%.*}</b></font></td></tr>" >> $tablo;
    # Variable i pour compter les URLs
    j=1;
    mkdir ./PAGES-ASPIREES/${fic%.*}
    mkdir ./DUMP-TEXT/${fic%.*}
   
    for nom in `cat $REP/$fic`
    {
        wget -O ./PAGES-ASPIREES/${fic%.*}/$j.html $nom
        lynx -dump -nolist $nom > ./DUMP-TEXT/${fic%.*}/$j.txt


        echo "<tr><td>$j</td><td><a href=\"$nom\">$nom</a></td><td><a href=\"./PAGES-ASPIREES/${fic%.*}/$j.html\">PAGE ASPIREE</a></td><td><a href=\"./DUMP-TEXT/${fic%.*}/$j.txt\">PAGE DUMP</a></td></tr>" >> $tablo;
        let "j+=1" ;
    }
    echo "</table>" >> $tablo;
    echo "<p align=\"center\"><hr color=\"blue\" width=\"50%\"/></p>" >> $tablo;
}
echo "</body></html>" >> $tablo;

"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""

Aucun commentaire:

Enregistrer un commentaire