- '''
- ALLARD Kevin et JACOB Aurelien
- Etudiant RT
- IUT Annecy
- promotion annee 2007
- allardkevin@free.fr
- '''
-
- import listmots
- from sgmllib import SGMLParser
- import urllib
- import random
- import re
-
- # variables Globales
- # moteur = "altavista"
- rechercheServ = "http://fr.altavista.com/web/results?q="
- MinMots = 1
- MaxMots = 2
-
- # recherche une url parmi la liste des reponse du serveur
- def urlSearch (data):
- listurl = re.findall('ngrn>([^>]*)<',data) #les adresses des sites corespondant à la requète sont plassé entre balise <div class=ngrn>http://www.warez.com/</div>
- if len(listurl) > 0:
- return listurl[0]
- else:
- return "echec" # si aucun lien n'est trouvé dans la page.
-
- # recherche aleatoire
- def requete():
- req = ""
- for i in range(random.randint(MinMots, MaxMots)): # on cree une requete à partir d'un nombre aléatoire de mots.
- if i != 0:
- req = req + '+'
- req = req + listmots.mots[random.randint(0,len(listmots.mots)-1)] # Chaque mot est séléctionner aléatoirement dans le tableau.
- return req
-
- #connexion au moteur de recherche
- def page(requete=requete()):
- page = "echec"
- while page == "echec":
- recherche = rechercheServ + requete # Initialisation de l'URL de recherche avec les paramètres GET
- try:
- usock = urllib.urlopen(recherche)
- page = urlSearch (usock.read())
- usock.close()
- finally:
- if page == "echec":
- requete=requete() # si la recherche à été infructueuse, on recommence avec une nouvelle requete.
- return page
-
- #telechargement du contenu d'une page
- def pageAbout(sujet=requete()):
- try:
- usock = urllib.urlopen(page(sujet))
- content = usock.read()
- usock.close()
- finally:
- return content
'''
ALLARD Kevin et JACOB Aurelien
Etudiant RT
IUT Annecy
promotion annee 2007
allardkevin@free.fr
'''
import listmots
from sgmllib import SGMLParser
import urllib
import random
import re
# variables Globales
# moteur = "altavista"
rechercheServ = "http://fr.altavista.com/web/results?q="
MinMots = 1
MaxMots = 2
# recherche une url parmi la liste des reponse du serveur
def urlSearch (data):
listurl = re.findall('ngrn>([^>]*)<',data) #les adresses des sites corespondant à la requète sont plassé entre balise <div class=ngrn>http://www.warez.com/</div>
if len(listurl) > 0:
return listurl[0]
else:
return "echec" # si aucun lien n'est trouvé dans la page.
# recherche aleatoire
def requete():
req = ""
for i in range(random.randint(MinMots, MaxMots)): # on cree une requete à partir d'un nombre aléatoire de mots.
if i != 0:
req = req + '+'
req = req + listmots.mots[random.randint(0,len(listmots.mots)-1)] # Chaque mot est séléctionner aléatoirement dans le tableau.
return req
#connexion au moteur de recherche
def page(requete=requete()):
page = "echec"
while page == "echec":
recherche = rechercheServ + requete # Initialisation de l'URL de recherche avec les paramètres GET
try:
usock = urllib.urlopen(recherche)
page = urlSearch (usock.read())
usock.close()
finally:
if page == "echec":
requete=requete() # si la recherche à été infructueuse, on recommence avec une nouvelle requete.
return page
#telechargement du contenu d'une page
def pageAbout(sujet=requete()):
try:
usock = urllib.urlopen(page(sujet))
content = usock.read()
usock.close()
finally:
return content