Accueil > > > WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML
WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML
Information sur la source
Description
Salut à tous, J'ai codé ce petit programme pour récupérer diverses informations sur des pages Web. Il est fonctionnel, mais il reste beaucoup de travail pour bien compter les informations, et quelques adaptations à faire. J'ai utilisé PyGTK pour faire l'interface, un excellent bind de GTK pour Python. La source a été developpée sous Linux, mais elle reste fonctionnelle sous Windows & co. Voilà, rien d'autre à ajouter.
Source
- #!/usr/bin/python
- #-*- coding: utf-8 -*-
- import urllib
- import string
- import re
- from time import strftime
- import os
- try:
- import gtk
- except:
- print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"
-
- def Recuperation(arg): ### Fonction qui va récupérer les informations ###
- urlRecue = urlEntry.get_text()
- if urlRecue != "":
- urlCorrect = urlRecue[0:7]
- if urlCorrect == "http://": ### Ajout du "http://" si besoin
- urlRecue2 = urlRecue
- else:
- urlRecue2 = "http://"+urlRecue
- Url = urllib.urlopen(urlRecue2)
- if Url != 0:
- strPage = Url.read()
- titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
- titrePage = (titrePage[0])
- titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
- nbrImage = strPage.count('<img ') #Nombre d'image dans la page
- nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
- if nbrJsInterne > 0:
- contientJsInterne = "Oui"
- else:
- contientJsInterne = "Non"
- nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
- typePage = strPage.count('//W3C//DTD XHTML 1.0')
- typePage2 = strPage.count('HTML 4.01 Transitional')
- listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
- for Lien in listeLiens:
- Liens = Lien # Contient les liens de la page
- ### Fonctionnalitée pas encore implantée ;-) ###
- if typePage > 0:
- typePage = "XHTML"
- elif typePage2 > 0:
- typePage = "HTML"
- else:
- typePage = "Doctype non valide"
- Informations = "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
- txtBuffer = txtViewInfos.get_buffer()
- txtBuffer.set_text(Informations)
- activerLog = rdioEnregistrerLog.get_active()
- if activerLog == True:
- try: ### Si le log existe, on le supprime pour en écrire un nouveau
- os.remove('log.txt') # Supprimer le log precedant
- except: ### Si le log n'existe pas -> gérer erreur
- pass
- fichierLog = open('log.txt','a')
- fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
- fichierLog.write('\n'+Informations)
- fichierLog.close()
- else:
- ### Afficher boite de dialogue "error"
- dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
- dialogError.run()
- dialogError.destroy()
- ### Création de l'interface graphique ###
- pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
- pWindow.set_title("WwWExtract")
- pWindow.set_default_size(247, 227)
- pWindow.set_position(gtk.WIN_POS_CENTER)
- pWindow.connect("destroy", gtk.main_quit)
- ## --------------------------------------------------- ##
- pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
- pWindow.add(pTable)
- labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
- urlEntry = gtk.Entry()
- btnRecuperer = gtk.Button("Récupérer les infos")
- rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
- txtViewInfos = gtk.TextView()
- ## --------------------------------------------------- ##
- pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
- pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
- pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
- pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
- pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
- btnRecuperer.connect("clicked", Recuperation)
- pWindow.show_all()
- gtk.main()
#!/usr/bin/python
#-*- coding: utf-8 -*-
import urllib
import string
import re
from time import strftime
import os
try:
import gtk
except:
print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"
def Recuperation(arg): ### Fonction qui va récupérer les informations ###
urlRecue = urlEntry.get_text()
if urlRecue != "":
urlCorrect = urlRecue[0:7]
if urlCorrect == "http://": ### Ajout du "http://" si besoin
urlRecue2 = urlRecue
else:
urlRecue2 = "http://"+urlRecue
Url = urllib.urlopen(urlRecue2)
if Url != 0:
strPage = Url.read()
titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
titrePage = (titrePage[0])
titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
nbrImage = strPage.count('<img ') #Nombre d'image dans la page
nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
if nbrJsInterne > 0:
contientJsInterne = "Oui"
else:
contientJsInterne = "Non"
nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
typePage = strPage.count('//W3C//DTD XHTML 1.0')
typePage2 = strPage.count('HTML 4.01 Transitional')
listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
for Lien in listeLiens:
Liens = Lien # Contient les liens de la page
### Fonctionnalitée pas encore implantée ;-) ###
if typePage > 0:
typePage = "XHTML"
elif typePage2 > 0:
typePage = "HTML"
else:
typePage = "Doctype non valide"
Informations = "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
txtBuffer = txtViewInfos.get_buffer()
txtBuffer.set_text(Informations)
activerLog = rdioEnregistrerLog.get_active()
if activerLog == True:
try: ### Si le log existe, on le supprime pour en écrire un nouveau
os.remove('log.txt') # Supprimer le log precedant
except: ### Si le log n'existe pas -> gérer erreur
pass
fichierLog = open('log.txt','a')
fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
fichierLog.write('\n'+Informations)
fichierLog.close()
else:
### Afficher boite de dialogue "error"
dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
dialogError.run()
dialogError.destroy()
### Création de l'interface graphique ###
pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
pWindow.set_title("WwWExtract")
pWindow.set_default_size(247, 227)
pWindow.set_position(gtk.WIN_POS_CENTER)
pWindow.connect("destroy", gtk.main_quit)
## --------------------------------------------------- ##
pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
pWindow.add(pTable)
labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
urlEntry = gtk.Entry()
btnRecuperer = gtk.Button("Récupérer les infos")
rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
txtViewInfos = gtk.TextView()
## --------------------------------------------------- ##
pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
btnRecuperer.connect("clicked", Recuperation)
pWindow.show_all()
gtk.main()
Conclusion
N'hésitez pas à commenter et à rapporter des bug.
Merçi.
Historique
- 13 mai 2008 16:28:33 :
- Modifications de l'interface, ajout de la détection de plusieurs choses (Titre de page, doctype, ect...), divers améliorations, possibilité d'enregistrer dans un log, ect
Sources du même auteur
Sources de la même categorie
Commentaires et avis
Discussions en rapport avec ce code source dans le forum
Wx ou GTK ? [ par kedare ]
Salut !j'ai un probleme , je voudrais me lancer dans les interfaces graphiques pour mes applications (marres des consoles :/)j'esite beaucoup entre GT
probleme d'execution [ par albatof ]
Bonjour,Avant d'apprendre a se servir d 'un module graphique, j'ai fait la comparaison entre gtk, tk et wx.wx: a l'air d'être trop compliqué.tk: sa fe
Problème avec GTK [ par gaillus ]
Bonjour,j'utilise python avec GTK.Voici mon pb:j'ai une fonction "init_tableau" dans laquelle j'instancie une classe "tablo" qui hérite de gtk.Dialog.
Pb avec gtk et treeview [ par gaillus ]
Bonjour à tous,j'utilise GTK pour faire une IHM dans laquelle j'ai des treeviews.Il se trouve que j'ai besoin de mettre dans des cases du treeview des
|
Derniers Blogs
[ASP.NET] NE PAS SE FAIRE AVOIR PAR IHTTPMODULE ET SA MéTHODE INIT()[ASP.NET] NE PAS SE FAIRE AVOIR PAR IHTTPMODULE ET SA MéTHODE INIT() par tja
Beaucoup de développeurs pensent que lorsqu'on créé et enregistre un IHttpModule, il n'en existe qu'une seule instance et la méthode Init() sera appelée qu'une fois.
C'est faux
Cela peut vraiment créer des bugs subtils dont en ne se rend pas compte ...
Cliquez pour lire la suite de l'article par tja [MSTD10] SHAREPOINT 2010 ET TEAM FOUNDATION SERVER[MSTD10] SHAREPOINT 2010 ET TEAM FOUNDATION SERVER par phil
Un post rapide pour vous informer de la disponibilité de la vidéo de ma présentation sur SharePoint 2010 & Team Foundation Server. http://www.microsoft.com/france/vision/mstechdays10/Webcast.aspx?EID=20215d48-02e3-4d43-8c36-e53505c3b316 Dans la ...
Cliquez pour lire la suite de l'article par phil [MSTD10] SQL SERVER 2008 POUR LES DéVELOPPEURS ET VISUAL STUDIO TEAM SYSTEM DATABASE EDITION[MSTD10] SQL SERVER 2008 POUR LES DéVELOPPEURS ET VISUAL STUDIO TEAM SYSTEM DATABASE EDITION par Miiitch
Lors de cette session que j'ai animé avec Rui , j'ai eu l'occasion de présenter, en plus des nouveautés de SQL Server 2008, comment utiliser l'édition "database" de Visual Studio 2008. Le principe? Avoir les mêmes outils lors que l'on travaille avec une b...
Cliquez pour lire la suite de l'article par Miiitch [WF4] LOCALISER SIMPLEMENT UNE ACTIVITé ET SON DESIGNER WPF[WF4] LOCALISER SIMPLEMENT UNE ACTIVITé ET SON DESIGNER WPF par JeremyJeanson
La localisation . vous connaissez ce system miraculeux qui permet à votre application de s'afficher dans la langue de l'utilisateur (à condition de l'avoir intégrée dans votre programme). Comment mettre en place la localisation dans WF4? Cette question m'...
Cliquez pour lire la suite de l'article par JeremyJeanson [TECHDAYS 2010] WEBCASTS ET SLIDES[TECHDAYS 2010] WEBCASTS ET SLIDES par Audrey
Les webcasts des sessions des Techdays 2010 sont maintenant disponibles en ligne ! Me concernant, voici les slides et le webcast de la session Blend 3 / Skechtflow : Dessinez c'est gagné ! (animée avec Michel Perfetti ) Les slides et le webcast : Blend 3/...
Cliquez pour lire la suite de l'article par Audrey
Forum
MCD LYCéMCD LYCé par Wiliam123
Cliquez pour lire la suite par Wiliam123
Logiciels
Rigs of Rods (63.3)RIGS OF RODS (63.3)c'est un jeu de multi-simulation camions,autobus voitures, avions, bateaux, hélicoptère avec défo... Cliquez pour télécharger Rigs of Rods Konvertor (4.00)KONVERTOR (4.00)Le logiciel est un gestionnaire multimedia affichant, jouant et convertissant plus de 2000 format... Cliquez pour télécharger Konvertor Xlite (v 3.0 build 41150)XLITE (V 3.0 BUILD 41150)c'est un logiciel qui permet de téléphoner par Internet à l'aide d'un compte SIP pratique pour le... Cliquez pour télécharger Xlite Academy System (10.9.3.0)ACADEMY SYSTEM (10.9.3.0)Logiciel de gestion des établissements.
- élèves/étudiants (inscription, dossier, absence...)
-... Cliquez pour télécharger Academy System
|