Accueil > > > WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML
WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML
Information sur la source
Description
Salut à tous, J'ai codé ce petit programme pour récupérer diverses informations sur des pages Web. Il est fonctionnel, mais il reste beaucoup de travail pour bien compter les informations, et quelques adaptations à faire. J'ai utilisé PyGTK pour faire l'interface, un excellent bind de GTK pour Python. La source a été developpée sous Linux, mais elle reste fonctionnelle sous Windows & co. Voilà, rien d'autre à ajouter.
Source
- #!/usr/bin/python
- #-*- coding: utf-8 -*-
- import urllib
- import string
- import re
- from time import strftime
- import os
- try:
- import gtk
- except:
- print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"
-
- def Recuperation(arg): ### Fonction qui va récupérer les informations ###
- urlRecue = urlEntry.get_text()
- if urlRecue != "":
- urlCorrect = urlRecue[0:7]
- if urlCorrect == "http://": ### Ajout du "http://" si besoin
- urlRecue2 = urlRecue
- else:
- urlRecue2 = "http://"+urlRecue
- Url = urllib.urlopen(urlRecue2)
- if Url != 0:
- strPage = Url.read()
- titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
- titrePage = (titrePage[0])
- titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
- nbrImage = strPage.count('<img ') #Nombre d'image dans la page
- nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
- if nbrJsInterne > 0:
- contientJsInterne = "Oui"
- else:
- contientJsInterne = "Non"
- nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
- typePage = strPage.count('//W3C//DTD XHTML 1.0')
- typePage2 = strPage.count('HTML 4.01 Transitional')
- listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
- for Lien in listeLiens:
- Liens = Lien # Contient les liens de la page
- ### Fonctionnalitée pas encore implantée ;-) ###
- if typePage > 0:
- typePage = "XHTML"
- elif typePage2 > 0:
- typePage = "HTML"
- else:
- typePage = "Doctype non valide"
- Informations = "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
- txtBuffer = txtViewInfos.get_buffer()
- txtBuffer.set_text(Informations)
- activerLog = rdioEnregistrerLog.get_active()
- if activerLog == True:
- try: ### Si le log existe, on le supprime pour en écrire un nouveau
- os.remove('log.txt') # Supprimer le log precedant
- except: ### Si le log n'existe pas -> gérer erreur
- pass
- fichierLog = open('log.txt','a')
- fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
- fichierLog.write('\n'+Informations)
- fichierLog.close()
- else:
- ### Afficher boite de dialogue "error"
- dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
- dialogError.run()
- dialogError.destroy()
- ### Création de l'interface graphique ###
- pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
- pWindow.set_title("WwWExtract")
- pWindow.set_default_size(247, 227)
- pWindow.set_position(gtk.WIN_POS_CENTER)
- pWindow.connect("destroy", gtk.main_quit)
- ## --------------------------------------------------- ##
- pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
- pWindow.add(pTable)
- labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
- urlEntry = gtk.Entry()
- btnRecuperer = gtk.Button("Récupérer les infos")
- rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
- txtViewInfos = gtk.TextView()
- ## --------------------------------------------------- ##
- pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
- pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
- pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
- pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
- pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
- btnRecuperer.connect("clicked", Recuperation)
- pWindow.show_all()
- gtk.main()
#!/usr/bin/python
#-*- coding: utf-8 -*-
import urllib
import string
import re
from time import strftime
import os
try:
import gtk
except:
print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"
def Recuperation(arg): ### Fonction qui va récupérer les informations ###
urlRecue = urlEntry.get_text()
if urlRecue != "":
urlCorrect = urlRecue[0:7]
if urlCorrect == "http://": ### Ajout du "http://" si besoin
urlRecue2 = urlRecue
else:
urlRecue2 = "http://"+urlRecue
Url = urllib.urlopen(urlRecue2)
if Url != 0:
strPage = Url.read()
titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
titrePage = (titrePage[0])
titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
nbrImage = strPage.count('<img ') #Nombre d'image dans la page
nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
if nbrJsInterne > 0:
contientJsInterne = "Oui"
else:
contientJsInterne = "Non"
nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
typePage = strPage.count('//W3C//DTD XHTML 1.0')
typePage2 = strPage.count('HTML 4.01 Transitional')
listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
for Lien in listeLiens:
Liens = Lien # Contient les liens de la page
### Fonctionnalitée pas encore implantée ;-) ###
if typePage > 0:
typePage = "XHTML"
elif typePage2 > 0:
typePage = "HTML"
else:
typePage = "Doctype non valide"
Informations = "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
txtBuffer = txtViewInfos.get_buffer()
txtBuffer.set_text(Informations)
activerLog = rdioEnregistrerLog.get_active()
if activerLog == True:
try: ### Si le log existe, on le supprime pour en écrire un nouveau
os.remove('log.txt') # Supprimer le log precedant
except: ### Si le log n'existe pas -> gérer erreur
pass
fichierLog = open('log.txt','a')
fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
fichierLog.write('\n'+Informations)
fichierLog.close()
else:
### Afficher boite de dialogue "error"
dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
dialogError.run()
dialogError.destroy()
### Création de l'interface graphique ###
pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
pWindow.set_title("WwWExtract")
pWindow.set_default_size(247, 227)
pWindow.set_position(gtk.WIN_POS_CENTER)
pWindow.connect("destroy", gtk.main_quit)
## --------------------------------------------------- ##
pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
pWindow.add(pTable)
labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
urlEntry = gtk.Entry()
btnRecuperer = gtk.Button("Récupérer les infos")
rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
txtViewInfos = gtk.TextView()
## --------------------------------------------------- ##
pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
btnRecuperer.connect("clicked", Recuperation)
pWindow.show_all()
gtk.main()
Conclusion
N'hésitez pas à commenter et à rapporter des bug.
Merçi.
Historique
- 13 mai 2008 16:28:33 :
- Modifications de l'interface, ajout de la détection de plusieurs choses (Titre de page, doctype, ect...), divers améliorations, possibilité d'enregistrer dans un log, ect
Sources du même auteur
Sources de la même categorie
Commentaires et avis
Discussions en rapport avec ce code source dans le forum
Wx ou GTK ? [ par kedare ]
Salut !j'ai un probleme , je voudrais me lancer dans les interfaces graphiques pour mes applications (marres des consoles :/)j'esite beaucoup entre GT
probleme d'execution [ par albatof ]
Bonjour,Avant d'apprendre a se servir d 'un module graphique, j'ai fait la comparaison entre gtk, tk et wx.wx: a l'air d'être trop compliqué.tk: sa fe
Problème avec GTK [ par gaillus ]
Bonjour,j'utilise python avec GTK.Voici mon pb:j'ai une fonction "init_tableau" dans laquelle j'instancie une classe "tablo" qui hérite de gtk.Dialog.
Pb avec gtk et treeview [ par gaillus ]
Bonjour à tous,j'utilise GTK pour faire une IHM dans laquelle j'ai des treeviews.Il se trouve que j'ai besoin de mettre dans des cases du treeview des
[Débutant] Interface Graphique à problème.... [ par legomanfish ]
Bonjours à tous, Voilà j'ai un problème à la création graphique de mon projet. J'ai Glade. Le problème c'est que quand je rentre sa: if __name__ ==
Couleur de fond dans bouton (GTK) [ par seb57sk8 ]
Bonjour a tous et a toutes, Je suis nouveau ici, avant je me trouvais plus du coté de vbfrance [^^happy13] Pour des raisons qui me sont propres, je
PYgtk bouton en premier plan [ par seb57sk8 ]
Bonjour a tous et a toute, Je reviens a la charge pour une questionde positionnement de widget: J'utilise PYgtk et la methode fixed. j'aimerai que
|
Derniers Blogs
[WP7] AJOUTER DES IMAGES DANS LA MEDIA LIBRARY D'UN WINDOWS PHONE 7[WP7] AJOUTER DES IMAGES DANS LA MEDIA LIBRARY D'UN WINDOWS PHONE 7 par Audrey
L'émulateur Windows Phone 7, fourni avec la version Beta des outils développeurs n'inclut aucune image dans sa bibliothèque. Pas très pratique de tester son application lorsque l'on souhaite que l'utilisateur puisse choisir une image présente dans le télé...
Cliquez pour lire la suite de l'article par Audrey VIVE LES MOCKS ET LES POCOSVIVE LES MOCKS ET LES POCOS par vLabz
J'observe régulièrement autour de moi de la confusion à propos de ces deux termes et j'aimerais juste rappeler ce qu'ils signifient. Je ne suis bien sûr pas le mieux placé pour faire une leçon mais je vais faire de mon mieux pour mettre en valeur ce q...
Cliquez pour lire la suite de l'article par vLabz [WF4] WORKFLOW AND CUSTOM ACTIVITIES - BEST PRACTICES (4/5)[WF4] WORKFLOW AND CUSTOM ACTIVITIES - BEST PRACTICES (4/5) par JeremyJeanson
Vendredi dernier Microsoft a publié le quatrième épisode des bonnes pratiques pour coder ses activités custom dans WF4 : endpoint.tv - Workflow and Custom Activities - Best Practices (Part 4) . Tout comme pour les précédents épisodes, j'ai pris le temps d...
Cliquez pour lire la suite de l'article par JeremyJeanson DéVELOPPEMENT MOBILE : .NET COMPACT FRAMEWORK & LIMITATIONSDéVELOPPEMENT MOBILE : .NET COMPACT FRAMEWORK & LIMITATIONS par Pi-R
Introduction :
Le développement d'applications mobiles est quelque peu différent du développement d'applications sous Windows. En effet, le développement d'applications mobiles se base sur le .NET Compact Fra...
Cliquez pour lire la suite de l'article par Pi-R IPHONE VERSUS WP7 CODINGIPHONE VERSUS WP7 CODING par Nicolas
Je relais une présentation sur slideshare.net, qui compare le développement sur Iphone et Windows Phone 7, qui ma fait sourire. I phone versus windows phone 7 coding View more presentations from www.donburnett.com. J'aurais bien aimé une comparai...
Cliquez pour lire la suite de l'article par Nicolas
Logiciels
Xilisoft HD Vidéo Convertisseur 6 (6.0.3.0421)XILISOFT HD VIDéO CONVERTISSEUR 6 (6.0.3.0421)Xilisoft HD Vidéo Convertisseur est un outil professionnel de conversion HDTV, conçu pour transfo... Cliquez pour télécharger Xilisoft HD Vidéo Convertisseur 6 Xilisoft MP4 Convertisseur 6 (6.0.2.0415)XILISOFT MP4 CONVERTISSEUR 6 (6.0.2.0415)Xilisoft MP4 Convertisseur est un outil puissant pour la conversion de vidéo MP4, qui peut conver... Cliquez pour télécharger Xilisoft MP4 Convertisseur 6 Vade Retro Desktop (3.03)VADE RETRO DESKTOP (3.03)Le logiciel antispam Vade Retro pour Microsoft Outlook®, Outlook Express® et Windows Mail®(Vista)... Cliquez pour télécharger Vade Retro Desktop Malwarebytes Anti Malwares (1.46)MALWAREBYTES ANTI MALWARES (1.46)Malwarebytes' Anti-Malware est un anti-malware qui peut éliminer même les plus avancés des logic... Cliquez pour télécharger Malwarebytes Anti Malwares
|