Accueil > > > WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML
WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML
Information sur la source
Description
Salut à tous, J'ai codé ce petit programme pour récupérer diverses informations sur des pages Web. Il est fonctionnel, mais il reste beaucoup de travail pour bien compter les informations, et quelques adaptations à faire. J'ai utilisé PyGTK pour faire l'interface, un excellent bind de GTK pour Python. La source a été developpée sous Linux, mais elle reste fonctionnelle sous Windows & co. Voilà, rien d'autre à ajouter.
Source
- #!/usr/bin/python
- #-*- coding: utf-8 -*-
- import urllib
- import string
- import re
- from time import strftime
- import os
- try:
- import gtk
- except:
- print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"
-
- def Recuperation(arg): ### Fonction qui va récupérer les informations ###
- urlRecue = urlEntry.get_text()
- if urlRecue != "":
- urlCorrect = urlRecue[0:7]
- if urlCorrect == "http://": ### Ajout du "http://" si besoin
- urlRecue2 = urlRecue
- else:
- urlRecue2 = "http://"+urlRecue
- Url = urllib.urlopen(urlRecue2)
- if Url != 0:
- strPage = Url.read()
- titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
- titrePage = (titrePage[0])
- titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
- nbrImage = strPage.count('<img ') #Nombre d'image dans la page
- nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
- if nbrJsInterne > 0:
- contientJsInterne = "Oui"
- else:
- contientJsInterne = "Non"
- nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
- typePage = strPage.count('//W3C//DTD XHTML 1.0')
- typePage2 = strPage.count('HTML 4.01 Transitional')
- listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
- for Lien in listeLiens:
- Liens = Lien # Contient les liens de la page
- ### Fonctionnalitée pas encore implantée ;-) ###
- if typePage > 0:
- typePage = "XHTML"
- elif typePage2 > 0:
- typePage = "HTML"
- else:
- typePage = "Doctype non valide"
- Informations = "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
- txtBuffer = txtViewInfos.get_buffer()
- txtBuffer.set_text(Informations)
- activerLog = rdioEnregistrerLog.get_active()
- if activerLog == True:
- try: ### Si le log existe, on le supprime pour en écrire un nouveau
- os.remove('log.txt') # Supprimer le log precedant
- except: ### Si le log n'existe pas -> gérer erreur
- pass
- fichierLog = open('log.txt','a')
- fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
- fichierLog.write('\n'+Informations)
- fichierLog.close()
- else:
- ### Afficher boite de dialogue "error"
- dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
- dialogError.run()
- dialogError.destroy()
- ### Création de l'interface graphique ###
- pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
- pWindow.set_title("WwWExtract")
- pWindow.set_default_size(247, 227)
- pWindow.set_position(gtk.WIN_POS_CENTER)
- pWindow.connect("destroy", gtk.main_quit)
- ## --------------------------------------------------- ##
- pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
- pWindow.add(pTable)
- labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
- urlEntry = gtk.Entry()
- btnRecuperer = gtk.Button("Récupérer les infos")
- rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
- txtViewInfos = gtk.TextView()
- ## --------------------------------------------------- ##
- pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
- pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
- pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
- pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
- pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
- btnRecuperer.connect("clicked", Recuperation)
- pWindow.show_all()
- gtk.main()
#!/usr/bin/python
#-*- coding: utf-8 -*-
import urllib
import string
import re
from time import strftime
import os
try:
import gtk
except:
print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"
def Recuperation(arg): ### Fonction qui va récupérer les informations ###
urlRecue = urlEntry.get_text()
if urlRecue != "":
urlCorrect = urlRecue[0:7]
if urlCorrect == "http://": ### Ajout du "http://" si besoin
urlRecue2 = urlRecue
else:
urlRecue2 = "http://"+urlRecue
Url = urllib.urlopen(urlRecue2)
if Url != 0:
strPage = Url.read()
titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
titrePage = (titrePage[0])
titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
nbrImage = strPage.count('<img ') #Nombre d'image dans la page
nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
if nbrJsInterne > 0:
contientJsInterne = "Oui"
else:
contientJsInterne = "Non"
nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
typePage = strPage.count('//W3C//DTD XHTML 1.0')
typePage2 = strPage.count('HTML 4.01 Transitional')
listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
for Lien in listeLiens:
Liens = Lien # Contient les liens de la page
### Fonctionnalitée pas encore implantée ;-) ###
if typePage > 0:
typePage = "XHTML"
elif typePage2 > 0:
typePage = "HTML"
else:
typePage = "Doctype non valide"
Informations = "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
txtBuffer = txtViewInfos.get_buffer()
txtBuffer.set_text(Informations)
activerLog = rdioEnregistrerLog.get_active()
if activerLog == True:
try: ### Si le log existe, on le supprime pour en écrire un nouveau
os.remove('log.txt') # Supprimer le log precedant
except: ### Si le log n'existe pas -> gérer erreur
pass
fichierLog = open('log.txt','a')
fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
fichierLog.write('\n'+Informations)
fichierLog.close()
else:
### Afficher boite de dialogue "error"
dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
dialogError.run()
dialogError.destroy()
### Création de l'interface graphique ###
pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
pWindow.set_title("WwWExtract")
pWindow.set_default_size(247, 227)
pWindow.set_position(gtk.WIN_POS_CENTER)
pWindow.connect("destroy", gtk.main_quit)
## --------------------------------------------------- ##
pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
pWindow.add(pTable)
labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
urlEntry = gtk.Entry()
btnRecuperer = gtk.Button("Récupérer les infos")
rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
txtViewInfos = gtk.TextView()
## --------------------------------------------------- ##
pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
btnRecuperer.connect("clicked", Recuperation)
pWindow.show_all()
gtk.main()
Conclusion
N'hésitez pas à commenter et à rapporter des bug.
Merçi.
Historique
- 13 mai 2008 16:28:33 :
- Modifications de l'interface, ajout de la détection de plusieurs choses (Titre de page, doctype, ect...), divers améliorations, possibilité d'enregistrer dans un log, ect
Sources du même auteur
Sources de la même categorie
Commentaires et avis
Discussions en rapport avec ce code source dans le forum
Wx ou GTK ? [ par kedare ]
Salut !j'ai un probleme , je voudrais me lancer dans les interfaces graphiques pour mes applications (marres des consoles :/)j'esite beaucoup entre GT
probleme d'execution [ par albatof ]
Bonjour,Avant d'apprendre a se servir d 'un module graphique, j'ai fait la comparaison entre gtk, tk et wx.wx: a l'air d'être trop compliqué.tk: sa fe
Problème avec GTK [ par gaillus ]
Bonjour,j'utilise python avec GTK.Voici mon pb:j'ai une fonction "init_tableau" dans laquelle j'instancie une classe "tablo" qui hérite de gtk.Dialog.
Pb avec gtk et treeview [ par gaillus ]
Bonjour à tous,j'utilise GTK pour faire une IHM dans laquelle j'ai des treeviews.Il se trouve que j'ai besoin de mettre dans des cases du treeview des
|
Derniers Blogs
SQL SERVER : PHP ET SQL SERVERSQL SERVER : PHP ET SQL SERVER par christian
Juste une petite synthèse sur les possibilités de connecter une application PHP sur un serveur SQL Server. Non pas que je me sois reconverti en développeur PHP, mais je constate qu'actuellement il est très difficile dans un environnement PHP et partic...
Cliquez pour lire la suite de l'article par christian [TECHDAYS 2010] WINDOWS AZURE APPFABRIC (CLO305)[TECHDAYS 2010] WINDOWS AZURE APPFABRIC (CLO305) par NeuroCypher
Les webcasts sont désormais en ligne, je me décide donc à écrire ce post. J'ai encore eu la chance d'animer une session aux TechDays cette année. Le sujet : le même que l'année dernière, ou plutôt son évolution. En effet, l'année dernière la couche de com...
Cliquez pour lire la suite de l'article par NeuroCypher OUTILS D'IMPORT AVEC MISE à JOUR DANS MICROSOFT DYNAMICS CRMOUTILS D'IMPORT AVEC MISE à JOUR DANS MICROSOFT DYNAMICS CRM par bianca
Problématique
Si vous avez besoin d'exporter sous Excel une liste de comptes ou de contacts dans le but de faire des retouches à droite à gauche puis de réinjecter le tout dans CRM, vous ne pouvez pas vous en...
Cliquez pour lire la suite de l'article par bianca SQL SERVER : DéVELOPPER UN ADDON POUR SQL SERVER MANAGEMENT STUDIO (SSMS)SQL SERVER : DéVELOPPER UN ADDON POUR SQL SERVER MANAGEMENT STUDIO (SSMS) par christian
Pour celles et ceux qui aiment SQL Server et on l'âme de développeur (ou sont tout simplement développeur) et veulent étendre les fonctionnalités de SQL Server, voici un article qui devrait pouvoir un intéresser.
Certes ce dernier est écrit sur u...
Cliquez pour lire la suite de l'article par christian EDITEUR XAML DE VISUAL STUDIO: COMMENT ALIGNER LES ATTRIBUTS LES UNS EN DESSOUS DES AUTRES AUTOMATIQUEMENTEDITEUR XAML DE VISUAL STUDIO: COMMENT ALIGNER LES ATTRIBUTS LES UNS EN DESSOUS DES AUTRES AUTOMATIQUEMENT par Miiitch
Lorsque l'on écrit du XAML, les tags XML peuvent vraiment devenir très longs et pas pratique à lire: Il y a une option vraiment pratique dans l'éditeur de Visual Studio qui va nous permettre de réorganiser tout cela en mettant les attributs XAML les uns e...
Cliquez pour lire la suite de l'article par Miiitch
Logiciels
Xilisoft Convertisseur Vidéo Ultimate (5.1.39.0305)XILISOFT CONVERTISSEUR VIDéO ULTIMATE (5.1.39.0305)Xilisoft Convertisseur Vidéo Ultimate est un outil puissant de conversion vidéo, facile à utilise... Cliquez pour télécharger Xilisoft Convertisseur Vidéo Ultimate Xilisoft DVD Ripper Ultimate (5.0.64.0304)XILISOFT DVD RIPPER ULTIMATE (5.0.64.0304)Xilisoft DVD Ripper Ultimate est un logiciel excellent pour copier et convertir DVD vers presque ... Cliquez pour télécharger Xilisoft DVD Ripper Ultimate Rigs of Rods (63.3)RIGS OF RODS (63.3)c'est un jeu de multi-simulation camions,autobus voitures, avions, bateaux, hélicoptère avec défo... Cliquez pour télécharger Rigs of Rods Konvertor (4.00)KONVERTOR (4.00)Le logiciel est un gestionnaire multimedia affichant, jouant et convertissant plus de 2000 format... Cliquez pour télécharger Konvertor
|