Accueil > > > WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML
WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML
Information sur la source
Description
Salut à tous, J'ai codé ce petit programme pour récupérer diverses informations sur des pages Web. Il est fonctionnel, mais il reste beaucoup de travail pour bien compter les informations, et quelques adaptations à faire. J'ai utilisé PyGTK pour faire l'interface, un excellent bind de GTK pour Python. La source a été developpée sous Linux, mais elle reste fonctionnelle sous Windows & co. Voilà, rien d'autre à ajouter.
Source
- #!/usr/bin/python
- #-*- coding: utf-8 -*-
- import urllib
- import string
- import re
- from time import strftime
- import os
- try:
- import gtk
- except:
- print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"
-
- def Recuperation(arg): ### Fonction qui va récupérer les informations ###
- urlRecue = urlEntry.get_text()
- if urlRecue != "":
- urlCorrect = urlRecue[0:7]
- if urlCorrect == "http://": ### Ajout du "http://" si besoin
- urlRecue2 = urlRecue
- else:
- urlRecue2 = "http://"+urlRecue
- Url = urllib.urlopen(urlRecue2)
- if Url != 0:
- strPage = Url.read()
- titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
- titrePage = (titrePage[0])
- titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
- nbrImage = strPage.count('<img ') #Nombre d'image dans la page
- nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
- if nbrJsInterne > 0:
- contientJsInterne = "Oui"
- else:
- contientJsInterne = "Non"
- nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
- typePage = strPage.count('//W3C//DTD XHTML 1.0')
- typePage2 = strPage.count('HTML 4.01 Transitional')
- listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
- for Lien in listeLiens:
- Liens = Lien # Contient les liens de la page
- ### Fonctionnalitée pas encore implantée ;-) ###
- if typePage > 0:
- typePage = "XHTML"
- elif typePage2 > 0:
- typePage = "HTML"
- else:
- typePage = "Doctype non valide"
- Informations = "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
- txtBuffer = txtViewInfos.get_buffer()
- txtBuffer.set_text(Informations)
- activerLog = rdioEnregistrerLog.get_active()
- if activerLog == True:
- try: ### Si le log existe, on le supprime pour en écrire un nouveau
- os.remove('log.txt') # Supprimer le log precedant
- except: ### Si le log n'existe pas -> gérer erreur
- pass
- fichierLog = open('log.txt','a')
- fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
- fichierLog.write('\n'+Informations)
- fichierLog.close()
- else:
- ### Afficher boite de dialogue "error"
- dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
- dialogError.run()
- dialogError.destroy()
- ### Création de l'interface graphique ###
- pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
- pWindow.set_title("WwWExtract")
- pWindow.set_default_size(247, 227)
- pWindow.set_position(gtk.WIN_POS_CENTER)
- pWindow.connect("destroy", gtk.main_quit)
- ## --------------------------------------------------- ##
- pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
- pWindow.add(pTable)
- labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
- urlEntry = gtk.Entry()
- btnRecuperer = gtk.Button("Récupérer les infos")
- rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
- txtViewInfos = gtk.TextView()
- ## --------------------------------------------------- ##
- pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
- pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
- pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
- pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
- pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
- btnRecuperer.connect("clicked", Recuperation)
- pWindow.show_all()
- gtk.main()
#!/usr/bin/python
#-*- coding: utf-8 -*-
import urllib
import string
import re
from time import strftime
import os
try:
import gtk
except:
print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"
def Recuperation(arg): ### Fonction qui va récupérer les informations ###
urlRecue = urlEntry.get_text()
if urlRecue != "":
urlCorrect = urlRecue[0:7]
if urlCorrect == "http://": ### Ajout du "http://" si besoin
urlRecue2 = urlRecue
else:
urlRecue2 = "http://"+urlRecue
Url = urllib.urlopen(urlRecue2)
if Url != 0:
strPage = Url.read()
titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
titrePage = (titrePage[0])
titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
nbrImage = strPage.count('<img ') #Nombre d'image dans la page
nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
if nbrJsInterne > 0:
contientJsInterne = "Oui"
else:
contientJsInterne = "Non"
nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
typePage = strPage.count('//W3C//DTD XHTML 1.0')
typePage2 = strPage.count('HTML 4.01 Transitional')
listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
for Lien in listeLiens:
Liens = Lien # Contient les liens de la page
### Fonctionnalitée pas encore implantée ;-) ###
if typePage > 0:
typePage = "XHTML"
elif typePage2 > 0:
typePage = "HTML"
else:
typePage = "Doctype non valide"
Informations = "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
txtBuffer = txtViewInfos.get_buffer()
txtBuffer.set_text(Informations)
activerLog = rdioEnregistrerLog.get_active()
if activerLog == True:
try: ### Si le log existe, on le supprime pour en écrire un nouveau
os.remove('log.txt') # Supprimer le log precedant
except: ### Si le log n'existe pas -> gérer erreur
pass
fichierLog = open('log.txt','a')
fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
fichierLog.write('\n'+Informations)
fichierLog.close()
else:
### Afficher boite de dialogue "error"
dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
dialogError.run()
dialogError.destroy()
### Création de l'interface graphique ###
pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
pWindow.set_title("WwWExtract")
pWindow.set_default_size(247, 227)
pWindow.set_position(gtk.WIN_POS_CENTER)
pWindow.connect("destroy", gtk.main_quit)
## --------------------------------------------------- ##
pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
pWindow.add(pTable)
labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
urlEntry = gtk.Entry()
btnRecuperer = gtk.Button("Récupérer les infos")
rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
txtViewInfos = gtk.TextView()
## --------------------------------------------------- ##
pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
btnRecuperer.connect("clicked", Recuperation)
pWindow.show_all()
gtk.main()
Conclusion
N'hésitez pas à commenter et à rapporter des bug.
Merçi.
Historique
- 13 mai 2008 16:28:33 :
- Modifications de l'interface, ajout de la détection de plusieurs choses (Titre de page, doctype, ect...), divers améliorations, possibilité d'enregistrer dans un log, ect
Sources du même auteur
Sources de la même categorie
Commentaires et avis
Discussions en rapport avec ce code source dans le forum
Wx ou GTK ? [ par kedare ]
Salut !j'ai un probleme , je voudrais me lancer dans les interfaces graphiques pour mes applications (marres des consoles :/)j'esite beaucoup entre GT
probleme d'execution [ par albatof ]
Bonjour,Avant d'apprendre a se servir d 'un module graphique, j'ai fait la comparaison entre gtk, tk et wx.wx: a l'air d'être trop compliqué.tk: sa fe
Problème avec GTK [ par gaillus ]
Bonjour,j'utilise python avec GTK.Voici mon pb:j'ai une fonction "init_tableau" dans laquelle j'instancie une classe "tablo" qui hérite de gtk.Dialog.
Pb avec gtk et treeview [ par gaillus ]
Bonjour à tous,j'utilise GTK pour faire une IHM dans laquelle j'ai des treeviews.Il se trouve que j'ai besoin de mettre dans des cases du treeview des
[Débutant] Interface Graphique à problème.... [ par legomanfish ]
Bonjours à tous, Voilà j'ai un problème à la création graphique de mon projet. J'ai Glade. Le problème c'est que quand je rentre sa: if __name__ ==
Couleur de fond dans bouton (GTK) [ par seb57sk8 ]
Bonjour a tous et a toutes, Je suis nouveau ici, avant je me trouvais plus du coté de vbfrance [^^happy13] Pour des raisons qui me sont propres, je
PYgtk bouton en premier plan [ par seb57sk8 ]
Bonjour a tous et a toute, Je reviens a la charge pour une questionde positionnement de widget: J'utilise PYgtk et la methode fixed. j'aimerai que
|
Derniers Blogs
ENUMERABLECOLLECTIONENUMERABLECOLLECTION par Matthieu MEZIL
Prenons le scénario suivant. On utilise MVVM. On a les deux classes suivantes dans le model : public class Child { } public class Parent { private ObservableCollection < Child > _children; public ObservableCollection < Child > Children { get {...
Cliquez pour lire la suite de l'article par Matthieu MEZIL [HS] CHROME 6 + MOI = COUP DE GUEULE ![HS] CHROME 6 + MOI = COUP DE GUEULE ! par JeremyJeanson
Attention, le poste qui suit n'est pas la complainte d'une personne : Qui n'aime pas Chrome. D'un anti Google. D'un développeur qui a un poil énorme dans la main. Ceux qui me fréquentent savent que je change de navigateur favori tous les 2 ou 3 mois afin ...
Cliquez pour lire la suite de l'article par JeremyJeanson [WP7] UTILISER UN WRAPPANEL DANS UNE APPLICATION WINDOWS PHONE 7[WP7] UTILISER UN WRAPPANEL DANS UNE APPLICATION WINDOWS PHONE 7 par Audrey
Lors de la réalisation de ma 2ème application Windows Phone 7, j'ai souhaité utiliser un WrapPanel pour afficher plusieurs photos. Mais le contrôle WrapPanel ne fait pas parti de la liste des contrôles inclus dans le SDK de la version Beta des outils pour...
Cliquez pour lire la suite de l'article par Audrey [WP7] BESOIN D'AVOIR DES DONNéES EN CACHE[WP7] BESOIN D'AVOIR DES DONNéES EN CACHE par Nicolas
Les développeurs ASP.NET ont l'habitude de mettre des données en cache pour éviter de requêter a chaque fois la base de données. Et il est toujours utilie de penser que vos utilisateurs mobiles n'ont pas troujours une super connexion 3G/WIFI et un for...
Cliquez pour lire la suite de l'article par Nicolas [TFS] COMMENT FORCER LA SAISIE D'UN AREA OU ITERATION[TFS] COMMENT FORCER LA SAISIE D'UN AREA OU ITERATION par cyril
Lorsque l'on créé un Work Item dans TFS, il est possible de le classer dans un "area" et dans une "iteration". Dans la plupart des types de projet, un "area" correspond à une catégorie, une "iteration" à un numéro de version. Il est possible de cré...
Cliquez pour lire la suite de l'article par cyril
Forum
RE : PYTHON 3.0RE : PYTHON 3.0 par aera group
Cliquez pour lire la suite par aera group RE : PYTHON 3.0RE : PYTHON 3.0 par xeolin
Cliquez pour lire la suite par xeolin RE : PYTHON 3.0RE : PYTHON 3.0 par aera group
Cliquez pour lire la suite par aera group
Logiciels
uTorrent (2.0.4)UTORRENT (2.0.4)C'est un client BitTorrent très puissant et très performant. Comme son nom l'indique, uTorrent (m... Cliquez pour télécharger uTorrent Bureau de Gestion - ERP Devis Facturation (2.02)BUREAU DE GESTION - ERP DEVIS FACTURATION (2.02)- Version gratuite du 10/06/2010
Le Bureau de Gestion est un logiciel dédié à la gestion de l'en... Cliquez pour télécharger Bureau de Gestion - ERP Devis Facturation 4Videosoft Transfert iPod Mac (3.2.08)4VIDEOSOFT TRANSFERT IPOD MAC (3.2.08)4Videosoft Transfert iPod-Mac caractérise principalement à transférer les fichiers iPod vers Mac.... Cliquez pour télécharger 4Videosoft Transfert iPod Mac 4Videosoft HD Convertisseur (3.3.08)4VIDEOSOFT HD CONVERTISSEUR (3.3.08)Etant le meilleur HD Vidéo Convertisseur, 4Videosoft HD Convertisseur, vous pouvez regarder la vi... Cliquez pour télécharger 4Videosoft HD Convertisseur 4Videosoft Transfert iPad Mac (3.2.08)4VIDEOSOFT TRANSFERT IPAD MAC (3.2.08)4Videosoft Transfert iPad-Mac est un logiciel managérial iPad professionnel qui a des fonctions i... Cliquez pour télécharger 4Videosoft Transfert iPad Mac
|