begin process at 2010 02 09 21:42:57
  Trouver un code source :
 
dans
 
Accueil > 

Code

 > 

Réseau & internet

 > WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML

WWWEXTRACT : RÉCUPÉRATION D'INFORMATIONS D'UNE PAGE HTML


 Information sur la source

Note :
7 / 10 - par 1 personne
7,00 / 10

  • 1

  • 2

  • 3

  • 4

  • 5

  • 6

  • 7

  • 8

  • 9

  • 10
Catégorie :Réseau & internet Classé sous :pygtk, gtk, pages web, informations web, urllib Niveau :Initié Date de création :09/05/2008 Date de mise à jour :13/05/2008 16:28:33 Vu :2 285

Auteur : jojo930

Ecrire un message privé
Site perso
Commentaire sur cette source (3)
Ajouter un commentaire et/ou une note

 Description

Cliquez pour voir la capture en taille normale
Salut à tous,

J'ai codé ce petit programme pour récupérer diverses informations sur des pages Web.
Il est fonctionnel, mais il reste beaucoup de travail pour bien compter les informations, et quelques adaptations à faire.
J'ai utilisé PyGTK pour faire l'interface, un excellent bind de GTK pour Python.
La source a été developpée sous Linux, mais elle reste fonctionnelle sous Windows & co.
Voilà, rien d'autre à ajouter.

Source

  • #!/usr/bin/python
  • #-*- coding: utf-8 -*-
  • import urllib
  • import string
  • import re
  • from time import strftime
  • import os
  • try:
  • import gtk
  • except:
  • print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"
  • def Recuperation(arg): ### Fonction qui va récupérer les informations ###
  • urlRecue = urlEntry.get_text()
  • if urlRecue != "":
  • urlCorrect = urlRecue[0:7]
  • if urlCorrect == "http://": ### Ajout du "http://" si besoin
  • urlRecue2 = urlRecue
  • else:
  • urlRecue2 = "http://"+urlRecue
  • Url = urllib.urlopen(urlRecue2)
  • if Url != 0:
  • strPage = Url.read()
  • titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
  • titrePage = (titrePage[0])
  • titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
  • nbrImage = strPage.count('<img ') #Nombre d'image dans la page
  • nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
  • if nbrJsInterne > 0:
  • contientJsInterne = "Oui"
  • else:
  • contientJsInterne = "Non"
  • nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
  • typePage = strPage.count('//W3C//DTD XHTML 1.0')
  • typePage2 = strPage.count('HTML 4.01 Transitional')
  • listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
  • for Lien in listeLiens:
  • Liens = Lien # Contient les liens de la page
  • ### Fonctionnalitée pas encore implantée ;-) ###
  • if typePage > 0:
  • typePage = "XHTML"
  • elif typePage2 > 0:
  • typePage = "HTML"
  • else:
  • typePage = "Doctype non valide"
  • Informations = "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
  • txtBuffer = txtViewInfos.get_buffer()
  • txtBuffer.set_text(Informations)
  • activerLog = rdioEnregistrerLog.get_active()
  • if activerLog == True:
  • try: ### Si le log existe, on le supprime pour en écrire un nouveau
  • os.remove('log.txt') # Supprimer le log precedant
  • except: ### Si le log n'existe pas -> gérer erreur
  • pass
  • fichierLog = open('log.txt','a')
  • fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
  • fichierLog.write('\n'+Informations)
  • fichierLog.close()
  • else:
  • ### Afficher boite de dialogue "error"
  • dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
  • dialogError.run()
  • dialogError.destroy()
  • ### Création de l'interface graphique ###
  • pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
  • pWindow.set_title("WwWExtract")
  • pWindow.set_default_size(247, 227)
  • pWindow.set_position(gtk.WIN_POS_CENTER)
  • pWindow.connect("destroy", gtk.main_quit)
  • ## --------------------------------------------------- ##
  • pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
  • pWindow.add(pTable)
  • labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
  • urlEntry = gtk.Entry()
  • btnRecuperer = gtk.Button("Récupérer les infos")
  • rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
  • txtViewInfos = gtk.TextView()
  • ## --------------------------------------------------- ##
  • pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
  • pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
  • pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
  • pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
  • pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
  • btnRecuperer.connect("clicked", Recuperation)
  • pWindow.show_all()
  • gtk.main()
#!/usr/bin/python
#-*- coding: utf-8 -*- 
import urllib
import string
import re
from time import strftime
import os
try:
	import gtk
except:
	print "Ce programme ne peut fonctionner sans PyGTK, veuillez le télécharger et l'installer"

def Recuperation(arg): ### Fonction qui va récupérer les informations ###
	urlRecue = urlEntry.get_text()
	if urlRecue != "":
		urlCorrect = urlRecue[0:7]
		if urlCorrect == "http://": ### Ajout du "http://" si besoin
			urlRecue2 = urlRecue
		else:
			urlRecue2 = "http://"+urlRecue
		Url = urllib.urlopen(urlRecue2)
		if Url != 0:
			strPage = Url.read()
			titrePage = re.findall('<title>+[^\"]+</title>', strPage) # Regex contenant le titre de page
			titrePage = (titrePage[0])
			titrePage = titrePage[7:len(titrePage)-8] # Commencer à partir de 7 (= <title>) et allez jusqu'à taille "titre" -8 (8 = </title>)
			nbrImage = strPage.count('<img ') #Nombre d'image dans la page
			nbrJsInterne = strPage.count('<script') #Js INTERNE a la page
			if nbrJsInterne > 0:
				contientJsInterne = "Oui"
			else:
				contientJsInterne = "Non"
			nbrLiens = strPage.count('<a ') # Nombre de liens dans la page
			typePage = strPage.count('//W3C//DTD XHTML 1.0')
			typePage2 = strPage.count('HTML 4.01 Transitional')
			listeLiens = re.findall('<a href=(.*?)>.*?</a>', strPage) # Regex contenant la cible des liens de la page
			for Lien in listeLiens:
				Liens = Lien # Contient les liens de la page
				### Fonctionnalitée pas encore implantée ;-) ###
			if typePage > 0:
				typePage = "XHTML"
			elif typePage2 > 0:
				typePage = "HTML"
			else:
				typePage = "Doctype non valide"
			Informations =  "Type de document : "+str(typePage)+"\nNom de page : "+titrePage+"\nNombre d'images : "+str(nbrImage)+"\nContient du Js interne à la page : "+contientJsInterne+"\nNombres de liens : "+str(nbrLiens)
			txtBuffer = txtViewInfos.get_buffer()
			txtBuffer.set_text(Informations)
			activerLog = rdioEnregistrerLog.get_active()
			if activerLog == True:
				try: ### Si le log existe, on le supprime pour en écrire un nouveau
					os.remove('log.txt') # Supprimer le log precedant
				except: ### Si le log n'existe pas -> gérer erreur
					pass
				fichierLog = open('log.txt','a')
				fichierLog.write('Enregistré le '+strftime("%d/%m/%Y")+' à '+strftime('%H:%M:%S'))
				fichierLog.write('\n'+Informations)
				fichierLog.close()
	else:
		### Afficher boite de dialogue "error"
		dialogError = gtk.MessageDialog(pWindow, gtk.DIALOG_MODAL, gtk.MESSAGE_ERROR , gtk.BUTTONS_OK, "Merçi de taper une adresse valide")
		dialogError.run()
		dialogError.destroy()
### Création de l'interface graphique ###
pWindow = gtk.Window(gtk.WINDOW_TOPLEVEL)
pWindow.set_title("WwWExtract")
pWindow.set_default_size(247, 227)
pWindow.set_position(gtk.WIN_POS_CENTER)
pWindow.connect("destroy", gtk.main_quit)
## --------------------------------------------------- ##
pTable = gtk.Table(6, 2, True) ### Table principale contenant tout les widgets ###
pWindow.add(pTable)
labelAdresse = gtk.Label("Veuillez taper l'adresse de la page : ")
urlEntry = gtk.Entry()
btnRecuperer = gtk.Button("Récupérer les infos")
rdioEnregistrerLog = gtk.CheckButton(label="Enregistrer log (appelé log.txt)")
txtViewInfos = gtk.TextView()
## --------------------------------------------------- ##
pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)
pTable.attach(urlEntry, 0, 3, 0, 3, gtk.EXPAND | gtk.FILL, gtk.EXPAND, 17, 0)
pTable.attach(rdioEnregistrerLog, 0, 3, 0, 7, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(btnRecuperer, 1, 2, 0, 5, gtk.EXPAND, gtk.EXPAND, 0, 0)
pTable.attach(txtViewInfos, 0, 3, 4, 7, gtk.EXPAND | gtk.FILL, gtk.EXPAND | gtk.FILL, 8, 8)
btnRecuperer.connect("clicked", Recuperation)
pWindow.show_all()
gtk.main()

 Conclusion

N'hésitez pas à commenter et à rapporter des bug.

Merçi.


 Historique

13 mai 2008 16:28:33 :
Modifications de l'interface, ajout de la détection de plusieurs choses (Titre de page, doctype, ect...), divers améliorations, possibilité d'enregistrer dans un log, ect

 Sources du même auteur

HORLOGE SIMPLISTE V1
Source avec Zip Source avec une capture CONTRÔLE PAPARENTAL : UN PETIT CONTRÔLE PARENTAL

 Sources de la même categorie

Source avec Zip GÉNÉRATEUR HTML POUR L'UTILISATION DE PYTHON EN CGI par Just_1
SIMPLE COMPARATEUR IPV4 EN PYTHON par erebos
TÉLCHARGEUR YOUTUBE par rezuz
Source avec Zip LIRE DES FICHIERS PCAP par KimbleMandel
Source avec Zip Source avec une capture BLOQUEUR INTERNET par amaury74

 Sources en rapport avec celle ci

TÉLCHARGEUR YOUTUBE par rezuz
Source avec une capture [PYGTK] LECTEUR MULTI-VIDÉO EMBARQUANT MPLAYER GRÂCE À L'ID ... par loupmagic
Source avec une capture [PYGTK] PROGRESS BAR INCRÉMENTÉ GRÂCE AU MULTITHREAD. par loupmagic

Commentaires et avis

Commentaire de xeolin le 13/05/2008 18:39:51 7/10

Bonne source, illisible a la fin mais commentee.

C'est une tres mauvaise habitude d'utiliser != (L.15) dans ce cas, tu deverais commencer par ecrire l'exeption et non le code lui-meme, c'est plus facile pour lire, ecrire et debuger le code.

Sinon l'idee est bonne meme si deja postee, je donne un 7/10.

Commentaire de jojo930 le 14/05/2008 07:29:23

Salut XEOLIN, et merçi de ton commentaire.

En effet, j'ai justement corrigé ça peut après ton commentaire, méa culpa.
Par contre, que pourrais-je faire pour améliorer la lisibilité du code, à la fin ?

Commentaire de jingcomics le 22/09/2009 09:43:26

wwwextract.py:79: DeprecationWarning: use attach instead
  pTable.attach_defaults(labelAdresse, 0, 3, 0, 1)

 Ajouter un commentaire


Discussions en rapport avec ce code source dans le forum

Wx ou GTK ? [ par kedare ] Salut !j'ai un probleme , je voudrais me lancer dans les interfaces graphiques pour mes applications (marres des consoles :/)j'esite beaucoup entre GT probleme d'execution [ par albatof ] Bonjour,Avant d'apprendre a se servir d 'un module graphique, j'ai fait la comparaison entre gtk, tk et wx.wx: a l'air d'être trop compliqué.tk: sa fe Problème avec GTK [ par gaillus ] Bonjour,j'utilise python avec GTK.Voici mon pb:j'ai une fonction "init_tableau" dans laquelle j'instancie une classe "tablo" qui hérite de gtk.Dialog. Pb avec gtk et treeview [ par gaillus ] Bonjour à tous,j'utilise GTK pour faire une IHM dans laquelle j'ai des treeviews.Il se trouve que j'ai besoin de mettre dans des cases du treeview des


Nos sponsors


Sondage...

CalendriCode

Février 2010
LMMJVSD
1234567
891011121314
15161718192021
22232425262728

Consulter la suite du CalendriCode

 
Développement réalisé par Nicolas SOREL (Nix) avec l'aide de : Cyril DURAND et Emmanuel (EBArtSoft), Merci à Vincent pour ses précieux conseils.
CodeS-SourceS.com© Toute reproduction même partielle est interdite sauf accord écrit du Webmaster
CodeS-SourceS.com© est une marque déposée tous droits réservés

Google Coop CodeS-SourceS Google Coop CodeS-SourceS
Temps d'éxécution de la page : 0,686 sec (3)

Nous contacter | Annoncer sur CodeS-SourceS | Mentions légales