English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Outil utilisé : Python2.7 Cliquez ici pour télécharger
cadre scrapy
sublime text3
Première partie. Construction de python (version Windows)
1.Installer python2.7 ---Ensuite, tapez python dans cmd, l'interface suivante signifie que l'installation a réussi
2.Intégration du cadre Scrapy----Tapez la commande en ligne : pip install Scrapy
L'interface suivante s'affiche après une installation réussie :
Il y a de nombreuses situations d'échec, voici un exemple :
Solution :
Les autres erreurs peuvent être recherchées sur Baidu.
Deuxième partie. Commencer à programmer.
1.Scraping des sites statiques sans mesures anti-scraping. Par exemple, Baidu Tieba, DouBan Books.
Par exemple-Un sujet sur 'Baidu Desktop'https://tieba.baidu.com/p/2460150866?red_tag=3569129009
Code python suivant :
Commentaire du code : Introduction de deux modules urllib et re. Définition de deux fonctions, la première fonction est de récupérer les données de la page cible complète, la deuxième fonction est de récupérer l'image cible dans la page cible, parcourir la page et trier les images obtenues par ordre croissant à partir de 0.
Remarque : points de connaissances du module re:
Effet visuel de capture d'image :
Le chemin d'enregistrement des images par défaut est dans le même répertoire que le fichier .py créé.
2. Capturez des images de Baidu avec des mesures anti-scraping. Comme Baidu Image, etc.
Par exemple, recherchez les mots-clés "packs d'émoticônes" https://image.baidu.com/search/index#63;tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111
Les images sont chargées en continu, en premier lieu, les images prioritaires sont capturées.30 images.
Le code suivant :
Commentaire de code : importation4des modules, le module os est utilisé pour spécifier le chemin de sauvegarde. Les deux premières fonctions sont les mêmes que précédemment. La troisième fonction utilise une instruction if et une exception tryException.
Le processus de capture est le suivant :
Résultat de la capture
Remarque : lors de la rédaction du code Python, il est important de respecter l'alignement, et and ne peut pas mélanger Tab et espace, ce qui est facile à rapporter des erreurs.
Voici la totalité du contenu de cet article, j'espère que le contenu de cet article peut apporter un certain avantage à votre apprentissage ou à votre travail, et j'espère également que vous soutenerez fortement le tutoriel d'alerte !
Déclaration : le contenu de cet article est issu du réseau, propriété des auteurs respectifs, contribué et téléversé par les utilisateurs d'Internet, ce site ne détient pas de droits de propriété, n'a pas été édité par l'homme, et n'assume aucune responsabilité juridique connexe. Si vous trouvez du contenu suspect de violation de droits d'auteur, vous êtes invités à envoyer un e-mail à : notice#w3Remarque : lors de l'envoi d'un e-mail, veuillez remplacer # par @ pour signaler un abus, et fournir des preuves pertinentes. Une fois vérifié, ce site supprimera immédiatement le contenu suspect de violation de droits d'auteur.