位置：首页>> 网络编程>> Python编程>> Python爬取数据保存为Json格式的代码示例

Python爬取数据保存为Json格式的代码示例

作者：zhanghl150426　　发布时间：2022-10-13 17:11:36　

标签：python,爬取数据,json格式

python爬取数据保存为Json格式

代码如下：

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
# 伪装
header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
# url="https://movie.douban.com/top250"
url="file:///E:/scrapy/2018-04-27/movie/movie.html"
ret=urllib.request.Request(url=url,headers=header)
# 打开网页
res=urllib.request.urlopen(ret)
# 转化格式
response=BeautifulSoup(res,'html.parser')
# 找到想要数据的父元素
datas=response.find_all('div',{'class':'item'})
# print(datas)
#创建存放数据的文件夹
folder_name="output"
if not os.path.exists(folder_name):
os.mkdir(folder_name)
# 定义文件
current_time=time.strftime('％Y-％m-％d',time.localtime())
file_name="move"+current_time+".json"
# 文件路径
file_path=folder_name+"/"+file_name
for item in datas:
# print(item)
dict1={}
dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
# print(picUrl)
# 保存数据为json格式
try:
with codecs.open(file_path,'a',encoding="utf-8") as fp:
fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
except IOError as err:
print('error'+str(err))
finally:
fp.close()
pass
getDatas()
# 爬取数据

来源：https://blog.csdn.net/zhanghl150426/article/details/82022339

0

投稿

猜你喜欢

Python游戏推箱子的实现
前言：要说小时候称霸所有翻盖手机的小游戏，除了贪吃蛇，那就是推箱子了。控制小人将所有箱子放到指定位置，就是这样简简单单的操作，陪伴我度过了无
Python 详解爬取并统计CSDN全站热榜标题关键词词频流程
前言最近在出差，发现住的宾馆居然有小强。所以出差无聊之际，写了点爬虫的代码玩玩，问就是应景。本篇文章主要是爬取CSDN全站综合热榜的100个
Python教程教你如何去除背景
导语：你不知道Python也能去除“背景”嘛？修饰图片中的头发是设计师最烦人的任务之一！要修得完美，
Python定时执行之Timer用法示例
本文实例讲述了Python定时执行之Timer用法。分享给大家供大家参考。具体分析如下：java中Timer的作用亦是如此。python中的
解决 jupyter notebook 回车换两行问题
最近安装了丘比特笔记本（jupyter notebook），各种快捷键和编辑模式用的非常舒服。但是我的默认浏览器是chrome每次回车换行都
python 检查是否为中文字符串的方法
【目标需求】查看某一个字符串是否为中文字符串【解决办法】def check_contain_chinese(check_str): for
如何远程使用服务器上的Jupyter notebook
记录下如何远程使用服务器上的jupyter notebook。主要是在服务器端执行以下操作：激活需要使用的环境使用pip list 或con
注意:php5.4删除了session_unregister函数
前几天安装了dedecms系统，当在后台安全退出的时候，后台出现空白，先前只分析其他功能去了，也没太注意安全，看了一下安全退出的代码，是这样
matplotlib 输出保存指定尺寸的图片方法
其实这个问题来源于笔者的横坐标太多了，然后生成的那个figure框框太小，导致坐标重叠，而输出的图片是需要批量保存的，总不能每次都拉长截图吧
ASP+ajax注册即时提示程序代码
1、注册时验证数据库用户名是否存在。 2、输入密码时提示密码强度和验证2次密码输入是否一样。 3、注册时验证数据库联系邮箱是否存在。 4、注
关于Python内存分配时的小秘密分享
前言Python 中的sys 模块极为基础而重要，它主要提供了一些给解释器使用（或由它维护）的变量，以及一些与解释器强交互的函数。本文将会频
你应当了解的5个CSS3新技术
CSS是众所周知且应用广泛的网站样式语言，在它的版本三(CSS3)计划中，新增了一些能够节省时间的特性。尽管只有当前最新了浏览器
Python将视频或者动态图gif逐帧保存为图片的方法
本文是基于opencv将视频和动态图gif保存为图像帧。可以根据输入视频格式的不同，修改第21行。 &nb
Python自动化爬取天眼查数据的实现
首先要注册一个账号密码，通过账号密码登录，并且滑块验证，自动输入搜索关键词，进行跳转翻页爬取数据，并保存到Excel文件中。代码运行时，滑块
详解Python计算机视觉图像扭曲（仿射扭曲）
对图像块应用仿射变换，我们将其称为图像扭曲（或者仿射扭曲）。该操作不仅经常应用在计算机图形学中，而且经常出现在计算机视觉算法中。一、仿射变换
linux系统使用python获取cpu信息脚本分享
linux系统使用python获取cpu信息脚本分享#!/usr/bin/env Pythonfrom __future__ import
Python常用内置函数的使用教程详解
导言Python官方文档对于内置函数的介绍较为简略，但这些内置函数在日常工作中却扮演着不可或缺的角色。为了更加便捷地使用和查阅这些函数，笔者
iview实现动态表单和自定义验证时间段重叠
动态添加表单项iview的动态添加表单很简单，只需设置好表单项为一个array，添加新项目的时候就push一个默认好的值，剩下的iview会
一文看懂JSONP原理和应用
什么是JSONP首先提一下JSON这个概念，JSON是一种轻量级的数据传输格式，被广泛应用于当前Web应用中。JSON格式数据的编码和解析基
SQL Server误区30日谈第30天有关备份的30个误区
误区 #30：有关备份的30个误区全是错的在开始有关备份的误区之前，如果你对备份的基础没有了解，请看之前我在TechNet Magazine

详解用Python进行时间序列预测的7种方法

Django中对通过测试的用户进行限制访问的方法

python反扒机制的5种解决方法

Pandas实现在线文件和剪贴板数据读取详解

Python技法之如何用re模块实现简易tokenizer

python字典多键值及重复键值的使用方法(详解)

python破解bilibili滑动验证码登录功能

python中使用docx模块处理word文档

Pandas分组与排序的实现

python实现windows下文件备份脚本

如何在excel中迅速查找并返回满足条件的多个值

诺顿360怎么样？诺顿360好用吗？

windows任务计划执行结果0x0 0x1的意思与win2008系统计划任务用法介绍

Win10查看WiFi密码主要怎么做？详细的查看密码方法？

PPT绘制圆形

Bios中英文对照表大全

赛博朋克2077vip门禁卡怎么获得？赛博朋克2077vip门禁卡获得方法

如何使用135编辑器编辑旅游图文的排版？

python递归函数绘制分形树的方法

在Linux防火墙上如何做Apache反向代理

手机版 网络编程 asp之家 www.aspxhome.com