用python爬取租房网站信息的代码
作者:Struggler09 发布时间:2022-04-30 07:03:38
标签:python,爬取,租房,信息
自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:
链家的房租网站
两个导入的包
1.requests 用来过去网页内容
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
# https://wh.lianjia.com/zufang/
#获取url中下面的内容
def get_page(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
return soup
#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表
def get_links(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
link_div = soup.find_all('div',class_ = 'pic-panel')
links = [div.a.get('href') for div in link_div]
return links
#收集一个房子的信息
def get_house_info(house_url):
soup = get_page(house_url)
price = soup.find('span',class_='total').text
unit = soup.find('span',class_= 'unit').text[1:-1]
area = soup.find('p', class_ = 'lf').text
house_info= soup.find_all('p',class_ = 'lf')
area = house_info[0].text[3:] #字符串切片工具
layout = house_info[1].text[5:]
info={
'价格':price,
'单位':unit,
'面积':area,
'户型':layout
}
return info
#链接数据库
server="192.168.xx.xx" #换成自己的服务器信息
user="liujiepeng"
password="xxxxx" #自己的数据库用户名和密码
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
#sql_values = values.format(house['价格'],house['单位'],house['面积'],
#house['户型'])
sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])
print(sql)
cursor = conn.cursor() #游标,开拓新的窗口
#cursor1 = conn.cursor()
cursor.execute(sql) #执行sql语句
conn.commit() #提交 ,更新sql 语句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
#time.sleep(2)
print('获取一个数据成功')
house = get_house_info(link)
insert(conn,house)
print("第%s个数据,存入数据库成功!"%(count))
count = count+1
#print(house["价格"],end='\r')
来源:https://blog.csdn.net/qq_39486027/article/details/80526094


猜你喜欢
- 一、word转pdf先安装win32库:pip install pywin32from win32com.client import gen
- 安装python分三个步骤:*下载python*安装python*检查是否安装成功1、下载Python(1)python下载地址https:
- 一、备份数据库1、打开SQL企业管理器,在控制台根目录中依次点开Microsoft SQL Server2、SQL Server组-->
- 前言:array数组要转换成矩阵(matrix)数据类型才能进行一系列的线性运算。matrix类型也有时候要转换成array数组。代码:1.
- SNMP标准引入一组ASN.1语言元素,称之为SMI(Structure of Management Information)。由SMI描述
- 提到sa弱口令,我们首先就会想到,许多数据库都有1个类似的超级管理员账号,比如:Oracle是"system"和&quo
- 正在看的ORACLE教程是:Oracle RMAN快速入门指南。前言: 这篇文章主要介绍RMAN的常用方法,其中包含了作者一些自己的经验,里
- 我们可以使用matplotlib.pyplot.locator_params()来控制刻度线 * 的行为。 即使通常会自动确定标记点的位置,
- 两个进程发生死锁的典型例子是:进程T1中获取锁A,申请锁B;进程T2中获取锁B,申请锁A,我们下面动手来演示一下这种情况:1. 创建一个Da
- 前言本文结合一个具体的无向图来对最简单的一种GNN进行推导。本文第一部分是数据介绍,第二部分为推导过程中需要用的变量的定义,第三部分是GNN
- 武器档案名称:firebug最新版本:1.7用途:前端调试器必备指数:使用难度:firebug是前端最具盛名的调试器,功能非常强悍。fire
- 配置环境: 1、数 据 库:Oracle 8i R2 (8.1.7) for NT 企业版 2、安装路径:C:ORACLE 实现方法: 1.
- 变量覆盖漏洞<?php$flag='xxx'; extract($_GET); if(isset($shiyan))
- FSO,正如UFO般令人激动、令人神往,当然更多的亦是让人欢喜让人忧。君不见某空间服务商广告:100MB空间只要60RMB/年,支持数据库,
- Python命令行假设你已经安装好了Python, 那么在Linux命令行输入:$python将直接进入python。然后在命令行提示符&g
- 简介Blade 是 Laravel 所提供的一个简单且强大的模板引擎。相较于其它知名的 PHP 模板引擎,Blade 并不会限制你必须得在视
- 我们主要讲解一下利用Python实现感知机算法。算法一首选,我们利用Python,按照上一节介绍的感知机算法基本思想,实现感知算法的原始形式
- 本文定期更换windows壁纸的python程序,很简单,属于自己写着玩的那种,不提供完美的壁纸切换解决方案。安装pywin32 exten
- 基本介绍文件,对我们并不陌生,文件是数据源(保存数据的地方)的 一种输入流和输出流 文件在程序中是以流的形式来操作的流:数据在数据源(文件)
- 前言python对动态验证码、滑动验证码的降噪和识别,在各种自动化操作中,我们经常要遇到沿跳过验证码的操作,而对于验证码的降噪和识别,的确困