位置：首页>> 网络编程>> Python编程>> python实现的读取网页并分词功能示例

python实现的读取网页并分词功能示例

作者：笨小孩好笨　　发布时间：2022-05-08 07:06:38　

标签：python,读取网页,分词

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考，具体如下：

这里使用分词使用最流行的分词包jieba，参考：https://github.com/fxsjy/jieba

或点击此处本站下载jieba库。

代码：

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
# <p>标签的处理
for line in div.findChildren():
file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
for line in file_object.readlines():
seg_list = jieba.cut(line,cut_all=False)
file_cut_object.write('/'.join(seg_list))

爬取结果：

分词结果：

希望本文所述对大家Python程序设计有所帮助。

来源：https://blog.csdn.net/u013288190/article/details/79736198

0

投稿

猜你喜欢

原生JS实现左右箭头选择日期实例代码
先上个效果图，就是用左右尖括号可改变中间日期的值。（点击中间显示区域有时间选择器弹框，用的插件就不说了，主要说自己原创的部分） &
详谈Python中列表list,元祖tuple和numpy中的array区别
1.列表list是处理一组有序项目的数据结构，即你可以在一个列表中存储一个序列的项目。列表中的项目。列表中的项目应该包括在方括号中，这样py
Mysql 错误问题汇总(不断更新中)
1、Mysql errono 1005 : 主外键不是完全一致 , 请检查如下几点: a、字段是否存在 b、类型是否一致(注意unsigne
5个MySQL GUI工具推荐，帮助你进行数据库管理
MySQL的数据库管理工具非常多，有哪些优秀的GUI工具可以帮助提高工作效率?不妨看一看这5个MySQL GUI工具。1、Navicat f
pip install如何指定包的安装路径
pip install指定安装目录pip install一般会有默认的安装目录，可以通过python -m site进行查看，当然也可以对默
xmlhttp 乱码比较完整的解决方法 (UTF8,GB2312)
用XMLHTTP Post Form时的表单乱码有两方面的原因——Post表单数据时中文乱码；服务器Response被XMLHTTP不正确编
Python错误+异常+模块总结
前言：本篇主要讲两方面，错误和异常以及模块。在编程时遇见错误信息在所难免，Python中会也有很多种错误信息，常见的两种就是语法错误和逻辑错
JavaScript运动框架多值运动(四)
多值运动，也就是对于某个对象来说，不仅仅只是其中一个属性值在变化，而是好多个，比如宽，高，字体，透明度等等同时变化当然了，多值运动会产生一个
npm全局环境变量配置详解
我们要先配置npm的全局模块的存放路径以及cache的路径，例如我希望将以上两个文件夹放在nodejs的主目录下，便在nodejs下建立”n
Python实现获取前100组勾股数的方法示例
本文实例讲述了Python实现获取前100组勾股数的方法。分享给大家供大家参考，具体如下：本来想采用穷举试探的方式来做这个算法，后来发现还是
Python实现APP自动化发微信群消息的示例代码
1. 前言但是对于很多人来说，首先编写一款 App 需要一定的移动端开发经验，其次还需要另外编写无障碍服务应用，如此显得有一定难度的本篇文章
mysql 5.7.13 解压缩版（免安装）安装配置教程
MySQL是一个关系型数据库管理系统，官方网站是http://www.mysql.com/，分为MySQL Enterprise Editi
python中的脚本性能分析
python脚本性能分析首先使用cd进入需要测试的脚本文件对应的目录，然后再使用如下代码完成对脚本的性能测试。# enter the dir
vue一步到位的实现动态路由
最近在写vue项目，需要由后台传来当前用户对应权限的路由表，前端通过调接口拿到后处理(后端处理路由)，就是配置vue动态路由啦。由于错信了一
php面向对象程序设计
类：定义一件事物的抽象特点。对象：类的实例。成员变量 − 定义在类内部的变量。该变量的值对外是不可见的，但是可以通过成
Python文件的操作示例的详细讲解
1. 文件的读写原理：文件的读写称为I/O操作。操作原理：.py文件是用解释器去运行，调用OS操作系统的资源，去操作磁盘上的文件。操作流程：
最新python正则表达式(re模块)详解
在Python中需要通过正则表达式对字符串进⾏匹配的时候，可以使⽤⼀个python自带的模块，名字为re。正则表达式的大致匹配过程是：1.依
使用Python paramiko模块利用多线程实现ssh并发执行操作
1.paramiko概述ssh是一个协议，OpenSSH是其中一个开源实现，paramiko是Python的一个库，实现了SSHv2协议(底
python实现转盘效果 python实现轮盘抽奖游戏
本文实例为大家分享了python实现转盘效果的具体代码，供大家参考，具体内容如下#抽奖面向对象版本import tkinterimport
MySQL中LAG()函数和LEAD()函数的使用
一、窗口函数的基本用法从MySQL8之后才开始支持窗口函数<窗口函数> OVER ([PARTITION BY <用于分组

Python 通过调用接口获取公交信息的实例

介绍Python的Django框架中的静态资源管理器django-pipeline

python中的json数据和pyecharts模块入门示例教程

使用python批量转换文件编码为UTF-8的实现

python 3.74 运行import numpy as np 报错lib\\site-packages\\numpy\\__init__.py

python配置文件写入过程详解

Python GUI学习之登录系统界面篇

详解Python如何在多层循环中使用break/continue

Pytorch保存模型用于测试和用于继续训练的区别详解

ffmpeg+Python实现B站MP4格式音频与视频的合并示例代码

wps文字如何设置编码

Win10无法登录微软账户 Win10登录微软账户出错怎么办？

excel2010保存文件方法

万能五笔输入法怎么更换皮肤？万能五笔输入法更换皮肤的方法

妄想山海灵力充沛什么意思

死亡花园幽灵技能怎么选择?幽灵技能推荐一览

excel中验算公式使用实例

如何打开win7系统的手写板？打开win7系统手写板的方法

电脑版wps表格如何设置共享工作簿的密码

看完后，我再也不敢说精通Word技巧

手机版 网络编程 asp之家 www.aspxhome.com