python 利用百度API进行淘宝评论关键词提取
作者:Yuki-lsq 发布时间:2021-11-14 19:32:36
目录
1、创建相关新应用
2、获取Access Token
3、分析评论并进行观点抽取
4、运行结果
利用百度API自然语言处理技术中的评论观点抽取方面,对淘宝购物的评论进行分析,把关键词进行提取,方便买家快速了解该商品的相关特点,具体实现过程如下:
1、创建相关新应用
首先,需要登录百度AI平台,创建一个关于自然语言处理技术的应用(领取免费额度),获得AppID、API Key和Secret Key如下:
然后下载Python的SDK,然后可以通过阅读API的使用手册和自然语言处理技术的观点抽取相关案例:
2、获取Access Token
使用百度API时需要先获取Access Token,并且需要用到上一步获取的参数API Key和Secret Key,在百度给出的使用说明中,建议用POST的方式对URL进行请求来获取access_token,同时可以加入Header,该方式支持UTF-8编码,具体实现代码如下:
import json
import time
import requests
from urllib.request import urlopen
#定义获取token函数
def get_token():
req = Request(Token_url)
req.add_header('Content-Type', 'application/json; charset=UTF-8')
try:
f = urlopen(req,timeout=5)
result_str = f.read().decode('utf-8')
except URLError as err:
print(err)
result = json.loads(result_str)
#返回Access Token字符串
return result['access_token']
3、分析评论并进行观点抽取
在获取Access Token后就可以使用百度API对评论进行分析并抽取关键词。在使用说明中,调用API时需要输入参数text和type,其中text为需要分析的文本,而type分成了13各类别,具体取值说明如下:
因为本文分析的是淘宝购物评论文本数据,所以该参数取值选择了12。其次,返回格式需要指定输入为UTF-8编码,对于调用后返回的参数,本文用到了prop、adj和sentiment三个参数,解释如下:
具体实现代码如下:
def analysis_comment(host,comment):
#定义分析类别(购物)
data = json.dumps(
{
"text":comment,
"type":12
})
request = Request(url=host,data=data.encode('utf-8'))
request.add_header('Content-Type', 'application/json; charset=UTF-8')
response = urlopen(request)
content = response.read().decode('utf-8')
rdata = json.loads(content)
print("--------------------------------------------------------------")
print("评论:")
print(" " + comment)
print("\n评论关键字:")
#把积极、中性、消极关键词分类出来并打印
for item in rdata['items']:
if item['sentiment'] == 2:
print(u" 积极的评论关键词:" + item['prop'] + item['adj'])
if item['sentiment'] == 1:
print(u" 中性的评论关键词:" + item['prop'] + item['adj'])
if item['sentiment'] == 0:
print(u" 消极的评论关键词:" + item['prop'] + item['adj'])
4、运行结果
在对上述函数进行定义后,运行改代码,调用函数:
if __name__ == '__main__':
#定义访问url(API Key和Secret Key换成自己的)
Comment_url = "https://aip.baidubce.com/rpc/2.0/nlp/v2/comment_tag"
Token_url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=your_API_Key&client_secret=your_Secret_Key"
A_t = get_token()
host = Comment_url + "?charset=UTF-8&access_token="+A_t
comment1 = {"text":"版型不错,颜色很好看,面料非常舒服而且厚度适中"}
comment2 = {"text":"上身效果一般,做工也一般,会有点起球,没有想象中好"}
comment3 = {"text":"设计做工一点都不好,袖子特别长,衣服比例设计非常差,性价比不高"}
comment1 = comment1["text"]
comment2 = comment2["text"]
comment3 = comment3["text"]
analysis_comment(host,comment1)
analysis_comment(host,comment2)
analysis_comment(host,comment3)
运行结果如下:
然而,从结果中可以看出,在第二句评论中,“一般”这个词应该定义为中性,而该模型将其定义为消极,说明该模型在一定程度上仍存在一些瑕疵,这也是后期需要改进的地方。
来源:https://www.cnblogs.com/Ukiii/p/14580631.html


猜你喜欢
- 原文链接:https://vien.tech/article/157前言本文将介绍ubuntu系统下如何定时执行shell脚本、python
- 1、引言小 * 丝:鱼哥,这个周末过得咋样小鱼:酸爽~ ~小 * 丝:额~~ 我能想到的,是这样吗?小鱼:有多远你走多远。小 * 丝:唉,鱼哥,你别说,
- 1、概述在前面的文章中,我有分享了vue+drf+第三方滑动验证码接入的实现 (文中也留了分享图片验证码功能的实现),即本文将要分享的是基于
- 前言:随机数模块实现了各种分布的伪随机数生成器。对于整数,从范围中有统一的选择。 对于序列,存在随机元素的统一选择、用于生成列表的随机排列的
- 最近,就“尊重”一词,个人小有感概。也许跟我说“尊重”一词的同事并不是这么想的,但我反思了一下自己,作为一名设计师,确实存在这些疑问(不足之
- GO的锁和原子操作分享上次我们说到协程,我们再来回顾一下:协程类似线程,是一种更为轻量级的调度单位线程是系统级实现的,常见的调度方法是时间片
- 本文针对ThinkPHP中pathinfo的两种模式、四种路径访问模式和URL重写相关知识进行了总结归纳,分享给大家便于查询和借鉴。具体归纳
- python代码运行助手是能在网页上运行python语言的工具。因为python的运行环境在很多教程里都是用dos的,黑乎乎的界面看的有点简
- 其实图像识别技术与我们平时做的密码验证之类的没有什么区别,都是事先把要校验的数据入库,然后使用时将录入(识别)的数据与库中的数据做对比,只不
- 一、切换到Oracle用户su – oracle二、登录到sys用户sqlplus / as sysdba三、创建临时表空间//查询临时表空
- 这是一个access较为豪华的包装范例,他调用了flash的流媒体控件,利用flash的交互与通信功能,借以达到了我们装扮软件的目的。fla
- 基于循环神经网络(RNN)的古诗生成器,具体内容如下之前在手机百度上看到有个“为你写诗”功能,能够随机生成古诗,当时感觉很酷炫= =在学习了
- 本文实例讲述了Python类的用法。分享给大家供大家参考。具体如下:先看一段代码:#!/usr/bin/env pythonclass Te
- 如何利用微信JSSDK调用微信扫一扫功能?具体内容如下1. 确保有 调起微信扫一扫接口 权限,测试号可能不行;2. 导入相关JS<sc
- numpy的sum函数可接受的参数是:sum(a, axis=None, dtype=None, out=None, keepdims=np
- 网上找的协程安全的map都是用互斥锁或者读写锁实现的,这里用单个协程来实现下,即所有的增删查改操作都集成到一个goroutine中,这样肯定
- .csv数据格式 10*3,dataSet 1.1,1.5,2.5 1.3,1.9,3.2 1.5,2.3,3.9 1.7,2.7,4.6
- 内涵:正则匹配,正则替换,页面抓取,图片保存 。实用的第一次 Python 代码 参考#!/usr/bin/env pythonimport
- 如下所示:try: f =open("D:/1.txt",'r') f.clos
- 在众多代码编辑工具中,我最喜欢的就是微软的vscode。首先它十分轻便,不吃硬件,运行非常顺畅;其次是其各种各样的插件使得编程效率蹭蹭地往上