python 利用百度API进行淘宝评论关键词提取
作者:Yuki-lsq 发布时间:2021-11-14 19:32:36
目录
1、创建相关新应用
2、获取Access Token
3、分析评论并进行观点抽取
4、运行结果
利用百度API自然语言处理技术中的评论观点抽取方面,对淘宝购物的评论进行分析,把关键词进行提取,方便买家快速了解该商品的相关特点,具体实现过程如下:
1、创建相关新应用
首先,需要登录百度AI平台,创建一个关于自然语言处理技术的应用(领取免费额度),获得AppID、API Key和Secret Key如下:
然后下载Python的SDK,然后可以通过阅读API的使用手册和自然语言处理技术的观点抽取相关案例:
2、获取Access Token
使用百度API时需要先获取Access Token,并且需要用到上一步获取的参数API Key和Secret Key,在百度给出的使用说明中,建议用POST的方式对URL进行请求来获取access_token,同时可以加入Header,该方式支持UTF-8编码,具体实现代码如下:
import json
import time
import requests
from urllib.request import urlopen
#定义获取token函数
def get_token():
req = Request(Token_url)
req.add_header('Content-Type', 'application/json; charset=UTF-8')
try:
f = urlopen(req,timeout=5)
result_str = f.read().decode('utf-8')
except URLError as err:
print(err)
result = json.loads(result_str)
#返回Access Token字符串
return result['access_token']
3、分析评论并进行观点抽取
在获取Access Token后就可以使用百度API对评论进行分析并抽取关键词。在使用说明中,调用API时需要输入参数text和type,其中text为需要分析的文本,而type分成了13各类别,具体取值说明如下:
因为本文分析的是淘宝购物评论文本数据,所以该参数取值选择了12。其次,返回格式需要指定输入为UTF-8编码,对于调用后返回的参数,本文用到了prop、adj和sentiment三个参数,解释如下:
具体实现代码如下:
def analysis_comment(host,comment):
#定义分析类别(购物)
data = json.dumps(
{
"text":comment,
"type":12
})
request = Request(url=host,data=data.encode('utf-8'))
request.add_header('Content-Type', 'application/json; charset=UTF-8')
response = urlopen(request)
content = response.read().decode('utf-8')
rdata = json.loads(content)
print("--------------------------------------------------------------")
print("评论:")
print(" " + comment)
print("\n评论关键字:")
#把积极、中性、消极关键词分类出来并打印
for item in rdata['items']:
if item['sentiment'] == 2:
print(u" 积极的评论关键词:" + item['prop'] + item['adj'])
if item['sentiment'] == 1:
print(u" 中性的评论关键词:" + item['prop'] + item['adj'])
if item['sentiment'] == 0:
print(u" 消极的评论关键词:" + item['prop'] + item['adj'])
4、运行结果
在对上述函数进行定义后,运行改代码,调用函数:
if __name__ == '__main__':
#定义访问url(API Key和Secret Key换成自己的)
Comment_url = "https://aip.baidubce.com/rpc/2.0/nlp/v2/comment_tag"
Token_url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=your_API_Key&client_secret=your_Secret_Key"
A_t = get_token()
host = Comment_url + "?charset=UTF-8&access_token="+A_t
comment1 = {"text":"版型不错,颜色很好看,面料非常舒服而且厚度适中"}
comment2 = {"text":"上身效果一般,做工也一般,会有点起球,没有想象中好"}
comment3 = {"text":"设计做工一点都不好,袖子特别长,衣服比例设计非常差,性价比不高"}
comment1 = comment1["text"]
comment2 = comment2["text"]
comment3 = comment3["text"]
analysis_comment(host,comment1)
analysis_comment(host,comment2)
analysis_comment(host,comment3)
运行结果如下:
然而,从结果中可以看出,在第二句评论中,“一般”这个词应该定义为中性,而该模型将其定义为消极,说明该模型在一定程度上仍存在一些瑕疵,这也是后期需要改进的地方。
来源:https://www.cnblogs.com/Ukiii/p/14580631.html
猜你喜欢
- 众所周知,透明的PNG图片在IE6中是不透明的。为了在IE6中显示透明的PNG图片,找了一下方法,在网页中嵌入JS语句,可是执行效果并不尽如
- 本文实例讲述了php常用字符串长度函数strlen()与mb_strlen()用法。分享给大家供大家参考,具体如下:int strlen (
- 测试:IE6、IE7、FF3.014突发奇想的效果,主要突出构思,效果还比较粗糙,好好创意一下,应该可以引申出一些比较有新意的图片切换效果。
- 最近,我有机会研究对视觉设计作用的常见误解,这些误解仍然盛行于行政主管、产品主管,工程经理和市场专家中。设计团队成员如何说明这些认识是错误的
- 一、垃圾还是经典网页技术更新很快,一个网站的界面设计寿命仅仅2-3年而已。不管是垃圾还是精品,都没有所谓的经典。经典只存在于是哪个首次成功创
- 在运维场景下,我们经常需要在服务器上用正则表达式来匹配IP地址。shell和其它编程语言一样,也可以使用正则分组捕获,不过不能使用 $1或\
- 常用的重定向方式有: 301 redirect, 302 redirect 与 meta fresh:301 redirect: 301代表
- 名称:YUI Compressor最新版本:2.4.2用途:js/css压缩必备指数:使用难度:(YUI Compressor非常易用,只是
- 本文介绍了4个asp数据库管理中常用到的access数据库操作程序,一般的网站管理后台都提供了这个功能,方便管理员对数据库数据的管理维护。1
- <% SoFia_DbName="jiaoyou&qu
- 这是解释器设置问题,在设置里找到interpreter 找到合适的目录就可以了。因为重装了python导致pycharm找不到路径了。另外,
- 本文实例讲述了django框架实现一次性上传多个文件功能。分享给大家供大家参考,具体如下:在用django 写文件上传的时候,从reques
- (一)问题遗传算法求解正方形拼图游戏(二)代码#!/usr/bin/env python# -*- coding: utf-8 -*-fro
- 之前介绍过python开发工具Jupyter的使用,今天继续讲解python的数据类型,python中有整型、浮点型、字符串、布尔类型,我们
- 情况1:Go语言中,若在子go程中创建一个新 go程,子go程释放(销毁),新创建的go程不会随着子go程的销毁而销毁。原因:go程共享堆,
- 我们平日办公时用得最多的软件是Execl、Word或WPS Office等,你的计算机中一定储存着大量的XLS、DOC、WPS文件吧!网页制
- 一段重用很高的ajax代码,可以套用 <!DOCTYPE HTML
- 最简单的办法就是直接在php程序代码中加入下面代码:error_reporting(E_ALL^E_NOTICE^E_WARNING);可以
- 服务器现在同时输出json和xml两种数据,取决于服务程序和页面之间的约定。在程序遇到问题的时候会返回错误信息,也按照相同的约定会返回jso
- 有2个不同的方法增加用户:通过使用GRANT语句或通过直接操作MySQL授权表。比较好的方法是使用GRANT语句,因为他们是更简明并且好像错