对python借助百度云API对评论进行观点抽取的方法详解
作者:AnthonyHDM 发布时间:2023-12-06 19:42:12
标签:python,百度云,API,观点
通过百度云API接口抽取得到产品评论的观点,也掠去了很多评论中无用的内容以及符号,为后续进行文本主题挖掘或者规则的提取提供基础。
工具
1、百度云账号,申请应用接口(自然语言处理)
2、python3.5
以下是百度接口提供的说明:
我们使用到的可选值是13,kindle属于3C产品。
下面是代码示例:
from aip import AipNlp
import csv
import pandas as pd
from pandas.core.frame import DataFrame
""" 你的 APPID AK SK """
APP_ID = '********'
API_KEY = '********'
SECRET_KEY = '********'
client = AipNlp(APP_ID, API_KEY, SECRET_KEY)
# 导入评论数据文件,并找到第13列(12行)的评论内容提取出来
def output():
urls = []
with open('E:\\tb_iphone8.csv', "r") as f:
reader = csv.reader(f)
for row in reader:
urls.append(row[12])
return urls
# 通过百度云提供的API对评论观点进行提取
def commentTag():
x = output()
all={}
abst=''
for i in range(10560):
text=x[i]
""" 调用评论观点抽取 """
""" 如果有可选参数 """
# 可选参数为13表示利用了3C产品的语料库
options = {}
options["type"] = 13
""" 带参数调用评论观点抽取 """
result=client.commentTag(text, options)
print(result)
if "error_code" in result.keys():
abst+=''
all['abstract'] = abst
else:
data = result['items']
items = data[0]
abst += items['abstract']
all['abstract'] = abst
return abst
if __name__ == '__main__':
ALL=commentTag()
print(ALL)
得到的结果如下:
可以看到,现在抽取出来的评论部分内容都是具有一定观点倾向的,大部分没有什么含义的评论内容已经被除去,这对后面的分析有一定的帮助。
来源:https://blog.csdn.net/AnthonyHDM/article/details/78957315


猜你喜欢
- 一、正则1.正则表达式定义正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。或者说:正则就是用来描述一
- 在微信开发中,写过的一个简单的音乐播放组件,记录下。music音乐播放组件。属性属性名类型默认值说明musicString 传入的
- 在写完前面“模块化”相关的文章后,感觉试图用“模块化”本身去讲什么是“模块化”真是不容易讲得清。相信大家都多多少少能理解什么是“模块化”,但
- 一、创建数据库标准1.表的必备三个字段:id、gmt_create、gmt_modified2.gmt_create是创建时间,gmt_mo
- 掌握一些技巧,可尽量提高Python程序性能,也可以避免不必要的资源浪费。1、使用局部变量尽量使用局部变量代替全局变量:便于维护,提高性能并
- 在python开发中,经常会出现调用子文件夹下的py模块如上图,如果在test.py文件中,要调用meeting文件夹下面的huodongs
- 本文实例讲述了Python使用Pandas库常见操作。分享给大家供大家参考,具体如下:1、概述Pandas 是Python的核心数据分析支持
- use strict;use warnings;# Print all files in a directorysub print_file
- 本文实例讲述了Python获取网页上图片下载地址的方法。分享给大家供大家参考。具体如下:这里获取网页上图片的下载地址是正在写的数据采集中的一
- 1. 条形图的绘制plt.bar 方法有以下常用参数:x :一个数组或者列表,代表需要绘制的条形图的x轴的坐标点。height :一个数组或
- 本文实例讲述了Python实现多线程的两种方式。分享给大家供大家参考,具体如下:目前python 提供了几种多线程实现方式 thread,t
- OUTLINE 常见的时间字符串与timestamp之间的转换日期与timestamp之间的转换常见的时间字符串与timesta
- 一、装饰器由于一个函数能实现一种功能,现在想要在不改变其代码的情况下,让这个函数进化一下,即能保持原来的功能,还能有新的"技能&q
- 在linux上想获取文件的元信息,我们需要使用系统调用lstat或者stat。在golang的os包里已经把stat封装成了Stat函数,使
- Django功能强大不单在于他先进的编程理念,很多现有的功能模块更是可以直接拿来使用,比如这个牛掰的admin模块,可以作为一个很好的信息登
- 1.writelines()直接写入l=["A","B","C","D
- 一、前言今天学习视频时课后作业是找出1000以内既是素数又是回文数的数,写代码这个很容易,结果一运行遇到了bug,输出结果跟预期不一样,调试
- 本文实例讲述了JS小游戏的仙剑翻牌源码,是一款非常优秀的游戏源码。分享给大家供大家参考。具体如下:一、游戏介绍:这是一个翻牌配对游戏,共十关
- 通过当前排序字段获取相邻数据项1.业务场景(1)需要专门以一个弹窗页面展示一项数据的所有字段值.其中一些字段值长度较大。(2)能够左右切换上
- 1 背景&概述因某些需求,需要安装 TensorFlow ,很自然地在终端敲下了以下命令:pip install tensorflo