python创建属于自己的单词词库 便于背单词
作者:虚谷dr 发布时间:2022-05-01 10:17:00
标签:python,单词,词库
本文实例为大家分享了python创建单词词库的具体代码,供大家参考,具体内容如下
基本思路:以COCA两万单词表为基础,用python爬取金山词霸的单词词性,词义,音频分别存入sqllite。背单词的时候根据需要自定义数据的选择方式。
效果如下:
代码写的比较随意,还请见谅。
创建数据库
cu.execute('create table test (id INTEGER PRIMARY KEY AUTOINCREMENT,dc varchar(20),cx varchar(20),cy varchar(50),mp3 varchar(50));')
完整代码,效率不高,不过够用了
import requests
from bs4 import BeautifulSoup
import re
import traceback
import sqlite3
import time
import sys
def ycl(word):
try:
url = "http://www.iciba.com/{}".format(word)
headers = { 'Host': 'www.iciba.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3', 'Accept-Encoding': 'gzip, deflate', 'Referer': 'http://www.baidu.com', 'Connection': 'keep-alive', 'Cache-Control': 'max-age=0', }
response = requests.get(url = url,headers = headers)
soup = BeautifulSoup(response.text,"lxml")
#输出单词词性
cx = soup.find(class_='base-list switch_part')(class_='prop')
#输出词性词义
mp3 = soup.find_all(class_='new-speak-step')[1]
pattern = re.compile(r'http://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+.mp3')
mp3url = re.findall(pattern,mp3['ms-on-mouseover'])
mp3url = '.'.join(mp3url)
r = requests.get(mp3url)
#单词音频输出路径
dress = "E:\\sound\\"
mp3path = dress +word+".mp3"
with open(mp3path, 'wb') as f:
f.write(r.content)
#获取词性个数
meanings =soup.find_all(class_='prop')
#实行每个词性的词义同行输出
for i in range(len(meanings)):
s = soup.find(class_='base-list switch_part')('li')[i]('span')
c = cx[i].text
a = ''
for x in range(len(s)):
b = s[x].text
a = a + b
print(word)
print(c)
print(a)
# 存入数据库的方法
conn = sqlite3.connect("word.db")
cu = conn.cursor()
sql =cu.execute("INSERT INTO test (id,dc,cx,cy,mp3)VALUES(NULL,'%s','%s','%s','%s');"%(word,c,a,mp3path))
print(sql)
conn.commit()
print('\n')
except Exception as e:
print(e)
print("error")
with open("log.txt",'a') as f:
f.write(word+'\n')
def duqudanci(file):
wordcount = 0
for line in open(file):
word = line.strip('\n')
wordcount += 1
print(wordcount)
ycl(word)
if __name__ == '__main__':
conn = sqlite3.connect("word.db")
cu = conn.cursor()
word = ""
#需要爬取的单词
duqudanci(sys.argv[1])
print('下载完成')
conn.commit()
conn.close()
自定义背单词: 根据需要可以将单词放入txt文件中进行测试,可以输出词义拼写单词,也可以输出单词,选择对应释义。 当然还可以给每个单词词义加两个属性值,分别表示学习次数和答错次数,然后可以根据这两个值来选择单词,如果有兴趣的话,可以尝试一下。
import sqlite3
import random
import sys
from playsound import playsound
# 中译英
def CtoE():
for j in list1:
sql =cu.execute('select id,dc,cx,cy,mp3 from wordinfo where id = ?',(j,))
for it in sql:
# 返回的是元组,直接对元组查询
c=0
while c<3:
print("当前单词ID = "+str(it[0]))
print("释义:"+it[3])
# 播放音频
playsound(it[4])
a = input("请拼写单词,共有三次机会:")
if a == it[1]:
print("拼写正确")
break;
c += 1
print('第%d次拼写错误'%c)
print('\n')
print("下一个")
print('\n')
# 英译中
def EtoC():
for j in list1:
sql =cu.execute('select id,dc,cx,cy,mp3 from wordinfo where id = ?',(j,))
d =0
for it in sql:
# 返回的是元组,直接对元组查询
c=0
while c<3:
# 释放list2
list2 = []
sql =cu.execute('select cy from wordinfo where id !=? order by random() limit 3',(j,))
for t in sql:
for o in range(len(t)):
#将随机取出的数据放入列表
list2.append(t[o])
# 加入正确答案
p = random.randint(0,3)
list2.insert(p,it[3])
print("当前单词ID = "+str(it[0]))
print("选择单词的对应释义:----"+it[1])
playsound(it[4])
dict1 = {'A':list2[0],'B':list2[1],'C':list2[2],'D':list2[3]}
print("A:"+dict1.get('A')+'\n')
print("B:"+dict1.get('B')+'\n')
print("C:"+dict1.get('C')+'\n')
print("D:"+dict1.get('D')+'\n')
answer1 = input("请选择,共有三次机会(大写):")
if dict1.get(answer1)== it[3]:
print("正确")
break;
c += 1
print('第%d次拼写错误'%c)
d += 1
print('\n')
print("下一个")
print('\n')
def main(file):
for line in open(file):
word = line.strip('\n')
sql =cu.execute('select id from wordinfo where dc = ?',(word,))
for x in sql:
list1.append(x[0])
cho = input("英译中请选1,中译英请选2:")
if cho =="1":
EtoC()
elif cho =="2":
CtoE()
else:
print("错误,请重试")
if __name__ == '__main__':
conn = sqlite3.connect("word.db")
cu = conn.cursor()
list1 = []
word = ""
main(sys.argv[1])
conn.commit()
conn.close()
来源:https://blog.csdn.net/qq_40551339/article/details/88880899


猜你喜欢
- 使用JS实现在图片上显示左右箭头的翻页代码,预览效果网址:http://www.keleyi.com/keleyi/phtml/picnex
- 亲测十分靠谱下面是解决该问题的方法第一步:关闭SIP系统保护1.重启系统时按住Command+R进入恢复模式(记住是你在重新启动时,不是启动
- 条形图普通条形图ggplot(df,],aes(x=group,y=value))+geom_bar(stat = "identi
- 目录现象根因分析getLastPacketReceivedTimeMs()方法调用时机解决方案现象应用升级MySQL驱动8.0后,在并发量较
- 引言接上文 parseHTML 函数源码解析 start钩子函数接下来我们主要讲解当解析器遇到一个文本节点时会如何为
- 目前,SQL Server数据库有几个版本都在使用中,比如 7.0, 2000和2005,那么,在现实的工作和学习中,你很有可能会需要从以前
- 最近研究正则表达式。看到很多朋友需要IP地址的正则表达式,网上找了一下,一开始就找到了月光博客网站模板上的找了半天没有找到完整解决IP地址的
- 本文研究的主要是python实现Decorator模式,具体介绍如下。一般来说,装饰器是一个函数,接受一个函数(或者类)作为参数,返回值也是
- 一、安装selenium库问题1:什么是selenium模块?基于浏览器自动化的一个模块。 问题2:selenium模块有什么作用
- 试了一下,xmlDoc.save()行不同,就试着用fso做了出来。整理一下,供大家discuss。由于用js操作本地xml文件之后save
- 今天在群里,熊猫君提议整理一个帖子,一方面为初学者提供一个入门指南,另一方面也象借此和已经在从事这个行业进行一点交流。下面是我从事这个行当多
- 网上的SQL优化的文章实在是很多,说实在的,我也曾经到处找这样的文章,什么不要使用IN了,什么OR了,什么AND了,很多很多,还有很多人拿出
- 以下内容是针对安装tensorflow-CPU版本的。tensorflow已经支持Python3.8版本的安装。可以查看自己的Python版
- OAuth2 的概念OAuth是一个关于授权的开放网络标准,OAuth2是其2.0版本。它规定了四种操作流程(授权模式)来确保安全应用场景有
- 一、线程编程(Thread)1、线程基本概念1.1、什么事线程线程被称为轻量级的进程线程也可以使用计算机多核资源,是多任务编程方式线程是系统
- JS实现轮播图实现结果图:需求:1 根据图片动态添加小圆点 2 目标移动到小圆点轮播图片 3 鼠标离开图片,定时轮播图片;鼠标在图片上时暂停
- 目标在本节中,将学习根据立体图像创建深度图基础在上一节中,看到了对极约束和其他相关术语等基本概念。如果有两个场景相同的图像,则可以通过直观的
- 为了便于操作基本类型值,ECMAScript 提供了 3 个特殊的引用类型:Boolean、Number和 String。这些类型与其他引用
- 加载模型并查看网络加载模型,以vgg19为例。打开终端> pythonPython 3.7.2 (tags/v3.7.2:9a3ffc
- 本文接上一篇博客python实现的八大排序算法part1,将继续使用python实现八大排序算法中的剩余四个:快速排序、堆排序、归并排序、基