Django中使用Whoosh进行全文检索的方法
作者:周继元的博客 发布时间:2023-03-20 05:35:43
标签:Django,Whoosh,全文检索
Whoosh 是纯Python实现的全文搜索引擎,通过Whoosh可以很方便的给文档加上全文索引功能。
什么是全文检索
简单讲分为两块,一块是分词,一块是搜索。比如下面一段话:
上次舞蹈演出直接在上海路的弄堂里
比如我们现在想检索上次的演出,通常我们会直接搜索关键词: 上次演出 ,但是使用传统的SQL like 查询并不能命中上面的这段话,因为在 上次 和 演出 中间还有 舞蹈 。然而全文搜索却将上文切成一个个Token,类似:
上次/舞蹈/演出/直接/在/上海路/的/弄堂/里
切分成Token后做反向索引(inverted indexing),这样我们就可以通过关键字很快查询到了结果了。
解决分词问题
分词是个很有技术难度的活,比如上面的语句中一个难点就是到底是 上海路 还是 上海 呢?Python有个中文分词库: 结巴分词 ,我们可以通过结巴分词来完成索引中分词工作,结巴分词提供了Whoosh的组件可以直接集成,代码示例
遇到的问题
如果是在一些VPS上测试的时候非常慢的话可能是内存不足,比如512MB做一个博客索引非常慢,尝试升级到1GB后可以正常使用了。
代码
import logging
import os
import shutil
from django.conf import settings
from whoosh.fields import Schema, ID, TEXT, NUMERIC
from whoosh.index import create_in, open_dir
from whoosh.qparser import MultifieldParser
from jieba.analyse import ChineseAnalyzer
from .models import Article
log = logging.getLogger(__name__)
index_dir = os.path.join(settings.BASE_DIR, "whoosh_index")
indexer = open_dir(index_dir)
def articles_search(keyword):
mp = MultifieldParser(
['content', 'title'], schema=indexer.schema, fieldboosts={'title': 5.0})
query = mp.parse(keyword)
with indexer.searcher() as searcher:
results = searcher.search(query, limit=15)
articles = []
for hit in results:
log.debug(hit)
articles.append({
'id': hit['id'],
'slug': hit['slug'],
})
return articles
def rebuild():
if os.path.exists(index_dir):
shutil.rmtree(index_dir)
os.makedirs(index_dir)
analyzer = ChineseAnalyzer()
schema = Schema(
id=ID(stored=True, unique=True),
slug=TEXT(stored=True),
title=TEXT(),
content=TEXT(analyzer=analyzer))
indexer = create_in(index_dir, schema)
__index_all_articles()
def __index_all_articles():
writer = indexer.writer()
published_articles = Article.objects.exclude(is_draft=True)
for article in published_articles:
writer.add_document(
id=str(article.id),
slug=article.slug,
title=article.title,
content=article.content,
)
writer.commit()
def article_update_index(article):
'''
updating an article to indexer, adding if not.
'''
writer = indexer.writer()
writer.update_document(
id=str(article.id),
slug=article.slug,
title=article.title,
content=article.content,
)
writer.commit()
def article_delete_index(article):
writer = indexer.writer()
writer.delete_by_term('id', str(article.id))
writer.commit()
来源:https://www.imzjy.com/blog/2018-10-06-full-text-search-with-whoosh


猜你喜欢
- 方法一: 名称:DTS(这个在MSSQL2000里边也有)操作:在命令提示符窗口中运行 DTSWizard.exeSQL Server 导入
- 目录Logging模块的使用简单使用指定日志输出样式日志记录到文件中自定义日志配置准备日志配置信息准备日志配置信息加载日志配置信息使用日志配
- 如下所示:file->settings->Editor->General->Console里面的console co
- 高动态范围成像一、引言如今,大多数数字图像和成像设备每通道使用 8 位整数表示灰度,因此将设备的动态范围限制在两个数量级(实际上是 256
- 今天突然想起做一个当鼠标经过<a/>时,会发出声音Js代码如下: <script type="text
- 总体顺序确定需要安装的tensorflow-gpu版本,点击这里拉到最下方,一般是cuda10和cudnn7.4,以及对应的nvidia驱动
- string操作在编程中具有极高的频率,那么string中有哪些有用的方法呢?使用strings直接操作Comparefunc Compar
- 目录一、介绍1.什么是索引?2.为什么要有索引呢?二、索引的原理一 索引原理二 磁盘IO与预读三、索引的数据结构四、Mysql索引管理一、功
- 1.介绍DeLorean是一个Python的第三方模块,基于 pytz 和 dateutil 开发,用于处理Python中日期时间的格式转换
- 1. 概念map函数也是python中的一个内置函数,用法同之前讲过的filter函数类似。map在这里的意思是映射的意思,会根据提供的函数
- 今天跟大家分享下selenium中根据父子、兄弟、相邻节点定位的方法,很多人在实际应用中会遇到想定位的节点无法直接定位,需要通过附近节点来相
- Selenium中的鼠标和键盘事件被封装在ActionChains类中,使用方法:ActionChains(driver).click(bt
- 首先看middleware的定义:auth模块有两个middleware:AuthenticationMiddleware和SessionA
- 在学习人工智能时,大量的使用了np.random.seed(),利用随机数种子,使得每次生成的随机数相同。我们带着2个问题来进行下列实验np
- 今天解析DEDECMS时发现deder的MYSQL时间字段,都是用`senddata` int(10) unsigned NOT NULL
- 废话不多说,直接上代码吧!#python中,while语句用于循环执行程序,即在某个条件下,循环执行某段程序,以处理需要重复处理的相同任务。
- 前言体能状态先于精神状态,习惯先于决心,聚焦先于喜好。SHA算法简介1.1 概述SHA (Secure Hash Algorithm,译作安
- python保存文本文件的方法:使用python内置的open()类可以打开文本文件,向文件里面写入数据可以用write()函数,写完之后,
- PyQt5滚动条控件QScrollBar简介可以看到,前面介绍的几个窗口控件的共同点是新建一些窗口来装载更多的控件,而QScrollBar提
- #!/usr/bin/env python # coding=utf-8 #--------------------------------