搜索历史基本原理实现即时自动补全联想搜索技巧
作者:全村最野的狗 发布时间:2023-05-31 22:02:04
实现搜索历史-[即时自动补全&联想搜索]
无论是新闻、内容、还是电商平台,联想输入已经成为搜索功能的标配,早已不是什么新鲜事物。我们随便打开一个搜索引擎或者是电商平台,当我们在输入框输入拼音或者文字时就会看到输入框下方弹出有意义的搜索建议,提示我们是不是想要输入“以下”内容,帮助我们补齐输入或是修正错误的输入,优化我们的搜索体验。
在上图示例中,我们可以看到,输入关键字 联想搜索,Google 搜索会联想到联想搜索、elasticsearch联想搜索,好处就是,我们无须输入完整的关键字即可轻松完成针对这些 topics 的搜索。
今天我们实现的功能和联想搜索有一点差别,我们是根据用户隔离,基于个人搜索历史的联想搜索。
如何实现基于个人搜索历史的联想推荐
一个好的自动补全器必须是快速的,并且在用户键入下一个字符后立即更新联想词列表。自动补全器的核心是一个函数,它接受输入的前缀,并搜索以给定前缀开头的词汇或语句列表。通常来说,只需要返回少量的数目即可。
架构图
词汇表实现
实现方式有很多种,例如前缀树实现,有限状态自动机(DFA)实现等等。
这里采用Redis ZSET数据结构快速实现。
Redis 有序集合和集合一样也是 string 类型元素的集合,且不允许重复的成员。
不同的是每个元素都会关联一个 double 类型的分数。redis 正是通过分数来为集合中的成员进行从小到大的排序。
type zset
key search-history-common
key search-history-user:1
key search-history-user:2
key search-history-user:3
备注:
常用搜索词库数据统计规则:定时取出所有人词库中排名靠前n位的搜索项并放入常用搜索库中
分数值 = 原有分数值*1.01+1.01 (为什么用一元函数,因为可以让常用词和不常用词更快的区分开)
分数值初始值为 1
实现原理
新增关键字操作
直接添加 默认score = 1
添加失败查询score
设置新score = score*1.1+1.1 (注意zset不能重新设置score
缓存完成
# 计算新score
# 新score应该 = score*1.1+1.1 但是 需要用ZADD,所以需要换算,(score*1.1+1.1)-score = a
ZADD key a member
# 化简得到
ZADD key score*0.1+1.1 member
# 添加 member = 1 返回 score
# 如果存在则添加失败 返回 0
ZADD key 1 member
# 获取分,不存在返回 null
ZSCORE key member
# 对某个键加上增量
ZADD key 1 member
删除关键字操作
直接删除
# 删除成功返回 1,如果一个zset下没有item, zset也会被自动删除
ZREM key member
查询推荐列表操作
全量查询当前用户词汇表
使用String.contains 或者其他框架过滤出推荐词
返回推荐列表到前端
# 全量查询 zset key(从小到大)
ZRANGE key 0 -1
member2
member
# 全量查询 zset key(从大到小)
ZRANGE key 0 -1 WITHSCORES
member2
2
member
6
来源:https://juejin.cn/post/7199269310296096828


猜你喜欢
- 引言近期在好几个地方都看到meshgrid的使用,虽然之前也注意到meshgrid的用法。但总觉得印象不深刻,不是太了解meshgrid的应
- 一、概述切片(Slice)是一个拥有相同类型元素的可变长度的序列。它是基于数组类型做的一层封装。它非常灵活,支持自动扩容。切片是一个引用类型
- 最近在看红楼梦,看的诗词多了,时不时的也想来一句...这几天刚看看到了underscore.js的防抖和节流的部分,正好又去复习了这部分内容
- 有使用过VS2005开发工具的朋友或者其他语句如js中都有Try catch 语句块,那么在mysql中是否能有SQLserver的@@er
- 一、DSE算法背景介绍1. DES的采用1979年,美国银行协会批准使用1980年,美国国家标准局(ANSI)赞同DES作为私人使用的标准,
- 虽然ting88没有注册的用户不能下载歌曲,但搞定它也非难事啊:)进入www.ting88.com的网站,把歌手专辑页面的URL复制到文本框
- 简介我们都知道计算机是基于二进制的,位运算是计算机的基础运算。位运算的优势很明显,CPU 指令原生支持、速度快。基于位运算的位集合在有限的场
- 最近发现数据库服务器压力很大,CPU经常达到100%。查看进程,发现有大量的sp_cursorclose;1进程信息。网上查了下,出现sp_
- 本文实例展示了PHP实现的格鲁斯卡尔算法(kruscal)的实现方法,分享给大家供大家参考。相信对于大家的PHP程序设计有一定的借鉴价值。具
- 本文实例讲述了Python类的用法。分享给大家供大家参考。具体如下:先看一段代码:#!/usr/bin/env pythonclass Te
- 自定义分页样式,不多废话,直接上代码~ html部分<div id="my_id"> &nbs
- 浏览网页的时候经常会碰到一些不认识的英文单词,或者想知道一些中文单词的翻译,这时候再去找翻译软件或者翻译网站就有些麻烦了。因此我做了一个“中
- G2笔记G2是蚂蚁金服的一套开源图表插件,因项目需要研究了一下,相比Echarts来说,G2文档比较难懂,网上也没有太多示例,所以在这里记录
- 读文件:要以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符:>>> f = op
- 前言飞桨(PaddlePaddle)是集深度学习核心框架、工具组件和服务平台为一体的技术先进、功能完备的开源深度学习平台1. 任务描述乘坐出
- 最近疫情比较严重,很多公司依靠阿里旗下的办公软件钉钉来进行远程办公,当然了,钉钉这个产品真的是让人一言难尽,要多难用有多难用,真的让人觉得阿
- scrapy框架概述:Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数
- 请问如何实现复合查询?我们用下面的代码来实现动态生成查询条件,动态显示结果的复合查询。set database to databasenam
- UDP 套接字是可以使用 connect 系统调用连接到指定的地址的。从此以后,这个套接字只会接收来自这个地址的数据,而且可以使用 send
- Django中获取text,password名字:<input type="text" name="na