Solr通过特殊字符分词实现自定义分词器详解
作者:随-忆 发布时间:2022-11-29 09:19:36
前言
我们在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。
业务场景
有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据:
有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和下面这种类似:
分词思路
在Solr的schema.xml文件中,有这样的配置
<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
</analyzer>
</fieldType>
对于字段类型text_ws,指定了一个分词器工厂WhitespaceTokenizerFactory,根据这个类,可以实现通过空格来分词,那么我通过竖线分词的代码应该与之类似。
修改源码
在Java工程中引入如下jar包:
<dependency>
<groupId>org.apache.solr</groupId>
<artifactId>solr-core</artifactId>
<version>6.0.0</version>
</dependency>
参照WhitespaceTokenizerFactory的源码,写一个自己的MyVerticalLineTokenizerFactory,内容基本不变:
package com.trainning.project.custom;
import java.util.Arrays;
import java.util.Collection;
import java.util.Map;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;
/**
* @author JiangChao
* @date 2017年4月2日下午3:41:13
*/
public class MyVerticalLineTokenizerFactory extends TokenizerFactory{
public static final String RULE_JAVA = "java";
public static final String RULE_UNICODE = "unicode";
private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);
private final String rule;
/** Creates a new MyVerticalLineTokenizerFactory */
public MyVerticalLineTokenizerFactory(Map<String,String> args) {
super(args);
rule = get(args, "rule", RULE_NAMES, RULE_JAVA);
if (!args.isEmpty()) {
throw new IllegalArgumentException("Unknown parameters: " + args);
}
}
@Override
public Tokenizer create(AttributeFactory factory) {
switch (rule) {
case RULE_JAVA:
return new MyVerticalLineTokenizer(factory);
case RULE_UNICODE:
return new UnicodeWhitespaceTokenizer(factory);
default:
throw new AssertionError();
}
}
}
具体做分词的MyVerticalLineTokenizer代码如下
package com.trainning.project.custom;
import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;
/**
* @author JiangChao
* @date 2017年4月2日下午9:46:18
*/
public class MyVerticalLineTokenizer extends CharTokenizer {
public MyVerticalLineTokenizer() {
}
public MyVerticalLineTokenizer(AttributeFactory factory) {
super(factory);
}
/** Collects only characters which do not satisfy
* 参数c指的是term的ASCII值,竖线的值为 124
*/
@Override
protected boolean isTokenChar(int c) {
return !(c == 124);
}
}
这里最主要的方法就是isTokenChar,它控制了分词的字符,如果需要使用逗号分词的话,字需要将这个方法修改成下面这样:
/** Collects only characters which do not satisfy
* 参数c指的是term的ASCII值,逗号的值为 44
*/
@Override
protected boolean isTokenChar(int c) {
return !(c == 44);
}
整合
代码写好了,怎么使用呢?首先,需要把刚才的java文件打成jar包。我使用的是Eclipse,直接选中两个类文件,右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径,填一个jar名字:MyVerticalLineTokenizerFactory -> Finish
得到的MyVerticalLineTokenizerFactory.jar文件大约3KB,将改文件放置到.\solr_home\lib下,在shcema.xml中定义自己的field
<fieldType name="vertical_text" class="solr.TextField">
<analyzer>
<tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/>
</analyzer>
</fieldType>
<field name="custom" type="vertical_text" indexed="true" stored="false"/>
注意这里的class是刚才自己写的分词器的完整类名。
打开Solr主页,在Analysis页面测试一下,是否实现了预期?
源码下载:
GitHub:下载地址
本地下载:链接地址
来源:http://blog.csdn.net/jiangchao858/article/details/68954044
猜你喜欢
- 目录一.什么是负载均衡二.负载均衡的简单分类三.为什么需要做负载均衡四.springCloud如何开启负载均衡五.IRule1.Random
- 本文为大家汇总了Android Studio ADB网络调试的使用方法,供大家参考,具体内容如下随着技术的发展,现在的安卓手机大部分开始使用
- 本文实例为大家分享了java实现幸运抽奖功能的具体代码,供大家参考,具体内容如下本系统较为简单,未使用是什么多的算法,也未添加保存文件读取文
- 背景近期在调研一个开源仓库,于是将 代码 从github下载后,当IDEA sync依赖时出现Cannot resolve org.four
- Java非法字符: ‘\ufeff‘Java中项目启动出现 非法字符: '\ufeff
- 在使用NavigationPage导航的时候, 我们可以给里面添加一些功能按钮, 如下所示:<ContentPage.ToolbarI
- 一、tomcat内存设置问题 收藏 在使用Java程序从数据库中查询大量的数据或是应用服务器(如tomcat、jboss,weblogic)
- 概述:Spring Boot 2.0相对于之前的版本,变化还是很大的。首先对jdk的版本要求已经不能低于1.8,其次依赖的spring的版本
- 在导入studio工程的时候,进行sync的时候,提示Error:Configuration with name 'default&
- 使用lamda表达式对list进行求和Lambda 表达式是 JDK8 的一个新特性,最近写项目中求和计算使用的较多,写篇文章记录下。1、实
- org.junit.jupiter.api不存在解决方案spring boot2.2之后和之前的测试类编写方法不一致修改为:// A cod
- mybatis3中增加了使用注解来配置Mapper的新特性,本篇文章主要介绍其中几个@Provider的使用方式,他们是:@SelectPr
- maven简介及优势 maven是一个项目构建和管理的工具,提供了帮助管理 构建、文档、报告
- 1、泛型的基础概念1.1 为什么需要泛型 List list = new ArrayList();//默认类型是Object
- 三目条件运算公式为 x?y:z 其中x的运算结果为boolean类型,先计算x的值,若为true,则整个三目运算的结果为表达式y
- 使用限制JDBC未支持列表Sharding-JDBC暂时未支持不常用的JDBC方法。DataSource接口不支持timeout相关操作Co
- 一、简介  Apache ShardingSphere 是一套开源的分布式数据库解决方案组成的生态圈,它
- 图片的复制无非有两种方法,一种是图片直接上传到服务器,另外一种转换成二进制流的base64码目前限chrome浏览器使用首先以um-edit
- 1、mapper.xml文件中的sql语句不提示1.1 首先,alt+enter,出现如下窗口随后的窗口选择这样在如下窗口中会增加一个upd
- 引言♀ 小AD:明哥,我终于出了这口恶气了。♂ 明世隐:打爽了是吧。♀ 小AD:那必须的,打十盘我赢九盘,我随意。♂ 明世隐:那小朋友不是搞