Solr通过特殊字符分词实现自定义分词器详解
作者:随-忆 发布时间:2022-11-29 09:19:36
前言
我们在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。
业务场景
有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据:
有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和下面这种类似:
分词思路
在Solr的schema.xml文件中,有这样的配置
<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
</analyzer>
</fieldType>
对于字段类型text_ws,指定了一个分词器工厂WhitespaceTokenizerFactory,根据这个类,可以实现通过空格来分词,那么我通过竖线分词的代码应该与之类似。
修改源码
在Java工程中引入如下jar包:
<dependency>
<groupId>org.apache.solr</groupId>
<artifactId>solr-core</artifactId>
<version>6.0.0</version>
</dependency>
参照WhitespaceTokenizerFactory的源码,写一个自己的MyVerticalLineTokenizerFactory,内容基本不变:
package com.trainning.project.custom;
import java.util.Arrays;
import java.util.Collection;
import java.util.Map;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;
/**
* @author JiangChao
* @date 2017年4月2日下午3:41:13
*/
public class MyVerticalLineTokenizerFactory extends TokenizerFactory{
public static final String RULE_JAVA = "java";
public static final String RULE_UNICODE = "unicode";
private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);
private final String rule;
/** Creates a new MyVerticalLineTokenizerFactory */
public MyVerticalLineTokenizerFactory(Map<String,String> args) {
super(args);
rule = get(args, "rule", RULE_NAMES, RULE_JAVA);
if (!args.isEmpty()) {
throw new IllegalArgumentException("Unknown parameters: " + args);
}
}
@Override
public Tokenizer create(AttributeFactory factory) {
switch (rule) {
case RULE_JAVA:
return new MyVerticalLineTokenizer(factory);
case RULE_UNICODE:
return new UnicodeWhitespaceTokenizer(factory);
default:
throw new AssertionError();
}
}
}
具体做分词的MyVerticalLineTokenizer代码如下
package com.trainning.project.custom;
import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;
/**
* @author JiangChao
* @date 2017年4月2日下午9:46:18
*/
public class MyVerticalLineTokenizer extends CharTokenizer {
public MyVerticalLineTokenizer() {
}
public MyVerticalLineTokenizer(AttributeFactory factory) {
super(factory);
}
/** Collects only characters which do not satisfy
* 参数c指的是term的ASCII值,竖线的值为 124
*/
@Override
protected boolean isTokenChar(int c) {
return !(c == 124);
}
}
这里最主要的方法就是isTokenChar,它控制了分词的字符,如果需要使用逗号分词的话,字需要将这个方法修改成下面这样:
/** Collects only characters which do not satisfy
* 参数c指的是term的ASCII值,逗号的值为 44
*/
@Override
protected boolean isTokenChar(int c) {
return !(c == 44);
}
整合
代码写好了,怎么使用呢?首先,需要把刚才的java文件打成jar包。我使用的是Eclipse,直接选中两个类文件,右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径,填一个jar名字:MyVerticalLineTokenizerFactory -> Finish
得到的MyVerticalLineTokenizerFactory.jar文件大约3KB,将改文件放置到.\solr_home\lib下,在shcema.xml中定义自己的field
<fieldType name="vertical_text" class="solr.TextField">
<analyzer>
<tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/>
</analyzer>
</fieldType>
<field name="custom" type="vertical_text" indexed="true" stored="false"/>
注意这里的class是刚才自己写的分词器的完整类名。
打开Solr主页,在Analysis页面测试一下,是否实现了预期?
源码下载:
GitHub:下载地址
本地下载:链接地址
来源:http://blog.csdn.net/jiangchao858/article/details/68954044


猜你喜欢
- 本文浅析了C#的复制和克隆技术,对于有需要的朋友可以参考下。在C#中,用HashTable,DataTable等实现复制和克隆,下面直接看例
- 基于C#的Aforge类调用简单示例,供大家参考,具体内容如下由题,本程序是使用Aforge类库调用摄像头的demo。功能:1.预览2.前后
- 前言Spring 提供了 ApplicationContext 事件机制,可以发布和监听事件,这个特性非常有用。Spring 内置了一些事件
- 最近在做毕业设计,想有一个功能和QQ一样可以裁剪头像并设置圆形头像,额,这是设计狮的一种潮流。而纵观现在主流的APP,只要有用户系统这个功能
- 我们知道Eclipse创建的工程默认是有个assets文件夹的,但是Android studio默认没有帮我们创建,那么我们就自己创建一个就
- 1.理解全过程1.1.概述需要具备的知识Socket网络编程反向代理的理解平滑加权轮询算法的理解线程池的理解目的:实现Socket 集群服务
- 现在很多Android应用在首次安装完都会有指引如何使用该应用的某些功能的指引界面,这样会获得很好的用户体验,能够帮助用户更好使用应用的某些
- 【诞生背景】最近在做某配置中心的时候,配置中心采用properties格式进行配置的(如下图)。而我们工程的项目配置文件是yml格式的(如下
- 本文实例主要进行java Timer(定时调用、固定时间执行)测试,具体实现代码如下。测试1当任务执行时间小于重复执行的间隔时间代码:pub
- 图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以
- 最近有小伙伴问我mybatis有没有自动创建表结构的功能,因为他们之前一直使用hibernate用习惯了,理所当然的认为,在实体类上配置 *
- 本章概要返回JSON数据静态资源访问返回JSON数据默认实现JSON 是目前主流的前后端数据传输方式,Spring MVC中使用消息转换器H
- 前言本文的多租户是基于多数据库进行实现的,数据是通过不同数据库进行隔离。下面话不多说,来看看详细的介绍:MyCat 基本配置首先针对多租户配
- 1. 字段取别名,和属性名保持一致映射文件<mapper namespace="com.atguigu.mybatis.ma
- Gradle和Maven都是当前热门的自动化构建工具。使用Gradle去构建项目,由于没有办法像Maven一样配置Setting文件来修改本
- 一、AXIS调用远程WebService,以国内手机号归属地查询为例 1、wsdl地址:http://ws.webxml.com.
- 问题描述问题原因出现该问题的原因是项目Project当中的jdk与电脑当中的jdk版本不一致造成的。解决方法1、查看本机的jdk版本:命令提
- 1.DRUID连接池介绍Druid是阿里巴巴开发的号称为监控而生的数据库连接池,Druid是目前最好的数据库连接池。在功能、性能、扩展性方面
- 读取自定义properties注入到bean在使用springboot项目时,可使用@value的方式直接读取application.pro
- 这是我的第一篇文章,我的想法是把自己再学习的