位置：首页>> 网络编程>> 数据库>> Oracle9i的全文检索技术开发者网络Oracle（2）

Oracle9i的全文检索技术开发者网络Oracle（2）

　来源：asp之家　发布时间：2010-07-18 13:22:00　

标签：oracle,检索

　　3 文本装载

　　要实现文本的全文检索首先必须把正确的文本加载到数据库表中，默认的建立索引行为要求将文档装载在文本列中，尽管可以用其它方式 (包括文件系统和 URL 形式)存储文档 (在"数据存储"选项进行设置)。默认情况下，系统应该将文档装载在文本列中。文本列可以是VARCHAR2、CLOB、BLOB、CHAR或BFILE。注意，只有在将Oracle7系统移植到Oracle8的情况下才支持用LONG和LONG RAW 这两个相反的列类型存储文本。不能为列类型NCLOB、DATE和NUMBER建立索引。

　　关于文档格式，因为系统能为包括HTML、PDF、Microsoft Word和纯文本在内的大多数文档格式建立索引，可以将其中的任何文档类型装载到文本列中(在"过滤器"选项中设置)。有关所支持的文档格式的详细信息，可以参阅Oracle Text User's Guide and Reference 中的附录"Supported Filter Formats"。

　　装载方法主要有以下几种：

　　（1）SQL INSERT 语句

　　（2）ctxload 可执行文件

　　（3）SQL*Loader

　　（4）从 BFILE 中装载 LOB 的 DBMS_LOB.LOADFROMFILE() PL/SQL 过程

　　（5）Oracle Call Interface

　4 为文本建立索引

　　文本装入文本列后，就可以创建Oracle Text索引。文档以许多不同方案、格式和语言存储。因此，每个 Oracle Text 索引有许多需要设置的选项，以针对特定情况配置索引。创建索引时，Oracle Text可使用若干个默认值，但在大多数情况下要求用户通过指定首选项来配置索引。

　　每个索引的许多选项组成功能组，称为"类"，每个类集中体现配置的某一方面，可以认为这些类就是与文档数据库有关的一些问题。例如：数据存储、过滤器、词法分析器、相关词表、存储等。

　　每个类具有许多预定义的行为，称之为对象。每个对象是类问题可能具有的答案，并且大多数对象都包含有属性。通过属性来定制对象，从而使对索引的配置更加多变以适应于不同的应用。

　　（1）存储（Storage）类

　　存储类指定构成Oracle Text索引的数据库表和索引的表空间参数和创建参数。它仅有一个基本对象：BASIC_STORAGE，其属性包括：I_Index_Clause、I_Table_Clause、K_Table_Clause、N_Table_Clause、P_Table_Clause、R_Table_Clause。

　　（2）数据存储（Datastore）类

　　数据存储：关于列中存储文本的位置和其他信息。默认情况下，文本直接存储到列中，表中的每行都表示一个单独的完整文档。其他数据存储位置包括存储在单独文件中或以其 URL 标识的 Web 页上。七个基本对象包括：Default_Datastore、Detail_Datastore、Direct_Datastore、File_Datastore、Multi_Column_Datastore 、URL_Datastore、User_Datastore，。

　　（3）文档段组（Section Group）类

　　文档段组是用于指定一组文档段的对象。必须先定义文档段，然后才能使用索引通过 WITHIN 运算符在文档段内进行查询。文档段定义为文档段组的一部分。包含七个基本对象：AUTO_SECTION_GROUP、BASIC_SECTION_GROUP、HTML_SECTION_GROUP、NEWS_SECTION_GROUP、NULL_SECTION_GROUP、XML_SECTION_GROUP、PATH_SECTION_GROUP。

　　（4）相关词表（Wordlist）类

　　相关词表标识用于索引的词干和模糊匹配查询选项的语言，只有一个基本对象BASIC_WORDLIST，其属性有：Fuzzy_Match、Fuzzy_Numresults、Fuzzy_Score、Stemmer、Substring_Index、Wildcard_Maxterms、Prefix_Index、Prefix_Max_Length、Prefix_Min_Length。

　　（5）索引集（Index Set）

　　索引集是一个或多个Oracle 索引 (不是Oracle Text索引) 的集合，用于创建 CTXCAT类型的Oracle Text索引，只有一个基本对象BASIC_INDEX_SET。

　　（6）词法分析器（Lexer）类

　　词法分析器类标识文本使用的语言，还确定在文本中如何标识标记。默认的词法分析器是英语或其他西欧语言，用空格、标准标点和非字母数字字符标识标记，同时禁用大小写。包含8个基本对象：BASIC_LEXER、CHINESE_LEXER、CHINESE_VGRAM_LEXER、JAPANESE_LEXER、JAPANESE_VGRAM_LEXER、KOREAN_LEXER、KOREAN__MORPH_ LEXER、MULTI_LEXER。

　　（7）过滤器（Filter）类

　　过滤器确定如何过滤文本以建立索引。可以使用过滤器对文字处理器处理的文档、格式化的文档、纯文本和 HTML 文档建立索引，包括5个基本对象：CHARSET_FILTER、INSO_FILTER INSO、NULL_FILTER、PROCEDURE_FILTER、USER_FILTER。

　　（8）非索引字表（Stoplist）类

　　非索引字表类是用以指定一组不编入索引的单词 (称为非索引字)。有两个基本对象：BASIC_STOPLIST (一种语言中的所有非索引字) 、 MULTI_STOPLIST (包含多种语言中的非索引字的多语言非索引字表)。

第一页上一页 1

3 下一页

投稿

Oracle9i的全文检索技术开发者网络Oracle（2）

猜你喜欢