当前位置:论文写作 > 论文大全 > 文章内容

OracleText全文检索技术在地质文献数据管理中的应用

主题:简述索引型检索工具 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-01-14

简介:大学硕士与本科检索索引毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载,关于免费教你怎么写检索索引方面论文范文。

检索索引论文范文

简述索引型检索工具论文

目录

  1. 简述索引型检索工具:23_lucene的使用_简单复习索引、检索和分词

邓晶1曾铭2彭朝洪1

(1.四川省地质工程勘察院,四川成都610032;2.四川省经济信息中心,四川成都610021)

摘 要:全文检索技术是智能信息管理的关键技术之一,OracleText作为Oracle的一个组件,提供了强大的全文检索功能.文*绍了OracleText全文检索技术的方法和步骤,阐述了其在复杂结构数据库中的具体应用,最后程序实现了所设计的全文检索技术.

关键词:ORACLETEXT全文检索数据库

中图分类号:TP311文献标识码:A文章编号:1003-9082(2015)02-0005-01

随着信息技术的迅速发展,地质行业电子化、数字化的资料也越来越多.目前,地质文献信息种类繁多,如:论文、地图、各种制度、报告、手册、电子邮件、文书文件、部分档案信息、搜集的网络资源等.这些大量的非结构化存储的文字资料中,没有分类和标引,要从其中挖掘信息更是困难.利用Oracle数据库管理系统中的OracleText全文检索技术好地解决这一难题.OracleText具有,性能好、检索速度快的特点.其集成于Oracle数据库系统,功能更强大.不但能为文档提供索引,以便进行全文检索,还可以对文档进行格式转换、存储和管理等,具有可靠性、安全性、完整性、一致性、故障恢复和方便地管理等特性.

能支持不同格式的文档,实现全文检索不仅支持TXT、HTML等纯文本格式,还支持很多种二进制格式的文档,如DOC、PPT、PDF等.

还支持对文档执行语言分析,以及使用各种策略搜索文本,还能够以多种格式显示检索结果,如:纯文本、高亮显示术语的HTML格式和原始文档格式等,支持多种语言并使用高级的相关度排序技术来提高检索质量.

OracleText全文检索的核心机制就是通过Oracle专利的词法分析器,将文档中所有的表意单元(term)找出来,记录在数据库相应表中,同时记下该term出现的位置、次数、hash值等信息,进行检索时从这些表中查找相应的term,并计算其出现频率.根据相关算法来计算每个文档的匹配率(score).进行检索时实际上是对文本索引的检索,因为索引本身就是一系列文字,并带有指向原始文档的指针,所以检索速度很快.

建立全文检索的完整步骤包括:装载文本、建立索引、发出查询、索引维护.

在Oracle中创建数据表(假设表名为DOCS)来保存用于全文检索的文档.可使用下例语句:

CREATETABLEdocs(idNUMBERPRIMARYKEY,titleVACHAR2(80),textVACHAR2(100)),

然后将三种不同格式的文档(这些文档存储在外部操作系统文件中)添加到建立的表中,如下:

INSERTINTOdocs(id,title,text)VALUES(1,′规范规程′,′规范规程.doc/),

简述索引型检索工具:23_lucene的使用_简单复习索引、检索和分词

INSERTINTOdocs(id,title,text)VALUES(2,′滑坡治理施工方案′,′某滑坡治理施工方案.pdf′),

INSERTINTOdocs(id,title,text)VALUES(3,′工程量统计′,′某工程地勘工程量.xls′),

如果要将文档全文内容加入到数据表中,则可将创建的表列text类型设置为Blob,然后使用外部数据装载SQLLoader来装载.

利用OracleText对文档集合进行全文检索的之前,必须先对文本建立索引.建索引的过程,可以看作一个管道.在这个管道中有几个功能模块,文档从管道口输入,先后被各个功能模块处理,最后输出一套反转的索引.

索引的对象可以是存放在数据库内部的数据表中或者是操作系统下的文件甚至是互联网上的URL.

过滤器用于提取各类文档中的数据并将其转换为文本方式,分段器则用于标示并区分文本段,从分段器输出的文本段由词法分析器进一步分解为单词或词组,并去掉其中的噪音词,最后,索引引擎为文档中出现的所有标记和含有这些标记的文档构成倒排索引以供全文检索时使用.

建立了索引之后,就可以使用SELECT语句中的CONTAINS运算符发出文本查询了.查询的原理是:首先发出包含CONTAINS的查询命令,根据关键字在S|I表中得到满足条件的rowid,然后根据rowid得到TOKEN2INFO,TOKENINFO中包含了满足条件的docid、row2no等信息,Oracle根据这些信息在$R表中取出基表中满足查询条件的rowid,返回给原始的查询语句,最后Oracle根据这些rowid取出用户需要的数据.

通过使用OracleText查询应用程序,用户可查看查询所返回的文档,从中选择一个文档,应用程序会以某种方式显示该文档,比如,可以通过突出显示查询词来显示文档.

在索引建好后,可以查到Oracle自动产生了几个表(假设索引名为myindex):DRS|myindexS|I,DRS|myindexS|K,DRS|myindexS|R,DRS|myindexS|N.其中以I表最重要,因为该表中保存的就是Oracle分析文档后,生成的term记录,包括term出现的位置、次数、hash值等.索引建好后,如果数据被修改了,不维护以上的索引数据,则变化内容不能被查询到.因此,需要同步(sync)和优化(optimize)索引,以便正确反映数据的变化.

Oracle提供了一个所谓的CtxServer来做这个同步和优化的工作,只需要在后台运行这个进程,该进程就会监视数据的变化,及时进行同步.当启动了CTXSRV服务进程,在后台的同步请求处理就会在提交修改1至2秒后新的数据马上就被索引.

目前,由于Oracle的许多优点,使得大部分文献数据集成管理系统都以Oracle作为数据库平台.而从Oracle9i开始Oracle公司开始将全文检索功能作为内置功能提供给用户,使得用户在创建数据库实例时自动安装全文检索[1].因此,可方便地使用OracleText,有效地构建基于文本的开发工具或者对现有的管理系统进行扩展,可以轻松地将全文检索能力加人到基于SQL的应用程序中,灵活运用OracleText提供的全文检索功能,就可以使地质文献数据信息管理系统具备强大的全文检索能力.

参考文献

[1]龚谷初.OracleText全文检索技术在信息管理中的应用[J].湖南电力,2004,(6):23-24.

总结:本论文为您写检索索引毕业论文范文和职称论文提供相关论文参考文献,可免费下载。

简述索引型检索工具引用文献:

[1] 金融工具和金融论文范文检索 金融工具和金融方面专升本论文范文2万字
[2] 绩效评价和双师型硕士论文开题报告范文 关于绩效评价和双师型论文范文检索2万字
[3] 型本科和自动控制原理论文范文 关于型本科和自动控制原理相关论文范文检索5000字
《OracleText全文检索技术在地质文献数据管理中的应用》word下载【免费】
简述索引型检索工具相关论文范文资料