SearchFull搜索引擎、全文检索系统
作者:刘平华
二○○四年九月
为什么需要SearchFull?
随着信息技术的不断发展,特别是互联网应用的飞速普及,电子信息爆炸似的丰富起来。海量、无序的信息需要有效的管理、发布、查询工具。关系型数据库能够对结构化数据提供简便的管理和查询手段,但无法有效处理大量的非结构化信息,如Web页面、新闻、专利、法律、项目文档、合同、技术文档、科技文献、图书目录等(这类信息已占有整个信息量的80%以上),而先进的全文检索技术能够高效地实现对非结构化数据的管理和快速查询。
据CNNIC 于2004年7月20日发布的统计资料,搜索引擎的使用已经占到网络应用的64.4%,成为中国当前第二大互联网应用,仅次于收发E-Mail;而用户得知新网站的途径中搜索引擎占86.9%,居第一;用户在互联网上获取信息最常用的方法中搜索引擎占71.9%,同样居第一。搜索引擎的重要性已成为网站建设的重要功能。
以下是几个普通的例子,下面几组数据说明了人们已经习惯了从搜索引擎来访问互联网获得信息。
2004年5月访问www.chedong.com站点的网站统计前五名
13191 Google
5191 百度
424 Google台湾
390 博客中国blogchina
362 竹笋炒肉
2004-6-11访问http://www.tinydust.net/prog/diary/diary.htm网页的页面统计前五名
百度——全球最大中文搜索引擎[961]
Google[200]
竹笋炒肉 Hedong's Blog[148]
3 7 2 1网络实名[26]
生吃咖啡豆的文字[18]
2004-6-11访问http://www.tinydust.net/站点的页面统计前五名
网址之家-----程序设计[968]
Google[420]
百度——全球最大中文搜索引擎[318]
偶的网站改版了,兄弟们都去捧场啊!by tinyfool[104]
网址之家-----程序设计[95]
当前,我们很欣慰地有www.google.com,www.baidu.com等优秀的整个互联网范围内的搜索引擎,让我们在整个互联网搜索信息提供了大大的方便。我们很多人都离不开它们。它们不仅给人们学习上带来好处,在工作上、商业上、学术研究上、电子政务、电子商务、教育上等等数不清的方面、行业给人们带来令人惊喜的发现。
然而,据乐观统计再优秀的搜索引擎也只能索引、搜索整个互联网的1/4的信息内容——这个根本就不容置疑。因为,网站的结构多种多样、网站的文件格式也千奇百怪、用的技术也是无穷无尽。例如,大多数地网站都使用Javascript,而google对Javascript的支持就有限,它无法象IE那样让Javascript执行后看到的网页模样;google还对表单(form)提交无能为力,而互联网上的很多网站就是通过表单提交来完成获得信息的;还有很多网页是嵌套的frame、iframe等等——这样使得再优秀的搜索引擎也无法索引全部的互联网信息。另外,整个互联网的内容如此博大,全部更新一次要花去很多时间,索引更新周期太长。但是,互联网上的各行业信息越来越专业,网站也越来越专业,人们需要更加专业的信息,更加有用的信息。有很多网站依赖google,baidu等搜索引擎来搜索自己的站点信息,这样搜索的信息当然不完整不完全,甚至根本就搜索不到自己的站点。
如上所述等等原因,使得网站建立自己的搜索引擎是需要的,需要一个对自己的专业网站进行全面搜索的全文检索系统,这个信息的来源可能是自己的数据库,可能是网站的文件目录,可能是来自网站的网页。而SearchFull就是一个专注专业和行业信息搜索引擎及全文检索系统。
SearchFull的目标?
SearchFull搜索引擎及全文检索系统的目标是专业/行业信息搜索引擎,让网站拥有自己的搜索引擎,为客户定制搜索引擎,让信息更快传播,让人们获得更专业、更全面、更准确的信息。
SearchFull是什么?
- SearchFull是一个基于JAVA的Web应用系统,支持Windows,Linux,Unix等系统平台,是一个高性能、功能强大、跨平台的搜索引擎及全文检索系统
- SearchFull采用世界上最流行的专业的Lucene全文检索数据库,曾经有无数的国际国内应用是基于Lucene建立的。
- SearchFull支持三种方式建立全文检索系统:按文件目录方式建立全文索引搜索文件;按网络机器人方式建立全文索引搜索网页;按数据库表方式建立全文索引搜索整个数据表记录。它可以轻松地扩展检索数据源,让你一个回车就能检索所有的数据源
- SearchFull支持txt,html,pdf,word,rtf,xml,eml,excel,mht等多种格式文件的搜索,当然也包括以JSP,ASP,PHP,CGI,DO等为扩展名的动态网页,文件格式可轻松扩展
- SearchFull支持多种大型关系数据库的全文检索,包括或者同时包括Oracle,DB2,SQL Server,Sybase,MYSQL等,SearchFull不但跨操作系统平台还跨数据库平台
- SearchFull网络机器人支持网页frame,支持客户端javascript,支持form的提交,支持HttpSession和cookie,它能比一般的网络机器人抓取更多、更全的网页,抓取的网页内容也更完整
- SearchFull支持批量索引和增量索引,可自己定制更新索引周期,自动维护索引,永不停息的更新索引
- SearchFull可按匹配程度(相似度)进行排序,将最相似的排在前面,越可能符合搜索要求的结果越排在前面;也可按更新时间排序,将最新的信息排在前面;SearchFull友好地对关键字加亮显示,让你要的结果瞬间呈现眼前
- SearchFull支持逻辑检索,用”+”,”-”,” ”,”()”等组合条件方便进行检索,用多个关键字组合搜索能准确搜索需要的结果,SearchFull也支持网页快照。
- SearchFull索引空间膨胀比小,对html文件索引空间膨胀比约为1:0.4(原文:索引)。
- SearchFull查全率和查准率高,SearchFull对中文按单个汉字建立索引,满足100%查全,让您要的结果不能逃过的您的视线
- SearchFull支持几乎所有语言搜索,包括中日韩等亚洲语言和欧洲语言,也包括繁体简体中文搜索
- SearchFull网络机器人可配置索引条件,可指定一个或多个网站,可指定索引特定网页
SearchFull可用在何处?
- SearchFull可以给您的网站加入站内全文检索支持,和您的网站无缝集成,让您的访问者不再需要从www.google.com搜索您的站点的信息了。SearchFull定制周期地更新您的内容索引,让您的访问者更快地了解您的站内信息,而不会像google那样更新周期长了;同时支持多种数据库表全文检索的SearchFull,让您的访问者全面地搜索您发布的信息,而不会像google那样偏爱静态网页。
- SearchFull可以给您的档案管理系统提供全面的检索支持,支持txt,html,pdf,word,rtf,xml,eml,excel多种文件格式的SearchFull让你查询管理你的电子档案无忧无虑。支持Oracle,DB2,SQL Server,Sybase,MYSQL,Domino数据库的SearchFull将让您的视线更广,洞察力更强。
- SearchFull可以给您的内容管理系统、知识管理系统、信息发布系统、情报分析系统、新闻报刊业务系统等等提供高性能、功能强大的全文检索支持,SearchFull对数据库的全文检索不再需要更多的开发工作,通过配置(比某些关系数据库本身的全文检索配置更简单)您就能对您原有的系统无缝集成。
- SearchFull 可以为您快速建立一个知识库系统,当您只是需要一个以检索知识为主的数据库系统时,您可以把它当作您的知识库,例如本文档后面列出的“房地产法律法规数据库”搜索引擎系统;当您发现您的工作出现了大量的文件时,您可以将您的大量文件上传到SearchFull系统里面,让SearchFull查询管理您的文件。
技术架构
- 目录索引器
通过配置指定搜索目录,读取目录以及所有子目录里的文件,建立索引,定期更新索引
- 网络机器人
通过配置指定索引网站,模拟人点击链接和按钮获得网页,并自动执行Javascript,获得执行Javascript后的网页内容,自动用GET方法提交FORM,解析网页、收集链接、抽取文本、建立索引。可定制线程数,定制更新周期,永不停息的更新索引,可配置开关运行Javascript。压缩存储
- 数据库索引器
通过配置指定数据库和表,自动建立全文索引,定期更新索引
- 全文检索数据库
分布式搜索、多库搜索、排序搜索、并发搜索
- 文件解析器
解析txt,html,pdf,word,rtf,xml,eml,excel,mht等文件,抽取文本
- 索引速度
在环境为CPU:P4 2.00GHz,内存:512M,操作系统:Windows2000,线程数目:10,禁用Javascript,服务器和网络正常响应的情况下
按网页大小15KB计算,索引速度为340张网页/分钟(从互联网下载网页——>解析——>建立索引),40分钟索引200M内容。
Author:刘平华
E-mail:
想体验SearchFull搜索引擎?点这里