Lucene学习笔记(一)
初识Lucene,文件系统实例
参考原文来自:实战Lucene
Lucene是什么
Lucene是一个基于java的全文信息检索工具包,他以jar包的形式为开发者提供索引和搜索的功能.
索引
建立索引
五个基础类: Document,Field,IndexWriter,Analyzer,Directory
Document
用来描述文档,文档的形式可以是HTML页面,电子邮件或者文本文件.一个Document对象由多个Field对象组成.Field
用来描述文档的某个属性,例如一封电子邮件的标题和内容Analyzer
用于对文档内容进行 分词 处理.IndexWriter
将Document对象加入到索引中Directory
该类代表索引的存储位置,两个实现类分别是FSDirectory(文件系统中的索引的位置),RAMDirectory(内存中的索引的位置)
实例1.对文本文件建立索引
1 | Directory indexDir = FSDirectory.open( |
本实例基于Lucene4.10 版本升级,api改动很大,参考最新的api文档
总体过程是:读取要建立索引的文件目录下的文件,将有用的属性保存在Field中,生成Document对象,并用IndexWriter去记录每个Document对象中的信息,在指定的索引存储目录indexDir下保存索引.
搜索文档
基础类:Term,Query,TermQuery,Hits
Query
抽象类,实现类包括:TermQuery,BooleanQuery,PrefixQuery.将输入的查询字符串封装成Lucene能识别的Query.
Term
搜索的基本单位.
Term term = new Term("fieldName","queryWord");
两个参数分别是:在文档的哪个Field上查找和要查找的关键字
TermQuery
Lucene支持的最基本的查询类
TermQuery termQuery = new TermQuery(term);
接受一个 Term
对象作为参数
IndexSearcher
用来在建立好的索引上进行搜索
Hits
用来保存搜索结果
TopDocs
Represents hits returned by IndexSearcher.search(Query,Filter,int)
and IndexSearcher.search(Query,int)
.
实例2.查询1
2
3
4
5
6
7
8
9
10
11
12
13
14
15File indexDir = new File("/home/yj/code/java/lucene/indexDir");
Query query = new TermQuery(new Term("content","foo"));
try {
FSDirectory fsDirectory = FSDirectory.open(indexDir);
DirectoryReader dr = DirectoryReader.open(fsDirectory);
IndexSearcher indexSearcher = new IndexSearcher(dr);
TopDocs td = indexSearcher.search(query,100);
ScoreDoc[] sds = td.scoreDocs;
for(ScoreDoc sd : sds){
Document document = indexSearcher.doc(sd.doc);
System.out.println(document.get("path"));
}
} catch (IOException e) {
e.printStackTrace();
}
TermQuery对象由Term构造,搜索结果由TopDoc对象保持.
以上实例基于文件系统的文件索引和搜索.
体验:Lucene提供一些简单好用的API帮助开发者快速完成建立索引和内容搜索功能