首页技术总结正文内容

solr读取word,pdf

技术总结

更新时间：2024-12-23 03:34:26 15

admin 管理员组

文章数量: 887021

solr读取word,pdf

这两天一直纠结是用lucene来做搜索应用，还是用solr来做搜索应用。lucene只提供一个可查询的包，用它来实现搜索的好处是，应用需要什么，我就用它提供的相应功能即可。而solr本身就是基于lucene的应用，对lucene又做了封装，这就相当于是在第二层基础之上开发，所以要改它是需要花时间的。但solr提供了很多lucene没有的功能，不管了，老师说要用solr，那就用solr吧

lucene和solr的对比：

1..html

2.Apache Solr：基于Lucene的可扩展集群搜索服务器

lucene对索引的更新比solr麻烦，solr只需要调用一个函数UpdateRequest.setAction(AbstractUpdateRequest.ACTION.COMMIT, false, false)就完成了更新，而lucene需要先删除再更新，否则就变成增量索引了

lucene更新索引：

前面已经简单介绍了solr的安装与使用，下面来看看如何用客户端solrj来建立索引及查询

import java.io.IOException; import java.util.ArrayList; import java.util.Collection;import org.apache.solr.client.solrj.SolrQuery; import org.apache.solr.client.solrj.SolrServer; import org.apache.solr.client.solrj.SolrServerException; import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer; import org.apache.solr.client.solrj.request.AbstractUpdateRequest; import org.apache.solr.client.solrj.request.UpdateRequest; import org.apache.solr.client.solrj.response.QueryResponse; import org.apache.solr.common.SolrInputDocument;public class SolrjTest {public static void main(String[] args) throws IOException,SolrServerException {String urlString = " http://localhost:8080/solr";SolrServer server = new CommonsHttpSolrServer(urlString);SolrInputDocument doc1 = new SolrInputDocument();doc1.addField("id", 12);doc1.addField("content", "my test is easy,测试solr");SolrInputDocument doc2 = new SolrInputDocument();doc2.addField("id", "solrj简单测试");doc2.addField("content", "doc2");Collection<SolrInputDocument> docs = new ArrayList<SolrInputDocument>();docs.add(doc1);docs.add( doc2 );server.add(docs);UpdateRequest req = new UpdateRequest();req.setAction(AbstractUpdateRequest.ACTION.COMMIT, false, false);req.add(docs);req.process(server);SolrQuery query = new SolrQuery();query.setQuery("test");query.setHighlight(true).setHighlightSnippets(1); query.setParam("hl.fl", "content");QueryResponse ret = server.query(query);System.out.println(ret);} }

solrj要成功运行，需要导入下列包才行

From /dist：

apache-solr-solrj-3.1.0.jar

From /dist/solrj-lib：
commons-codec-1.4.jar
commons-httpclient-3.1.jar
jcl-over-slf4j-1.5.5.jar
slf4j-api-1.5.5.jar

下面这个包需要去官方下载，因为本人在solr3.1中是没发现这个jar包的，估计是在低版本中有
slf4j-jdk14-1.5.5.jar

solr从1.4版本开始，将apache Tika合并进来，Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。solr中利用这个工具可以很简单实现对pdf、word等富文本的提取

我的是3.1版，在实现过程中，走了很多弯路，终于还是自己解决了，下面分享一下

package test;import java.io.File; import java.io.IOException; import org.apache.solr.client.solrj.SolrServer; import org.apache.solr.client.solrj.SolrServerException;import org.apache.solr.client.solrj.request.AbstractUpdateRequest; import org.apache.solr.client.solrj.response.QueryResponse; import org.apache.solr.client.solrj.SolrQuery; import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer; import org.apache.solr.client.solrj.request.ContentStreamUpdateRequest;/*** @author aidy 2011.6.9*/ public class SolrExampleTests {public static void main(String[] args) {try {//Solr cell can also index MS file (2003 version and 2007 version) types.String fileName = "D://test//luceneTest//1.pdf"; //this will be unique Id used by Solr to index the file contents.String solrId = "1.pdf"; indexFilesSolrCell(fileName, solrId);} catch (Exception ex) {System.out.println(ex.toString());}}/*** Method to index all types of files into Solr. * @param fileName* @param solrId* @throws IOException* @throws SolrServerException*/public static void indexFilesSolrCell(String fileName, String solrId) throws IOException, SolrServerException {String urlString = "http://localhost:8080/solr"; SolrServer solr = new CommonsHttpSolrServer(urlString);ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");up.addFile(new File(fileName));up.setParam("literal.id", solrId);up.setParam("fmap.content", "attr_content");up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);solr.request(up);QueryResponse rsp = solr.query(new SolrQuery("*:*"));System.out.println(rsp);} }

刚开始一直在solr.request(up)这一步报错，看tomcat报错是说没有ignored_meta类型，刚开始一直不理解，因为我的配置文件schema.xml中根本没有这种类型，刚开始还以为是版本原因导致，专门去下了solr1.4版，运行果然不报错，后来才想到是因为前面在入门例子中，我修改了配置文件schema.xml，而solrconfig.xml配置文件在/update/extract节点处，有ignored_类型引用，后来我在schema.xml加入ignored_类型后，运行正常

后面研究一下如何用solrj进行查询，并将查询结果展示在web页面上，因为查询结果返回的是xml形式

如果solr是1.3版本或以下，请参考：

参考资料：

1.
2.

本文标签： solr读取word pdf

版权声明：本文标题：solr读取word,pdf 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1687312411h88243.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

solr读取word,pdf

solr读取word,pdf

更多相关文章

win7激活工具和pdf解密工具

Windows 7 打开PDF文件后提示 Adobe Reader已停止工作问题

linux系统学文档pdf,Linux操作系统学习.pdf

word转PDF多余空白页的问题

App如何实现pdf,word,excel格式的文件预览?

Win11怎么添加pdf虚拟打印机

Android中打开本地doc、pdf、ppt、text等文件功能的实现

PyPDF2库对PDF实现读取的应用

如何在PDF文档中插入新的页面

word转PDF空白页的添加与删除

win10系统 pdf 文件缩略图及预览图无法显示问题之解决方法

html网站a标签直接下载pdf，不在浏览器打开

Word转PDF后，排版错乱怎么办？

H5下载pdf文件,微信跳转到浏览器下载方式

Android用浏览器打开pdf文件

浏览器打开PDF调整亮度和颜色的小技巧

用ChatGPT4.0生成PDF

PDF.js实现分片加载问题

深入理解计算机系统 PDF

windows程序设计 PDF分享

发表评论

推荐文章

Visual C++ 6.0 Win7 适用版下载

奥运英语[10] 你能帮我个忙吗 Can you help me, please?

win10计算机无法复制文件,win10 电脑复制后粘贴没反应问题的解决方法

Windows下无法启动虚拟机: “VMware Workstation and DeviceCredential Guard are not compatible“ error in VM...“

笔记本专用Win7系统下载推荐：四款装机旗舰版任选

热门文章

windows系统是激活还是不激活好

Word中遇到的问题记录（页眉，页码分节符，跨页断行）

点线slam

java的Map接口常用的方法

想学游戏建模现在需要准备哪些？

如何重新设置苹果id密码

java实现连接ab,ab交集java

替换word模板中 ${XXX} 中的XXX值并且将文件夹生成.zip格式压缩包保存

超详细！手把手教你创建win10虚拟机及其如何配置！！

win10安装centos子系统

最新文章