哪位同伙知道用java如何实现网络爬虫和搜索引擎

heritrix抓取网页
网页剖析的有许多就不说了，不外最好自己写
lucene索引

首先爬虫是需要一个处置器链的，网页的抓取并非几十行代码就能实现的，由于有许多问题出
现。
1.获取网页：判断网页编码，盘算网页正文位置，获取页面内url（url的过滤、缓存、存储这部门还需要线程池的优化），url的分配、及线程池的启动。
2.网页持久化。网页剖析，网页中样式表、图片等下载以及网页的保留（xml和html）网页快照的天生。
3.网页的消重去噪：去掉没用的网页，若是是垂直搜索引擎则需要更多的判断，可以使用内容模板和空间向量的算法实现。
4.索引的确定及优化，主要是简历倒排索引。

你的分类基本上可以用内容模板和空间向量盘算实现。

另有其他许多器械，一时间不能说细了。你想做到什么水平。（好比：空间向量的算法及效果的参考值、网页内容模板的确定。）

怎样在搜索引擎里更准确的搜到自己想要的答案

搜索引擎怎么用写（不分语言！）

搜索引擎简介搜索引擎(search engine)是指凭证一定的战略、运用特定的盘算机程序搜集互联网上的信息，在对信息进行组织和处置后，并将处置后的信息显示给用户，是为用户提供检索服务的系统。
搜索引擎事情原理 1、抓取网页
　　每个自力的搜索引擎都有自己的网页抓取程序(Spider)。Spider顺着网页中的超链接，延续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍，理论上，从一定局限的网页出发，就能搜集到绝大多数的网页。
2、处置网页
　　搜索引擎抓到网页后，还要做大量的预处置事情，才气提供检索服务。其中，最主要的就是提取关键词，确定索引文件。其他还包罗去除重复网页、剖析超链接、盘算网页的主要度。
3、提供检索服务
　　用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页题目和URL外，还会提供一段来自网页的摘要以及其他信息。