浏览:1842008-05-26 09:51   来自隨風.NET      :

请问垂直搜索 比如搜索房产或人才,需要自己写个蜘蛛程序去爬规定好的网站,然后根据不同的网站有不同的正则抓取有用信息然后入库,之后因为涉及到对数据的精确搜索,比如按价格,按地区搜索房屋,用Lucene就不方便了吧? 那如果直接用sql对数据库检索的话,这个爬虫又很类似于采集,又用不到Lucene,好像就不像搜索了,而如果类似采集的话,需要给每个网站一个单独的配置,抓取的网站一调整,程序这里就要调整,很麻烦.

   比如http://www.cnblogs.com/csky/archive/2007/06/22/793126.html#1208586这个网站中提到的http://video.5913.com/,他也是抓取不同的网站使用不用的正则然后入库吗?搜索的时候用Lucene,还是直接检索数据库呢? 因为涉及到精确检索,比如jobui.com这个网站,大家能谈谈自己的思路和想法吗? 说的比较乱,大家将就着看点

楼主
  3个月前   eaglet      :
Lucene 是可以进行精确搜索的,只需要将数值类型转换为字符串后构建索引就可以了。
蜘蛛提取格式化信息有两种方式,一种是基于模板的方式,对要提取的页面构建对应的模板,通过模板来匹配提取。
第二种方式是基于无模板的技术,就是根据网页的一些共性规律,视觉分析等自动找到要提取的数据。
相对第一种方式,第二种方式在技术实现上难度较大。
1楼 回到顶楼 
  3个月前   隨風.NET      :
好的 谢谢 是基于模板或无模板方式而不是一个网站匹配一个正则 终于找到与采集的最大区别 请问哪里有这方面的学习资料呢?
2楼 回到顶楼 
  3个月前   eaglet      :
3楼 回到顶楼 

注册用户登录后才能回复,登录注册
> 返回“搜索引擎”


其他话题

相关链接
1 15670