请问垂直搜索 比如搜索房产或人才,需要自己写个蜘蛛程序去爬规定好的网站,然后根据不同的网站有不同的正则抓取有用信息然后入库,之后因为涉及到对数据的精确搜索,比如按价格,按地区搜索房屋,用Lucene就不方便了吧? 那如果直接用sql对数据库检索的话,这个爬虫又很类似于采集,又用不到Lucene,好像就不像搜索了,而如果类似采集的话,需要给每个网站一个单独的配置,抓取的网站一调整,程序这里就要调整,很麻烦.
比如http://www.cnblogs.com/csky/archive/2007/06/22/793126.html#1208586这个网站中提到的http://video.5913.com/,他也是抓取不同的网站使用不用的正则然后入库吗?搜索的时候用Lucene,还是直接检索数据库呢? 因为涉及到精确检索,比如jobui.com这个网站,大家能谈谈自己的思路和想法吗? 说的比较乱,大家将就着看点