很多人误解垂直搜索就是把相关的行业网页做一个采集,进行正文抽取,实现搜索,完成信息册查询。其实并非如此。如果这样无法和网页搜索竞争,网页搜索很容易就可以将网页库按行业分类、按地区分类。
垂直搜索应该是对垂直行业信息进行深度的加工,有效的整合,为用户提供网页搜索无法做到的专业性、功能性,为用户提供深一步的服务和完整的体验,而且不仅仅是提供信息的检索。垂直搜索是和信息搜索有本质的差异化的。
这段话是摘录来的,不过我现在看来,spider爬行一个网站,获得html,然后根据这个网站对应的正则获取数据,这个就是类似于采集,不知道大家怎么想的,不过这个 采集要高级一点,spider会自己按url爬行获取数据,不像采集那样要指定url.