垂直搜索引擎是针对某一行业或组织,满足行业专业需求、或者组织某项业务需求的专业搜索引擎,是搜索引擎的细分和延伸及对某类网页资源和结构化资源的深度整合,它能提供符合专业用户操作行为的信息服务方式。行业搜索引擎在政府、企业、行业门户、生活相关领域都有良好的应用效果,备受用户欢迎。
我们拥有业界领先的搜索引擎全套技术积累,可以轻松帮您实现各种行业的垂直搜索引擎的,依托我们独有的云爬虫、云调度和分布式索引、实时索引以及分布式存储和计算,能够轻松而准确的采集网页单元数据;通过自动排重、自动聚合聚类、信息抽取等联索语义计算技术实现对网络信息进行加工;并可以实现结构化和非结构化数据的统一存储和检索。
技术实现
1、智能处理:
网络爬虫/Spider技术 | 自动分类 | 自动聚类 |
自动关键词提取 | 自动摘要 | 自动消重 |
自动索引 | 自动更新 | 自动正文抽取 |
2、智能检索
全文检索 | 拼音检索 | 网页快照 |
同义词检索 | 文件编码自动识别 | 分布式检索系统 |
支持十亿级数据检索 |
3、分布式爬虫
支持广度与深度搜索算法 | 支持用户名与密码自动登录 |
验证码处理 | 图片及其它相关文件自动下载 |
4、分布式索引
索引形式与格式自定义 | 支持直接保存入数据库,自定义隐射关系 |
5、分词
上百万精选词库 | 基于语义分析,词性、词频标注 |
支持自定义词库 | 人名、地名、单位名自动识别、未登录词识别 |
6、接口
提供查询、索引维护、应用开发接口 | 提供JAVA、ASP.NET、PHP、Perl多语言接口 |
7、其它特色