2012年8月28日 上午 11:56:00
发表者: Chen,搜索研究团队产品经理
网络将结构性数据用表格的形式呈现给用户。整理这些信息并帮助用户找到最有用的表格,是表格搜索的主要任务。尽管离完美还有一定距离,但近期表格搜索不断向前迈进,我们修改了判断“好”表格(包含有意义的结构性数据)和“差”表格(比如包含网页排版的表格)的方法。特别值得注意的是,我们以前使用的是基于规则系统,现在改为使用机器学习分类器,后者可以理出表格功能的微妙差别并且可以实现质量上的快速提高。这种新的分类器就是一个支持向量机(SVM),它能够利用多核函数功能,通过训练示例实现自动合并和优化。实际上, 研究团队已经研发了这种核技术。
借助 Graph,我们能够更好理解表格。特别是我们改进了识别每个表格内容和主题、表格所含实体和表格所属特性的算法。这种知识不仅能帮助分类器对表格质量做出更好判断,也提高了用户查询表格的匹配性。
这些性能增强仅仅是个开端。我们还在继续更新表格搜索,提高质量并添加新特性。
敬请期待来自结构性数据团队的更多文章。
323AI导航网发布
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...