聚氨酯玻纤板厂家
免费服务热线

Free service

hotline

010-00000000
聚氨酯玻纤板厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

搜索盗梦空间和喵喵喵将有何不同来了解下实体搜索引擎的发展现状

发布时间:2020-07-21 10:09:45 阅读: 来源:聚氨酯玻纤板厂家

虎嗅注:搜索引擎发展有三个阶段:也就是web graph(网页图谱)、social graph(社交图谱)和entity graph(实体图谱)。web graph把网页连接到一起,social graph把人连接到一起,接下来就是把实体连接到一起。搜索发展十多年,第一阶段战斗基本结束。接下来,搜索还有社交和实体两次洗牌机会。Facebook等社交网络和各大搜索巨头都在进军社交搜索领域。

那实体搜索引擎现在的发展状况如何?未来是否明晰?前Baidu搜索引擎rank工程师姚旭对在知乎里就这个问题进行了回答,原文如下:

背景:

实体(entity)搜索是相对于关键词(keyword)搜索而言的。

传统的关键词搜索虽然目前已经可以达到很高的"智能"水平,搜索结果在很大程度上可以帮助用户找到需要的信息。

但对于"搜索引擎"这个系统自身而言,其实并不了解搜索query本身有什么意思,对于搜索"盗梦空间"和"喵喵喵",搜索引擎做的事情基本差不多。 你告诉他要找什么,他就去按照字面意思勤勤恳恳的去找。 搜索引擎无法直接回答query,只能做一个信息的中转。

实体搜索关注的重点不是"关键词"级别的信息,而是"对象",比如:人,电影,软件,小说,公司,组织等等。 从关键词向实体转化,希望可以从更精细的角度来理解和组织搜索结果。 在一定程度上可以理解query的意思,并给出自己的答案。 一些更智能更个性化的交互也依赖于实体作为基础,比如"好看的电影"。

数据:

实体搜索需要前期花大量的时间和精力在建立关于实体的信息数据(这里有很多不同的叫法,比如Ontology,语义网等等)。 传统的html并不是一个有效的信息载体,至少截至目前,主流的html tag对于信息组织而言是没有实际意义的。 结构化数据通过html展现出来以后,原有的属性信息都丢失了。 也许在数据库中,一部电影和导演的关系是可以通过关系数据库表体现出来的,但html中td,tr之类的标签是无法表示这种关系的。

所以,对于搜索引擎而言,要从数据建设做起,基本上的通用做法大概分以下几个方面:

1) web实体属性的提取和消歧

2) 实体信息分类

3) 实体关系挖掘

目前这部分上,基本上领先的搜索引擎都在不断的做数据积累,这部分既要保证信息覆盖的广度,同时还要有足够高的信息精度。

产品:

数据建设是为了搜索引擎产品服务的,在数据层面积累的基础上,需要通过搜索产品来体现数据的价值。 除了将实体信息直接作为类似百科形式直接使用外,产品层面上已经逐步产生了很多有意思的新内容。

举一些有趣的例子:

1、实体的关联关系

"类似XXX的电影"这类query是实体关系的一种表现,传统关键词搜索在这类信息上是完全不够用的,产品上从"搜索"逐步向"发现"转变。

类似盗梦空间的电影

2、实体的属性信息

"张艺谋导演的爱情电影"

"zhang yimou's movies"

莫言的书

3、 实体的分类信息

"杀毒软件",这个是网上新闻看来的。

此外,据说还有不少更惊艳的结果,有些内容似乎外界看不到,或者只有部分用户才能看到。 目前只能管中窥豹,简单展望一下。

最后说说未来

实体也好,ontology也好,语义网也好,这些名词在搜索这个应用场景下很大程度上在说一件事情。 就是在关键词的基础上,可以扩展出更多隐藏在关键词背后的信息,用于搜索结果的组织,展现,排序。 搜索引擎不再定位于一个单纯的索引机器,而是将信息进行扩展和重组。 至少从目前工业界的实际进展来看,效果还是很振奋的。 这是个高投入的活,几个搜索引擎大公司同时在这一方向上发力,我个人感觉目前已经从数据积累期逐步向产品产出这个阶段转化了。

原文:见此

Java自研框架

微信小程序开发环境

React16全流程