当前位置:易云信息科技公司 >> 易云资讯 >> 互联网资讯 >> 电商资讯 >> 浏览文章

百度副总监高亮如何在海量数据中探求和分析信息

发布时间:2019年05月24日 浏览129

  择要:2014百度世界大数据论坛在北京大饭店举行,百度大数据部的副总监高亮为大家介绍了如何在一个海量的数据中找到和分析出想要的信息。下面是高亮的演讲内容。

  2014百度世界大数据论坛在北京大饭店举行,百度大数据部的副总监高亮为大家介绍了如何在一个海量的数据中找到和分析出想要的信息。下面是高亮的演讲内容。

百度副总监高亮:如何在海量数据中探求和分析信息

高亮

  以下为百度大数据部研发副总监高亮的演讲实录:

  高亮:请大家记住我们刚才的开放云的域名,我们在上面做了特别很是多的基础建设的工作。我这边重要给大家介绍一下从今年4月份发布开放大数据引擎战略以来,我们在大数据应用方面的一些进展。由于我知道在座的来了许多传统行业的向导和专家们,虽然大数据这个概念炒的特别很是火,但是大数据内部运作的逻辑,其实和我们传统行业是比较类似的。

  比如假如传统行业做实业的话,首先要有地基,你要有厂房,要有原材料,然后做加工,接下来设计成自力的产品南昌做网站,给客户带来独特的体验。我们刚才讲的开放云就是大数据的地基和厂房,原材料就是在线上和线下产生的海量数据。这个是我们如今百度目前天天数据规模,2013年是25PB,这个数字在快速的转变,我们如今处理的能力已经进步一倍,数据上目前是50PB,增加了一倍,这个就是我们目前大数据库要处理的数据的原材料。那么有了原材料接下来该怎么办?

  数据存储

  稍微看一下我们目前的大数据处理能力的三层架构。首先我们有海量的数据储存能力,然后在这个基础上,我们会做许多智能的分析,在这个基础上我们做许多大数据的产品,我们会渐渐的开放这三个方面的能力。先说一下海量数据,做实业的各位向导和专家们,假如你有原材料,关键的下一步要做两件事,一件事情是物流,第二件事情是原材料的标准化,要把原材料制成毛坯,在这个基础上才能实现你的产能。

  在海量数据的处理上是如许的,百度三年前我们的架构是左边如许一个模式,在这个时候我们的数据传输,我们数据的储存都是每个产品线有本身的体例新疆人事考试信息网,我们也许用了两年的时间构建如今的数据储存体例,解决两个题目,一是数据的传输。如今百度许多产品线要实时产生大量海量的数据,这些数据都必要被实时的储存一个地方。

  但是这些产品线的数据格式都是异构的。我们做了特别很是多的标准化的工作,在基础上形成了第一个海量数据储存的产品,叫通用的数据仓库。在使用这个通用的数据仓库,我们第一个构建了实时的海量数据的传输平台,那么任何一个产品线产生的数据都能够实时的传送到这个数据仓库里面。另外我们做了实时的数据标准化的工作,无论你的数据是什么样的格式,到我们数据仓库里面都以同样的格式来储存,有了这个物流,有了这个标准化,我们能够在这个基础上对数据进行更多的分析和加工。

  那么从这开始,百度的数据就开始在大数据部门进行各种各样的处理过程。

  数据分析

  这个图有点复杂,这是数据在百度的一个生命周期,这边涉及到许多的技术细节,我会细致逐一介绍。这里我想强调的是整个数据的流程是全主动化的,从数据的生成,数据的传输,数据的标准化,到后数据的归类,数据的分析,都是全主动化的。这里面我是很喜悦跟大家公布,我们这套全主动化的流程,并形成了我们本身的产品。

  这个产品我们如今有一个英文名字叫Query Engine,是一套标准的海量数据储存方案,首先无论你的数据是什么样的,经过我们的处理会把它做成数据标准化,当你的数据实时生成,我们有特别很是好的数据传输框架,保证你的数据上传到百度的开放云,在上面进行建模,进行各种各样可视化分析和决策的过程。我们已经成功了上传分析一家合作企业将近10T的关于新能源方面的一些数据。百度特别很是迎接传统企业,假如你有海量的数据法国旅行社,你必要各种各样的分析和操作的话,来接洽我们,来使用我们这款产品。

  当这个数据已经被结构化储存以后,我们盼望在这个基础上能够进行各种各样的智能化分析。就像传统行业有本身的产品设计中间一样,会对产品进行各种各样的分析、排列组合,做各种各样的实验。在这个实验的基础上能够产生出比较好的产品,能够知足用户的需求。那么在大数据部门也有如许的需求,也必要有大数据产品的设计中间,在这个设计中间必要做许多实验网站价格,做出适用于百度,适用于客户的数据产品。所以这个产品经过四个月的努力,我们也已经对外开放。就是之前高级总监朱永忠介绍的,大家可以通过这个域名去访问。

  在这上面,我们大数据新产品的设计中间,可以进行许多实时的智能分析,做许多的实验,对产品进行许多排列组合,看哪一种产品能够适合行业,知足百度的需求。

  大数据产品

  那么有了如许的开放能力,下面给大家介绍在这个基础上大数据部研发出来的三个大数据产品,盼望能够对在座的做实业的同伙有帮助。

  第一个产品叫百度司南,专门针对于当企业发展到肯定的阶段,有了肯定的品牌影响力的企业,能够让企业对自身的品牌有更客观的了解,一共是三个方面。第一个是品牌分析,现实上你应该很想知道你的品牌在那个偕行业里它的定位怎么样,周边的人是如何看待你这个品牌的,对你这个品牌的口碑怎么样。而且我们把它做到基本上是实时的,你可以此时此刻知道大家对你品牌的口碑到底怎么样。

  另外一方面,关注你的品牌,应该肯定有一批已经比较忠厚的用户了,那么这些人除了关注你的品牌,像刚才陈总讲的一样,除了关注你的品牌,他还关心什么别的,他还对什么样的东西感爱好。这些我们通过基于统计的用户画像也能够告诉你。

  另外一个这些人是通过什么渠道来了解到你的品牌,他是通过IPAD,是通过手机,通过看电视,照旧通过PC、照旧移动互联网的欣赏,如许以后做营销举动,就知道如何很快的影响到你的受众,什么样的渠道是有用的。那么通过这几个体例,我们都能够告诉大家你的品牌到底处在什么样的状况。

  给大家看两个司南在品牌上的应用。第一个叫代言人。许多品牌到了后期推广的时候,都有找代言人的需求。什么样的代言人在你想影响的受众是有号召力。之前是一些拍脑袋的决策,但是通过我们司南,通过海量的数据,通过海量的用户举动分析,可以帮助你做一个决策的科学。现实上我们已经通过大数据的分析,可以产生出超过一千家的企业,他们合适的代言人到底是哪一位。假如哪位老总也想尝试本身品牌的话,可以和我们合作,我们可以告诉你,通过我们的数据,什么样的代言人,对于你的受众会产生大的品牌号召力。

  另外一个是舆情分析,现实是跟品牌的口碑像。你的企业里有一系列的产品,每一个产品可能有轻微的差异化,就像我们的化妆品一样,每一款产品在用户中的口碑到底怎么样,用户喜好这些产品什么样的功能,不喜好这些产品什么样的功能。在之前,许多公司通过调研公司到各个城市,通过实时的访谈获得一些统计数据。整个过程要耗费一个月左右。通过我们的舆情分析,几乎可以实时告诉你这个答案,到底有多少用户是喜好这个功能,有多少用户不喜好这个功能。一个是通过一个月,一个是通过实时,如许的话就偶然间差了。这个时间差就是百度大数据能给传统行业带来的竞争力。

  这是我们第一款基于大数据的工具,叫百度司南。

  另外就是我们的展望平台产品。展望这个产品说的已经比较多了,这次想跟大家说的是,当我们发布了展望产品,并且取得了比较好的结果,许多公司,或者是一些当局部门会跟我们接洽,能不能帮我们也分析一下数据。比如景点盼望我们帮他展望下一步七天的人流到底多照旧不多。有的企业盼望让我们帮他展望下一步季度业务额是否能跟上一个季度匹配。

  我们如今特别很是喜悦的把我们的展望平台能力开放出来,你不必要再去接洽百度的产品经理做如许的事情,只要你使用我们的开放平台上传你的数据,我们后面就会基于一系列各种各样的数据分析,智能的算法和百度后台本身的数据帮你做一些决策和分析。盼望能够帮助传统企业做决策分析的时候能够多一些科学的决策依据。

  另外一个是我们的保举。我们如今特别很是喜悦把我们这个能力也开放出来,特别很是可惜我们目前只面对互联网的站长,站长可以定定制到底想用我们保举的哪一方面的技术和性能、功能,特别很是天真的为他的网站做保举。但现实上我们想做到的是把我们这套保举引擎,和传统行业结合起来,和许多实时保举结合起来,在这块也特别很是盼望传统的行业能跟我们接洽,把我们这种特别很是先辈的线上保举的技术和线下的场景结合起来,在线下发挥更大的功能。

  三个产品只是揭开了冰山一角,在大数据这个方面,产品设计的想象力其实是许多许多的,我们在这方面也特别很是愉快,后面我们也会陆续推出一系列的大数据产品,请大家期待。百度乐意与更多的人一路合作,在大数据这个方向上给百度,给行业、给用户带来更多的价值。谢谢大家。

【想看更多互联网消息和深度报道请关注易企网官方微信。(微旌旗灯号:易企网)】

分类: 电子商务  用户: 蒋云染    关键词: 百度 高亮 数据 打印 邮件 分享到:   关闭

把文章分享至同伙圈

口袋消息
  • 易企网

  • 范氏途说

  • 金融暴风眼

  • 美谈社

相干文章 百度深度学习实验室主任余凯:百度大脑让连接更智能(1) 前微软亚太研发集团主席张亚勤博士加盟百度 (4) 免费阅读时代已经曩昔 收费将会是主流(1) 阿里巴巴——讲故事容易,做实事艰难(2) BAT拼抢影视“造梦空间”(1) 速途论道:张亚勤脱离微软去百度,你怎么看?(1) 猛龙过江 《堕落泰坦》老男孩技能全攻略(1) AT大战,百度怎么混?(1) 愤怒小鸟坐上阿里“协调号” 真能挽救本身?(1) 张亚勤离职微软加盟百度:外企红毯时代的结束(1)