百度数据开放平台-五十九秒：国内唯一提供B2C商品数据的开放平台

发布时间：2017-11-21 所属栏目：百度站长工具平台

一 : 五十九秒：国内唯一提供B2C商品数据的开放平台

　自2007年因Facebook取得瞩目的成功以来，一直刺激着国内互联网界的神经。2008年起，天涯、康盛创想、51、人人网等陆续开放了自己的api，自进入2010年后开放平台潮突然“加速”：2010年1月，淘宝推出应用商店淘宝箱;5月，此前信誓旦旦1年内不开放的开心网突然妥协;7月，新浪推出微博开放平台;9月，腾讯推出社区开放平台;而百度则提出了“框计算” 。

　　在国内互联网巨头公司推出开放平台的同时，国内专注于B2C商品开放平台的五十九秒(www.59miao.com)隆重上线。据悉，五十九秒是国内首家B2C商品数据的开放平台，提供平台模式的创新以及业务模式的创新，创造出了一条健康发展的营销模式，目前吸引了当当网、京东商城、卓越亚马逊等国内知名的b2c网站均在五十九秒开放平台入住，还和国内知名购物搜索网站及购物社区保持长期的密切合作关系。

　　五十九秒开放平台是国内首家对外开放B2C数据的平台，网站上线短短2个月内国内就有358家B2C购物网站合作超过1000多万的商品介绍，包含了国内几乎所有B2C商家的商品数据，提供商品搜索、商品报价，商家促销等信息服务。这与五十九秒开放平台先进的平台技术和开放透明的数据接入以及强大的技术服务是分不开的，众多商家正是看好了这家开放平台所以选择了与其合作。

　　值得一提的是，中国互联网界除了五十九秒开放平台外并没有任何一家公司从事此类开放业务，可以说，五十九秒目前是国内唯一提供B2C商品数据的开放平台.。不仅如此，五十九秒开放平台包含了国内所有团购网站的数据，可以通过平台API获得国内任何团购网站，地区，分类的团购信息，推广可获得分成，包含了国内几乎所有便捷酒店的基础数据，可以通过平台API获得国内各地的快捷酒店的预订服务，推广可获得分成。

　　据五十九秒开放平台负责人透露，只要注册五十九秒开放平台的用户，不需要拥有自己的网站，利用自己的博客、论坛、电子邮件、qq空间等形式就可以宣传产品或者佣金，没有任何成本和门槛限制，适合各类人群操作，只要有销售订单就会有业绩提成，而且后台可以实时看到推广成绩，每月按时结算佣金，所以深受用户的信赖和喜爱,短短时间内就有大量用户注册。

　　业界专家人士指出，随着中国移动互联网和电子商务的飞速发展，五十九秒开放平台可以为B2C商家提供更多的产品暂时和销售的机会的同时也可以让更多的互联网用户通过五十九秒开放平台获得更多的分成机会，对于中国互联网的发展起到积极的推动作用。

二 : 解析百度开放云分布式计算平台对大数据的处理

在百度开放云总经理刘旸看来，当今世界正面临着由技术突破带来的全行业升级，在这场商业剧变中，背后是三个重要的「重新定义」：第一，云计算重新定义了「IT」。它改变了企业所需要的 IT 资源的拥有与供给的方式，基于互联网级的资源管理平台，彻底改变了传统企业的 IT 模式，为新的商业创新提供了可能；

第二，大数据重定义了「资产」，相较于以往的重资产，企业在经营中不断生成的数据，将成为企业未来继续生存并保持竞争力的砝码；第三，人工智能重定义了「效率」，通过语音、图像、视频、自然语言识别和智能处理等技术，让传统的计算机具备更为强大的能力，大幅提升工作效率。

基于以上三个重新定义，百度开放云的重新堆栈也分为三层：云计算层、大数据应用层、和人工智能层。

处理大数据无非以下四个步骤：

收集：原始数据种类多样，格式、位置、存储、时效性等迥异。数据收集从异构数据源中收集数据并转换成相应的格式方便处理。
存储：收集好的数据需要根据成本、格式、查询、业务逻辑等需求，存放在合适的存储中，方便进一步的分析。
变形：原始数据需要变形与增强之后才适合分析，比如网页日志中把IP地址替换成省市、传感器数据的纠错、用户行为统计等。
分析：通过整理好的数据分析what happened、why it happened、what is happening和what will happen，帮助企业决策。

其实，如果涉及到“大数据”，不得不提百度最大的业务——搜索。百度搜索已经收录全世界超过一万亿的网页，每天响应中国网民大约几十亿次的请求。除此之外，百度还有另外20多个用户过亿的产品线，而且各个产品底层的大规模数据处理，都需要使用百度团队维护的大数据处理平台。
201622104550136.jpg (600×338)

百度分布式计算平台：离线引擎优化

关于MapReduce
201622104606388.jpg (600×337)

首先介绍主要的离线计算模型——MapReduce，百度从2007年开始引进Hadoop 0.15.1，随后快速发展，2011年百度的MR单集群规模达到5000台，到2013年已经多达1.3万台，这也是截止到目前为止全世界最大的单集群。Hadoop全集群规模为10万量级, 作业量达到了百万量级，日均CPU利用率超过80%，远超业界同行，百度开放云(http://cloud.baidu.com)底层依赖的大规模集群调度、资源隔离等技术能力世界领先。除了在规模方面不断扩大，百度一直在Hadoop性能分析方面进行了大量的优化。2013年的测试结果显示，百度内部MR实现相比于开源Hadoop性能提升30%。典型优化，例如Hadoop中的Shuffle，百度将其做成一个统一的shuffle服务，不再占用Map或Reduce槽位。比如对关键热点函数采用SSE向量化等。
201622104624894.jpg (600×338)

2014年，百度继续对计算引擎做了大幅优化， Native C++实现的DAG引擎正式上线。下图是一个 4轮MR Job实现的典型业务流示例，DAG引擎上线后，可以优化成一个DAG作业，可以避免3次Reduce写多副本引入的磁盘IO及网络IO，还可以规避2次Map读HDFS的IO以及处理耗费。
201622104641261.jpg (821×463)

下图是一个真实业务由SQL计算表示层翻译下来的，基于MR引擎时，SQL会翻译成25个MR JOB，如果百度把它优化成DAG，能够避免很多次磁盘IO操作。在优化之后，运行时间直接缩减到1个小时，优化前后的差异非常显著。
201622104658053.jpg (823×460)

内存流式Shuffle

2014年，百度对Shuffle进行重大重构，初期实习生同学完成的Demo以BaiduSort名义参与了2014年Sort BenchMark大数据排序国际大赛，并获得冠军（2015年百度没再参加，国内其他公司以同样技术通过更大规模集群刷新记录）。2015年，新Shuffle技术完成全面上线。Hadoop默认Shuffle实现为基于磁盘Pull模式，计算过程显式分成Map、Shuffle、Reduce过程；Baidu研发的新Shuffle采用内存流式Push模式，Map端完成部分记录处理后直接从内存中将计算结果推送给下游。
201622104714882.jpg (824×462)

举例来说，Map处理256MB输入数据，在内存流式Shuffle模式下，处理完100条记录以后，直接通过内存推送到下游，这样就形成流水线方式处理。不再有显式的Shuffle阶段。

目前，该Shuffle组件为通用组件，正逐步推广到其他分布式计算平台中。

百度分布式计算平台：系统架构演进

前面重点介绍了百度开放云BMR服务中涉及到的规模、性能方面优化思路和效果，接下来跟大家一起分享一下，百度遇到的整体架构方面挑战以及优化思路。

2012年系统架构中，最主要的两个离线计算平台，左边是以MapReduce模型为主的批量计算平台BMR，右边是MPI /BSP模型为主的大规模机器学习平台BML。从最下面可以看到，MapReduce和MPI模型底层硬件就有较大差异。Hadoop分布式文件系统多副本以及强大的故障处理机制，使得Raid卡完全没有必要，采用多块超大容量SATA硬盘非常适合。

而MPI差别较大，MPI是一个消息传输框架，它在设计之初就没有考虑太多异常处理，因此它对底层系统可靠性要求非常高。百度采用了非常高配置的服务器，例如带Raid卡的sas硬盘，超大内存、万兆互联等。
201622104730805.jpg (824×464)

BMR Hadoop由大量SATA硬盘的服务器构成，存储系统为HDFS，资源调度层面百度有自研的调度器ARK（与社区Yarn比较类似）。而BML大规模机器学习平台上，支持的业务样本超过数百亿计量级，特征规模也远超百亿。百度在运行机器学习时，需要先启动MapReduce，然后再将数据从HDFS分发到各个MPI节点，这种方式对网络带宽的要求很高。
201622104746141.jpg (821×461)

系统部同事持续改进内网带宽的同时，BML平台层面也在思考应该如何解决跨MR和MPI俩大集群间的日益严重的网络带宽问题。

另外还有一个需求：MPI是一种事务性调度模型，比如一个业务需要200台机器,如果平台此时只有199台机器空闲，实际也很难用起来（除非修改提交参数，但涉及输入数据重新分块处理等比较复杂）。另外MPI计算往往显式分为计算、传输、计算等阶段（即BSP模型），因此资源利用波动性较大，例如CPU计算阶段，网络空闲；网络传输或全局同步阶段，CPU空闲。为解决这个问题，百度在MPI集群中引入IDLE计算，IDLE业务资源占用充分可控，典型的IDLE任务如MapReduce任务，而执行MR任务又会进一步加剧MR集群和MPI集群间网络带宽问题。

基于以上考虑，百度正式将MPI底层硬件替换为替换成高配置存储型服务器，硬盘同构，文件系统都采用HDFS，BML算法输入和输出均通过HDFS，不再是本地文件系统。

BML机器学习执行引擎层面，百度基于MPI封装了DVCE（Distributed VectorComputingEngine）分布式向量计算引擎，屏蔽MPI过于低层的编程接口,通过高层抽象自动翻译为MPI任务，这就是百度第二代专门针对“并行计算”开发的系统框架。
201622104802301.jpg (825×465)

2014年，BML机器学习执行引擎迁移到ELF第三代并行计算框架， ELF采用ParameterServer架构，大幅降低机器学习算法开发代价，对比于百度的第二代框架DVCE，在开发效率方面有大幅度的提升。离线计算方面，完成了Native C++ DAG引擎上线，百度内部叫DCE（Distributed ComputingEngine）。

2014年BMR和BML底层都采用Matrix完成资源分配与隔离，其他平台如小批量计算系统TaskManager和毫秒级计算延迟的Dstream系统，都基于业务需求特殊性，采用独立的资源隔离和调度系统。

2015年的架构改进，主要是将所有的计算模型均迁移到Matrix+Normandy架构。Normandy兼容社区Yarn调度接口，开源社区新型兴计算平台可以很轻松的接入到百度的计算生态里。
201622104822242.jpg (600×339)

百度已经介绍了百度大数据分析和挖掘平台主要的底层引擎和架构，接下来谈一下最新思考。

系统底层是IDC硬件，接着是Matrix，再是Normandy，然后是几个主要的引擎。之前介绍底层架构的统一，比如在硬件、调度、存储等方面的统一。实际上各个系统对外的结果，都有自己的接口，如果要使用MR，很多人写MR程序都是直接调用Hadoop原生接口，配置涉及到的多个参数。部分业务还需要流式系统完成日志清洗，在经过MapReduce模型批量预处理，随后通过ELF完成机器学习模型训练，最后再通过MapReduce模型完成模型评估，可见一个业务需要跨越多个模型，需要业务线同学同时熟悉很多模型和平台，而每一个模型又有各自特点和接口。只有足够了解模型的细节和接口后，才能真正的利用好该模型。
201622104838685.jpg (824×462)

于是百度正式立项BigFlow项目（原项目名DataFlow，图片未来及修改），将模型的细节屏蔽。平台自动决定选择合适的并发度，甚至智能选择应该把这个翻译到哪个计算模型。BigFlow可以支持多个不同的计算引擎（每个引擎在其适合的领域做到极致），充分发挥各引擎性能和功能。所以用户使用同一套接口，便能对应到不同的任务。由于采用高层抽象，业务开发效率获得大幅提升，代码量大幅减少，其维护成本也大幅降低。BigFlow集成常见优化手段，因此将大幅提升平台有效资源占用。

百度开放云——大数据+智能

最后，向大家简要介绍百度开放云。2014年，百度正式决定将服务内部业务多年的云计算技术正式对外提供服务，即百度开放云，对应官网http://cloud.baidu.com。百度开放云大数据方面，BMR已经对外开放，而更多的大数据分析和服务都还未对外开放。BMR集群上可以做到按需部署，用户专享，更关键的是完全兼容开源的Hadoop/Spark平台，开放云客户基于Hadoop、Spark、Hbase等已经实现的大数据业务几乎不用修改就可以平滑迁移到云上。多维分析服务Palo，它完全兼容MySQL网络协议，因此，客户朋友们熟悉的Mysql Client的工具均可使用。
201622104857086.jpg (822×462)

同时，Palo支持JDBC、ODBC的编程接口，如果已有程序采用的是JDBC、ODBC，那么迁移成本几乎为零。最后看到它与业界主流的BI工具商业分析的工具对接的，比如Tableau、Saiku、BIEE、R。

最后再介绍机器学习云服务BML，BML中提供的深度学习技术，曾获得2014年百度最高奖。BML提供端到端的解决方案，里面提供的算法均服务百度内部业务多年，典型如网页搜索、百度推广（凤巢、网盟CTR预估等）、百度地图、百度翻译等。

使用开放云BMR和BML、Palo等，就可以立刻、直接享用与百度搜索同等品质的大数据分析和挖掘服务！
201622104913369.jpg (600×337)

三 : 中国：2018年底前建成政府数据统一开放平台

国务院近日发布《促进大数据发展行动纲要》，明确2018年底前建成国家政府数据统一开放平台，率先在信用、交通、医疗等重要领域实现公共数据资源合理适度向社会开放。

《纲要》明确，立足我国国情和现实需要，推动大数据发展和应用在未来5-10年逐步实现以下目标：

－打造精准治理、多方协作的社会治理新模式。

将大数据作为提升政府治理能力的重要手段，通过高效采集、有效整合、深化应用政府数据和社会数据，提升政府决策和风险防范水平，提高社会治理的精准性和有效性，增强乡村社会治理能力；助力简政放权，支持从事前审批向事中事后监管转变，推动商事制度改革；促进政府监管和社会监督有机结合，有效调动社会力量参与社会治理的积极性。2017年底前形成跨部门数据资源共享共用格局。

－建立运行平稳、安全高效的经济运行新机制。

充分运用大数据，不断提升信用、财政、金融、税收、农业、统计、进出口、资源环境、产品质量、企业登记监管等领域数据资源的获取和利用能力，丰富经济统计数据来源，实现对经济运行更为准确的监测、分析、预测、预警，提高决策的针对性、科学性和时效性，提升宏观调控以及产业发展、信用体系、市场监管等方面管理效能，保障供需平衡，促进经济平稳运行。

－ 构建以人为本、惠及全民的民生服务新体系。

围绕服务型政府建设，在公用事业、市政管理、城乡环境、农村生活、健康医疗、减灾救灾、社会救助、养老服务、劳动就业、社会保障、文化教育、交通旅游、质量安全、消费维权、社区服务等领域全面推广大数据应用，利用大数据洞察民生需求，优化资源配置，丰富服务内容，拓展服务渠道，扩大服务范围，提高服务质量，提升城市辐射能力，推动公共服务向基层延伸，缩小城乡、区域差距，促进形成公平普惠、便捷高效的民生服务体系，不断满足人民群众日益增长的个性化、多样化需求。

－开启大众创业、万众创新的创新驱动新格局。

形成公共数据资源合理适度开放共享的法规制度和政策体系，2018年底前建成国家政府数据统一开放平台，率先在信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等重要领域实现公共数据资源合理适度向社会开放，带动社会公众开展大数据增值性、公益性开发和创新应用，充分释放数据红利，激发大众创业、万众创新活力。

－培育高端智能、新兴繁荣的产业发展新生态。

推动大数据与云计算、物联网、移动互联网等新一代信息技术融合发展，探索大数据与传统产业协同发展的新业态、新模式，促进传统产业转型升级和新兴产业发展，培育新的经济增长点。形成一批满足大数据重大应用需求的产品、系统和解决方案，建立安全可信的大数据技术体系，大数据产品和服务达到国际先进水平，国内市场占有率显著提高。培育一批面向全球的骨干企业和特色鲜明的创新型中小企业。构建形成政产学研用多方联动、协调发展的大数据产业生态体系。

中国：2018年底前建成政府数据统一开放平台