61阅读

云计算与大数据技术-城里的货运中心有没有添堵?北京用阿里云大数据技术算了一下

发布时间:2017-09-28 所属栏目:大数据技术与应用

一 : 城里的货运中心有没有添堵?北京用阿里云大数据技术算了一下

  城市是一个有机体,一个城市在一天之中,内部的潮汐是如何涨落的?来来往往的车辆从哪里来,到哪里去?那些货运车辆的集散地是否合理分布,是否能有更优的货运路线,以便减轻城市污染和交通的压力?这一系列的问题,可能能够通过大数据云计算技术找到答案。

  目前,北京市城市规划设计研究院正在尝试用阿里云大数据平台数加,探索城市物流和交通规划的新模式。联合云康大数据工作室,北京市城市规划设计研究院正在基于数加平台搭建“物流鹰眼”系统,用大数据技术对货运车辆集散点分布进行研究。

  北京市城市规划设计研究院交通规划所主任工程师张晓东介绍,利用数加平台的大数据工具及相关智能算法,可有效优化甚至从根本上解决城市物流与配送相关问题,例如城市物流空间的布局、优化和管制,物流仓储用地选址、规模确定及规划保障,城市物流智慧配送体系设计,配送过程的商品、路线、车辆、人力优化。

  以北京南四环大红门地区为例,这里位于北京中轴线南苑路以西,主干道有双向8车道,但每到早晚高峰时段,这里都拥堵严重。

城里的货运中心有没有添堵?北京用阿里云大数据技术算了一下

 

  大红门地区地理区位

  

城里的货运中心有没有添堵?北京用阿里云大数据技术算了一下

 

  大红门地区交通基本情况(平峰非拥堵情况)

  除了车流量大,还有什么其他原因造成这里的拥堵吗?在北京市城市规划设计研究院提供的案例分析里可以看到,大红门地区的服装城的货运车辆对拥堵的贡献也不小

  在“物流鹰眼”云平台上可以清晰看到,工作日下午三点前后大红门地区路段拥堵严重,同时该地区出现了密集的快递派件,并且物流强度也显示为红色。

  

城里的货运中心有没有添堵?北京用阿里云大数据技术算了一下

 

  工作日下午三点前后拥堵路段状况

 

城里的货运中心有没有添堵?北京用阿里云大数据技术算了一下

  大红门地区工作日下午三点前后交通拥堵状况

城里的货运中心有没有添堵?北京用阿里云大数据技术算了一下

 

  大红门地区物流强度

  

城里的货运中心有没有添堵?北京用阿里云大数据技术算了一下

 

  大红门地区快递派件飞线

  北京市城市规划设计研究院表示,以往交通规划人员在对区域交通进行评估与改善时,一般是利用传统的交通量观测数据、逐日交通拥堵指数和平均车速数据,再结合区域土地利用情况估算居住人口与就业岗位和机动车保有量进行估算。

  这样的测算方法无法准确判断由服装批发这一类特殊行业带来的就业及诱增、交通量规模,进而无法支撑并论证区域改善方案(将服装城外迁或升级改造等)的有效性与潜在影响。

  现在基于“物流鹰眼”系统,可以综合分析物流的强度、空间分布、时间分布,同时融合常住人口/流动人口、出行时间、交通方式、常态/偶发行为等数据分析结果,较准确地确定服装批发行业的诱增交通规模及出行行为特点,为解决上述问题提供了有力支撑。

  据了解,阿里云于今年1月发布全球首个一站式大数据平台“数加”,集合了计算引擎、开发套件、可视化工具和行业解决方案,囊括阿里巴巴十余年来的大数据技术。该平台集成了人工智能、机器学习、智能语音等前沿技术,可以让没有足够技术实力的机构,也能实现从数据中提炼“石油”。

二 : 新致云:如何实现大数据BI技术与传统BI领域的大融合

  大家好,我是来自新致金融云大数据团队MATRIX的架构师:汪勇。在互联网高速发展的今天,大数据技术越来越频繁地被应用于我们的日常开发中。而大数据BI对于跨系统、非结构化的数据处理能力以及处理量级也使其逐渐走进了软件开发商的视野。伴随BI的发展,BI的应用范围越来越广,而大数据BI恰恰可以实现一些传统的BI工具实现不了的数据结果分析,可这是否就意味着大数据BI的出现会就此将传统BI逼入绝境呢?其实不然,传统BI在中小型数据的处理领域中依然占据着无可替代的地位,但是我们是否可以将大数据BI技术中的一些思考运用到传统BI技术开发中呢?

  接下来,我将简单介绍新致金融云运用大数据技术帮助一家大型上市保险集团公司解决传统BI技术瓶颈从而提升客户体验度的实际案例。

  客户场景

  在客户实施的数据类项目中,用户经常向我部反馈系统查询速度慢,而这种现象主要集中在运营监管、数据分析等数据集中项目中。这具体是怎么回事呢?通过对相关项目的调研,我们了解到该系统:

  1、已有数据存量接近或超过1亿

  2、若干常用的查询条件字段增加了索引

  3、按分公司分区,限制用户不能跨分公司查询

  4、查询规则相对复杂,包括多项选择、模糊匹配、表达式匹配等。

  5、单次查询的速度就在20秒左右,多用户情况下系统响应速度更慢。

  需求分析

  因该系统的用户查询范围大,且具有不确定性,故将其定义为数据探查场景。

  在数据探查场景中,最终用户的一个想法需要快速通过业务数据进行验证,其特点是查询方式灵活、数据范围大、周期短甚至是一次性的。

  需求听起来不复杂,但与海量数据一结合,技术实现就变得非常不简单。常用的索引、分区分表等设计期优化方案,经过实践证明都无法起到太好的效果,不是跟不上运行期用户灵活要求,就是极大制约了用户的查询行为。而人工提数则存在理解偏差、工作量大、成本高等问题。

  那么是否存在最佳解决方案?答案是肯定的。新致金融云结合其20余年丰富的行业经验与多年大数据技术积累,积极思考如何将大数据技术融入到实际业务场景中,以此得出结论,大数据探查场景会是一个好的切入点。

  系统目标

  1、数据探查由最终用户自行操作,减少中间环节;支持日访问量1万用户。

  2、提供基于全库数据量,支持亿级数据规模。

  3、提供灵活、快速的查询功能,响应时间控制在3秒以内。

  4、能够通过硬件水平扩展,有效应对数据规模的持续扩容。

  5、能与已有应用系统无缝整合,无需做大改造。

  技术分析

  1、物理层

  选择支持高可用、分区容错性强的分布式存储系统。在大数据领域不得不提到hadoop hdfs,也包括基于hadoop或仿效hadoop原理的存储产品。在企业内部定制实施大数据平台,服务器数量不可能动则成千上万,因此我们需要在有限的资源条件下,最大化提升硬件利用率。

  2、逻辑层

  逻辑层是性能优化的关键。早期的大数据技术,通过强大的硬件性能暴力扫描数据的做法,适合大量日志、平面文件处理的简单场景。而当面对复杂数据访问过程,且在资源有限条件下,优化逻辑存储结构及算法支撑便显得尤为重要。

  

 

  反向索引技术,是先从源数据中提取关键字字典,每个关键字对应一组数据行号列表。

  结合有限状态机压缩算法,进一步减小查询时内存使用量。

  

 

  使用跳跃表技术,同时扫描多个字段索引,加快组合查询速度。

  

 

  从物理层加载某几列数据时,列式存储是顺序读取、行式存储是随机读取,列式存储明显具有速度优势。

  3、用户层

  大数据查询平台采用独立部署模式,对外提供json数据接口。任何web架构的应用系统均可无缝接入大数据查询平台 。

  实施过程回顾

  我们自今年五月份开始在相关项目中采用大数据技术解决数据探查问题。经过多次POC实践论证,及项目团队反复讨论与修改,在六月底正式部署生产环境,并于七月中旬通过客户测试进行试运行。

  大数据探查系统经过loadrunner压力测试,在100并发用户的压力下,平均响应时间不超过1秒,比原来的查询速度提高几十倍以上。相对硬件设备投入,只有4台普通IBM服务器,每台配置8核cpu.32G内存500G硬盘。投入产出比预期高很多,获得甲方充分肯定。

  由上述实践案例可见,虽然大数据BI与传统BI在不同量级的数据处理环节中各展所长,但是两者的数据处理技术依然具有相互借鉴的价值。目前新致金融云主要将大数据BI技术集中应用于该系统的返回清单数据支持功能,在后续我们还将根据客户要求进一步整合系统多维度聚合功能,届时,新致云将继续与大家分享大数据BI技术在传统BI领域中的应用与融合。

三 : 微票儿技术VP杨森淼:年增长4000%背后的大数据与云计算

  微票儿,一个近期特别引人关注的网上购票平台:估值近百亿、与格瓦拉合并、年增长率超4000%、月活突破2千万,覆盖全国500个城市4500多家影院,日出票达100万张,峰值200万张……

  这一连串的数据背后,有着什么样的支撑技术?日前,微影时代研发中心技术副总裁杨森淼做客“腾讯云会客厅”,对话腾讯云副总裁曾佳欣,解读了微票儿年增长4000%背后的大数据和云计算技术体系。

  杨森淼表示,微票儿的核心在于利用大数据做精准营销及服务,通过卷积神经网络(CNN)、奇异值分解(SVD)等算法对 200TB 用户数据和行业数据进行分析,微票儿得以精准地把握用户需求,提升了票房转化率;同时,面对用户量高速增长时期高峰值、大流量的挑战,云计算资源的高伸缩性、安全性也是支撑不间断运营的必备条件。

  

 

  腾讯云副总裁曾佳欣(右)对话微票儿技术副总裁杨森淼(左)

  大数据与深度学习的应用

  成立仅短短500多天,杨森淼认为,微票儿能够入驻“7亿活跃用户的微信、8亿活跃用户的QQ”,大数据是其核心优势。

  微票儿会根据用户热度建议影院优化排片,首先通过数据分析用户位置和用户附近的影院,然后反哺上游,并为影院经理也开发微票专业版,帮助他们了解到自身影院数据,以确定排期和行业大盘。可以说我们的核心竞争力就是利用整个大数据来为电影行业、演出及体育行业去做服务、连接和营销。

  具体而言,微票儿大数据分析的数据来源主要包括4大类:

  微票儿服务器生产的日志,包括请求访问的数据、接口调用产生的各种日志;

  业务积累的数据,像影片排期、票房、交易订单的数据、每一项营销活动、评论等;

  行业大数据,主要是泛娱乐行业网站外部可查可统计的数据及报告;

  电影社区和用户互动数据。

  目前微票儿产生的日志条目数上百亿条,业务累计的数据量不少于千万量级,行业大数据则是以爆炸性的速度不断扩展,目前微票儿的大数据的数据存储总量已达200T。

  微票儿通过将这些数据充分融合,为每个用户、电影、演出、渠道实体构建完整的画像,这其中的难度主要在于不同来源的数据的关系建立,数据种类繁杂,来源不一导致很难构建统一的映射关系,目前微票儿通过不断完善匹配关系表再辅以匹配的模型,如语义匹配,海报或宣传照的相似度图像匹配等进行校正,不断的将数据融合满足业务上的拓展及应用。

  算法

  从逻辑上来看,这个过程又包含了两个部分的算法。

  1. 特征工程算法

  特征工程是指为了提高算法准确性,对数据做的一系列数学变换。这部分工程尤为重要,不光考验算法工程师的数学能力,同样考验工程能力。

  巨大的数据集合无法在单机上进行特征抽取的时候,就需要工程人员需要从单机算法设计成为并行特征抽取算法。微票儿特征抽取工程上多采用深度学习(Deep Learning)技术,这是因为深度学习天然的网络拓补结构更容易并行,并行存储也可以满足庞大数据量的存储需求。

  当然,这些算法更多的是要去迎合使用场景。比如CNN(Convolutional Neural Network)和SVD(Singular Value Decomposition),这两种降维方法会因为业务场景不同而区分使用。

  2. 目标结果算法

  通过特征工程算法得到的重要维度,交给“目标结果算法”来处理。

  除了常规机器学习/深度学习算法以外,微票儿对于不确定数学的相关算法也有一些应用。因为许多场景下,精确估计表现并不是很理想,尤其当自变量解释能力不强的时候。

  比如常用的 Regression 算法对于确定信息有着极高的预测能力,但是对于不确定信息来说显得比较无力。针对这类场景,微票儿采用了不确定信息的描述,诸如“Entrop(熵)”和“lyapunov”。

  计算平台

  计算架构上,由于深度学习技术的应用突破更多的是来源于模式识别,所依赖平台多为造价昂贵的CUDA平台(微票儿完成“图片特征抽取”这样的大型任务,会消耗掉500台左右的集群资源)。因此,除了日常所需的数据存储和抽取集群以外,微票儿把算法重点放在更远的并行内存计算技术上。

  杨森淼希望可以把深度学习计算并行在造价低廉的内存计算平台上(如Spark集群),可以在不减少输入参数和神经网络规模的前提下,更优地完成任务。为了抵消与高速“GPU”的速度差,微票儿使用了众多集群,并采用“伸缩”模式,训练过程结束之后,集群自动伸缩为一般模式,这样避免了与“GPU”集群一样的硬件必须消耗问题。

  很容易看到,大数据平台不完全在云上。杨森淼比较了自建大数据平台和云大数据平台的优劣:

  1. 自建大数据平台的优点

  用户根据自身需求规划建设完全贴合业务需求的大数据平台,且平台建设与业务发展相互促进。

  技术机构版本的升级、新技术的引入,资产管理、自动化运维、权限认证等系统研发完全由用户自己决定,可控性强。

  大数据平台技术团队对架构中每项技术都会有持续深入的研究,保障了平台的稳定及不断创新,增强了公司的技术影响力。

  2. 自建大数据平台的缺点

  对平台技术团队成员的综合能力(学习能力、创新能力)要求较高。

  IT行业的特殊性、对团队成员的稳定性要求较高。

  3.云大数据平台的优点

  服务商有完善的解决方案体系,根据用户的具体需求及应用场景为用户提供合适的技术架构。

  每套技术架构又是一套完整的生态系统,除了大数据平台本身,还附有资产管理系统、自动化运维系统、监控报警系统、权限认证系统、安全保障系统、各层面HA等。

  4. 云大数据平台的缺点

  提供给客户的每套解决方案往往不能完全贴合用户需求,加上技术架构各个组件及环节的定制封装,为用户增加了不同程度的学习及维护成本。

  当用户需要将一些前沿技术或第三方组件整合到云大数据平台时,服务商往往需要很长的时间甚至直接告诉用户暂没有这方面的研发计划。

  微票儿根据业务场景选择自建平台或者云平台:

  业务数据仓库的建立目前还在本地物理集群,因为涉及业务数据量大,且计算及配置环节较多,对数据准确度要求较高。

  一些竞品分析预测、票房预测、舆情预测及用户行为分析等方面的分析、预测类计算,则是在云上完成的。一是因为数据来源较多,变化较快,云存储及计算资源申请分配灵活,可以较快响应需求;二来微票儿所有业务数据库都在云上,这样传输数据也更加方便。

  一些实时计算及准实时业务服务,也大都在云上进行,这样可以最大程度的缩短由于网络或数据交互带来的时延。

  数据传输方面,关系数据T+1与T+0数据批量同步,百万级数据同步基本在1分钟内完成,流数据实时接收处理,秒级响应。

  后续努力的方向,杨森淼表示,是如何发挥好在“大数据和社交”两个方面的核心优势,用“懂社交的大数据”把电影演出等娱乐产业和观众更好的连接在一起,比如腾讯云的优图人脸识别有效帮助了微票儿的数据采集,而这个能够更加丰富自身大数据,实现更好的洞察。

  云计算保障无缝扩容

  作为网上购票平台,在用户量高速增长时期,都不可避免的会遇到高峰值、大流量的挑战,如何拥有一个稳定、安全的服务器,无疑是最关键的问题。今年国庆档,微票儿在中国电影票房的份额占比突破25%,日均出票量达到100多万,峰值甚至高于200多万储票量——服务流量较日常值最多增长四倍多,各个服务单元也需迅速扩容4-6倍的容量。

  杨森淼表示,传统IDC机房方式在基础设施建设、安全管理、宽带和硬件快速扩容等多个方面有着很多的弊端,自主购买硬件设备也会带来大量IT成本投入,还需要一个巨大的运维团队。通过与腾讯云的合作,在购票高峰时段,微票儿迅速通过云去扩容。不仅如此,腾讯云的动态可扩展性有效帮助微票儿面对每日活动,快速扩展,并在高峰后及时退掉扩容设备,节约资源。

  选择腾讯云,是微票儿基于详细考察和比较国内几家主流云服务公司,针对灵活度和扩展性、售后服务响应时间、平台服务器性能和价格等几个因素进行综合评判之后做出的决策。杨森淼表示,如此选择的原因,是比较看重腾讯云技术团队的专业性和技术性。

  在腾讯云平台上,随着微票儿的服务极速扩张,从云主机云DB负载均衡CDN安全扫描分布式防御等平台提供的各个功能都迅速快捷的得到使用,但每种新鲜事物在初次使用的时候肯定都会碰到问题,加之个别服务的使用与传统IDC方式的区别,微票儿在使用过程中确实碰到了一些小问题,不过在腾讯云平台的强大的技术支持团队的快速高效的沟通下,都很快解决了。杨森淼表示,通过腾讯云的服务,微票儿的运维团队人并不多,但是每一次业务高峰期,都能迅速做出反应。

  另外,微票儿在“云”上,DDOS攻击等外部攻击都无需自己担心。腾讯云有覆盖全国400+的网络节点,以及百G的DDOS防护能力,能够有效帮助微票儿解决平台用户量剧增问题。不仅如此,腾讯云在云服务器、CDN加速服务、云监测、负载均衡等方面,也在为微票儿提供着高性能、专业、可靠的服务支持。

  总结

  在移动互联网的时代,各行各业都在不断的产生着变革,微票儿借助大数据、云计算等先进技术力量,得以在日益严峻竞争环境下脱颖而出。

  杨森淼建议,创业者在移动互联网时代应该大胆地拥抱新技术,拥抱云计算带来的便利。她认为,IT的技术演进和变化非常之快,在最近的3-5年,云计算和移动化应该会有很大的需求并成为主流。未来,大数据和社交将帮助微票儿更好地连接用户,云计算则为微票儿提供更专业的移动互联网+O2O运营服务。

四 : 大数据计算架构Hadoop、Spark和Storm 三者技术比较

短短几年时间,大数据这个词便已家喻户晓。但在大数据这个名词被命名之前,人类对数据的搜集与分析已有着悠久的历史。从人工统计分析到电脑/大型机再到今天的分布式计算平台,数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于Hadoop,Spark和Storm这三种,而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头,也让网上逐渐开始有一种声音说Hadoop的日子已经快到头了。但究竟这三者之间是什么关系,未来大数据架构究竟该走向何方呢?

分布式计算架构鼻祖Hadoop

所谓分布式计算过程就像蚂蚁搬家一样,将一个大型任务分割成很多部分,每一台电脑相当于一个小蚂蚁将其中一部分搬走。Hadoop作为分布式系统的基础架构,其重要性不言而喻。Hadoop的数据处理工作在硬盘层面,借助HDFS(分布式文件系统),可以将架构下每一台电脑中的硬盘资源聚集起来,不论是存储计算还是调用都可以视为一块硬盘使用,就像以前电脑中的C盘,D盘,之后使用集群管理和调度软件YARN,相当于Windows,毕竟我们要进行编程首先需要一个操作系统,最后利用Map/Reduce计算框架相当于Virtual Studio,就可以在这上面进行计算编程。从而大幅降低了整体计算平台的硬件投入成本。而这也就是最基础的分布式计算架构。

流数据处理双雄Spark和Storm

所谓流数据处理其实不难理解,比如看网上视频,都是下载一段看一段,然后快结束的时候自动下载下一段。由于Hadoop的计算过程放在硬盘,受制于硬件条件限制,数据的吞吐和处理速度明显不如使用内存来的快。于是Spark和Storm开始登上舞台。Spark和Storm两者最大的区别在于实时性:Spark是准实时,先收集一段时间的数据再进行统一处理,好比看网页统计票数每隔几秒刷新一次,而Storm则是完全实时,来一条数据就处理一条。当然Storm实时处理方式所带来的缺点也是很明显的,不论离线批处理,高延迟批处理还是交互式查询都不如Spark框架。不同的机制决定了两者架构适用的场景不同,比如炒股,股价的变化不是按秒计算的(Spark实时计算延迟度是秒级),在高频交易中,高频获利与否往往就在1ms(0.001秒)之间,而这恰好就是Storm的实时计算延迟度。

混合架构,各显神通

今天大数据的混合架构就像目前云计算市场中风头最劲的混合云一样,成为大多数公司的首选。每一种架构都有其自身的独特优缺点,就像Hadoop,尽管数据处理的速度和难易度都远比不过Spark和Storm。但是由于硬盘断电后数据可以长期保存,因此在处理需要长期存储的数据时还是需要借助Hadoop。不过Hadoop由于具有非常好的兼容性,因此非常容易的同Spark和Storm进行结合,从而满足公司的不同需求。

纵观技术的发展史,我们可以看到,每一项新技术的问世都有着之前技术的身影,伴随着大数据的需求增长,不同的架依然会不断进化,并改进自身的缺点,从而使得自身架构得到进一步的完善。就目前来看Hadoop,Spark和Storm目前远谈不到谁取代谁。

 

本文标题:云计算与大数据技术-城里的货运中心有没有添堵?北京用阿里云大数据技术算了一下
本文地址: http://www.61k.com/1099808.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1