61阅读

海量数据挖掘-华为助阿里巴巴云计算构建海量数据挖掘

发布时间:2018-02-11 所属栏目:怎么挖掘关键词

一 : 华为助阿里巴巴云计算构建海量数据挖掘

数据挖掘业务需求

阿里巴巴云计算数据挖掘业务,承担着国内最大的交易平台淘宝网海量业务的后台数据计算。2010年淘宝网注册用户达到3.7亿,在线商品数达到8亿。同时,以淘宝商城为代表的B2C业务交易额在2010年翻了4倍,未来几年也仍将保持这一增长速度。其数据挖掘的后台数据量达到了16.8PB。

华为解决方案

华为RH2285是针对大容量、高可靠、高性能业务设计的专业存储型服务器,助力阿里云计算海量数据挖掘业务。RH2285针对数据挖掘特点,提供了专用的驱动和管理工具,满足了客户需求。

客户价值

帮助客户构建海量数据挖掘系统、优化存储IO、解决了大并发的瓶颈

提高客户收益、降低客户运营成本

华为助阿里巴巴云计算构建海量数据挖掘_海量数据挖掘

阿里云数据挖掘应用系统架构

二 : 猜么APP:挖掘兴趣的力量

  “兴趣是移动社交的源泉”,对于众多紧盯陌生人社交领域的兴趣社交APP,这句话可谓是掷地有声的真理。以兴趣作为“吸引灯”,基于地理位置的陌生人社交才拥有持久的生命力,否则再红火的社交平台也会变成“荒坟”,只会制造粗暴暧昧的噱头是饮鸩止渴,充分挖掘兴趣的功用才是长久之计。

  观察近两年移动社交领域的变化发展,我们会发现,大多数陌生人社交APP对“兴趣”这一关键点的发掘还停留在简单的部落社区构建的阶段。然而,单纯的兴趣部落很难促使用户进行更深层次的沟通,这也成为了众多社交应用致力解决的一大课题。在当下的移动社交应用市场,新生代“社交神器”猜么在众多兴趣社交APP中异军突起,其猜模式社交成为时下兴趣社交最耀眼的亮色。

  

1

 

  猜么的“猜模式社交”, 其创意起点是流传久远的民俗游戏——猜灯谜,先以兴趣属性标签进行用户圈层,再以猜的模式促进用户之间进行更自然的搭讪、更具深度的互动交流。把猜灯谜的游戏融入到陌生人社交互动的各个环节,猜么的解决方案看似简单,却是相当大胆、却又独具魅力的创新,很新奇,也很有“中国特色”。

  喜欢把玩文字的,可以用字符编织出各种各样的文字游戏,藏字诗词、字谜、对联、抒发情绪的长短句,总之就是肆意挥洒自己的文采风流;喜欢摄影的,可以把一张张照片整理成一道道的地点猜、美食猜或各种原创猜,看图说话,图片背后的秘密猜出来才更有意思;而爱唱歌的朋友,更是通过猜么玩出了翻唱的热潮,不仅能让小伙伴们听到自己的好声音,更是可以寻找到喜欢同样风格的歌友。给兴趣内容加上一道“猜”的工艺,猜么让兴趣社交变得无比热闹、更加时尚。

  猜与被猜本就是注重含蓄的国人的普遍兴趣,用猜的形式将兴趣内容进一步地深加工,猜么充分地放大和挖掘出了兴趣的力量。已然是兴趣社交的新王,兼有实力与潜力的猜么有望在移动社交领域掀起更大的浪潮。

  (猜么官方地址:http://www.45.com/)

三 : 如何挖掘GA自然流量里的Not Provided数据?

经常用GA(Google Analytics)的朋友可能会对GA 自然流量报告里的not provided很头痛,not provided是谷歌为了保护用户隐私而有意过滤了那些已登陆用户的搜索信息。通常这些搜索信息会体现在url里面(如下图),对于匿名用户来说,GA会截取这部分字段来提取关键词数据。

keyword in url

一旦登陆了谷歌之后,情况就不一样了。我们注意看,url之前加了一个“https”,“https”就是安全搜索,可以确保数据传输的保密性,在国外,老外特别在意这玩意儿,特别涉及到交易流程时,https是必要的保障。所以,如果在数据传输过程中使用了”https”,那么基本上来说第三方要截取关键词数据就非常困难了。所以也就是为什么ga organic里面这些数据都不再显示。当然谷歌肯定是有其他办法,毕竟搜索是发生在谷歌自己身上,为什么不这么做可能是谷歌有它所谓的“Don’t be evil”文化吧,不过顺便透露一句,这些not provided数据谷歌adwords用户是可以看到的,所以“Don’t be evil”还是有一些小前提的,呵呵。

kw-in-https

进入正题

好了,废话说了这么多,现在咱们进入主题,对于谷歌这些not provided数据,我们真的没辙了吗?虽然谷歌官方声称not provided的影响程度平均在10%左右,但是从我目前观察来看,大部分网站都会高数这个数字,有甚者not provided的流量占比高达50%之多。所以如果不对not provided这部分流量做观察、研究和分析的话,我们可能会损失很多潜在订单。接下来我会拿一个礼品网站数据来和大家分享,为了保密的缘故,这些数据都是经过我人工修改的,但不影响数据所表现的大趋势。当然以后有可能的话,我也会拿自己网站http://seotime.org/blog来给大家做案例,只是目前流量实在不大,一些数据无法捕获,实在抱歉,这是题外话。

首先,在分析的时候先要把source选为google,因为其他搜索引擎没有这个not provided的问题,然后你会发现,我取了一个月的流量数据,not provided的访问数为632,占整体3,173的19.9%,这个让人情何以堪。

ga-overview

高级细分

接下来分别建立三个高级细分:*礼网-品牌、*礼网-非品牌词和*礼网-not provided,分别代表着品牌词、非品牌词和not provided的用户数据表现,请仔细观察这三个细分的数据,品牌词毫无疑问是老客户,有较高的粘性和参与度,在这里PV是13.03,平均停留时间11:10分,新访客占比较少为40.43%,Bounce Rate为24.60%,这个数据和全站平均数据(上一张图)比起来,质量度是很高的;而非品牌词则不同,搜索非品牌词的用户由于意图比较宽泛,更多的是处在搜索周期中的比较和搜集信息这一阶段,所以各方面数据表现欠佳,PV值2.26,平均停留时间1.37分,跳出率高达74.62%。

brand-nbrand-notprovided

最后看not provided, 它的表现介于品牌词和非品牌词中间,pv是5.42 小于品牌词的13.03,又大于非品牌词的2.26;在线停留时间4分34秒,新访客占比为76.27%,跳出率59.65%全部介于中间。再vs全站平均数据,我们发现not provided各项数据相差不大,pv 5.42 vs 5.26; 平均停留时间4分34秒 vs 4分18秒;新访客占比 76.27% vs 73.90%;跳出率 59.65% vs 60.67%。

注:相关网站建设技巧阅读请移步到建站教程频道。

自定义报告基本点

这里插一句,由于这个ga报告我没有权限去创建funel,所以无法设定goal,严格意义上任何的seo report需要有三项基本数据才能算合格:数量获取,行为检测和结果评估。

数量获取-主要指用户的访问量,独立访问量等,一个量化的数据 行为检测-是指如pv在线停留时间跳出率等反应用户参与度的数据 结果评估-主要是达成goal数量,可以是到达某个指定页面、完成某项购买、下载资料等

report里面少了每一样都可能会引起误判,比如某些关键词看起来流量很大,用户参与度也高,但是你若不给他们设定goal,不了解最终用户产生的结果或者对我们网站的价值,那么他们和我们网站又有什么关系呢?又比如有些关键词很能带来订单,行为数据也不错,但不知道具体的成单数量,那么我们就不能了解客单价,不能了解投入产出比。所以,一个标准的报告一定要包含这三个元素,才能得出更有insights的结论。

ga-custom-report

可视化数据

现在拉回来,我们这里暂时就假设not provided的goal完成占比也是介于brand与nbrand之间的,现在我们至少能够判断出,这批not provided里面既包含品牌词,又包含非品牌词,而且品牌词和非品牌词总体上来说是比较均匀分布的,因为和全站平均值很近。但很可能not provided里面包含的通用词占比相对更多一点点,从如下的坐标图可以看出,x轴是新访客占比,y轴是用户行为分值(综合多项数据),原点是平均值的表现,橙色的点是品牌关键词,我们可以看出品牌词的用户行为数据分值相对较高,但是新访客占比较少;非品牌是绿点,正好相反,新访客占比多,但是用户行为数据低于平均值,而蓝色是not provided的表现力,介于中间,但有偏向,我们把四个点连起来能够组成两个三角形,BAN和ANN,从中可以分析出not provided离brand要比平均值离brand的距离远(三角形斜边最长),而not provided到nbranded的距离要比avg kw到nbrand的近,这张图标可以从视觉上形象说明,not provided里面的关键词非品牌词占比稍微偏多一点点。

x-y-score

当然,这个蓝色的点(not provided)是一直在变动的,我们可以定期去做这样的一种图表来检测not provided里面的关键词品牌与非品牌占比情况。不过说了这么多,我们还是不能很准确的知道not provided里面到底包含了哪些关键词,但至少当你的老板问你是否对not provided有想法的时候,你可以说出个所以然,而不是说,偶不知道。。。

注:相关网站建设技巧阅读请移步到建站教程频道。

结合登陆页

接下来我们做更进一步的工作,虽然我们不能准确知道到底not provided里面包含了哪些具体的关键词,比如,我随便举例子,到底是“Fimen是谁?”还是“谁是Fimen?”,但是结合登陆页和上面的用户行为数据我们可以猜出个大概。如下我为not provided数据添加一个登陆页作为二级维度:

not-provided-with-landing-page

第一个not provided对应的是首页,而该网站 首页的title上面关键词既有品牌词,也有通用词,比如某某品牌手礼网,那到底这个词是品牌词还是非品牌词,我们可以去看它的用户行为数据,哦!它的pv达到14.27,哦!平均停留时间2分钟!新访客占比59.15%,这些数据和品牌词数据非常相似(还记得之前的数据吗?),所以这些词一定是品牌词/品牌相关词,不大可能是通用词。再看第二行数据,从url我们就能猜到这个页面承载的是与台湾特产相关的词语,那到底是什么类型的词语?看后面的数据,很明显了吧?我就不说了。

当然,这个时候可能你要再问,那到底就是台湾特产这个词,还是其长尾词?比如台湾特产什么好?台湾特产推荐等等。我不能给你准确的答复,但是你可以继续细分这些词的行为数据,比如把这些长尾词按照某种特定词根继续分组观察,然后和原词去比较可能会得到你想要的结果。

好了,今天关于GA里面的not provided数据挖掘和分析就到这里,Fimen期待下次再和大家分享,同时也希望听听大家的建议。

作者: Fimen

本文链接: http://seotime.org/blog/not-provided-in-ga/

版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

注:相关网站建设技巧阅读请移步到建站教程频道。

四 : 古生物学家从不同地层中挖掘出的动物化石的种类和数量如下表所示:根据上表回答下列问题:(1)表中各类生

古生物学家从不同地层中挖掘出的动物化石的种类和数量如下表所示:
根据上表回答下列问题:
(1)表中各类生物之间的进化趋势是
(2)在中生代占优势的动物是
(3)以上事实说明,化石是生物进化的   之一。
(4)始祖鸟可能出现在哪个纪?    ;写出你判断的依据:   
(5)根据中生代化石的分布规律,你能对生物进化的总趋势做出怎样的推测?____________________
题型:填空题难度:中档来源:同步题

(1)从硬骨鱼类到爬行类,再到鸟类和哺乳类
(2)爬行类动物
(3)主要证据
(4)侏罗纪 因为始祖鸟既有爬行类的特征,又有鸟类的某些特征,是从爬行类进化到鸟类的过渡类型
(5)由简单到复杂,由低等到高等,由水生到陆生


考点:

考点名称:进化的历程

生物进化的大致历程:
分析生物进化的证据可以确定,现在地球上众多的生物,都是由古代的生物进化来的。科学家根据亲缘关系的远近,用生物“进化树”形象而简明地表示生物进化的主要历程,如图。

生物进化历程:
①植物进化历程为:

②无脊椎动物:原生动物一腔肠动物一扁形动物一线形动物一环节动物一软体动物一节肢动物。
③脊椎动物:

学习研究生物进化的方法:
(1)化石
比较生物的化石及生物化石在地层中存在的情况,是运用古生物学上的证据对生物进化研究的方法,化石是生物进化最直接和最有力的证据。

①化石是生物的遗体、遗物或生活痕迹,由于种种原因被埋藏在地层中经过若千万年的复杂变化形成的。
②科学家发现,越简单、越低等的生物化石总是出现在越古老的地层里,越复杂、越高等的生物化石则出现在越新近形成的地层里。
③1861年,在德国发现的“始祖鸟”化石,是爬行类进化成鸟类的典型证据。始祖鸟既具有鸟类的一蝼特征,又具有与爬行动物相同的身体结构特征,说明它是一种从爬行类到鸟类的过渡类群。

(2)对植物、动物的器官和系统进行解刨和比较研究的方法
比较解剖学为生物进化提供的最重要的证据是同源器官。同源器官是指外形、功能不同,但来源相同、在解剖结构上具有相同性或相似性的器官。同源器官的存在,证明凡是具有同源器官的生物,都是由共同的原始祖先进化而来的,只是在进化的过程中,由于生活环境不同,同源器官适应于不同的生活环境,逐渐出现形态和功能上的不同,如图。


(3)比较和研究动植物胚胎形成和发育过程的方法
比较和研究动植物的胚胎形成和发育也为生物进化提供了重要证据。一切高等动物的胚胎发育都是从一个受精卵开始的,这说明高等动物起源于低等的单细胞生物。


(4)比较分子生物学证据
证明生物进化还可以通过对不同种生物的同一种蛋白质(如细胞色素C) 的分子结构或DNA分子的结构的研究。研究表明:亲缘关系越近的生物,其DNA或蛋白质分子具有越多的相同性;亲缘关系越远的生物,其DNA或蛋白质分子的差别就越大。

易错点:
1. 误认为生物是不断进化的。现今的地球上低等的生物已不存在了

尽管生物是不断进化的,但许多非常简单、低等的生物并没有在进化过程中灭绝,是因为这些非常简单的、低等的生物由于能够适应环境的不断变化,所以没有灭绝,而且分布范围非常广泛。
2. 误认为蕨类植物是由苔藓植物进化而来的。
被子植物是由裸子植物进化而来的植物进化的总体趋势,是由简单到复杂、由低等到高等、由水生到陆生。地球上最早出现的是海洋中的单细胞藻类植物,它们经过漫长的年代逐渐进化成适应陆地生活的苔藓植物和蕨类植物,一部分蕨类植物进化成种子植物(包括裸子植物和被子植物)。
3.误认为生物的变异是不定向的,生物进化的方向也同样是不定向的
生物的变异为生物的进化奠定了基础,没有变异就不能形成多种多样的生物种类。生物的变异是不定向,生物产生的变异包括有利变异和不利变异。这是针对其是否适应环境的变化而言的,具有不利变异的个体,在自然选择中很快就被淘汰掉,保留下来的基本上是能适应环境的个体。由此看来,生物的变异是不定向的,而生物的进化是定向的,即向着适应环境的方向发展。

生物的进化知识梳理:

本文标题:海量数据挖掘-华为助阿里巴巴云计算构建海量数据挖掘
本文地址: http://www.61k.com/1140693.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1