开源大数据周刊-第20期-白红宇

摘要：

关注：对话Hadoop之父、E-MapReduce助力数据仓库建设、携程基于Hadoop大数据实践、一号店基于Hadoop的推荐系统、Hive性能优化

阿里云E-Mapreduce动态

1.5.0版本（正在研发）

增加集群整体运行情况的仪表盘

访问OSS不需要写id、key，增强安全性

集群其中后，可以重启、修改配置及安装软件

1.6.0版本

交互式查询（支持hive、spark）

资讯

主要点有：新硬件、Spark、Hadoop上云、中国大数据技术的发展、开源

当业务系统在阿里云上，使用E-MapReduce建立数据仓库也是数天的事情

大数据与传统BI是社会发展到不同阶段的产物，大数据对于传统BI，既有继承，也有发展，从”道”的角度讲，BI与大数据区别在于前者更倾向于决策，对事实描述更多是基于群体共性，帮助决策者掌握宏观统计趋势，适合经营运营指标支撑类问题，大数据则内涵更广，倾向于刻画个体，更多的在于个.

通过各类大数据对用户进行研究，以数据驱动产品是解决这个课题的主要手段，携程的大数据团队也由此应运而生；经过几年的努力，大数据的相关技术为业务带来了惊人的提升与帮助。以基础大数据的用户意图服务为例，通过将广告和栏位的“千人一面”变为“千人千面”，在提升用户便捷性，可用性，降低费力度的同时，其转化率也得到了数倍的提升，体现了大数据服务的真正价值。

一号店精准化推荐部门通过不断探索，逐渐搭建了实时的、高可用的、推荐过程可追溯的通用推荐平台，目前该平台正在公司范围内被越来越多的人使用。本文从一号店通用推荐平台产生的背景谈起，详解该平台的整体架构设计、推荐流程可视化系统设计、推荐结果可视化系统设计等，并在最后进行了总结。这套系统也可以快速在阿里云的E-MapReduce平台构建。

谈到大数据，相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上，并没有对它们进行深入的思考，下面不妨跟我一块看下它们究竟有什么异同。

本篇博客讲述了作者在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题