返回首页> Spark > 从Spark 2.0版的推出,看开源大数据技术的商业化发展
跳过导航链接

从Spark 2.0版的推出,看开源大数据技术的商业化发展

文章摘要: 从Spark 2.0版的推出,看开源大数据技术的商业化发展,Hadoop商业版的发展方向: Hadoop生态开源技术的成长已逐步朝企业级应用能力方向发展,兑现了他们当初的承诺。Hadoop商业版的技术发展方向正在围绕着界面友好、架构灵活、操作易用等方面来发展,形成一个对Hadoop技术管理统一完备的大数据平台,不再将关注点...
 

Spark 2.0版的推出,看开源大数据技术的商业化发展,Hadoop商业版的发展方向:

Hadoop生态开源技术的成长已逐步朝企业级应用能力方向发展,兑现了他们当初的承诺。Hadoop商业版的技术发展方向正在围绕着界面友好、架构灵活、操作易用等方面来发展,形成一个对Hadoop技术管理统一完备的大数据平台,不再将关注点聚焦在开源技术底层的改造上,通俗点来讲底层技术应该交给社区去发展,商业版应该从商业化应用角度去考虑。

开源社区就是一个孕育无穷的生命海洋

最近的开源社区非常的活跃,Spark发布了2.0版,Hive也发布了2.1.0版本,两个产品在新的功能中都提到了TPC-DSTPC-DS是目前业界公认的评测大数据分析决策系统的重要参考标准之一),其中Spark2.0在我们的评测中100%兼容TPC-DS99SQLHive2.1.0则直接把TPC-DS的测试工具包装到其发行版中,这让我们进一步看到开源力量的强大性,任何对于源码上的修改都会被这种开源产品不断更新的潮水所淹没,甚至造成很多不确定性,导致产品和项目的流产。这就对架构在大数据之上的商业产品提出了更高的挑战,如何能够持续的跟进开源社区的变革,如何能够在开源社区的变革之后做最小代价的升级呢?

开源世界服务于企业

我们不是要改变开源世界,而是要更好的让开源世界服务于企业,由此天云大数据中间件的概念悠然而生。要做到中间件必须要实现:

a.开源的新特性要能够不断在产品中所体现;

b.开源的特性要以更为友好的方式提供给企业用户;

天云大数据中间件紧密的跟踪开源社区的新特性,并在开源的基础上做了非侵入式的封装,友好的提供给企业用户。在开源大数据场景下通常都是OLAP,是对大量数据的批量处理和分析,但对于OLTP的处理场景的支持确相对较弱,在这方面开源社区也有相应的产品,如“Phoenix”;在其官网上也可以看到它的描述:

但是对于实时在线系统20秒钟的响应时间还是太长了,是不是真的要点击一个按钮之后喝喝茶,然后结果才出来?我想这个只是我们脑海里幻想中非常惬意的场景,实际上对查询的人等待是一种煎熬。针对于OLTP的场景天云提供了自己的中间件产品BDTQ,对于TB级的数据查询响应毫秒级,并且它的适用场景广泛,像下列场景皆可适用:需要从海量的历史、实时数据中快速获取有用信息;数据量不断增大,需要高速的在线读写,更需要count/group by等复杂应用;用户使用频率非常高,重要程度接近核心应用,对数据丢失以及服务中断是零容忍;帮助开发者简化使用搜索服务的复杂度,降低开发成本,加快产品迭代速度。

如下是BDTQ应用的某真实案例:

天云大数据BDTQ是一款满足一定事务能力的高性能查询引擎,能够快读低延迟的访问数据;能够保证数据的一致性;针对开发人员可简化使用的复杂度,降低开发成本;针对OLAP工作负载,则是种能够对数据对象中大部分数据进行批处理的处理引擎。BDTQ这款的商业版产品,不只是具有一种技术框架的能力单一性(如HBase),而是与Hadoop生态圈紧密结合,有效的整合HBaseSolr,通过Solr实现HBase二级索引,实现了强大的一致性支持、线性扩展能力、达到读写严格一致,并且支持Hbase表的MapReduce作业,同时实现高并发、事务支持、模糊查询等多方面综合能力。

系统架构说明

hdfs集群提供安全性,以及服务于海量数据的能力,并具有横向可扩展性。

数据库采用分布式数据库,提供对海量数据的高效插入和读取的支持。

数据检索是由Solr提供索引服务,利用Solr提供的交集、联集、排除、通配符、范围、分页、排序、Group 的特性,提供个性化搜索服务,来作为分布式数据库的一个有效补充。在保证存储数据量的情况下,又能保证数据的检索速度。

通过BDTQ读写接口层给存储索引层发送访问数据的指令,控制对数据的读写操作,并将结果返回给应用。

通过BDTQ存储索引层对数据索引进行操作,提供一次性创建索引、增量创建索引等索引方式,有效保障索引质量和速度。

通过BDTQ事务控制层保持分布式系统数据事务一致性,CAP Consistent Available Partition tolerant )的支持。

技术时代的发展=开源+商业

开源技术虽然在技术创新以及技术能力上具有得天独厚的优势,但由于其本身没有商业性的驱动,因此为企业所用会有很高的技术门槛,完全闭源的技术以己之力则又无法实现所有要求,会逐步被市场所孤立,两个极端无论走向哪边都不是很好的方式,只有通过开源+商业的形态才是一个平衡点,技术是可以分享的,但服务却是私有的,只有将开源以商业化服务的方式提供给用户,这样才能更好的推动技术时代发展。

 

更多推荐:Spark培训  Spark认证  大数据Spark培训
上一篇:Spark基本工作流程及YARN cluster模式原理
下一篇:Spark2.0安装配置文档
文章摘要: Spark2.0安装配置文档,该文档是建立在已经安装好Hadoop和jdk的基础上,并且已经设置好HADOOP_HOME环境变量以及JAVA_HOME环境变量,测试和现网环境需要在原来的hadoop环境中安装。 1、下载安装包 从scala官网下载scala-2.11.8.tgz、spark-2.0.0-bin-hadoop2.7.tgz两个安装包到集群各个节点机器上。(下面是两个官网地址) http://www.scala-lang.org/files/archive/scala-2.11.8.tgz http://d3kbcqa49mib13.cloudfron...
◆Apache Spark也有不完美 ◆Spark将机器学习与GPU加速机制纳入自身 ◆spark作业调优 ◆Spark基本工作流程及YARN cluster模式原理 ◆从Spark 2.0版的推出,看开源大数据技术的商业化发展 ◆微软将在Office中引入人工智能 ◆微软发Surface Pro 4/Studio固件更新日志 ◆微软:AI人工智能应该帮助,而不是替代人 ◆微软推出WDATP强化企业终端威胁防护 ◆Windows申请免费SSL证书-Let's Encrypt ◆思科ASAP助力全数字化时代数据中心创新 ◆怎样选择合适的PoE交换机? ◆思科持续保持企业基础设施市场优势 ◆网络工程师需要的8项技能 ◆思科IOS中改善CLI的用户体验 ◆H3C交换机以太网端口类型 ◆H3C交换机做DHCP ◆H3C交换机常用配置命令 ◆新华三集团总裁兼首席执行官于英涛2017年会致辞 ◆新华三加速云落地 ◆RHEL7 配置VNC远程桌面 ◆RHEL7利用iso镜像制作本地yum源 ◆RHEL6 学习笔记 ◆RedHat5和RedHat6 配置yum源详解 ◆RedHat7上为Nginx编译安装nginx_push_stream_module ◆是否有必要参加PMP考试培训 ◆该怎么选择PMP培训公司 ◆企业为什么需要IT配置管理及其如何使用 ◆PMP考试心得 ◆IT资产管理与ITIL配置管理的区别和联系 ◆Juniper用户快更新:Junos OS、SRX有DoS漏洞 ◆Juniper防火墙之恢复出厂默认设置 ◆Juniper SSG双机高可用(HA)平滑升级经验分享 ◆高盛:Juniper市场表现将超过Cisco和Arista ◆Juniper收购云管理公司AppFormix ◆F5 Network:让爱点亮世界 ◆F5发布2017年应用交付状态报告 ◆除F5外,其他负载均衡软件的优缺点 ◆负载均衡的那些算法们 ◆F5配置手册:设备初始化配置 ◆Oracle培训:Oracle数据泵导入dmp文件 ◆Oracle培训:Oracle手工建库出现ORA-01519错误 ◆Oracle培训:Oracle CDC部署 ◆Oracle培训:Oracle 12c创建可插拔数据库(PDB)及用户 ◆Oracle EXP和IMP使用方法介绍 ◆VMware中CentOS 6.6的kdump启动失败解决 ◆VMware NSX升级:微细分、安全启动和支持非vSphere环境 ◆VMware虚拟化培训:虚拟化的基础知识 ◆VMware发布2016数字化工作空间现状报告 ◆VMware助力广州科政实现恒大集团打造全虚拟化数据中心 ◆戴尔EMC补丁在VMAX存储系统中出现漏洞 ◆EMC进行SAN拆分,解决更细化的存储需求 ◆EMC数据中心全闪存年,机架级闪存可让Hadoop提速10倍 ◆EMC发布2016年新品和技术路线 ◆重新定义企业IT,EMC联手VMware推超融合 ◆最近面试的大数据岗位的公司经历 ◆用大数据预测雾霾,已获得环保部订单的微软是如何做到的? ◆大数据学习经验 ◆身处大数据时代,大数据这些误区你知道吗 ◆大数据分析促进人才招聘 ◆云计算SaaS采用要考虑的5大因素 ◆如何构建一个私有存储云 ◆云计算的三大支柱 ◆云计算的真正价值不仅仅是节省开支 ◆云计算将改变我们的生活? ◆Apache Spark也有不完美 ◆Spark将机器学习与GPU加速机制纳入自身 ◆spark作业调优 ◆Spark基本工作流程及YARN cluster模式原理 ◆从Spark 2.0版的推出,看开源大数据技术的商业化发展 ◆EasyStack郭长波当选OpenStack基金董事 ◆OpenStack私有云:好处、挑战和未来 ◆在Openstack上创建并访问Kubernetes集群 ◆思科公司关闭基于OpenStack的公共云 ◆2017年OpenStack管理员认证会不会火? ◆IBM和Bell联手共同打造苹果iOS企业应用 ◆IBM首席执行官提出人工智能部署三大基本原则 ◆调研IBM与西门子:软件将是工业的未来! ◆IBM在美获专利最多 ◆IBM闪存迎接新挑战 ◆Hadoop创始人Doug Cutting寄语2017:五种让开源项目成功的方法 ◆基于Ubuntu Hadoop的群集搭建Hive ◆HDFS以及HBase动态增加和删除节点 ◆Cloudera提供课程帮助缩小数据技能差距 ◆Cloudera提供课程帮助缩小数据技能差距 ◆扩大与Azure合作,思杰力推超融合基础设施上部署VDI ◆MapReduce工作流多种实现方式 ◆Citrix虚拟化技术:XenServer6.2资源池配置 ◆Citrix虚拟化技术:XenServer6.2虚拟机创建 ◆Citrix虚拟化技术:XenServer6.2存储管理 ◆2017年十大最热IT技能:安全位列其中 ◆筑牢个人信息安全防火墙 ◆2016年最热门的六大IT职位 ◆CISP认证和CISSP认证区别 ◆成为CISSP的理由