`
juliashine
  • 浏览: 5463 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论
文章列表
  本文译自 Distributed Algorithms in NoSQL Databases   系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得NoSQL听起来像是一个大筐,什么都能塞进去。尽管NoSQ ...
  HDFS中的数据按照一定策略分布在集群中的多个数据节点上,但在某些情况下,数据的分布也会出现不均衡的情况,比如说集群新增加了节点,在新增加的节点上就没有数据存在,虽说之后新增的数据会分配到新节点上,不过,对于已有数据,新节点和原有节点上的分布很不均衡,而且这还会导致在分配MapReduce任务的时候新机器分配不到可执行的任务分配,白白浪费了新增节点的计算能力。而对于一个真实的生产环境来说,随着数据量的增加而对集群逐步扩容是一个很常见的场景,为了解决这个问题,Hadoop设计了Rebalance功能。 什么是balance rebalance的目的是为了使数据在集群中各节点的分布尽量均衡 ...
  本文译自 The SMAQ stack for big data  所谓海量数据,是指数据的规模大到已经难以使用传统的方式来处理。最早面临这个问题的是网络搜索引擎,而如今,社会化网络,移动电话、各种传感器和科学计算每天增长数以PB计的数据。 围绕Google关于这方面的工作和Yahoo的Haoop中对MapReduce的实现,兴起了一个海量数据处理工具的生态系统。 随着MapReduce越来越广为人知,更多的海量数据系统开始涌现,包括了存储、MapReduce和查询等不同领域。所有的SMAQ都以开源、分布式以及运行在普通硬件上为特征。 就像LAMP给web应用开发带来的影响,SMA ...
    本文译自 Mapreduce Patterns, Algorithms, and Use Cases   在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Reduces, Combiners, Partitioners,和 sorting。如下图所示。 基本MapReduce模式   计数与求和 问题陈述:  有许多文档,每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其 ...
Global site tag (gtag.js) - Google Analytics