juliashine

浏览: 5463 次
性别:
来自: 北京

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (4)

社区版块

存档分类

NoSQL数据库的分布式算法

nosql 分布式

本文译自 Distributed Algorithms in NoSQL Databases 系统的可扩展性是推动NoSQL运动发展的的主要理由，包含了分布式系统协调，故障转移，资源管理和许多其他特性。这么讲使得NoSQL听起来像是一个大筐，什么都能塞进去。尽管NoSQ ...

2012-11-09 16:28
浏览 691
评论(0)
分类:数据库

HDFS中的数据按照一定策略分布在集群中的多个数据节点上，但在某些情况下，数据的分布也会出现不均衡的情况，比如说集群新增加了节点，在新增加的节点上就没有数据存在，虽说之后新增的数据会分配到新节点上，不过，对于已有数据，新节点和原有节点上的分布很不均衡，而且这还会导致在分配MapReduce任务的时候新机器分配不到可执行的任务分配，白白浪费了新增节点的计算能力。而对于一个真实的生产环境来说，随着数据量的增加而对集群逐步扩容是一个很常见的场景，为了解决这个问题，Hadoop设计了Rebalance功能。什么是balance rebalance的目的是为了使数据在集群中各节点的分布尽量均衡 ...

2012-11-08 23:15
浏览 1935
评论(0)
分类:开源软件

大数据中的SMAQ技术

hadoop mapreduce nosql 大数据

本文译自 The SMAQ stack for big data 所谓海量数据，是指数据的规模大到已经难以使用传统的方式来处理。最早面临这个问题的是网络搜索引擎，而如今，社会化网络，移动电话、各种传感器和科学计算每天增长数以PB计的数据。围绕Google关于这方面的工作和Yahoo的Haoop中对MapReduce的实现，兴起了一个海量数据处理工具的生态系统。随着MapReduce越来越广为人知，更多的海量数据系统开始涌现，包括了存储、MapReduce和查询等不同领域。所有的SMAQ都以开源、分布式以及运行在普通硬件上为特征。就像LAMP给web应用开发带来的影响，SMA ...

2012-10-31 13:35
浏览 1743
评论(0)
分类:开源软件

MapReduce 模式、算法和用例

mapreduce hadoop

本文译自 Mapreduce Patterns, Algorithms, and Use Cases 在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法，并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型，包括Mappers, Reduces, Combiners, Partitioners,和 sorting。如下图所示。基本MapReduce模式计数与求和问题陈述: 有许多文档，每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其 ...

2012-10-31 13:19
浏览 1094
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

NoSQL数据库的分布式算法

HDFS的Rebalance功能

大数据中的SMAQ技术

MapReduce 模式、算法和用例

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

NoSQL数据库的分布式算法

HDFS的Rebalance功能

大数据中的SMAQ技术

MapReduce 模式、算法和用例

最近访客更多访客>>