当前比较适用的海量小文件系统架构方案
来源:asp之家 发布时间:2009-07-23 15:54:00
现在的网站越做越大了,存储的东西越来越多,如何解决这些文件存储也成了新的难题。如果把这些文件都完全采用大硬盘存储来解决,并不是一个好主意,因为数据量越大风险就越高,虽然文件能存得下,但是故障率相应会较高,另外重建耗费时间也比较长。所以最好的办法是尽可能考虑分布式存储,把文件想办法利用网络分散到多个机器上。
从我所了解的存储结构来看,分布式存储大致可以分为几种:
1、类googlefs的分布式文件系统
因为目前googlefs没有开源,所以网上出现的分布式文件系统都是利用google的方案自行实现的。这个方案的优点是可用性比较高,基本上基于硬盘的应用都可以处理,可用范围就比较广泛。我看了gfs、gfs2、ocfs2、FastDFS、MogileFS的一些相关介绍,大致有一些认识。
首先是文档比较少而出现的问题倒不少;然后是目前这些还没有一个能称得上是稳定版本,如果有的话,估计也就是其中一些收费的版本。因为磁盘存储乃是致关重要,所以目前建议还是不要轻易把这些东西部署到重要的地方。假如非常想使用的话,最好是做好充分测试,确保它的功能完全能够满足需要;然后还要想办法在传统的文件系统中做好完全的备份,以免造成损失。
另外可以提的一个东西是memcached,这个东西实现了内存的分布式共享,稳定度貌似比以上这些分布式文件系统要稳定。不过是完全基于内存的,如果数据量不是很大,可以一试。
2、手工使用文件路径分散存储
这个结构通常使用在web静态文件中,就以这种情形作为例子。
如果这些文件数量比较大,可以通过分散文件路径,把某个文件的访问指定到特定的一台或几台服务器上。例如:
1)采用域名的分散策略
例如使用a.xxx.com/b.xxx.com...来区分标记为a或b的一系列文件,这些文件存储的时候,依然按照标记,存到a或b的服务器上。这个策略将区分机器的任务交由dns服务器来执行,扩容时会相应轻松。这需要web项目初期就规划好这些东东,后期才转用域名策略的成本比较高甚至不可以实现。
2)采用目录的分散策略
假如域名初期并没有规划使用域名策略,那么可以采用代理服务器来进行目录级的划分。比如一般存储大量文件时,因为文件系统的限制以及效率问题,都会按照一定规则划分了很多级的目录,按这些目录拆分机器也并不是困难的事情。这种架构的问题在于代理服务器的性能和可靠性问题,需要在这点上稍下一点功夫。
以上这两个方案,都要自行制定策略实现分散同步传输,传输一般可以归纳为推送和抓取两种办法,同步的话可以采用日志同步(把要同步的数据记入日志,通过日志记录来传输相应文件)、比较同步(使用rsync等同步软件)或即时同步(有新的修改就立刻传输);另外要实现单点故障剔除的话,首先找一个策略把文件存储到多个节点上,例如,a.xxx.com或目录a的文件相应也存到b和c节点;然后在环境中使用故障剔除技术(lvs或nginx等),就可以解决问题,例如:采用域名的话,可以采用lvs,缺点是使用的机器就会成倍增加;亦可再用一级代理服务器,缺点是会牺牲性能。采用目录的话,因为本身就用到了代理服务器,所以只要存储得当,实现比较容易。


猜你喜欢
- /******************** * 内核中链表的应用 ********************/(1)介绍在Linux内核中使用
- 漫游(Manyou)开放平台是康盛创想(Comsenz)为第三方应用开发者提供的开放平台。漫游开放平台一端联系着数百个第三方应用开发者,一端
- 做网站的人,通常最在乎的是网站的流量。虽然我们是做个人博客的,流量多些少些问题也不大,但你有留意到吗?你的博客流量是怎么来的?1、提交到搜索
- 大家都知道页面加载速度对博客流量有非常重要的影响。最近越来越多人也在讨论页面加载速度很可能成为谷歌和其他搜索引擎一个重要的SEO因素。目前.
- 怎样用google adwords赚钱呢?首先当然是要有一个google adwords帐户了,接着是充money了(现在好像有免费赠送50
- 关于你的博客Google知道些什么?Google拥有些什么?搜索引擎对博客有一系列的信任评价衡量指标,Google比你认为的更了解你的博客。
- 现在做行业网站推广的朋友们都不会忘了软文推广,发在各站长站。的确,这是会带来不少的流量,只是我很难想到这些流量最终沉淀下来,甚至进一步成为注
- 一项加强服务器安全的新技术就是“客户端操作系统虚拟化”---它的原理就是使用一个特殊的虚拟化引擎来使一个虚拟化的来宾实例运转,或者是使在一个
- 1.关键词在网站TITLE 上的使用2.关键词在Meta Description中的使用3.关键词在Meta Keywords 中的使用4.
- WordPress系统的用户密码是保存在wp_users数据表的user_pass字段,密码是通过Portable PHP password
- 自从《精灵》之后,丁磊对于跟韩国人合作的兴趣大为减弱。他相信自己的团队可以开发出更优秀的产品,更相信运营自己开发的产品,无论是可控性还是利润
- 为了完成这个任务,在网上查了好多资料,要么是讲得不清楚,要么是软件版本太老,走了不少弯路,在这里以本人的实际操作为例,为大家说一下整合的过程
- RedHat Linux 为增加系统安全性提供了防火墙保护。防火墙存在于你的计算机和网络之间,用来判定网络中的远程用户有权访问你的计算机上的
- 有很多草根站长们做网站,都在说别人月赚几W元,别人的站流量为什么那么大之类的。语言之中透着羡慕~!其实月赚几W的人,我想在ADMIN5里也不
- 实例如下:#include <time.h>#ifdef WIN32# include <windows.h&
- 一、为何要DDoS?随着Internet互联网络带宽的增加和多种DDoS黑客工具的不断发布,DDoS拒绝服务攻击的实施越来越轻易,DDoS攻
- 术语:1、VM:虚拟机步骤:1、在Windows10上下载并安装VirtualBox6.0.8(时间:2019/5/30),下载地址:htt
- 将过去一年最热门的搜索关键词进行梳理,会得到什么结果?元旦刚过,全球最大的搜索引擎谷歌(google)发布了2007年的中文搜索榜单,不仅勾
- 关于GG的我只能写那么多了,写的不好别见怪~~~本文章是给新人看的,老鸟漂过就是了~~关于作弊本人提倡的是尽量不要作弊,但是往往有很多人做G
- (6月18号注: 昨天很多读者大概没看到这篇帖子,而且整天忙着处理不可抗力造成的问题很累,今天就不更新了。)经常看到有人在论坛里问URL的绝