開發(fā)者的殿堂!盤點2011新涌現(xiàn)的云平臺
涂蘭敬 發(fā)表于:12年01月30日 10:21 [轉載] 中關村在線
Cloudxy
2011年11月末,康華在工作之余,帶領西郵興趣小組的同學進行彈性云存儲項目的開發(fā),發(fā)布了第一個版本的Cloudxy。在Cloudxy中,“xy”的意思是任何感興趣者都可以加入進來,或許因為您的加入,這個xy就有了未知的擴展。
Cloudxy立足于實現(xiàn)虛擬子網(wǎng)(以太網(wǎng))的彈性云計算平臺,該項目主要包含有兩個子項目:HLFS虛擬機分布式鏡像存儲 (類似于亞馬遜EBS)和ECM虛擬環(huán)境管理系統(tǒng) 。
其中,HLFS是HDFS log structrue filesystem 的縮寫,它是一個在Hadoop hdfs文件系統(tǒng)之上實現(xiàn)的log structrue filesystem——like系統(tǒng)。但要注意它并非一個實現(xiàn)完整posix語義的文件系統(tǒng)(支持目錄操作、link等),而是僅僅實現(xiàn)了單一文件的基本管理(open,write,read,close)的系統(tǒng),所以把它稱為存儲系統(tǒng)(block-level)可能更加合適。
由于HLFS自身特色就是高可用性、寫透、快照、分布式、用戶態(tài),所以,它更適合于做虛擬機鏡像存儲、在線網(wǎng)盤等虛擬塊設備的存儲架構。甚至發(fā)散一下思維,它也可以做為PNFS類似系統(tǒng)的后臺存儲等。
S4
2011年3月,有消息稱Yahoo!發(fā)布了一個開源通用、分布式、可擴展、部分容錯、具備可插拔功能的云平臺S4(Simple Scalable Streaming System)。S4最初是Yahoo!為提高搜索廣告有效點擊率的問題而開發(fā)的一個平臺,通過統(tǒng)計分析用戶對廣告的點擊率,排除相關度低的廣告,提升點擊率。目前該項目剛啟動不久,所以也可以理解為是他們提出的一個分布式流計算(Distributed Stream Computing)的模型。這套平臺主要是為了方便開發(fā)者開發(fā)處理流式數(shù)據(jù)(continuous unbounded streams of data)的應用。
之所以Yahoo!要開發(fā)S4系統(tǒng),主要是為了解決它現(xiàn)實的問題:搜索廣告的展現(xiàn)。搜索廣告是當前各大搜索引擎的主要收入來源,用戶發(fā)出查詢請求,搜索引擎在返回正常結果的同時也會返回相關廣告,而廣告是按照點擊付費。
為了在最好的位置,放置最相關(也就是用戶最有可能點擊)的廣告,各大搜索引擎使用了大量的數(shù)據(jù)挖掘和機器學習算法來進行相關性計算,以便提高收入,滿足用戶需求。其中很重要的一點就是要不斷分析用戶的點擊反饋,以便捕獲用戶的行為。