IDF2013:大數(shù)據(jù)“芯”體驗搶先看
IT專家網(wǎng) 發(fā)表于:13年04月21日 22:14 [轉載] DOIT.com.cn
展板輪道共話大數(shù)據(jù)
主題: 展板論道:克服實時分析企業(yè)大數(shù)據(jù)的阻礙
時間: 2 小時 45 分鐘(4月10日 14:00 展板論道站13)
技術級別: 中級
摘要: 相比一般 IPDC 使用場景,實時分析企業(yè)大數(shù)據(jù)需要處理比靈活數(shù)據(jù)模式更為復雜的集合。 傳統(tǒng)的 RDBMS 和主流的 NOSQL 解決方案(如 HBase/Hadoop)均無法滿足響應性和高并發(fā)性方面的重要要求。 要解決這一問題,需要采用分布式內存計算,以實現(xiàn)橫向擴展能力和更快的處理速度。 在這一展板論道中,我們將列舉現(xiàn)有的開源實時分析項目,介紹我們針對分布式內存計算的建議架構,并分享我們取得一些實驗性成果和與中國獨立軟件開發(fā)商合作伙伴一起開展的技術研究。
主題: 展板論道:在英特爾® 架構上分析和優(yōu)化 Hadoop* 性能
時間: 2 小時 45 分鐘(4月10日 14:00 展板論道站12)
技術級別: 中級
摘要: 本展板論道涉及的主題包括:
• Hadoop* 性能瓶頸分析
• 面向 Hadoop 的英特爾® 硬件解決方案,包括固態(tài)硬盤 (SSD)、10G 網(wǎng)絡和 CPU 加速指令
• 面向 Hadoop 的英特爾® 軟件解決方案,包括英特爾® 集成性能基元庫(英特爾® IPP)和 VTune™ Amplifier
• 擦除 HDFS 中的編碼,特征化和優(yōu)化
• 其它 Hadoop 調試方法
主題: 展板論道:應對企業(yè)數(shù)據(jù)爆炸式增長:SQL 和 NoSQL 的統(tǒng)一整合
時間: 2 小時 45 分鐘(4月10日 14:00 展板論道站15)
技術級別: 中級
摘要: 在本展板論道中,我們將介紹一個針對大數(shù)據(jù)企業(yè)解決方案的統(tǒng)一架構和真實案例:SQL 和 NOSQL 一起應對大數(shù)據(jù)挑戰(zhàn)。
本展板論道涉及的主題包括:
• 企業(yè)大數(shù)據(jù)的挑戰(zhàn)和機遇
• 涵蓋關系數(shù)據(jù)、流數(shù)據(jù)和批量數(shù)據(jù)的處理模型
• 大數(shù)據(jù)參考架構
• 大數(shù)據(jù)遷移加速因素
• 案例研究
主題: 展板論道:在高性能計算 (HPC)中處理大數(shù)據(jù)
時間: 2 小時 45 分鐘(4月10日 14:00 展板論道站16)
技術級別: 中級
摘要: 在一些高性能計算 (HPC) 領域,會生成龐大的數(shù)據(jù)量,并以結構化格式進行存儲。當前的集中后處理工具的處理時間很長。
基于互聯(lián)網(wǎng)門戶數(shù)據(jù)中心 (IPDC) 的 Apache* Hadoop* 解決方案,我們建議采用以下解決方案來加速數(shù)據(jù)后處理:
• 將高性能計算結果存儲到 Hadoop 分布式文件系統(tǒng) (HDFS),以利用分布式磁盤 I/O
• 根據(jù)運營模式修改 HDFS 的文件塊布局,以實現(xiàn)負載平衡
• 使用混合消息傳遞接口 (MPI) 和多線程替代 MapReduce 來執(zhí)行操作
• 基于文件塊布局信息分配任務
• 重疊數(shù)據(jù) I/O 和計算
• 為了緩解網(wǎng)絡壓力,在通過網(wǎng)絡傳遞前,使用英特爾® 集成性能基元庫(英特爾® IPP)壓縮所有數(shù)據(jù)
歡迎加入本展板論道,了解有關此優(yōu)化戰(zhàn)略的更多信息。屆時我們將介紹一個對氣候系統(tǒng)模型 (CSM) 項目進行優(yōu)化的案例研究。在這一案例中,后處理時間得到了大幅縮短。