咨询热线 咨询热线:400-779-6858
您的位置: > 解决方案 > 大数据解决方案 > >
基于Infiniband的大数据解决方案
发表日期:2015-05-22    文章编辑:admin    浏览次数:

一、行业背景

近几年,随着国内电信企业的不断发展,电信行业的竞争也趋于白热化。一方面,客户选择电信业务及电信企业的余地越来越大,电信企业之间对客户的争夺也越来越激烈。经过运营商不断的“价格战”,电信市场出现了严重的“增量不增收”现象,大量低忠诚度的客户转网或变更业务。电信企业虽纷纷采用具有一定优惠期限的活动来降低客户的流失率,但在优惠期结束后,很多客户便纷纷离网或弃卡重入网以套取新的优惠,仍造成了大规模的客户流失,致使电信企业的业务收入下滑、客户发展效率低成本高。另一方面,电信客户近几年高速增长,形成了庞大、需求差异很大的客户群;同时适用于不同人群的各种新业务不断推出,电信企业需要通过细分市场、客户群,将最合适的业务推销给最需要的客户,实现业务和客户的最佳匹配。

基于以上背景,国内电信运营商纷纷建立起以“经营分析系统”为核心的企业决策支持体系,通过对公司日常经营数据的分析、挖掘,为公司决策者、各级管理者提供经营决策依据,以实现精细化营销。

2014年三大运营商领到了4G牌照,其中中国移动的4G用户覆盖率一直都领先于其他两家运营商。据官方数据显示,截止2015年1月8000万中国移动用户升级到了移动4G网络,并预测在未来的三年内,移动4G的用户数将进入爆发式增长的阶段。由4G普及所带来的流量增长对于移动后台设备来说是个严峻的考验,亟需升级换代。

新方案的需求特点包含:

1.    实时性、高带宽
InfiniBand网络是目前最优秀最高效的网络,高带宽、低延迟,有效地满足大数据实时分析需求
2.    应用高可扩展性
英特尔® True Scale Fabric 架构旨在提供近乎线性的应用可扩展性。借助这一结构,当向集群添加更多资源时,延迟仍可保持在极低水平,而消息速率将会随着结构规模而扩展,从而可实现最高的计算资源利用率。
 

二、方案架构

 该方案分为两套系统,左侧为Hadoop集群系统,右侧为数据库系统。
Hadoop集群系统以Infiniband网络互联,系统平台的IB网络设计中,所有的网络设备的连接均采用冗余设计。每台服务器配置两个IB端口,IB端口通过冗余绑定方式分别与两台不同的汇聚交换机相连。
数据库系统以Infiniband和万兆互联,其中万兆网络用来与外部的业务网络连接,获取数据。Infiniband用来与Hadoop集群系统互联,进行并行计算和分析操作。
网络拓扑图如下:


1. 软硬件配置

采用的主要软件
类型 名称
爬虫服务 nutch分布式索引(爬虫)
分布式数据处理系统 Hadoop
开源操作系统 CentOS
采用的主要硬件
类型 型号
分布式存储服务器(x86) 安擎服务器
40Gb IB交换机 英特尔12800系列
40Gb IB HCA卡 英特尔7340 Infiniband Adapter
IB 线缆 建议采用光纤
10Gb 以太网交换机  
10Gb 以太网卡 英特尔10Gb以太网卡
 

三、方案优势

Intel的40GB IB HCA网卡和基于SwitchX-2芯片的40Gb IB交换机系统通过优化服务器和存储性能,为基于Hadoop分布式计算平台的流量经分系统提供了可扩展、低延迟、低功耗的互联方案。

InfiniBand架构是一种I/O基础设施技术,它简化并加速了服务器到服务器的连接和到其它服务器相关系统(如远程存储和网络设备)的连接。InfiniBand架构具有轻松连接、减少延迟、增加带宽和增强互操作性等特性,大大提高了英特尔架构服务器的性能、可靠性和可扩充性,从而满足正在不断涌现的电子商务数据中心、服务提供商和服务器群的更高需求。