《省产学研前瞻性联合研究项目V3.doc》由会员分享,可在线阅读,更多相关《省产学研前瞻性联合研究项目V3.doc(28页珍藏版)》请在三一办公上搜索。
1、附件2:计划类别:省产学研联合创新资金校企联盟登记编号:项目类别:面上引导项目 重大战略产品产学研联合攻关江苏省科技计划项目申报书(省产学研前瞻性联合研究项目)项目名称:基于云计算平台的电子商务个性化推荐技术及其应用申报单位(盖章):东南大学合作单位(盖章):焦点科技股份有限公司合作单位(盖章):项目负责人:罗军舟联系电话:025-52091010推荐部门(盖章):申报日期:2012.3.15江苏省科学技术厅二一二年制填 写 说 明1、填写申报书前,请认真阅读本年度产学研联合创新资金项目申报通知,并按有关要求选择适当的项目类别进行申报。2、申报书及其他相关信息可从网站()上查阅和下载。3、申报
2、书各项内容须如实填写,力求详尽,表达完整、清晰、准确。4、申报书各栏目若内容较多,可自行加页。5、项目参与各方应广泛协商,形成共识,联合申报单位必须全部加盖公章。6、填写申报书之前,申报单位须填写江苏省科技计划项目信息表。7、企业情况(按栏目内容扼要填写)企业登记类型(选择以下内容):A国有及控股企业B集体企业C股份合作企业D联营企业E有限责任公司F股份有限公司G私营企业H港、澳、台商投资企业I外商投资企业J其他企业项目申报书一、项目立项的意义及必要性1、项目涉及的技术领域发展的现状,国内外最新研究进展情况。个性化推荐是一种根据用户的兴趣特点和使用行为,主动向用户推荐其可能感兴趣的资源的信息过
3、滤技术。个性化推荐技术作为一种重要的信息过滤手段,能够有效解决互联网的信息超载问题,目前已经成为电子商务、社交网络和在线视频等互联网应用的核心技术。近几年来,国内外学术界对个性化推荐相关的研究工作逐渐增多,在数据挖掘和机器学习领域的顶级会议(SIGCHI, KDD, SIGIR)中,研究个性化推荐的文章也在逐年增加,各种推荐算法涵盖了包括认知科学、近似性理论、信息检索等众多研究领域。与此同时,应用于各个领域的个性化推荐系统纷纷产生,其中具有代表性的有:Xerox公司为了解决研究中心资讯过载问题而开发的邮件过滤器Tapestry system,Netflix公司推出的电影推荐系统以及YouTub
4、e的视频个性化推荐服务。本项目的申请单位东南大学江苏省网络与信息安全重点实验室在个性化推荐领域具有坚实的研究基础,提出了普适环境下基于上下文感知的资源推荐模型,结合隐性动态上下文信息进行有效地资源过滤与个性化推荐。电子商务是个性化推荐最典型的应用领域,具有良好的发展和应用前景。商家根据用户的兴趣、爱好推荐顾客可能感兴趣或满意的商品,顾客的需求通常是不明确的、模糊的,如果商家能够把满足用户模糊需求的商品推荐给用户,就可以把用户的潜在需求转化为现实需求,从而达到提高产品销售量的目的。目前,国外知名的电子商务企业,如Amazon和eBay等,都不同程度地开发了适合企业自身的个性化推荐系统,同时每年会
5、投入大量精力改进其推荐算法。例如Amazon通过提出基于商品(item-based)的协同过滤推荐算法,计算商品间的相似度并向用户推荐与其使用过商品相似的商品,以解决用户兴趣度变化问题。随着电子商务的发展,其往往拥有海量的评分数据集,在利用已有个性化推荐技术处理电子商务应用时很难保证其推荐准确率和推荐时延,目前研究面向海量数据集的个性化推荐技术的研究工作还比较少。我国的电子商务行业目前正处于快速发展阶段,其中本项目合作单位焦点科技股份有限公司是国内领先的B2B电子商务企业,其自主开发运营的中国制造网(Made-in-China)拥有面向全球范围的海量用户和资源数据集,能够为本项目的研发提供数据
6、方面的技术保障。与此同时,我国在电子商务领域的个性化推荐技术发展缓慢,目前市场上鲜有成熟的电子商务个性化推荐产品问世。本项目拟结合我国电子商务企业的实际运营模式和数据特点,提出一个能够高效处理海量数据集的个性化推荐服务实现方案。云计算这一段增加虚拟化部分是信息产业界提出的一种新型分布式计算模式,其在处理海量数据方面具有显著优势。云计算分别从计算与存储两方面考虑面向海量数据的解决方案。存储方面,国外知名大公司如Google、Yahoo!等纷纷研究、建立面向海量数据的分布式文件系统如GFS、HDFS等,实现对数据的高效存储和快速访问。在此基础上,Google、Amazon、Yahoo!公司的研究人
7、员又提出面向上层应用的云数据库技术与产品,如BigTable、DynamoDB、HBase等,以key-value的形式按列存储结构化或半结构化数据,为上层大规模互联网应用提供高效的数据支持。计算方面,为了实现对海量数据的高效处理,研究人员提出了MapReduce、Dryad等并行程序编程模型,将海量数据处理流程抽象成数据抽取和汇聚两个主要过程,简化处理模型,同时屏蔽底层复杂性,为上层应用提供高可靠、高效率、高并行化的数据处理环境。此外,为了实现上层应用向MapReduce、Dryad的自动封装与转化,文献分别提出了面向应用的Sawzall、Pig以及DryadLINQ语言。本项目拟利用云计算
8、平台技术,解决电子商务个性化推荐技术在处理海量数据集时面临的数据稀疏问题和可扩展性问题。一方面,项目基于云计算平台中的分布式存储技术,对海量推荐数据集进行划分、放置、存储和查询,降低电子商务个性化推荐的推荐时延。另一方面,项目研究云计算平台的任务调度和资源分配机制,为推荐流程的并行运行提供有效支撑。项目的申请单位东南大学江苏省网络与信息安全重点实验室在云计算与海量数据处理方面具有较强的研究基础,参与了欧盟第七框架计划CASES项目,利用云计算技术为工业制造系统提供节能减排方面的咨询服务。同时构建了东南大学高性能计算中心,为AMS数据计算环境应用示范以及云计算环境下基于维存储的OLAP聚集计算关
9、键技术研究缺参考文献。2、本项目研究的目的、意义,对我省相关行业、领域技术进步的意义。随着近年来互联网的普及和企业信息化程度的不断提高,电子商务正以令人难以置信的速度蓬勃发展。据最新统计数据显示,2011年中国电子商务市场整体交易规模达到7.0万亿元,同比增长46.4%。预计未来3-5年内,中国电子商务市场仍将维持稳定的增长态势,平均增速超过35%,2015年达到26.5万亿元。而另一边越来越多的中小企业正在加入电子商务的行列,据报告显示,截止到2011年12月,国内使用第三方电子商务平台的中小企业用户规模已经突破1600万。然而电子商务系统在为用户提供越来越多选择的同时,商品信息过载的现象越
10、来越严峻,用户在大量的商品信息空间中无法快速便捷地找到自己真正需要的商品。因此如何对电子商务信息进行有效的组织利用,以及如何尽可能地了解顾客的兴趣爱好,以优化网站设计,从而方便顾客购物,成为电子商务发展亟待解决的问题。于是电子商务个性化推荐技术应运而生。个性化推荐系统是指依据网络消费者的浏览行为和历史购买记录提取消费者的个性化特征及潜在偏好,在此基础上为其推荐满足其当前偏好的商品。它的出现大大提高了电子商务活动的简便性和有效性,同时也提高了企业的服务水平。目前,个性化推荐技术已广泛应用于许多大型电子商务系统。尽管取得了一定的研究成果,但其仍面临很多挑战,如数据稀疏问题及冷启动问题。前者是指在大
11、规模电子商务环境下,同时被多个用户评分的项目非常稀少,从而影响相似用户的挖掘精度;后者是指对于新进项目或很少被用户评分项目很难被及时推荐给用户。除此之外,由于电子商务的迅猛发展,用户数量、商品信息以及购买信息呈几何方式上涨,已达到TB甚至PB级。对如此巨大数据集进行个性化推荐分析,需要消耗大量的计算与存储空间。倘若仍然采用集中式分析处理模式,则会导致推荐时间过长,极大影响了用户的购物体验。为此我们需要采用分布式处理模式对海量的电子商务数据进行分析挖掘及个性化推荐。随着近年来云计算技术的出现及发展,利用云计算环境实现面向电子商务的高效个性化推荐成为解决以上问题的有效途径。云计算的核心思想是将大量
12、用网络连接的资源进行统一管理,通过虚拟化技术构建共享资源池,并以按需支付、弹性扩展的方式向用户提供相应的资源,在提高服务质量的同时降低运维成本。根据以上分析并结合云计算的相关特点可知,采用云环境实现电子商务个性化推荐服务将具有如下优势:1、更加快速的处理。云环境中用户可以获得更多的计算与存储能力,同时通过高效的并行数据处理模式及任务调度机制,能极大提高针对海量电子商务数据的个性化推荐的执行速度及效率。2、更加灵活高效的资源获取方式。利用云计算技术,一方面系统可在短时间内完成用户所需资源的灵活部署与配置;另一方面,系统可以为大量中间数据按需申请与释放存储资源,有效避免资源的浪费。通过弹性的资源分
13、配,使得企业能够实时响应个性化推荐请求量的动态变化,极大加强了个性化推荐服务的稳定性。综上所述,我们需要针对目前电子商务个性化推荐特点并结合云计算的优势,研究基于云计算平台的电子商务个性化推荐技术,在解决个性化推荐算法自身问题的同时,通过利用云计算平台,实现面向海量电子商务信息的高效个性化推荐。项目的顺利实施不仅可以有效提高企业自身发展速度,实现产业技术改造及节能减排;同时通过加大项目成果产业化、商业化和规模化应用力度,可以有效促进电子商务产业结构调整和优化升级,加速形成电子商务产业集群,以支撑区域经济快速增长,并提升我省经济运行的整体质量和水平。3、本项目研究现有起点科技水平及已存在的知识产
14、权情况。加上云计算的一些内容,并列出专利目前,推荐系统最典型的应用是在 B2C 电子商务领域,具有良好的发展和应用前景。几乎所有的大型电子商务系统,如 Amazon,eBay 等,都不同程度地使用了各种形式的推荐系统。典型的商用推荐系统有A, eBay, Levis, Ski-,CDNOW,N等。主流的推荐方法基本包括以下几种:基于内容推荐、协同过滤推荐、基于知识推荐和组合推荐。近年来,一些方法比较的工作讨论并实验了各种方法与组合策略,得出结论:组合策略能够取得比纯基于内容或协同过滤方法更好的效果。随着近年来对推荐系统研究的开展, 很多研究中的重点、难点问题得到研究者的关注和共识主要包括:特征
15、提取问题,模型过拟合问题(可扩展性问题),新用户问题,新对象问题,稀疏问题等,还亟待学术界和工业界的解决。在发明专利方面,已申请的有涉及海量数字信息的分布式推荐方法,该分布式推荐方法在海量数字信息的情况下向用户推荐数字信息的速度更快,准确度更高;并适用于各种数字信息。在云计算及推荐系统构建领域。已有方法通过构建多个节点的Hadoop云平台,然后在Hadoop上构建Mahout中间件,再根据业务需求定制Mahout算法库,在Mahout中间件上实现传统推进算法、伪分布式推进算法和分布式算法,最后根据用户需求构建推荐应用框架。将串行推荐算法与MapReduce结合实现并行算法,可有效提高处理的效率
16、,能完成单机下无法处理的大量数据,并很快地将推荐结果提供给用户。现有的推荐算法仍然存在特征提取、冷启动、过拟合、稀疏问题,需要不断完善和解决。同时多维度推荐、相关反馈、评价准则、安全性以及推荐社会学等仍然是当前进行深入研究和扩展的热点问题。因此,基于云平台的个性化推荐服务具有很好的发展前景。二、研究内容、目标和拟解决的关键问题1、具体研究开发内容、目标和要重点解决的关键技术问题或开发的核心产品。(1) 面向海量数据的分布式个性化推荐技术研究海量评分数据集的筛选优化机制,过滤推荐过程中的无效评分,筛选出对推荐结果影响度较高的用户集合。针对数据筛选过程中用户兴趣范围不确定、遍历完整数据集时延过长等
17、问题,研究基于随机采样的近似查询技术,估计邻居的评分有效区间。研究评分数据集的分布式索引机制,快速准确的定位有效区间内评分数据的存储位置。在上述技术的基础上研究基于内容过滤、协同过滤和访问序列推荐的组合推荐技术,解决评分矩阵的稀疏性问题,完成对候选资源集合的过滤与排序。(2) 基于云平台的海量数据分布式组织与管理针对倾斜数据分布对个性化推荐算法执行性能产生的负面影响,研究基于属性的数据划分技术,将海量数据集划分存储到数据中心的多个存储节点上。研究推荐数据的放置策略,识别关联数据及其副本并放置到相同的节点集合中,减少推荐算法任务执行时数据的远程读取,降低网络带宽消耗。研究一种自适应的副本复制策略
18、,在工作负载不断变化的情况下,识别热点数据并动态创建副本,提高数据访问效率;同时针对流行度不高的评分数据,在保证访问需求的前提下保持其副本数目最小。(3) 基于云平台的任务调度与资源管理针对分析个性化推荐的执行特点,研究细粒度的资源分配模式,设计合理的资源分配方案。研究数据中心的网络状态感知方法,以实时获得网络性能信息;综合考虑数据放置、网网络状态和计算节点的负载,分别设计面向数据本地性和网络拓扑的任务指派算法,以减少网络传输开销对个性化推荐服务的影响。基于个性化推荐的执行流程,构造具有先后依赖关系的若干数据处理作业;针对作业之间的依赖关系,研究相应的中间数据的管理策略和作业公平调度机制;通过
19、估算关键路径,优化个性化推荐的整个过程。(4) 基于云平台的个性化推荐服务的实现与应用研究上述基于云平台的个性化推荐服务系统的实现方法,基于东南大学云计算平台,研制云计算环境下个性化推荐原型系统。一方面验证使本项目取得理论成果的可行性、有效性和可靠性,另一方面通过该系统的示范作用推广本项目所取得的研究成果。2、项目的特色和创新之处。本项目利用云计算技术解决了基于海量数据的电子商务个性化推荐问题,其创新之处在于:(1) 在个性化推荐算法方面,可高效分析稀疏的海量电子商务数据,大幅提高推荐效率。提出基于随机抽样策略的近似查询方法,快速确定兴趣度范围。充分考虑电子商务的推荐模式,综合利用基于内容过滤
20、、协同过滤和时间序列推荐等多种个性化推荐技术,有效解决数据稀疏性问题,提高推荐准确率。(2) 在数据组织方面,基于云计算技术存储海量数据,并实现数据的快速定位。充分考虑数据倾斜对个性化推荐算法的影响,提出基于属性的数据划分策略,可有效枝剪兴趣矩阵无关数据,缩小查询空间。提出了数据筛选优化策略,利用分布式评分索引快速准确地定位推荐算法所需的评分数据,提高算法执行的并发度,同时降低推荐时延。(3) 在数据处理方面,结合云计算环境的特点,优化个性化推荐的执行流程。将个性化推荐的流程建模成工作流,利用关键路径技术确定作业间的调度顺序,整体优化个性化推荐的完成时间。充分考虑网络带宽、数据放置的计算节点的
21、负载,提出面向数据驱动的任务指派策略,有效保证个性化推荐的执行性能。3、要达到的主要技术指标及水平。(1) 适用于B2B,B2C,C2C等电子商务应用场合(2) 采用先进高效的个性化推荐算法(3) 具有评分数据容错功能(4) 支持应用在线人数100X万万(5) 推荐准确率:平均绝对偏差MAE (mean absolute error) 0.7(6) 推荐时延:实时或近实时4、研究工作的预期结果、成果提交方式及知识产权情况。(1) 开发基于云计算平台的电子商务个性化推荐系统,完成本项目的主要技术性能指标;(2) 发表高质量学术论文 8-10 篇;(3) 申请国家发明专利 3-5 项,申报软件著作
22、权1-2个;(4) 完成基于云计算平台的个性化推荐技术研究报告;(5) 培养硕士和博士研究生3-5名。三、研究方法和技术路线1、拟采取的研究实验方法、步骤、技术路线及可行性分析。1.1 技术路线(1) 体系结构和总体框架图1 个性化推荐系统体系结构针对本项目的研究内容和目标, 我们给出了基于云环境的个性化推荐系统体系结构。通过将个性化推荐服务架构在云计算环境之上,实现面向电子商务领域的高效推荐服务。具体如图1所示,物理资源层主要包含云计算环境数据中心内的相应物理设备。云计算支撑平台层包含虚拟资源层,用于完成物理资源的虚拟化,在此基础上提供海量数据组织与管理,任务调度和资源管理。服务应用层包含电
23、子商务应用接口,以及个性化推荐模块及数据解析与推荐作业构建器。其中数据解析与推荐作业构建器是服务应用层与云计算平台层和物理存储层的接口,个性化推荐模块包含数据优化以及多种个性化推荐机制。(2) 面向海量数据的分布式个性化推荐技术提出候选邻居(Candidate Neighbor, CN)的概念,从海量评分数据集中筛选出对推荐结果影响度较高的用户集合,过滤无效评分,有效降低相似度计算过程的时间复杂度。为了选取合适的候选邻居集合范围以保证推荐准确率,首先提出基于随机采样的近似查询技术,针对基本查询类型建立近似估计量,确定近似查询处理估计模型,基于随机采样技术,利用中心极限定理求解评分矩阵中与目标用
24、户评分接近的用户近似数量;其次针对不同置信度选取策略,研究置信区间计算方式,以置信区间形式保证近似结果精度,并以此作为确定评分区间的考量依据;最后根据近似查询结果在最短的时间内计算得到符合推荐算法精度需求的评分区间,缩短处理时间,提高算法性能。在此基础上提出基于分布式存储系统的评分管理拓扑架构,构建存储节点间的覆盖网络,将候选邻居转换成覆盖网络中的多维区间查询请求,快速准确的定位推荐算法所需的评分数据集。根据上述筛选后所得的评分数据集,将基于内容过滤和协同过滤的推荐技术相结合,引入个体偏好树(IPT)的概念,综合考虑用户对商品多维属性的偏好信息、用户-商品评分矩阵信息、用户访问商品的偏好能量信
25、息以及基于用户商品访问的时序规律,并结合用户动态上下文信息,如当前时间、用户位置以及用户偏好等,完成用户对候选资源的过滤和排序,从而生成相应的TOP-N推荐。(3) 基于云平台的海量数据分布式组织与管理面对可能达到TB乃至PB级别的推荐数据,如何剔除推荐算法执行过程中不符合计算需求的数据,提高算法的执行效率是一个关键问题。为此,首先深入分析倾斜数据分布对在线聚集性能产生的负面影响,分别针对三种典型查询类型,构建概率模型分析查询性能与数据倾斜度之间的关系,明确倾斜数据分布影响个性化推荐算法执行性能的主要因素。在此基础上,提出基于属性的数据划分策略,有效枝剪不符合兴趣度计算需求的数据,大幅缩小兴趣
26、矩阵搜索空间,提高兴趣矩阵处理效率,进而优化个性化推荐算法执行性能。另一方面,推荐算法可以在多个节点上并行执行,然而不同的数据集间其关联程度大小不同,关联度大的数据可能经常会被一起访问,将关联度大的数据存储在同一节点可以有效降低推荐算法执行时由于数据远程读取而带来的网络带宽消耗。为了识别关联数据,在数据集的元数据中增加一个字段“文件集合”,每个文件集合内的数据都有较大的关联性。进一步地,在系统中建立文件集合维护表,记录系统中所有文件集合以及其与具体文件的映射。在上述基础之上,尽量将同属于一个文件集合的文件及其副本存储到相同的节点集合之上。最后,推荐数据的访问次数并不是均匀分布的,数据流行度可能
27、会呈现巨大的差异,创建热点数据的副本不仅有利于负载均衡,同时也有利于数据并行访问时降低数据访问延迟。为此需要建立一种自适应的副本复制策略,能根据工作负载的不断变化动态识别并创建热点数据的副本。每个节点在内存中维护一张文件访问记录表,当节点上的某个文件被访问时,生成一个0,1范围内的随机值,若生成的随机值大于事先设定的阈值,则在文件访问记录表中对该文件执行“+1”操作,并启动副本复制,否则不执行任何操作。新副本创建时,若本地存在足够存储空间,则直接复制到本地节点,若没有足够的存储空间,则删除文件访问记录表中数值较低的文件,为新副本腾出存储空间。(4) 基于云平台的任务调度与资源管理在执行个性化推
28、荐时,将执行过程构造成工作流的形式(由若干具有先后依赖关系的数据处理作业构成)。对于串行执行的作业,研究中间数据(由前驱任务生成)对后继任务的影响,优化中间数据的副本数目和放置策略。对于并行执行的作业,设计作业之间的公平调度算法,研究公平分享率与作业执行时间之间的关系。最后,估算关键路径,以确定作业的调度顺序及其公平分享率,从而优化个性化推荐的整个过程。对于某个特定的作业,拟将其分解成若干子任务,并指派到计算节点,实现并行处理。由于海量数据的处理会消耗大量网络资源,拟通过感知数据中心的网络状态,结合数据的放置信息,优化任务的指派方案。研究数据中心网络状态的感知方法,以有效估计计算节点间的网络带
29、宽。综合考虑数据放置、网络带宽和计算节点的负载,设计面向数据本地性的任务指派算法,以减少数据载入所产生的网络开销。考虑计算节点间的拓扑关系,设计面向网络拓扑的任务指派算法,以减少大规模并发数据传输带来的网络拥塞。为了保证个性化推荐的执行性能,需要为其合理分配资源。拟针对动态变化的资源需求量(如CPU、内存、磁盘等),研究细粒度的资源分配模式,以提高资源利用率。基于虚拟化技术,研究应用间的资源隔离方法,以减少不同应用之间相互干扰。通过分析个性化推荐的资源使用特点,研究数据规模和计算资源之间的关系,优化资源分配方案。(5) 基于云平台的个性化推荐服务的实现与应用图2 基于云计算平台的个性化推荐服务
30、架构图a) 系统实现根据上述研究内容,我们拟采用本项目的相关研究成果,并基于开源云软件部署相应的研究成果,实现基于云环境的个性化推荐系统,具体架构及各组件间的逻辑交互关系如图2所示。用户访问电子商务平台;个性化推荐服务接口首先需要进行数据解析与预处理;数据解析模块进行近似查询和数据筛选优化;推荐输入数据预处理后进行推荐;对推荐作业进行构建以支持云平台处理;推荐作业进行工作流调度;海量数据组织与管理与资源管理对虚拟层的调用;存储元电子商务数据集调用。对于个性化推荐部分,基于本项目研究成果(推荐机制及算法),采用IBM的WebSphere软件将个性化推荐机制以web service的形式封装成服务
31、,并开发了近似查询、数据筛选等模块以有效削减搜索数据的范围,实现快速地推荐内容反馈。对于数据管理部分,由于电子商务平台的客户量大,用户数据多大TB级,为了有效、可靠地存取数据,我们采用Hadoop HDFS文件系统组织并存储海量的用户数据。WebSphere和HDFS均提供了Java API调用,因此两者可以方便地进行相互调用和数据流交互。为了进一步提高个性化推荐服务的效率,我们拟对HDFS系统进行二次开发,实现数据集划分模块和副本管理模块,分别优化个性化推荐算法的数据访问空间和副本选择及定位问题,以提高个性化推荐算法的执行性能。在任务调度和资源管理部分,我们采用Hadoop Mapreduc
32、e处理模型,针对性地分析了个性化推荐的资源使用特点,优化了其中的资源分配方案。不仅如此,我们还将在Mapreduce模块中开发面向网络拓扑的任务指派策略,以减少电子商务平台海量数据传输带来的网络拥塞问题。在云平台的虚拟层,我们拟采用加州大学圣巴巴拉分校建立的开源平台Eucalyptus系统。Eucalyptus系统具有易扩展、较灵活、兼容性好等特点可以很容易地同其他模块进行相互协作和配合以完成个性化推荐任务。b) 系统部署缺海量数据部分我们将在东南大学云计算平台上部署上述软件模块,具体部署环境如图3所示。其中云计算平台硬件共有252个计算节点,每个节点为IBM HS22刀片服务器(CPU:In
33、tel Xeon X5650 2.66GHz 两路六核 内存:6*4GB DDR3,硬盘1*146 GB SAS接口);8个IBM X3850 X5四路六核胖节点,其中两个作为云计算管理服务器;2个IBM X3850 X5八路六核胖节点;1台DS5300组成存储系统,配备8Gb 光纤端口,两台24口SAN交换机,存储裸容量为520TB,连续读写带宽大于5GB/s;整个系统采用40Gb QDR Infiniband交换机构建数据网络,做到全线速无阻塞,提供37万亿次峰值浮点计算能力。我们利用1台IBM System x3500部署了电子商务应用接口,安装了websphere 模块,按照个性化推荐
34、服务的需要,定制了其中的portal部分,为用户提供了一个友好、便于使用的用户界面。我们在56个2.66GHz IBM HS22刀片上(4个刀箱,每个刀箱14个刀片)部署Eucalyptus的节点控制器组件,采用其中1个作为Eucalyptus的云控制模块负责管理整套的云系统组件。其余55台作为从节点,部署Eucalyptus的节点控制器组件。此外,我们采用2台1.88GHz IBM X3850 X5作为作业调度器,并利用56个2.66GHz IBM HS22刀片部署Hadoop Mapreduce模块,实现分布式的任务调度。我们采用1台2.66GHz IBM X3850 X5作为HDFS的N
35、ameNode节点,并以IBM DS5300搭建后台DataNode。NameNode节点负责维护文件系统的命名空闲并协作其他模块对数据的访问。DataNode存储实际的数据。本研究通过在上述环境上搭建个性化推荐系统,并实现面向电子商务领域的个性化推荐服务(Personal Recommendation)。图3 个性化推荐实验云平台1.2 可行性分析(1) 项目申请单位在个性化推荐领域以及云计算领域已经进行了多年的先期研究工作,在Cluster Computing、Wireless Communication and Mobile Computing、Cluster Computing、ICP
36、P 以及CCGrid 等国内外核心期刊和国际会议上发表了20多篇论文,这些前期研究工作是项目顺利进行的重要保障。(2) 项目合作单位焦点科技股份有限公司是国内领先的B2B电子商务企业,其自主开发运营的中国制造网拥有面向全球范围的海量用户和资源数据集,能够为本项目的研发提供数据方面的技术保障。(3) 项目申请单位的成员都是精力充沛、思想活跃的青年教师和在读博士、硕士研究生。通过该项目的实施,项目组已建立了良好的工作与合作机制,在个性化推荐以及云计算领域已共同发表多篇论文。(4) 项目申请单位具有优良的网络设备和丰富的软件,为本项目的研究工作提供了很好的仿真实验环境。同时项目申请单位目前已建成的云
37、计算平台(拥有3500 核与500TB 存储并通过40Gb Infiniband 高速网络互联),为本项目的研究工作提供了绝佳的实验验证与原型系统部署环境。2、研究工作的总体安排及进度。整个项目计划两年完成:l 2012年4月-2012年10月:完成项目研究内容相关的核心算法,包括面向海量数据的分布式个性化推荐算法、基于云平台的海量数据分布式组织与管理算法、基于云平台的任务调度与资源管理算法。l 2012年11月-2013年3月:完成实现云计算环境搭建及模块开发,包括物理资源虚拟化模块、海量数据组织与管理模块,任务调度和资源管理模块,实现云计算平台的核心支撑功能。l 2013年4月-2013年
38、7月:完成服务应用层软件,分别实现数据解析与推荐作业构建器模块、个性化推荐模块以及电子商务应用接口模块,能够实现对电子商务推荐应用的核心功能和接口。l 2013年8月-2013年12月:完成基于云计算平台的电子商务个性化推荐应用部署并组织鉴定。四、项目研究工作基础和条件1、产学研合作各方的单位概况,合作基础、项目实施后的知识产权归属约定。东南大学是中央直管、教育部直属的全国重点大学,是“985工程”和“211工程”重点建设的大学之一。东南大学以“科教兴国”为己任,从国民经济和社会发展的需要出发,积极开展基础研究、应用基础研究和重大战略高技术研究,已成为在国内外具有较大社会影响的高新技术研究和辐
39、射的重要基地。学校服务地方经济建设成效显著,目前共建立了35个产学研基地,强有力地推动了地方经济的快速发展。作为东南大学的重点优势院系,东南大学计算机科学与工程学院拥有“计算机科学与技术”一级学科博士点,在计算机系统结构、计算机软件与理论、计算机应用等领域有着良好的研究开发经验和基础,建有国家重点学科“计算机应用技术”以及江苏省重点学科“计算机软件与理论”,在学科地位、科研水平、教学质量、人才培养等方面居国内前列。学院建有计算机网络和信息集成教育部重点实验室、江苏省计算机网络技术重点实验室、江苏省网络与信息安全重点实验室、中法生物医学信息研究中心,以及国家863/CIMS“网络与数据库”工程实
40、验室、中国教育科研网华东(北)地区网络中心等一批科研实验基地,还建有东南大学CIMS技术中心、影像科学与技术实验室、电子商务研究与开发中心、信息安全技术中心、未来网络研究中心等交叉学科研究机构。近年来承担了包括国家自然科学基金、国家973、国家863、国家科技攻关、教育部和江苏省等重要科研项目140多项,获得国际工业领先奖1项、国家科技进步奖8项、部省级奖20多项,在国内外著名的学术期刊和会议上发表论文1600多篇,其中SCI、EI、ISTP三大检索850多篇次,在ESI学科排名中,学院水平已接近全球前1%。焦点科技股份有限公司成立于1996年,是国内领先的综合型第三方B2B电子商务平台运营商
41、,十五年来专注服务于全球贸易领域,为中国中小企业应用互联网络开展国际营销、产品推广、销售管理、信用服务、人才交流、商务智能等提供在线信息服务。焦点科技与于2009年12月9日在深圳证券交易所成功上市(股票代码:002315),在中国B2B电子商务领域排行第三,公司以互联网应用软件研发为核心,自主开发运营的中国制造网电子商务平台(简称:中国制造网)拥有600多万稳定、活跃的注册会员,该平台2010年实现贸易交易总额320亿美元,已成为全球采购商采购中国制造产品的重要渠道。2010年9月由国家商务部及台湾经济部核准由焦点科技投资2.5亿新台币在台湾成立焦点网路科技有限公司,是ECFA海峡两岸经济合
42、作框架协议签署后江苏省首家也是投资规模最大的一家由大陆企业在台投资设立的公司。2010年12月焦点科技投资1亿元成立了新一站保险代理有限公司,同年中国制造网蝉联了“中国最佳客户服务”大奖。焦点科技先后承担十多项国家部、省级政府科技项目,近3年连续被评为中国互联网产业百强 、2011福布斯中国潜力企业、江苏省规划布局内重点软件企业,江苏省互联网产业联盟秘书长单位、江苏省信息化协会常务理事单位。焦点科技连续三年实现40%产值递增,2010年资产总额17.7亿元,销售收入3.3亿元,利润总额是1.67亿,利税总额为1.79亿,是行业内知名的高成长型软件企业。 合作基础:2012年1月,东南大学和焦点
43、科技合作共建“软件与现代服务业研究中心”。中心致力于促进高校科研成果的产业化,同时促进焦点科技在软件和信息服务领域的技术创新。作为软件研发平台及科技资源服务平台,东大-焦点软件与现代服务业联合研发中心是促进东南大学计算机领域产学研进度,加快现代服务业及软件产业的发展速度的重要途径。焦点科技将依托东南大学的科技研发实力,充分发挥东南大学在科学、人才和技术方面的优势,并有效结合焦点科 技在市场信息、资金及科技转化方面的能力,实现优势互补、合作共赢。项目实施后的知识产权归属约定:研究成果归双方共同所有,任何一方保证不得将课题研究成果透露给第三方,技术成果转化获得的利益分配另外商定,详见双方签订的合作
44、协议。2、与本项目有关的研究工作基础。本项目的实施将主要依托江苏省“网络与信息安全”重点实验室和东南大学云计算服务中心。江苏省“网络与信息安全”重点实验室是由江苏省科技厅2003年8月在东南大学建立,总投资1050万元,实验室主体用房面积达2100平方米,设备固定资产近700万元。实验室现有固定人员28人,其中博士生导师8人,教授9人,副教授和副研究员10人,博士后3人,讲师3人,助教和助研2人,管理人员4人,具有博士学位的研究人员18人。实验室主任是罗军舟教授;学术委员会主任是中国工程院院士、中国人民解放军海军计算技术研究所沈昌祥研究员。项目组成员在在江苏省“网络与信息安全”重点实验室主任罗
45、军舟教授的指导下,长期从事网格与云计算等方面的研究,已经取得了卓有成效的研究成果,在并行计算与高性能计算、网格与云计算、网络通信、数据处理等领域的权威国际会议ICPP,HPCC、CCGrid、Globecom、DASFA和国内外权威期刊Future Generation Computer Systems 、Cluster Computing 、Wireless Communications and Mobile Computing、计算机研究与发展和通信学报上发表了20 余篇相关论文,研究成果得到了国内外同行的认可,为本项目的开展奠定了良好的理论研究基础。本项目团队在前期主要致力于国家自然科学
46、基金重大研究计划以网络为基础的科学活动环境研究中AMS 数据计算环境的研究和实现项目以及相应的滚动项目AMS数据计算环境应用示范的研究。另外也完成了国家自然科学基金项目“基于网格环境的高维OLAP数据联机分析与处理技术研究”,目前在云计算和网格计算相关领域已获得的研究成果有:a) 云计算环境下的海量分布式组织和处理研究。从数据倾斜角度出发,分析制约Online Aggregation查询性能的主要因素,设计并实现了一个基于划分思想的面向倾斜数据分布的Online Aggregation系统。采用两阶段混排策略保证数据采样的随机性;利用Nested Red-Black Tree构建对分块数据的快
47、速索引以支持查询的快速响应;采用Dynamic sample proportion机制保证在线聚集成立的必要条件,进一步提升查询性能。发表在DASFAA 2012。b) 云计算环境下任务调度机制的研究。针对数据密集型应用,结合云计算的相关特点,基于网络流技术,提出了以数据局部性为驱动的任务调度算法;在综合考虑作业公平性以及数据局部性的前提下,提出了基于数据中心负载分析的自适应延迟调度算法。研究成果发表在CCGrid 2011、DASFFA 2012 以及通信学报之上。c) 科学工作流调度机制的研究。针对网格环境下工作流应用的调度问题,提出了基于动态关键路径与任务复制的工作流编译时调度算法;面向
48、动态环境,提出基于负载预测的网格工作流随机调度算法,同时为了进一步保障工作流应用的执行性能,提出了相应的动态自适应重调度机制。针对复杂工作流应用,提出了基于多集群环境下基于分支切割技术的编译时调度算法。研究成果发表在Wireless Communicationand Mobile Computing、Cluster Computing、HPCC 2010 及CSCWD 2011 之上。d) 项目组负责建成东南大学云计算中心,从云计算服务中心的方案论证、建设到运行管理,积累了较为丰富的数据中心运行经验。目前,在东南大学云计算服务中心部署了openQRM和Hadoop云计算环境以及AMS实验数据处理软件。所做的主要工作有:在Hadoop的云计算环境中,进行了TeraSort、GridMix等集群性能分析实验,其中TeraSort是对大规模集群连续I/O的基准测试;GridMix通过随机生成海量数据和自动提交MapReduce任务,模拟了高工作负载数据处理环境。 e) 项目组所研制的SEU