高校大数据专业教学科研平台建设与方案.docx

上传人:李司机 文档编号:1131363 上传时间:2022-06-29 格式:DOCX 页数:17 大小:843.35KB
返回 下载 相关 举报
高校大数据专业教学科研平台建设与方案.docx_第1页
第1页 / 共17页
高校大数据专业教学科研平台建设与方案.docx_第2页
第2页 / 共17页
高校大数据专业教学科研平台建设与方案.docx_第3页
第3页 / 共17页
高校大数据专业教学科研平台建设与方案.docx_第4页
第4页 / 共17页
高校大数据专业教学科研平台建设与方案.docx_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《高校大数据专业教学科研平台建设与方案.docx》由会员分享,可在线阅读,更多相关《高校大数据专业教学科研平台建设与方案.docx(17页珍藏版)》请在三一办公上搜索。

1、高校大数据专业教学科研平台建立方案一、工程建立的意义及目的 芝诺数据自主研发的高校大数据教学科研平台以校企联合培养模式为手段,通过校企合作联合培养机制,让企业、行业深度参与人才培养过程,逐步实现校企共同制定培养目标、共同建立课程体系和教学内容、共同实施培养过程、共同把控培养质量,全面提升学生的应用实践能力。该平台以应用型人才培养为目标定位,在以解决现实问题为目的的前提下,使培养的学生有更宽广和跨学科的知识视野,注重知识的实用性,有创新精神和综合运用知识的能力。注重培养学生具有在创新中应用、在应用中创新的能力,让学生真正学会大数据行业各个岗位真正的职业技能。 二、功能模块和建立思路芝诺大数据教学

2、科研平台构建总体分为三大局部,一是平台硬件,二是教学与实验支撑系统包括:芝诺数据综合分析ZDM平台、芝诺数据教学实训平台,三是产品效劳体系。具体如下:组成局部序号名称型号规格与说明单位数量平台硬件1大数据教学科研一体机大数据教学科研一体机作为芝诺大数据教育产品的载体,是一体化大数据教育科研的解决方案,采用新型技术体系架构,整合软硬件系统,涵盖数据存储、数据处理、数据展现等全环节。 每套教育大数据一体机能够为40个用户提供计算支撑效劳,面向客户的业务需求,集海量数据存储、多源异构数据整合、统一数据目录、数据分析与挖掘、数据可视化等功能。台11.1计算集群 Master 节点24核心CPU/48G

3、内存/900G SAS硬盘台21.2计算集群 Slave 节点24核心CPU/48G内存/900G SAS硬盘台31.3机柜+交换机+配件42U 千兆交换机套1教学实验支撑系统2芝诺数据综合分析ZDM平台 芝诺数据综合分析ZDM平台是全面基于Apache Hadoop及Apache Spark计算框架的高性能大数据分析平台,提供一站式大数据开发环境和工具,包括数据存储、分布式计算、分析挖掘及数据可视化的整套支持。用户可以在大数据综合分析处理平台上采集、存储、分析、挖掘海量数据及其内在价值。套12.1大数据行业应用数据包超过 20 亿条以上具备商业价值的真实工程数据套13芝诺数据教学实训平台 芝

4、诺数据教学实训平台能够为大数据教学及科研提供一个完整的、一体化的实验教学环境,从而打造出全方位的专业大数据实训室。 学员登录平台后按照实验指南完成大数据教学实训,教师通过对学员学习情况进展大数据分析析,统计各个班级总体学习进度、每门课程学习进度、学生登录时间统计、所有学生学习情况统计。套13.1大数据实训工程实验包括大数据系统和大数据应用2个方向共计60个实验工程,每个工程实验材料包括:实验数据、实验指导、实验原理、实验环境、实验考核等内容。套1产品效劳体系4系统维护提供软硬件平台系统维护。年15师资培训提供免费师资培训时机每套产品有2个免费名额。年16案例支持提供真实大数据工程实战案例,不断

5、完善和补充。年17数据提供提供具有商业价值的数据,每年更新10%。年18工程众包提供大数据工程的技术支撑。年1教学与实验支撑系统由芝诺数据综合分析ZDM平台和芝诺数据教学实训平台构成,教学与实验支撑系统部署在大数据教学科研一体机中。二、工程建立的目标及内容1、工程建立目标1平台的建立能让高校大数据专业与实际应用相结合,提高学生的学习、实践和创新创业能力,能够培养实用性人才所需的专业能力,提升教学效果与就业率,为“大数据时代的创新人才培养做出奉献。2平台的建立将支撑大数据去冗降噪、大数据融合、大数据可视化等关键技术研究,能够效劳于学校的教学和科研,有助于大数据方向开展和自主创新,有利于创新团队培

6、育和高水平研究成果积累,有利于提升教师的教学和科研水平,推动教学和科研团队建立。3平台的建立搭建可以发挥学校的行业优势,表达学校办学特色,推进与国内外高校、科研机构和企业间的产学研合作,开展工程合作研究和人才培养,促进科研成果转化,促进产学研协同创新。4平台的建立有利于促进学科穿插与融合。2、工程建立内容1模块一:平台相关硬件建立本模块主要包含:大数据教学科研一体机技术参数:作为一个可供大量学生完成大数据实训的集成环境,该平台同步提供了配套的培训效劳,对于教学组件的安装、配置、教材、实验手册等具体应用提供一站式效劳,有助于高校更好地满足课程设计、课程上机实验、实习实训、科研训练等多方面需求,并

7、在一定程度上缓解大数据师资缺乏的问题。对于各大高校而言,即使没有任何大数据实验根底,该平台也能助其轻松开展大数据的教学、实验与科研。2模块二:教学与实践支撑系统芝诺大数据教学科研平台由芝诺数据综合分析ZDM平台及芝诺数据教学实训平台联合搭建。通过典型的算法展示、算法实现结合大数据分析的应用场景与案例对学生进展数据分析方面的综合训练,从而实现专业实验教学的由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新的多层次实践教学体系。1芝诺数据综合分析ZDM平台芝诺数据综合分析ZDM平台是全面基于 Apache Hadoop 及 ApacheSpark 计算框架的高性能大数据分析平台,提供一站

8、式大数据开发环境和工具,包括数据存储、分布式计算、分析挖掘及数据可视化的整套支持。用户可以在大数据综合分析处理平台上采集、存储、分析、挖掘海量数据及其内在价值。ZDM平台包含的Hadoop生态组件: 平台构成:i. Zeno Container分布式实时数据库:支持构造化、半构造化和非构造化数据的存储;采用分布式存储,支持海量数据存储,支持高并发的快速查询。ii. Zeno Monitor 效劳器监控套件:效劳器监控是利用Ganglia和Nagios对集群机器进展资源监控,包括CPU内存,硬盘,网络资源等进展实时监控,方便用户实时掌握集群机器资源的利用情况。 通过典型的算法展示、算法实现结合大

9、数据分析的应用场景与案例对学生进展数据分析方面的综合训练,从而实现专业实验教学的由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新的多层次实验体系,以满足不同学校的实践需求。iii. Zeno Mining 数据挖掘套件:支持多种数据挖掘工具相结合,支持Mahout,MLlib自带的并行化的高性能机器学习算法库;同时也致辞基于R自定义的编程算法;也有强大的主流数据统计个绘图语言R以及Web图形化开发界面R-Studio。iv. Zeno Analysis 数据分析套件:使用Sqoop和Flume支持数据迁移和采集;采用多计算框架模型,可满足不同数据的计算要求。及支持Hadoop离线大

10、数据的计算,也支持Stream实时流式处理,还支持Spak内存快速计算;支持多语言的数据分析工作,支持SQL、Java、Python、Scala等。v. Zeno Coop协作管理引擎:基于Zookeeper的协调效劳机制,采用Yarn的管理模式,支持同时运行多个计算框架,可同时部署Hadoop、Storm、Spark等计算框架。ZDM平台工作流:平台优点:I 安装方便友好的图形化安装界面,使用户可在1小时内,零根底搭建基于Hadoop/Spark的大数据存储、分析、监控及可视化平台。确保安装100%成功。 功能完备提供一站式大数据开发环境和工具,解决从数据源采集/清洗/存储/分析/挖掘/机器

11、学习到数据流处理/可视化/集群监控等问题。 Stream分布式实时流处理引擎提供强大的流计算能力,可支持复杂的实时处理逻辑,满足企业实时告警、风险控制、在线统计和挖掘等应用需求 性能保障计算速度比传统关系型数据库快50-100倍。例如,一个集群包括13个Spark节点,每个256G内存的效劳器,1个计算任务30秒以内处理200M数据,处理过程包括数据入库、逻辑计算、结果展现。同时,系统可线性扩大存储容量或提高处理性能,只需要简单地向集群中增加机器,无需停机。 使用方便图形化的数据分析和挖掘界面,令使用者不用理会Hadoop底层技术,只需专注于自身业务逻辑。 基于Hadoop的ZDM分布式存储与

12、计算的优点 高可扩展性Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行操作的廉价的效劳器数据集群。不同于传统的关系型数据库系统不能扩展到处理大量的数据,Hadoop是能给企业提供涉及成百上千TB的数据节点上运行的应用程序。本钱效益Hadoop还为企业用户提供了极具本钱效益的存储解决方案。传统关系型数据库管理系统并不符合海量数据的处理器,不符合企业的本钱效益。许多公司过去不得不假设哪些数据最优价值,根据这些有价值的数据设定分类,如果保存所有的数据,则本钱就会过高。Hadoop的架构则不同,其被设计为一个向外扩展的架构,可以经济的存储所有公司的数据供以后使用,节省的费用是非常惊

13、人的。灵活性更好Hadoop能够使企业访问新的数据源,并可以分析不同类型的数据,从这些数据中产生价值,这意味着企业可以利用Hadoop的灵活性从社交媒体、电子或点击流量等数据源获得珍贵的商业价值。处理速度更快Hadoop拥有独特的存储方式,用于数据处理的工具通常在与数据一样的效劳器上,从而导致能够更快的处理器数据。如果处理大量的非构造化数据,Hadoop能够在几分钟内处理TB级的数据,而不是像以前都需要以小时为单位。容错能力更强Hadoop的一个关键优势就是它的容错能力,Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。当数据被发送到一个单独的节点,该数据也被复制到集群

14、的其它节点上,这意味着在故障情况下,存在另外的副本可供使用。 ZDM平台安装界面截图:ZDM平台登陆界面用户名密码登陆后,可以看到如下的首页。系统管理界面在系统管理界面中,“用户管理和“角色管理中,可以定义角色管理员、操作员等、添加用户、修改用户密码等。此外,在“资源管理页面中,可以为每一个用户指定允许安装的组件或者模块。组件安装界面在“组件安装界面中,具有以下功能:根底信息配置主机名映射、Hadoop组件安装、Spark组件安装、数据挖掘工具安装、集群监控及HUE安装。以下逐一进展介绍。 根底信息配置根底信息配置,也即主机名映射,在初次安装Hadoop集群前需要配置各效劳器的IP地址与主机名

15、的映射。点击“配置按钮后,系统会在后台完成以下配置。修改各效劳器的主机名,完成映射。完成各效劳器之间的SSH互信。完成各效劳器java JDK环境配置。 Hadoop根底组件在Hadoop根底组件页面,可以点击各个Hadoop根底组件的图标,完成相应组件的安装及配置。说明:由于组件之间有相互依赖关系,因此,如果*个组件的前序依赖组件没有安装,系统会提示用户安装前序依赖组件。 Spark根底组件安装在Spark根底组件页面,可以点击Spark根底组件的图标,完成Spark集群包括,Spark SQL,Spark Streaming,MlLib,Graph*的安装及配置。 数据挖掘工具安装在数据挖

16、掘工具安装页面,可以点击各个数据挖掘工具的图标,完成相应工具的安装及配置。 集群监控及HUE在集群监控及HUE安装页面,可以点击相应的图标,完成Ganglia及HUE的安装及配置。根底应用模块在上述Hadoop集群及相关的组件安装配置完成后,在根底应用模块,可以是用Rstudio,以及查看Ganglia、HDFS、YARN的监控页面。 Rstudio登陆后可以看到如下Rstudio的页面。用户名:hadoop,密码:hadoop Ganglia监控页面 HDFS监控页面 YARN监控页面定制应用模块该模块使用系统自带的数据,展示了大数据可视化的三个应用效果。 静态报表展示 多维报表展示动态实时

17、报表展示2大数据教学实训平台芝诺数据教学实训平台包括大数据系统和大数据应用 2 个方向共计60 个实验工程,能够为大数据教学及科研提供一个完整的、一体化的实验教学环境,打造出全方位的专业大数据实训室。每个工程实验材料包括:A 实验数据B 实验指导C 实验原理D 实验环境E 实验考核等内容。该平台集学员实训学习与教师教学管理于一体,因此,对于学员和教师这两类不同的角色,可以通过不同的账号登陆,进入平台的相应界面。学员登录实训平台后,可以选择相应的实验课程,并按照实验指南完成大数据处理与分析实操案例的教学实训,并提交实验报告。教师登陆管理平台后,可以通过对班级与学员学习情况进展管理,统计各个班级总

18、体学习进度、每门课程学习进度、查看学生实验报告并批阅评分等。以下就分别对学生与教师这两类不同角色登陆平台后的界面操作进展说明。大数据实训管理平台登陆如下:192.168.0.121:8081/TPF 大数据实训管理平台-学生登陆 学生登陆后的课程界面学生登陆后可以看到如下列图所示的“我的课程界面。大数据实训管理平台现在共有四门课程,分别为:A数据分析员B大数据分析师C大数据挖掘工程师D大数据系统工程师点击课程,进入实验列表界面点击上述四门课程的任何一个,即可进入相应课程的实验列表界面。比方,点击“大数据分析师课程,就可进入如下的实验列表。 点击“开场实验按钮,即可进入对应实验的实训界面由于不同

19、类型实验的实训环境不同,以下分别就RStudio与WebTerm环境分别说明。 RStudio实训环境该实训环境主要针对大数据统计分析与建模的相应实验,也就是通过R语言来完成相应的大数据统计分析实验。比方,点击上述大数据分析师课程实验列表中的,“R语言实现多元线性回归模型案例,即进入如下的实训平台界面。说明:对R语言操作的实验,需要登陆Rstudio,登陆的用户名和密码与实训平台的用户名和密码一致。输入实训平台的用户名和密码,登陆RStudio,登陆后的界面如下。在该实训界面中,学员就可以按照左侧的实验指南,在RStudio的环境中,完成该多元线性回归模型实验的操作与练习。 WebTerm实训

20、环境该实训环境主要用于大数据挖掘工程师与大数据系统工程师相关的实验,可以在WebTerm环境下运行Linu*系统及Hadoop大数据生态圈工具的相关命令。比方,进入“大数据系统工程师课程,点击课程实验列表中的,“Linu* 根本命令操作实例,即进入如下的实训平台界面。说明:对Linu*命令操作的实验,需要登陆WebTerm,登陆的用户名和密码与实训平台的用户名和密码一致。输入实训平台的用户名和密码,登陆WebTerm,登陆后的界面如下。在该实训界面中,学员就可以按照左侧的实验指南,在WebTerm的环境中,完成该实验的操作与练习。 下载实验资源在RStudio或者WebTerm环境的实训页面中

21、,如果该实验有附加的软件安装包或者数据文件等需要下载的资源,都可以点击“下载资源按钮一键下载,下载的资源文件为压缩的ZIP文件。如下列图所示。 提交实验报告每一个实验演示操作完成后,都有一个实验作业,如下列图所示。学生可根据该实验所练习的内容,完成相应的实验作业,并点击“实验报告按钮,就可进入如下的实验报告提交页面。在该页面中,可以“输入内容、“上传图片等。 查看实验报告学生在完成实验练习并提交实验作业后,可以点击“我的实验报告,查看已提交的实验报告列表,而且还可以对已提交的实验报告进展编辑。示意图如下所示。大数据实训管理平台-教师登陆教师登陆后的管理界面教师登陆大数据实训管理平台后,可以看到

22、上图的管理界面。教师账号主要有三方面的功能:创立和管理班级批阅学生提交的实验报告集群监控以下对这三方面的功能逐一进展介绍。我的班级 创立班级在“我的班级页面,教师可以创立和编辑班级。按照上述示意图操作,即可创立班级。创立班级后的效果如下列图所示。 导入学员在创立了班级后,可以对该班级的学员进展管理。点击上图的“学员管理按钮,即可进入如下的学员管理。对于新创立的班级,可以点击“下载学员模板,根据模板导入该班级的学员。 课程管理可以通过“课程管理为该班级的学员分配相应的课程。点击上图中的“课程管理按钮,即进入课程分配页面,为该班级分配相应的实验课程。 批阅报告点击“批阅报告,可以筛选“专业与“班级

23、,查看相应班级学生提交的实验报告,并进展批阅。 集群监控点击“集群监控,可以进入分布式计算机集群的监控页面,如下列图所示。在该页面中,可以分别查看Hadoop集群、Spark集群、Ganglia集群监控,以及,进程启动等监控信息。示意图如下。Hadoop集群信息:Spark集群信息:Ganglia集群监控信息:进程启动页面信息:3、工程教学内容及数据库(1) 芝诺数据教学课程2实训平台实验教学大纲3芝诺数据库 附:局部学员作业大数据应用分析报告展示往期回忆4、工程建立重点由于本实验室的建立思路是侧重实验内容建立,因此我们在规划中突出了平台及大数据专业课程的建立,在整个建立过程中,我们的主要重点

24、在于:1以科学、节约为原则,合理解决实验室效劳器的问题。2严格按照实验室建立进度安排执行。3硬件及相关支撑平台以满足根本要求即可,重点引入跟我们大数据专业人才培养方案相关的大数据课程内容及行业案例库,通过专业的大数据课程和真实的企业实训场景,大力培养学生的应用创新能力。4在整个实验室工程建立的同时,着力加强大数据专业教师团队的建立。5、工程建立预期效益本工程通过对芝诺数据教学实训平台和芝诺数据综合分析ZDM平台的建立,支撑大数据去冗降噪、大数据融合、大数据平安与隐私保护等关键技术研究,形成以工程实训和创新拓展为主的实践教学体系,培养学生良好的科学素养和实践创新能力。同时,提升高校承当重大科研工程和实现自主创新的能力。适应国民经济和社会开展的信息化进程、信息化与工业化“两化融合和新兴战略性产业迅速开展,完善科研平台和教学实验平台体系建立,提升科技创新能力,推进产学研合作。预期到达以下效果:1建立健全实验教学环境,为相关专业学生提供与产业界接轨的、良好的实验条件;2模拟企业环境,引入以实际工程为蓝本的实训工程,构建实训基地;3为开设大数据类公共选修课提供实验环境;4支撑高校科研工程的实施及科研论文的发表;5为学生在数学、统计、计算机类学科竞赛获奖提供教学实验环境支持。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号