《Spark大数据技术与应用案例教程》教案第21课预处理银行个人信贷业务数据.docx

资源描述

《《Spark大数据技术与应用案例教程》教案第21课预处理银行个人信贷业务数据.docx》由会员分享，可在线阅读，更多相关《《Spark大数据技术与应用案例教程》教案第21课预处理银行个人信贷业务数据.docx（3页珍藏版）》请在三一办公上搜索。

1、课题预处理银行个人信贷业务数据课时2课时(90min)教学目标知识技能目标：(1)使用RDD的不同操作处理数据。(2)将RDD转换为DataFramee(3)将DataFrame保存为不同类型的文件。素质目标：综合应用所学知识，提升归纳总结能力和实践能力。教学重难点教学重点：将RDD转换为DataFrame,将DataFrame保存为不同类型的文件教学难点：SPark蝙Ib理与分析的基本方法教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务，和学生负责人取得联系，让其提醒同学通过APP或其他学习软件，完成课前任

2、务请大家回顾前面所学内容.【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题：请简述将RDD转换为DataFrame的过程。【学生】思考、举手回答课堂实践【教师】描述和分析本次任务内容，并详细演示任务操作过程，引导学生进行操作【任务描述】由于原数据集中存在字段名称过长、字段排列无条理、数据行重复和数据行中含有空值(即NA)等问题，因此本任务使用SparkSQL对原始数据集进行预处理，以便在后续的分析、建模或其他数据处理任务中使用。【任务分析】银行个人信贷业务数据保存在7usr/local/spark/mycode/CreditCard/

3、cs-training.csvH文件中。该数据集包含12个字段，第一个字段为索引字段且字段名称为空。本任务首先读取cs-trainingcsv文件中的数据创建DataFrame;然后使用DataFrame提供的方法修改原数据集的字段名称和字段顺序,并删除重复的数据行和含有空值的数据行；最后将预处理后的数据保存至新的文件中，生成新的数据集。预处理前后数据集中各字段的说明如表所示。表7-1预处理前后数据集中各字段的说明原数据集中的字段名称新数据集中的字段名称说明Index索引列ageage年龄MonthlyInconieMonthlyincome月收入NumberOfDependentsfamil

4、y家庭成员的数量SeriousDlqin2yrs2yrs是否逾期还款。取值1代表逾期还款；（）代表未逾期还款NumberOfTime30-59DaysPas(DueNotWorseTime30-59逾期3059天还款的次数NumberOfTime60-89DaysPastDueNotWorseTime60-89逾期6089天还款的次数NumberOfTimesQODaysLateTimes90逾期90天以上还款的次数RevolvingutilizationOfLJnsecuredLinesUnsecuredLines担保额度循环利用率DebtRatioDebtRatio负债上碎Numberof

5、OpenCreditLinesAndLoansOpenCredit开放信用额度和贷款数量NumberRealEsiateLoansOrLinesReaIEsiate房地产贷款数量或信用额度打开PyCharm,新建CrediiCard目录，在该目录下新建preprocessing.文件，然后在该文件中编写应用程序，实现银行个人信贷业务数据的预处理。步骤IA创建SparkSession对象。步骤2A使用read.csv()方法读取Hcs-training.csvH文件中的数据创建DataFrame(即df)。步骤3A重命名df中字段的名称，得到一个新的DataFrame(即df.name)首先定义

6、一个包含列名的列表column_names；然后使用IODFo方法将df的列名设置为列表column_names中指定的值。(详见教材)【参考代码】frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol#创建SparkSession对象spark=SarkSession.builder.appName(Processing).getOrCreate()# 创建DataFramedf=spark.read.csv(file:/usr/Iocal/spark/mycode/CreditCard/cs-training.

7、csvheader=True)# 定义一个包含列名的列表column-names=Index,2yrs,UnsecuredLines,age,Time30-59,DebtRatio,Monthlyincome,OpenCredit,Times90,RealEstate,Time60-89,family# 将df的列名设置为列表COIUmnJameS中指定的值djname=df.toDF(*column_names)# 调换df.name中字段的JI酹deselect=df-name.select(Index,age,MonihlyIncome,family,2yrsTime30-59,Time

8、60-89,Times90,tUnsecuredLines,DebtRatio,OpenCredit,RealEstate)# 删除重复的数据行df_drop=dCselect.dropDuplica(es()# 删除含有空值的数据行forcol-nameindf_drop.columns:df_drop=df_drop.filter(col(col_name)!=,NA)# 保存预处理后的数据dfLdrop-repartition(1).write.option(header,True).csv(fileusrlocalsparkmycodeCreditCarddata.csv)Print(

9、成功保存预处理后的数据集！)#停止SparkSession对象Spark-StopO【运行结果】在PyCharm中运行代码，控制台输出提示信息“成功保存预处理后的孀集！(见图7-1),并生成一个usrlocalsparkmycodeCredilCarddata.csv目录，该目录中包含part-00000-0f7b2e35-955c-49a2-bf6c-5304fd6lc3ad-c000.csvh和m.SUCCESS”文件。其中，part-00000-0f7b2e35-955c-49a2-bf6c-5304fd6dc3ad-c000.csv”文件用于存储DataFrame数据，如图7-2麻。F

10、J开PartOOOr7b2e35955cY9a2bf6c53ad6d0dcOOO.csv保存(三)=xXnsXHofKhlyX仅oa.fMUly.Gyr.Ti830SQ.Tief8Q.YlesX.UnsxurWlfns.gbtmo.OXMr“It.MNEsttm.T7W00,OaOaO*.虱1例湖0.81M002lQ成功保存预处理后的ISIB集！i.R44M*-08W3W08W-e971t43.iaS03.0.00.0475B41386.0.1M81145).2.01164.59.11000.0.0.0.0.0.0.1203SS91v0.1519ttU3.10.2进程已结束.退出代码。BM.50.WW,3.0.0.0.0.0.13SUOg.O.S0)M11,M314W.60,TOW.0.0.0.0.0.0.0.2M10W3.2图7-1提示信息图7-2，part-00000-0f7b2e35-955c-49a2-bf6c-5304fd6dc3ad-c000.csvM文件的内容【学生】聆听、理解、按照要求进行操作，如遇问题可询问老师【教师】巡堂辅导，及时解决学生遇到的问题课堂小结【教师】简要总结本节课的要点预处理银行个人信贷业务数据的操作【学生】总结回顾知识点作业布置【教师】布置课后作业请根据课堂所学知识，课后自己尝试预处理数据的操作.【学生】完成课后任务教学反思

展开阅读全文