2024春《大学计算机》课程报告——模板.docx

上传人:李司机 文档编号:7098433 上传时间:2024-06-14 格式:DOCX 页数:9 大小:82.09KB
返回 下载 相关 举报
2024春《大学计算机》课程报告——模板.docx_第1页
第1页 / 共9页
2024春《大学计算机》课程报告——模板.docx_第2页
第2页 / 共9页
2024春《大学计算机》课程报告——模板.docx_第3页
第3页 / 共9页
2024春《大学计算机》课程报告——模板.docx_第4页
第4页 / 共9页
2024春《大学计算机》课程报告——模板.docx_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《2024春《大学计算机》课程报告——模板.docx》由会员分享,可在线阅读,更多相关《2024春《大学计算机》课程报告——模板.docx(9页珍藏版)》请在三一办公上搜索。

1、十阂儿也入学(华东)CHINAUNIVERSITYOFPETRO1.EUM20232024学年第2学期大学计算机课程报告选题名称XXXXXXXX数据处理分析小组成员学号姓名任务分工备注2001010101代:2001010101李四2001010101王五评价指标教师评分1)文档:结构完整,有条理;格式规范,排版好;语言通顺,错误少(20%)2)数据获取与清洗:过程清晰,方法得当,描述清楚准确(30%)3)数据处理、数据可视化:图表选择合理,方法恰当,描述清晰;界面美观、效果好;数据处理方法科学有效,描述完整、清晰(30%)4)数据分析:分析合理,逻辑性好;结论、观点有说服力(20%)教师评语

2、教师签名:2024年4月30日1 .本课程要求学生把自己或小组实现的实验结果展示出来,重点描述对某个领域数据进行获取、分析、可视化的方法和过程,形成分析结果和结论。因此,课程报告主要包括任务要求、数据获取、分析、可视化展示等数据处理过程的内容。2 .课程结束后,需要提交课程报告(Word文档电子版)、相应数据文件和程序源代码。未提交相关资料者不能参加成绩评定。3 .课程报告要求参考本报告模板撰写,可根据具体情况适当调整,但文档结构要完整、格式排版美观、条理清晰、论述准确。4 .文档撰写不符合要求,或者抄袭他人作品,记零分.报告需保留该模板的首页和本页内容,首页中的“成员”部分(包括任务分工)需

3、要学生自己填写,并改为正常字体。评分、评语由教师填写。提交报告时,请删除这段文字。XXXXXXXX数据处理分析一、任务描述(根据自己选择的网站,进行的数据处理分析等,对自己工作进行任务描述)使用python编写程序处理数据信息。使用Python编写爬虫程序获取最好大学网站近几年大学信息,内容包括最好大学排名、省市、评分等内容,并将获取数据保存到CSV文件或excel文件中,使用PythOn对数据清洗及处理,使用Python对统计分析结果进行可视化,包括,近几年前十名大学变化情况动画、大学排名条形图、各省份大学数量排名柱状图、各省份大学占比饼状图等等二、数据获取与处理(描述清楚数据来源,使用工具

4、,操作步骤,程序结果)1、数据描述数据来源:最好大学网站页面数据获取:最好大学网站的信息(学校排名、省份、评分)并将获这些信息(学校排名、省份、评分)写入CSV或excel表格。2、使用工具Python是一种功能丰富的语言,它拥有一个强大的基本类库和数量众多的第三方扩展。本次报告,使用到的库有(需要列出代码中需要的所有的库):3、数据获取步骤(需展开详细说明)第一步:从网页上获取HTM1.内容(要有网页截图)。第二步:分析网页内容并提取有用数据(要有网页源代码截图,详细说明数据提取的依据和方法,即如何提取数据)第三步:将获得的数据写入EXCel文件(使用什么库和方法4、数据处理(使用什么库和方

5、法)5、程序代码(代码执行结果与源程序需符合命名要求,并截图)获取数据及输出前20位学校进行验证的代码如下(以2019年为例)文件夹名称:2020大学计算机报告文件名称:学号姓名1)数据爬取与解析代码及运行结果截图SMEtRxmMRunOpciomWindowFWlp#我的击面importrequests,!)mbs4;niportBeautifuISoupEPOItpandasaspd#梅造分页数字列表PagejndeXS=range(0,250,25)Iist(PageJndexs)defdownbdd.aii.mmM:下载所有列表页面的HTM1.用于后幽分析J-PjfthOrt342SM

6、*-(fileE=RESTART:D2020+MtlUg三1900012010郭大保Py=Squeezedtert(30tneI_数据保存成功r=requests.get(url.headers=,T1(HH.4U7261.八ParSjSInglejnmKmmI):f1.statuscode!=200:raiseExceptionCerror)htmlsppend(r.tet)returnhtmls解析单个HTM1.得到数据returnlist(link*,title,(label)soup=BeautifulSoup(html,html.parser)article-items=(soup.

7、find(,.find。山CC.finda(dv,class=tem,)datas=11forarticle-itemarticle-items:图1爬虫程序及运行结果2)将获得全部大学信息存储到EXCel表格中,代码如下,defWriteUIistfiIe(Ulist):withopen(,W,newline=)asfout:writer=csv.writer(fout)columns=(三Twriter.writerow(columns)forrowinulist:writer.writerow(row)3)数据保存到EXcel文件,EXCel文件截图如图2所示:data(O),J1900

8、012010邨大镜resuh次日明2020/5/259222020/5/249:509tSi林PythonFile4KBMicrosoftExceli.10KH。result-ExcelIejesn9!作说明我案等线11XzAA|二力铝VB/U-A-=的贴板Iil字体Id对齐方式R9tft,%,一*ws式袤融一痴式,:文件BSMiA绘图频布周公式KIS审阅蜩家世国国盟度本国罗KR西尼大西耳国班拿朗特大国兰。国全中美欧印日馆俄法英巴印意S土韩西加伊沙澳泰波212345678910111213m151617181920212223242洲洲洲洲洲洲洲洲洲洲洲洲洲洲洲洲洲洲洋洲洲”亚美亚亚欧欧欧欧美

9、亚欧美欧亚欧美亚亚大亚欧4Al-XA排名年份GNP20181282万亿(128204.523.455,537)20182133万亿(21.334.175.836.880)20182084万亿(20.837.347.000.000)20181985万亿(19.845.251.184.454)2018897万亿(8966.425,298,182)20185.44万亿(5.441.912.207.702)2018464万亿(4.641.067.663,123)2018409万亿(4.088.434.216,693)20183.18万亿(3.180,957,643,991)20183.07万亿(3.0

10、72.868.018,494)2018304万亿(3.043.389.014,136)2018302万亿(3.020.689.099.830)20182.61万亿(2.614.057.252.003)20182.51万亿(Z507.773.305,576)20182.28万亿(2280.970.730,469)2018205万亿(2.045.413.635.095)201819万亿(1.898,750.653.984)2018183万亿(1.831.814016.986)201717万亿(1.698.218.039.343)2018166万亿(1.657.940.355.932)20181.2

11、4万亿(1235210.799,693)20181.23万亿(1225.550.606,884)20181(1154.948,085,917)图2大学数据的excel文件截图4)数据处理代码及运行结果截图(如图1所示)三、数据的可视化展示与分析(详细描述清楚你的数据可视化的工作及分析结果,包含程序实现、运行结果,得出分析结论)1、数据可视化工具python是一种功能丰富的语言,它拥有一个强大的基本类库和数量众多的第三方扩展。报告中使用XX库和XX库实现数据可视化。(详细列出import的库,如果只有个,就写个)2、先用python对大学排名进行可视化处理如图3(取前十名)(过多会出现名字重叠)

12、代码部分(源程序及运行结果图)HeEdrtFormatRunOptomWndowHelpimportnumpy.r.npmportpandasaspdimportmatplotlib.pyplotpitlmo11matplotlibFEd4ShdlDebugOptiomW=;RESTART:D:2020大学计算机报告1900012010郭大侠.py=三三三matplotlib.rcParams(font.family,J三,SimHei*matplotlib.rcParms,font.size*=20喻制垂直柱状底Ir三-mtet1y=memsk7W由于数据太多,只列了前几个plt.bar(x

13、ry,color=b*)pltjclabel(*title)plt.ylabe.,)plttitle(IW)plt.show()Soiledtext(306brwsI丽保8成加my=df.cor11P三三WfwWj分析性结论:*Q三IB图3排名前十位大学及对应分数3、统计各省份大学数量,各省大学数量及对比绘制柱状图,如图4所示代码部分(如图3)图4各省份大学数量及对比柱状图分析性结论:4、对各省份大学数量占比绘制饼状图,如图5所示代码部分(如图3)分析性结论:5、用Python将各大学所在省份数据处理成词云,代码如下,结果如图6代码部分(如图3)图6大学所在省份词云分析性结论:四、数据获取、处

14、理、可视化完整代码(此处粘贴代码,不要截图)importrequestsfrombs4importBeautifulSoupimportpandasaspd五、遇到的问题与解决方法问题1:爬取时的问题原因分析:找到最好大学网站,网站上仅有20152019年数据。于是编写代码爬取2015年数据如图7。但错误如图8importrequestsimportpandasaspdfrombs4importBeautifulSoupurl,httpm.zuiha6eautifulSoup(r.tet,*html.parser)trssoup.find-all(*tr*)fortrintrs:tds三tr.

15、findall(*td*)ITer11tsT550continuefortdintds:oneUniv.append(td.string)allUniv.append(oneUniv)Print(Yj4:人10:人5:八8,00H”排名,”学校,“省市“总分”)foriinrange(1/2):uallUiv(iprint(:A4:A10:A5z8)h.format(u(,ulju2,eval(u3)图7In2:runfile(:/1807060203十通量/爬取2015数据.py,wdir=C:180760203S)排名学校省市总分Traceback(mostrecentcalllast):

16、File8i4cd6e26.:,line:,inrunfile(C:/1807060203于流童/肥取2015数据.py,Wdir=C:/1807060203于涕童,)FileC:XUsersXAdeinistratorAnacorja3libsite-packagesspyder-kernelscustoizeXspydercustofliize.py,line786,inrunfileexecfile(filena*e,namespace)FileC:U$ersAdini5tratorAnaconda3libsite-peckage5spyder_kernelscu5toeizeXspyd

17、ercustowize.y,line110,ineecfileexec(compile(f.read(),filename,exec),namespace)File-C:/1807060203于流童/肥取2015数据.py”,line28,in=allUniviIndexError:listindexoutofrange解决方法:询问同学后,得知老师在群里解答过类似问题,于是找出群里问题与自己问题进行比较,发现群里同学出现的错误自己并没有出现,如图13中红框所示。又在同学建议下查看各种格式错误,仍然没有发现问题。后来,偶然间将年份改成2019,竟爬取出了数据。于是又将年份分别改成16.17.1

18、8年,其中2016.2018也可以爬出,但2017年又出现了不同方式的报错,如图9In1:runfile(U1807060203于潇童/爬取2017数据.py,Wdir=C:/1807060203于潇童)排名学校省市总分Traceback(mostrecentcalllast):File1,line1,inrunfile(C:/1807060203于潇童/爬取2017数据.py,wdir=C:/1807060203于潇童,)FileC:UsersAdministratorAnaconda3libsite-package5spyder_kernel5custoiiiizespydercustom

19、ize.py,line786,inrunfileexecfile(filename,namespace)FileC:User5AdministratorAnaconda3libsite-package5spyder_kernelscu5toiiiizeXspydercustofTi.e.py,line110,ineecfileexec(compile(f.read(),filename,exec),namespace)FileC:/1807060203于流童/旭取2017数据.py,line29,inprint(z4:a10z5:A8.format(u0,ul,u2,eval(u3)TypeE

20、rror:unsupportedformatstringpassedtoNoneType._format_询问老师后得知,可能是u0ul.u中有不存在的,且单独输出某一行后发现第一列元素显示None,于是将u0ul.u2改成ul.u2.u3,最终运行成功。(但15年数据仍未爬取成功)问题2:问题3:问题4:六、学习总结与反思(需与课程相关内容总结、反思和建议,避免空泛)张三:李四:王五:附件:(此处附上你认为的你的工作需要说明的部分,没有特殊说明的,可以没有)遇到的问题及查找方法截屏:Filepandas/_libs/parsers.pyx,line1553,inpandas._libs.parsers._string_box_utf8UnicodeDecodeError:,utf-8,codeccan,tdecodebyte0xc7inposition0:invalidcontinuationbyte的为itt”(C:)1807060203T三三UW*1B070602037三Q件央O.国ft俊己巧欣Nta四ifiW1.e,Q8B34三BX.17O6O2O3J;MObhFSpr09lQQwenjien-U-(E:)V文msg:pMBpM二F三(T:文本MK.txt)八f件央W():UTF-yWF(三)期用IMfttMM*

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号