《学位论文学术不端行为检测系统.ppt》由会员分享,可在线阅读,更多相关《学位论文学术不端行为检测系统.ppt(106页珍藏版)》请在三一办公上搜索。
1、学位论文学术不端行为检测系统介绍与演示,同方知网(北京)技术有限公司科研诚信管理系统研究中心2023/6/19,大 纲,引入学术不端行为检测的必要性与紧迫性实施学术不端检测的可行性:原理与方法介绍TMLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统服务模式介绍下一步工作计划,大 纲,引入学术不端行为检测的必要性与紧迫性实施学术不端检测的可行性:原理与方法介绍TMLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统服务模式介绍下一步工作计划,政策的必要性,引入学术不端检测的必要性,培养良好的科研诚信对于研究生的一生至关重要如果不能从研究生培养环节遏制学术不
2、端行为,带有不端治学态度的研究生毕业后,不断涌入各级研究机构,不端行为就将形成“长江之水,滔滔不绝”,就不能从根本上扭转不端行为不断恶化的事态。,大 纲,引入学术不端行为检测的必要性与紧迫性实施学术不端检测的可行性:原理与方法介绍TMLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统服务模式介绍下一步工作计划,可行性分析,资源可行性以中国学术文献网络出版总库为比对资源总库收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。拥有学术期刊7000余种,期刊全文文献2480万篇,72万篇优秀硕士学位论文,9.6万篇博士
3、学位论文;重要会议论文106万篇;报纸500多万篇;国家标准、专利、SPRINGER数据库,可行性分析(2),技术可行性CNKI自适应多阶指纹分析技术(AMLFP)TPI文本数据库加工技术KBase全文数据库管理系统SmartTextMiner知识挖掘技术NLPE中文自然语言处理技术,CNKI自适应多阶指纹分析技术()工作原理,海量比对资源库,检测文献,基于AMLFP的文献快速比对,检测结果,工作原理(2),待检测文档,支持段落、句子检测,支持超长文章:学位论文、图书专著检测。支持改写、组合等多种类型学术不端行为检测,指纹XXX-YYY-CCC-DDDD-KKK-FFFF,CNKI自适应多阶指
4、纹()特征检测速度快,准确率,召回率较高,抗干扰性强在千万量级全文比对数据中,单篇文献检测速度达到毫秒级响应,检测系统框架,文章特征库,待检测论文,重复内容,文章比对库期刊会议学位论文专利报纸图书工具书,注册文章,抄袭,伪造篡改,专家复合审查,事实数据库学者规范数据科研规范机构科研成果引文统计,Yes,No,检测指标设计,设计原则针对学位论文是超长文献的特殊性,设计了一套总指标与子指标相结合的检测评估体系。总检测指标学位论文一般篇幅较长,检测系统会自动按章节切分(无章节信息则按字数切分)。总检测指标指对论文全貌的检测描述。子检测指标对于学位论文每一章节,检测系统对每一章节均生成一套指标系数。详
5、细描述每一章节的检测情况。,总检测指标,总重合字数(CCA)总文字复制比(TTR)总文字数(TCA)疑似章节数(QCA)总章节数(TCA)首部重合文字数(HCCA)尾部重合文字数(ECCA)段落最大重复字数(MAXA)段落最小重复字数(MINA),总重合字数,学位论文一般篇幅大,少则35万字,多则十几万字,若以文字复制比来衡量一篇论文的文字重合情况,不太合适。因为对于一篇十几万字的博士论文来说,10%就已达到1万字,文字复制情况已经非常严重。对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。,总文字复制比、总文字数,总文字复制比总文字复制比则是指学位论文中总的重合字数
6、在总的论文字数中所占的比例。通过该指标,我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。总文字数指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。,疑似章节数、总章节数,疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。总章节数则是指学位论文总的章节数(对于不按章节显示,而是按照固定长度切分的论文,每一切分段落为一章节)。,首部重合文字数、尾部重合文字数,首部重合文字数指学位论文前1万字中重合的文字数量。尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。对于学位论文,一般开头部分均是综述性的报告介绍,其重要性远低于论文尾部。,段落最大重复字数、段落
7、最小重复字数,论文所有段落中,每一段落最大的段文字数比较,最大的为段落最大重复字数论文所有段落中,每一段落最大的段文字数比较,最小的为段落最小重复字数反应每一切分段落是否都有较严重的文字复制情况。,子检测指标,文字复制比(TR)重合字数(CNW)最大段长(LPL)平均段长(APL)段落数(PN)段文字比(PR)首部复制比(HR)尾部复制比(ER),文字复制比(TR),文字复制比是指论文的每一章节与比对文献重合文字在该章节中所占的比例。比例越高,反映该章节越多的文字来自于其他已发表文献。,文字复制比(TR),反映该章节“抄袭”总文字数量比例。一般来说,文字复制比越高,存在学术不端行为的可能性越大
8、。,重合字数(CNW),论文每一章节与比对文献重合的总字数。不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大。,最大段长(LPL),论文每一章节中,当连续文字超过一定比例时,称之为段,与比对文献重合的最大段长度即为最大段长。反映成段抄袭特征。一般连续200以上文字为抄袭段。连续的文字越长,抄袭的可能性越大。,平均段长(APL),论文每一章节中,所有段的长度的平均值即为平均段长。,段落数(PN),每一章节中,所有段的数量为段落数。平均段长和段落数反映了重合文字在文献中的分布情况,一般来说,指标参数越高,存在学术不端行为的可能性越大。,段文字比(PR),所有段的字数之和在论文每一章节
9、中的比例为段文字比。反映抄袭连续特征。一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不端行为。,首部复制比(HR),论文每一章节的前20称之为首部,首部的文字复制比为首部复制比。就中文文献来说,一般每一章节开头部分出现的是综述性语言。就重要性来说,相对偏低。,尾部复制比(ER),论文每一章节的后80称之为尾部,尾部的文字复制比为尾部复制比。就重要性来说,比前部文字要高。,子检测指标(续),我们仔细查阅比较上面两部分内容,首部文献是综述他人工作,而尾部则是阐述自己的研究工作的目的和意义,这部分应是作者个人工作的体现,在这部分直接抄袭他文,性质要严重得多。,检测类型划分与检测实例
10、分析,三种主要学术不端类型抄袭篡改伪造,抄袭,按文字复制比例分,轻度句子抄袭,句子抄袭,轻度段落抄袭,段落抄袭,整体抄袭,抄袭(续),按来源分单源重合文字全部来自于一篇文献多源重合文字来源于两篇及以上文献,重合文字来源列表,篡改(1),篡改指:按照期望值随意篡改或取舍数据,以符合自己的研究结论,一般有主观取舍数据和篡改原始数据等形式。,篡改(2),篡改(3),通过以上检索,我们有理由对检测文献中的分词准确率产生怀疑。,类型及实例(续),学位论文的定性比期刊要复杂作者以前发表的文献复制同一导师的学生论文引用共同的工作前人工作的综述,类型及实例(续),学位论文的前面一至两章一般综述前人工作、介绍原
11、理及方法。各项指标偏高,也在合理范围之内。每章小结部分又应是个人心得,若抄袭,则又较前面抄袭要严重。博士论文至少应有两章(核心章节)指标较低,我们认为低于20%为低指标。硕士论文至少应有一章(核心章节)指标较低,我们认为低于20%为低指标。,大 纲,引入学术不端行为检测的必要性与紧迫性实施学术不端检测的可行性:原理与方法介绍TMLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统服务模式介绍下一步工作计划,系统功能定位,辅助人的工作,提供一台高性能“仪器”,生成一套检测指标,为审查人员判断学位论文的性质提供相关依据和线索。,系统工作流程示意图,系统主要功能,已发表论文检测论文
12、检测问题库查询自建比对库管理其他功能,已发表论文检测,各单位注册用户可在权限范围内查看本学校已毕业且被CNKI收录学位论文的检测结果。,重合文字来源文献列表,原版比对,论文检测(1),用户上传待检测学位论文,系统自动处理各种文档格式以及压缩文件。,选择文件夹,上传论文,系统检测,浏览检测结果,查看原版比对,生成报告单,放入问题库,放入个人比对库,论文提交(1),多手段论文提交方式单篇论文在线提交;手工录入方式,可以在线录入一段文字进行检测;批量论文处理,可以将需要检测的多篇论文压缩为一个zip格式或rar格式的压缩文件,系统将自动处理压缩文件,自动检测。,论文提交(2),多格式文档提交方式,支
13、持以下格式文件处理:MS WORDPDFTXTCAJKDHNH,比对系数设置,丰富的比对资源期刊论文、博硕士学位论文、会议论文、报纸、专利等可以任意选择一种或多种比对资源比对。便捷的比对时间选择,用户可随意控制比对文献的时间范围。便捷的比对专业选择,用户可以任意选择比对文献的专业范围。,完全自主的控制模式,自己创建文件夹,便于管理与记忆用户提交的所有文献,用户拥有完全的处置权利,可以随时进行删除。不仅可以删除某一篇文献,还可以删除整个文件夹。,直观的检测结果显示,显示检测结果中的文字复制字数、比例显示总的复制字数、比例显示每一章节的复制比例采用通用预警标识显示文字复制严重程度,越严重,论文检测
14、(2),文本复制检测报告单整体报告单章节检测报告单,整体报告单,整体报告单包括:整体检测指标信息每一章节的检测指标信息每一章节的检测结果主要重合文字索引整体报告单是在各章节终审报告单的基础上生成的。,上传论文信息,整体检测结果信息,各章或各段检测结果信息,章节报告单,检测论文篇名、作者、字数等信息重合文字来源文献的篇名、作者、发表时间、发表刊物、字数等信息重合比例、重合文字索引(即每段重合文字开始的前20字符)等信息用户可自己添加类型和审查意见,问题库查询(1),将确认有问题的论文放入问题库,问题库是档案库。已发表论文中的问题论文也可以放入问题库。便于集中管理确认有问题的论文,提供快速检索功能
15、。,问题库查询(2),检测论文问题库,已发表论文问题库,自建比对库管理,用户可以将个人文献或文献库上传到服务器,或者把某篇检测论文放入到个人比对库。以后上传的论文,用户可以选择与个人比对库中的文献进行比对。该个人库完全属于用户个人,其他用户无权使用。,其他功能-引文核对,在“其他”项,我们将陆续提供其他各类实用功能。引文核对迅速确定参考文献各项信息是否属实。比较参考文献与比对库中的作者信息、刊物信息等,链接到知网节,其他功能-两两比对,两两比对快速确定两篇文献的相同之处。快速确定两篇文献的不同之处。,选择文献上传,不同之处,大 纲,引入学术不端行为检测的必要性与紧迫性实施学术不端检测的可行性:
16、原理与方法介绍TMLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统服务模式介绍下一步工作计划,应用推广情况,正式推出,分别面向期刊编辑部和研究生院陆续举办了四期培训班,参会总人数达到了1000余人,截止目前,实际用户已达2000余家单位,其中编辑部1800家,研究生院220家。,西安交通大学,华中科技大学,高校用户,期刊编辑部用户,用户使用情况,科技期刊检测系统已检测10多万篇科技文献,文字复制比超过30%超过1万篇;学位论文检测系统3月12号正式使用以来,已检测近5000篇学位论文,重合字数超过1万字的论文约有1000篇。,用户主要反馈意见,账号管理问题账号分级制度:学
17、位办有管理员权限,可以根据需要设置一定数量的子账号,可以监督所有子账号的行为,并对检测结果进行统计分析。账号绑定制度:每个子账号检测权限下放到院系或导师,实施自纠自查,自我管理。对账号实行严格权限认证,如用户口令+IP绑定,防止滥用。涉密论文或涉密单位论文的检测安全问题,用户主要反馈意见(2),集成到学校信息管理系统,在严格身份认证的前提下,各院系导师甚至学生可以预检或自我检测。大批量学位论文集中检测效率问题上传速度问题,能否为学校提供大批量数据处理接口,直接返回统计数据,类似于已发表文献检测功能。检测速度问题,大 纲,引入学术不端检测的必要性与紧迫性实施学术不端检测的可行性:原理与方法介绍T
18、MLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统三种服务模式介绍下一步工作计划,三种服务模式,学位论文学术不端行为检测系统学位论文学术不端行为检测系统(VIP版)学位论文学术不端行为检测系统(镜像版),包库使用模式,学位论文学术不端行为检测系统包含所有主要功能,但上传文件大小、数量受限免费使用一年学位论文学术不端行为检测系统(VIP版)增加账号分级管理和多策略身份认证功能上传文件大小数量不受限制提供增值服务:按学科专业定期出检测统计分析报告给学位办支持与学校信息管理系统集成:根据实际情况单独计费享受更好的服务优点:前期投入小,零维护工作量,镜像服务模式,学位论文学术不端
19、行为检测系统(镜像版)包括所有包库版功能,比对数据放在本地并提供定期更新。可以集成本地各种中外文资源,扩大检测范围可以方便的与学校各种信息管理业务系统集成优点:效率高,安全性高,大 纲,引入学术不端检测的必要性与紧迫性实施学术不端检测的可行性:原理与方法介绍TMLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统服务模式介绍下一步工作计划,下一步计划,扩大检测范围,逐步将英文文献、互联网资源纳入检测系统英文文献检测技术已经完成扩大使用范围,在保证安全的前提下使广大师生能够进行自检自测,促进其写作技巧和独立评价思考能力研发或集成可靠的身份认证技术技术攻关计划中英文文献对照检测技术公式、图表等知识元抄袭检测伪造、篡改等不端行为检测,敬请各位老师多提宝贵意见!,