数学建模互联网用户识别.docx

上传人:牧羊曲112 文档编号:1668923 上传时间:2022-12-13 格式:DOCX 页数:13 大小:124.29KB
返回 下载 相关 举报
数学建模互联网用户识别.docx_第1页
第1页 / 共13页
数学建模互联网用户识别.docx_第2页
第2页 / 共13页
数学建模互联网用户识别.docx_第3页
第3页 / 共13页
数学建模互联网用户识别.docx_第4页
第4页 / 共13页
数学建模互联网用户识别.docx_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《数学建模互联网用户识别.docx》由会员分享,可在线阅读,更多相关《数学建模互联网用户识别.docx(13页珍藏版)》请在三一办公上搜索。

1、互联网论坛用户识别中国互联网发展经历了10年的快速增长期,已经形成较为成熟的应用。现在的互联网正从信息单向推送模式向互动模式转型,互联网论坛已经成为互联网企业与用户、用户与用户之间重要的互动平台。在这样的互动氛围中衍生出了很多商业机会和运营难题。比如,企业如何通过论坛发掘出有商业价值的用户?互联网公司如何通过激励用户来维持论坛热度?回答这些问题和解决运营难题的首要条件是,企业能够对论坛内的用户进行有效识别。这些识别需要达到如下四个结果:1、言论领袖:发现论坛言论领袖,即最具影响力的论坛人物。2、话题用户:精确定位关注某一特定话题的用户3、活跃用户:识别论坛活跃用户。4、关系圈:发掘论坛人际关系

2、圈。研究建议:1. 言论领袖的发现可以从其所发帖子的跟帖数量、精华贴数、置顶时间、发帖总数等变量切入,并进行综合评价。2. 话题用户的定位可从其主要跟帖主题、谈论内容判断。不需要完全准确,大概识别出范围即可。例如,论坛中对游戏话题非常关注的用户。3. 活跃用户可从登录频率、参与话题数量等方面综合评价。4. 关系圈可从帖子关联关系等方面综合评价。5. 建模所用数据以你能在这些论坛上注册后能看到的所有内容为准,不限于文字、数字、符号。例如,发帖时间、主帖跟帖数量(主帖楼高)、用户登录频率、用户最后登录时间、发帖积分、帖子关键字。因为,你能看到的内容就是爬虫机器人可获取的内容,在技术上以可完全实现,

3、并进入到结构化数据库进行数据挖掘。研究对象包括但不限于如下论坛:1、2、3、4、最后成果请提炼形成通用模型,并针对言论领导、话题用户、活跃用户、关系圈四个要求提出实例说明。例如,在论坛上关注游戏话题的话题用户的识别,在论坛上的活跃用户等。考虑到各个论坛结构和内容上的差异,通用模型使用的变量应尽量考虑各论坛间的通用性,定量和定性结合为佳,通用模型配合文字或使用方法论说明为佳。本题要说明识别所用数据获取途径或方法,包括数据挖掘技术以及程序代码。第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛题目: 互联网论坛用户识别 【摘 要】中国互联网发展经历了10年的快速增长期,已经形成了较成熟的应用。现在

4、互联网论坛已经成为企业与用户、用户与用户之间的重要互动平台。企业如何去发掘其中的商业价值和解决运营难题关键在于企业能够对论坛内的用户进行有效识别。本文给出如何运用火车采集器采集对论坛用户信息进行采集,并进行挖掘处理,然后运用层次分析法进行建模,将数据进行优选,并提炼出通用模型,解决如何找出言论领袖、话题用户、活跃用户及关系圈的问题。模型的优点在于能系统地获取数据,挖掘数据以及处理数据,并考虑到各论坛间的通用性。通过模型,互联网企业能够对论坛内的用户进行有效识别,从而解决运营难题以及抓住其中的商业机会。一、问题的背景随着科学技术的发展,互联网的使用开始普及化,网络论坛也越来越多,论坛中用户的人数

5、也随之增加。现在互联网论坛已经成为企业与用户、用户与用户之间的重要互动平台。互联网企业为了全面的掌握市场信息,解决运营难题,互联网公司需要对论坛中的用户信息进行分析与处理,对用户进行有效的识别,进而有效的挖掘用户的商业价值,提高用户在论坛中的活跃性,从而提高论坛热度,促进商业效应。二、问题的提出论坛中在企业与用户、用户与用户的互动氛围中衍生出了很多商业机会和运营难题。比如,企业如何通过论坛发掘出有商业价值的用户?互联网公司如何通过激励用户来维持论坛热度?回答这些问题和解决运营难题的首要条件是,企业能够对论坛内的用户进行有效识别。这些识别需要达到如下四个结果:1、言论领袖:发现论坛言论领袖,即最

6、具影响力的论坛人物。2、话题用户:精确定位关注某一特定话题的用户3、活跃用户:识别论坛活跃用户。4、关系圈:发掘论坛人际关系圈。由于影响四种结果都不相同,所以将四种结果分开进行识别。我们利用层次分析的方法构建层次结构,在每种情况下进行得出排序结果进行排序选优。三、基本假设1.假设从互联网上获取的用户信息都是真实的,准确的;2.假设用户信息数据可以准确量化;3.假设量化时间以采集数据时间为准;4.假设每个论坛中的用户信息格式都为用户名、UID、性别、注册日期、上次访问时间、帖子数量、积分、跟帖数。(一)论坛领袖的识别言论领袖即最具影响力的论坛人物,影响言论领袖的因素有四个:跟帖数量、精华贴数、置

7、顶时间、发帖总数,我们根据各个因素的影响程度构造比较矩阵,形成层次结构,得出排序结果,识别论坛领袖。1.建立层次结构问题的层次结构公分三层:第一层为目标层(O):综合选优排序;第二层为准则层(C):影响因素,共有4个,依次为帖数量、精华贴数、置顶时间、发帖总数分别记为C(k=1,2,3,4);第三层为方案层(P):论坛中有N个用户,依次记为P(n=1,2,N)。2.确定准则层(C)对目标层(O)的权重W根据每个因素对评价结果的影响程度小组讨论得比较矩阵:A=式中表示发帖数C与跟帖数C对选择言论领袖这个目标的重要之比为3:1,表示发帖数C与其他因素C对选择言论领袖这个目标的重要之比为6:1,表示

8、Ci与Cj对选择言论领袖的重要之比,全部比较结果构成上式。 进行成对定性比较时参考了如下表:尺 度含 义1Bi与Bj的影响相同3Bi比Bj的影响稍强5Bi比Bj的影响强7Bi比Bj的影响明显的强9Bi比Bj的影响绝对的强2, 4, 6, 8Bi与Bj的影响之比在上述两个相邻等级之间1,1/2 , , 1/9Bi与Bj的影响之比为上面的互反数表1 1-9尺度的含义经计算求得A的最大特征值为4.0015,相应的特征向量作为归一化有,W=(2.1534,0.7177,0.3276,0.8011)则一致性指标CI0.0005,一致性指标CR0.1,于是W作为C层对O层的权重向量。3.确定方案层(P)对

9、准则层(C)的权重W每个因素都能影响论坛领袖的排序结果,于此可以分别构造P层对准则C的比较矩阵B=(b),求得B的最大特征值=0,其任一列向量都是的特征向量,将其归一化得方案层(P)对准则层(C)的权重向量,记作W=(w,w,,w)(k=1,2,3,4),即为方案层(P)对准则层(C)的权重,且一致性比率指标为CR=0。4.确定确定方案层(P)对目标层(O)的组合权重W由于C对O的权重W和P对C的权重W,则P对O的权重为W= W. W=(w,w,,w)其组合一致性比率指标为CR0.1,因此,组合权重W可作为目标决策的依据。5.综合排序由于w是参评用户P对目标O层的权重,即w就表示P在论坛中的表

10、现,按其大小排序,就可以得到决策方案。话题用户识别模型的建立利用上面相同的方法,对于话题用户我们对相同主题或者版块下的用户进行数据采集,采集用户在相关主题或版块的发帖数和跟帖数(相同时间段),建立层次模型。1.同样对每个话题下的用户建立层次结构:问题的层次结构公分三层:第一层为目标层(O):综合选优排序;第二层为准则层(C):影响因素,共有2个,依次为发帖数和跟帖数,分别记为C(k=1,2,);第三层为方案层(P):参评话题下有N个用户,依次记为P(n=1,2,N)。根据选优问题的实际,2.确定准则层(C)对目标层(O)的权重W根据每个因素对评价结果的影响程度小组讨论得比较矩阵:A=经计算求得

11、A的最大特征值为2.175,相应的特征向量作为归一化有,W=(0.5950.277)则一致性指标CI0.005,一致性指标CR0.1,于是W作为C层对O层的权重向量。3.确定方案层(P)对准则层(C)的权重W每个因素都能影响论坛领袖的排序结果,于此可以分别构造P层对准则C的比较矩阵B=(b),求得B的最大特征值=0,其任一列向量都是的特征向量,将其归一化得方案层(P)对准则层(C)的权重向量,记作W=(w,w,,w)(k=1,2),即为方案层(P)对准则层(C)的权重,且一致性比率指标为CR=0。4.确定确定方案层(P)对目标层(O)的组合权重W由于C对O的权重W和P对C的权重W,则P对O的权

12、重为W= W. W=(w,w,,w)其组合一致性比率指标为CR0.1,因此,组合权重W可作为目标决策的依据。5.综合排序由于w是参评用户P对目标O层的权重,即w就表示P在论坛中的表现,按其大小排序,就可以得到决策方案。(三)活跃用户识别模型的建立对于活跃用户我们只需对用户的登录频率、参与话题数量及其在论坛中的积分进行整理的出结果,进行排序选优。对于该模型的建立我们同样采取层次分析的方法。1.建立层次结构 问题的层次结构公分三层:第一层为目标层(O):综合选优排序;第二层为准则层(C):影响因素,共有3个,依次为登录频率、参与话题数量、积分分别记为C(k=1,2,3);第三层为方案层(P):论坛

13、中有N个用户,依次记为P(n=1,2,N)。2.确定准则层(C)对目标层(O)的权重W根据每个因素对评价结果的影响程度小组讨论得比较矩阵:A=经计算求得A的最大特征值为3.009,相应的特征向量作为归一化有,W=(0.633,0.193,0.175)则一致性指标CI0.005,一致性指标CR0.1,于是W作为C层对O层的权重向量。3.确定方案层(P)对准则层(C)的权重W每个因素都能影响论坛领袖的排序结果,于此可以分别构造P层对准则C的比较矩阵B=(b),求得B的最大特征值=0,其任一列向量都是的特征向量,将其归一化得方案层(P)对准则层(C)的权重向量,记作W=(w,w,,w)(k=1,2,

14、3),即为方案层(P)对准则层(C)的权重,且一致性比率指标为CR=0。4.确定确定方案层(P)对目标层(O)的组合权重W由于C对O的权重W和P对C的权重W,则P对O的权重为W= W. W=(w,w,,w)其组合一致性比率指标为CR0.1,因此,组合权重W可作为目标决策的依据。5.综合排序由于w是参评用户P对目标O层的权重,即w就表示P在论坛中的表现,按其大小排序,就可以得到决策方案。(四)关系圈确立的模型建立对于关系圈的确立比较复杂,我们从好友列表的角度来建立关系圈,由于我们没有掌握从每个分页下采集好友信息的方法,我们建立了一个简单的关系圈识别模型,假设对每个用户进行查找都可直接显示他的好友

15、信息,模型建立如下:1.我们设对A用户进行调查,研究其关系圈情况,通过好友信息了解其好友有N个,分别记为a,a,a。2.然后分别对其每个好友进行调查,若好友中的好友列表同样有用户A,则好友a(n=1,2,,n)与用户关系。3.重复此操作设找到M个用户与用户A建立了关系,则用户A的关系圈为这M个用户。4.重复以上操作对每个用户进行查找,则得到该论坛的关系网。参考数据及截图如下:利用火车采集器采集数据如下:用户名UID性别注册日期上次访问帖子积分shenli8366441男2005-6-302010-1-25 21:135234361208还是那个酸闹闹377281女2007-4-122010-5

16、-6 09:446849360595扒鸡810921208097女2006-5-312010-5-6 08:285793860314outYour15758132010-2-32010-5-5 09:165799458950好味道1930112006-5-12010-3-10 11:214845758440黑色诱力13057582009-7-242010-5-6 12:5315224854458nina170410130912008-12-12010-5-6 13:0911696553470小教授VIVI24720女2004-10-112010-5-4 21:224447450406樱桃树18

17、3247女2006-4-192009-9-8 10:504687849982小强3699966742005-11-32010-4-27 08:594378148311betray273445女2006-10-152010-5-5 21:344033548298小妞月月12696982009-7-32010-5-6 12:4914193745777vainglory1962女2004-5-242010-5-6 11:084170743691kentwu536男2004-5-32010-5-5 00:593628743210皮皮潴131631男2006-1-242010-5-6 09:343631

18、142103猫妖30922女2004-11-212010-5-1 16:303957842045时尚达人小美14294482009-10-132009-11-19 15:204203840756招财小老鼠895296女2008-7-302010-5-6 11:2212336038978妙喵淼13768652009-9-62010-5-6 12:3512454037924小丸子粉丝团14234472009-10-92010-5-6 11:4013299437881evaeva_52089945女2005-10-112010-5-5 17:183346037363深谙潮涌13240652009-8

19、-52010-5-6 12:0513121136791哎呀呀203458女2006-5-242010-5-6 07:443292236293若雪94543女2005-10-272010-4-27 10:003473436153一梦四年2437712006-7-202009-9-9 12:313019835843无忧罗汉14251832009-10-102010-5-6 13:0811065035085zwsbjh1007484男2008-11-262010-4-2 16:133413035043小CUTIE14685302009-11-112010-5-6 12:5312017035035坚强

20、的猪头479697女2007-6-22010-5-5 21:373466535019黑夜瞳1229111802女2005-12-142010-5-6 08:403192034967模范棒棒糖683309女2007-11-242010-5-5 19:093624034894pinkqq510322女2007-8-32010-5-6 10:093393433655NewBee。14643372009-11-82010-5-6 08:5612686633260wo超喜欢14245302009-10-92010-5-6 13:0710410233143狐狸精精166223女2006-3-302010-

21、5-5 16:183245232917美达270068279607女2006-10-282010-5-6 10:543357432602螃蟹25602女2004-10-192010-5-5 16:172917332091苏苏米501688女2007-7-172010-5-6 10:233895631675笑面妹妹985722005-11-92010-5-5 13:332679631513风起蝶舞1016412女2008-12-42010-5-6 13:129920331501symantec1231143253男2009-4-22010-5-5 19:042806731395angel_waw

22、a47231女2005-3-42010-5-5 23:002655930551可爱布丁170372女2006-4-42010-5-5 17:484957430486贾清纯37483女2005-1-32010-1-24 12:262518330455球球的princess191546女2006-4-292010-5-2 00:143184630142喜欢酒精563288男2007-9-122010-5-5 17:182822930117heroin_hades1465187女2009-11-82010-5-6 09:142781930008倪倪安10244982008-12-112010-5-6

23、 13:138944929983顾美京3570822007-3-282010-5-6 12:493376829657ceezy14670472009-11-102010-5-6 12:4111055029031拜金不是我的错13393482009-8-122010-5-6 08:357587628952FLORALEE5293女2004-6-52010-5-6 08:312861128857鲨鱼Queen14644442009-11-82010-5-6 12:2311058828341小佛搞特909652005-10-152010-5-6 07:382506828038loc1031022男2

24、008-12-172010-5-6 10:032653928000藩茄Q概念497320女2007-7-82010-5-4 18:162966427912snowwendyz67939女2005-7-82010-5-6 09:052503127649猫咪流浪91814女2005-10-192010-5-5 10:073024527512卉梓11503女2004-7-62010-5-6 11:452432427377黑色雨燕9163762008-8-222009-12-12 09:492607627226跳舞的猫165452004-8-62010-5-6 09:272637527197王语嫣78

25、82女2004-6-202010-5-5 16:592010827170hunter826875869男2005-8-92007-9-12 07:502469927036candyzzp169666女2006-4-32010-5-5 09:402352326981小亮and小面560097女2007-9-112010-5-5 09:482647026959哆啦A雯474517女2007-5-232010-5-6 09:112743426746biubiu_tao5364262007-9-42010-5-6 10:022539326711北北招人疼11775422009-4-302010-5-6

26、 09:422601426414margarenna102374女2005-11-202010-4-14 22:502442026112nana0805162822004-8-52010-5-4 23:102337226095怪兽熊宝宝3340032007-2-212010-5-6 07:532752626060小开润135049女2006-2-42010-5-5 12:352313425930agneslier86123女2005-9-232010-5-5 18:1326482257652542471722739282006-10-161970-1-1 08:002641425693水瓶米奇

27、5307432007-9-32010-4-26 08:452383325522此数据采自 论坛话题用户参考截图如下:标题版块作者回复/查看最后发表 有谁了解模式识别与智能系统吗? 南京理工大学fengxiang1989 2010-5-10 0 / 202010-5-10 22:31 by fengxiang1989 2011年考研模式识别与智能系统北航与哈工大则如何 东北大学静水liu深 2010-5-9 3 / 1002010-5-10 10:02 by hc0904 模式识别分数 河海大学cheey 2010-2-23 5 / 3532010-5-7 15:02 by abcdezhao2

28、009 南邮模式识别与智能系统就业情况如何 南京邮电大学wufei_8888 2010-5-4 2 / 1812010-5-7 13:18 by lk674372895 模式识别与智能系统是几年制? 东北大学thegodabc 2010-2-8 6 / 2592010-5-6 15:05 by afrade 模式识别与智能系统 南京邮电大学wufei_8888 2010-5-4 0 / 652010-5-4 19:51 by wufei_8888 请问天大模式识别怎么样?就业前景怎么样? 天津大学jessica3131 2010-5-1 0 / 992010-5-1 08:51 by jess

29、ica3131 东北大学模式识别与只能系统就业情况? 东北大学二月鸟2007 2010-4-30 1 / 1112010-4-30 23:42 by agzhouxiaofeng 考上模式识别相关专业的同学请进帮个忙 大连理工大学chinacoy 2010-4-17 6 / 1152010-4-21 19:30 by ying734 求天大模式识别复试内容 天津大学jessica3131 2010-4-15 3 / 1642010-4-17 23:48 by cox0830对于话题用户的识别我们的参考论坛为:考验论坛,其网址如下 (图片取自【模型的评价与分析】利用此模型可以对论坛中的用户进行简

30、单的识别,这种方法方便操作,容易得出识别结果,花费时间较少,但由于对计算机软件及数据采集技术不是很了解,我们的数据不是很全面,对用户的识别也不精确。但该模型可以推广到一切用户信息格式为用户名、UID、性别、注册日期、上次访问时间、帖子数量、积分、好友列表、登录频率、参与话题数量的论坛上去。【结语】互联网的信息量越来越大,不同论坛的内容和板式都有所不同,并且会员信息的形式也大有不同,例如论坛中用户信息形式为:用户名、UID、性别、注册日期、上次访问时间、帖子数量、积分;而论坛中则为:用户名、UID、性别、精华贴数、勋章、活跃积分等。所以相关企业应当准确掌握市场的信息,对论坛用户进行有效识别,充分利用用户的商业价值,从而提高本公司的经济效益、促进互联网事业的发展。企业可以从网络管理、信息数据挖掘与处理等方面着手。在建立该模型时,我们仅仅以会员的身份进入网页,并利用爬虫机器人(火车采集器)获取基本信息,并对其进行分析与处理,掌握的资料有限, 然而,这论坛总人数有一百多万。由于对爬虫机器人的性能的了解不多,无法全面的获取数据,对论坛内的用户进行更更加准确的识别与判断。【参考文献】1 数学建模原理与案例,冯杰,黄力伟,王勤,尹成义;2 数学建模方法及其应用,韩中庚;3 论文插图均截取自网站 2010.05.02

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号