《在线社交网络.doc》由会员分享,可在线阅读,更多相关《在线社交网络.doc(9页珍藏版)》请在三一办公上搜索。
1、 在线社交网络一、引言在实际社会生活中,每个人都有各自的人际关系。这样人与人之间存在的人际关系就共同构成了现实生活中的社交网络(Social Network),其中人是网络中的节点,人际关系是网络中的边。由于人际关系与人们生活息息相关,且对人们的工作和学习有着显著影响,因此研究和分析社交网络有着重要的意义。二、社交网络概念1967 年,哈佛大学的心理学教授Stanley Milgram 创立的六度分割理论被认为是社交网络的理论基础。按照六度分隔理论,网络上每个用户的社交圈都不断放大,最后就可构成一个大型的社交网络。然而,什么是社交网络?目前还没有统一的定义。为便于理解社交网络的概念,本文给出一
2、种供参考和商榷的描述性定义。社交网络是一个系统:其中1)系统中的主体是用户(User),用户可以公开或半公开个人信息;2)用户能创建和维护与其他用户之间的连接(或朋友)关系及个人预分享的内容信息(如日志或照片等);3)用户通过连接(或朋友)关系能浏览和评价朋友分享的信息。社交网络与传统的Web 网络最大不同之处在于:传统的Web 网络的主体是内容信息,依靠内容信息组织在一起,呈现给用户;而社交网络的主体是人,依靠人与人之间的朋友关系组织在一起。社交网络必须具备三项基本功能,即允许用户1)创建和维护朋友关系;2)上传自己预分享的内容信息;3)浏览其他用户分享的内容信息。但这三项功能在不同的社交网
3、站上的体现形式可能存在较大差异,如Facebook 只允许用户遍历三层朋友关系,而人人网则没有这个限制.近年来,社交网络吸引了很多人的参与和关注,在美国近90%的本科生加入到社交网络中,国内最大的面向大学生的在线社交网络人人网的注册用户数也超过1 亿2。表1给出了2012 年Alexa 国内外访问量前15 位的站点。从网络访问量上来看,国内的社交网站虽然不敌传统的搜索引擎网站或新闻网站,但其页面访问量也能排进前15 位;国外社交网站facebook 的访问量仅次于google,访问量排在全球前15 位的网站中,社交网络占据了优势。同样,社交网络也引起学术界的关注,比如2012 年的国际会议KD
4、D、CIKM、IMC、VLDB 上都有关于社交网络的文章,尤其是www 会议专门设立Social Networks and Web 2.0track 来讨论相关问题,另外SIGCOMM 和Eurosys 也有针对社交网络的Workshop(WOSN3和SNS4)。社交网络分类按照其功能属性,大致可以把社交网络分为如下类别:交友网络;这类社交网络是现实社交圈子的映射,其朋友关系的真实性和关系维护的便捷性吸引了大量用户的参与。这类网站国际上比较流行的有facebook、myspace 和cyworld等;国内比较流行的有renren 网和开心网。除此之外,面向商务人士的xing和linkedin、
5、婚恋交友网也属于此类网络。博客网络;博客站点提供的最基本功能是博客的发布和用户关注服务,用户之间的关注关系就形成了社交网络。博客网络一般是有向网络,即用户A 关注用户B 的博客,但用户B 未必关注用户A 的博客。近几年迅速兴起的微博客(如twitter)引发了人们对信息传播的关注。较大的博客站点有Google blogger、Microsoft live spaces、新浪博客、腾讯Qzone、LiveJournal、Twitter和Follow5等。媒体分享网络;这类网络主要用于用户发布、共享和检索媒体资源,如视频、图片或书签等。这些站点降低了信息发布的门槛,吸引大量用户参与进来。此类站点除
6、了提供资源发布和共享服务外,也提供交友服务。这些站点上的用户形成的社交网络一般也是有向网络。较大的站点有视频分享网站Youtube和优酷、图片分享网站、网络书签站点CiteULike和delicious等。即时通信网络;即时通信系统是一种实时交流工具,系统中的每个用户都有自己的联系人(或好友)列表。根据用户之间的好友关系可以构建即时通信系统中的社交网络。有代表性的即时通信系统有MSN、QQ和Skype等。 除了上述网络以外,某些BBS(如天涯社区)和协同编辑站点(如百度百科)等也增加了关注或好友功能,这些站点上的用户之间也可组成社交网络。上述站点所提供的服务之间有互补和重叠之处,如视频分享网络
7、优酷上的用户也可以指定自己的好友;Facebook 和人人网上的用户也可以发布自己的微博客,这使得我们很难在社交网络的分类上给出严格的划分。 三、社交网络历史1995 年出现的网站C 可以帮助用户保持与他人的联系,被认为是社交网络的雏形,但该网站不允许用户之间直接建立联系,而是依靠就读的学校间接地与他人建立联系。从这点上说,Classmates并不符合本文关于社交网络的定义。1997 年出现SixDegrees允许朋友之间直接建立联系,是第一个符合本文定义的社交网络。进入21世纪,随着互联网的普及,出现了一些单纯以交友为目的的社交网络,其中具有代表性的是Friendster,同时间段的其他社交
8、网络还有Cyworld、Ryze 和LinkedIn 等。2003 年出现的MySpace 提供的功能迎合了用户的需求,迅速发长为最大的社交网络。在随后几年,许多类似MySpace 的社交网络不断涌现,进入社交网络的快速发展阶段。在国内,创建于1998 年5 月的中国同学录()和Classmates类似,都是以同学数据为基础的校友录网站。2003 年开通的UUZone被认为是国内最早的社交网站。2005 年12 月,校内网(现改名人人网)在清华、北大、人大三所学校开通服务,这是国内首个实名制且具备一定影响力的社交网站,其主要用户集中在校园。2012年2 月,开心网成立并迅速在白领用户市场中获得
9、认知,其页面访问量逐渐超过人人网。QQ 无疑是国内乃至全球注册用户数最多的社交网络,作为一款风行的即时聊天工具,QQ 承载着人们的各种社会关系,这使得所有使用QQ 的用户都存在于一个大的社交网络之中。四、社交网络的主要研究问题近几年,社交网络的研究越来越多地引起学术界的关注,研究内容包括社交网络的拓扑分析、社会化推荐(social recommendation)、网络社区发现、社交网络中的信息传播等,也取得了一些成果。1、社交网络拓扑特性分析当社会网络刚开始进入研究者的视线的时候,人们希望通过了解社会网络的拓扑特性,和已知的一些网络,例如WWW, Internet 的拓扑结构进行比较。这些比较
10、主要是基于节点度分布,社交网络的网络半径、平均路径长度和聚集系数等 ,来看看社交网络的图结构和非社交网络的图结构有什么不同。有些研究希望通过这些特性分析判断某些应用的性能。例如:有些应用只有在具有很强的局部连通的社交结构的条件才能有效的工作。这就意味着,社交图必须有大量的联系紧密的簇。分析Facebook 的节点度分布,其分布符合幂律分布。为研究社交网络的网络半径、平均路径长度和聚集系数等特性,依据每个区域network 构建了社交网络图,所有区域network 的平均路径长度都小于6,网络半径或直径相对较低。聚集系数相对于同规模的随机图或随机幂律图具有较高的聚集性。Facebook 中所有n
11、etwork 的同配系数均大于0,说明度值较高的节点之间的互联的概率较大,这些度值较高的、相互连接的节点就形成了小世界网络的骨干网,这使得处于网络边缘的那些高聚集的节点与其它节点之间具有较小的平均路径长度。2、用户行为分析主要分析了用户访问社交网络过程中的行为,数据来源是用户访问社交网络的HTTP 会话过程数据。文中分析并比较了四种不同社交网络(Facebook, LinkedIn, Hi5,和StudiVZ)的用户访问行为特征。结果表明访问社交网站与其他网站存在不同之处:a)用户容易重复同一个行为;b)用户每次会话过程时间比较长;c)图片目录最受欢迎。除了研究用户访问社交网络的行为外,还研究
12、了各种行为之间转移概率。为验证社交网络拓扑特性与用户交互网络拓扑特性之间的差异,利用facebook 中的数据分别对这两种网络的拓扑特性进行统计分析,结果表明二者之间存在较大的差异,用户交互网络的网络直径显著变大。3、社会化推荐传统的推荐技术主要利用了user 对item 评价矩阵,但在社交网络中用户对某item 的评价往往极大影响其朋友的选择。综合了user 对item 评价以及user 之间的信任关系(构成Social Trust Ensemble)进行推荐,使得推荐结果更精确,并具有现实意义。研究基于协同过滤的社会化推荐问题,针对传统协同过滤法存在的两个问题:a)因计算复杂度而引起的特征
13、信息融合困难;b)各种特征信息之间的依赖关系不能有效地利用,提出了多层次的连续随机场模型,用于社会化推荐。4、社区关系挖掘网络社区发现算法有很多种,但有些算法的可扩展性较差,适合于大规模网络的却为数不多,CNM、Wakita和Louvain是三种扩展性较好算法。然而这三种算法都存在:当输入数据顺序不同时,得到的结果也不相同的问题。提出两个定量指标成员成对概率(pairwise membership probability)和一致性(consistency),并依据这两个指标提出新的挖掘算法解决挖掘结果一致性的问题。利用Filckr 中的图片和标签描述信息推测图片的拍摄位置,并基于位置进行新型的
14、关系挖掘,表明时序信息和可视内容有助于推测图片呈现的位置。结合位置和时序信息可以还原图片的拍摄路线,启示了信息的变迁。5、社交网络中的信息传播目前社交网络信息传播模型大都是基于独立级联模型(Independent Cascade Model , ICM)的,但ICM 的计算量较大,用最短路径模型(Shortest-Path Model, SPM)来近似求解信息的传播范围以降低计算量,SPM 的主要思想是信息沿着从已受影响节点集合到将要受影响节点的最短路径进行传播,其速度是最快的,SPM 是ICM 的一个特例。实验结果表明最短路径模型(SPM)具有独立级联模型(ICM)的相同效果,但运行效率更高
15、。利用因子图建模,提出三种不同的学习算法,对社会影响力进行了定量分析。从两个方面研究了信息传播最大化的问题:a)改进贪婪算法,降低运行时间;b)通过舍弃某些度值,提出新的启发式算法,以改进信息的传播速度。基于实验结果,作者认为在解决信息传播的可扩展性方面,启发式算法应优于贪婪算法。很多研究者关心,在社交网络的活动中,哪些用户行为会影响信息传播,因此,在在社会网络之上,有人又提出了interactive network,visit network 等表现用户交互行为的关系网。6、其它基于社会网络的应用除了针对社会网络本身特性的研究,越来越多的研究开始关注基于社会网络的其它应用问题。例如利用社会网络中朋友关系疏密程度,来防止Sybil attacks。还有利用朋友关系改善网络的流量控制以及阻断干扰消息等。五、结论互联网技术的发展及Web2.0 的兴起使得社交网络日益流行起来,并引起国内外人们的关注与参与,社交网络的注册人数逐年增长,其内容不断更新,这为研究大规模社交网络提供了前所未有的真实的实验平台。社交网络作为现实人际交往的扩展,其中蕴含的海量信息将会对人们的工作和生活产生影响,同时也为计算机学科相关研究带来新的机遇。