《数据融合的一种直接方法.docx》由会员分享,可在线阅读,更多相关《数据融合的一种直接方法.docx(20页珍藏版)》请在三一办公上搜索。
1、数据融合的一种直接方法摘要:一般的数据融合问题是在对联合分布没有任何直接观察时,对两个变量集的联 合分布做出推断。相反,信息只能分别供给每个数据集和一些其他的共同变量集。数据融合 的标准方法用利息变量和共同变量创造了一个融合数据集。这篇文章开发了一种方法,可以 仅通过利息变量直接评估联合分布。对于不是离散变量就是连续变量的情况,这个方法产生 了一个解决方案,可以通过标准统计模型和软件来实现。在典型市场应用中,共同变量是心 理变量或人口统计学变量,以及涉及媒体收视和产品购买的融合的变量。在这个例子里,该 方法直接评估了媒体收视和产品购买的联合分布,而不包括共同变量。这正是市场决策的目 标。在市场
2、应用中,需要融合离散变量。作者开发了一种方法,以释放此案例中条件独立的 假设。他们用来自英国消费者的大量调查产品购买和媒体收视的数据来描述这个方法。关键词:数据融合,直接方法,联合方法,共同变量。1前言在仅当每个数据集的边际分布信息可用时,数据融合是一个如何对两个随机变量集的 联合分布做出推断的问题(下文中称作“目标”变量)。例如,对购买行为和媒体收视行为 进行分别调查。信息在购买行为和媒体收视的边际分布是可用的,但这里没有对联合分布的 直接观察。在媒体计划问题上,关于购买和收视的联合分布的推断是必须的。所以,问题在 于对媒体收视和购买的联合分布做出推断,而不是这两个变量集的联合直接观察。对基
3、于边际的联合分布来说,推断的一般问题很难解决。有很多可能的联合分布与同 一边际分布是一致的,因此,联合分布不是由知识边际单独确定的。额外的信息必须引进以 解决这个问题。某组变量是两个目标变量集的边际信息源的共同变量,从而使得数据融合可 能实现。一个例子是这个共同信息是人口统计学变量或心理变量。在媒体计划例子中,人口 统计学信息在购买和媒体收视的调查中都是可用的。数据融合方法使用这种共同信息对联合 分布做出推断。然而,共同变量的存在不足以确定两个目标变量集的联合分布。由于共同变 量,额外的假设必须是关于目标变量的条件分布的,以实现确定。术语“数据融合”是为这个问题创造出来的;它意味着两个数据集的
4、合并或融合。其 中一个数据集有一个目标变量集和共同变量集,并且另外一个数据集有另外一个目标变量集 (和同一个共同变量集)。例如,购买数据集必须通过人口统计学变量的共同集合和媒体收 视习惯数据集融合在一起。若购买和媒体收视之间的所有依赖性是通过共同变量,则把数据 融合问题看作某种匹配问题可能更自然(见Kadane 1978; Rodgers 1984)。来自购买数据 的某个记录必须与一个或一个以上来自收视数据的记录相匹配。匹配蕴含的基本思想是形成观察小组,用它们的共同变量值来衡量其相似性。观察小组 可以用来为在某一特定数据集中未观察到的和缺失的目标变量值承担责任。这样一来,数据 融合问题可以被视
5、为缺失数据问题,正如Rubin(1986)强调的。归责小组可以由简单规则形 成,如有同一人口统计学变量值或界定为距离度量的“接近的”值Rassler2002, pp. 19, 56, 68;参见Moriarity and Scheuren 2001)。Kamakura and Wedel (1997, 2000)通过在有 限混合模型中含蓄地定义了归责小组,推广了这个概念。在市场营销问题里,数据集常由调查产生,并且所有变量都是离散的。而且,许多重要 变量在性质上是绝对的。我们希望评估的联合分布的最终目标变量也是离散的。例子中包括 媒体收视和购买,都是二元变量。基于多元正态分布假设(为了讨论,加a
6、ssler2002)的 多重归责方法并不适用于太多情况,如市场应用。我们的方法是直接评估目标变量的联合分布,而不是匹配或串联的方法。联合分布随后 可以用于解决推断的问题,正如市场决策所需要的那样。我们的方法无论用在离散目标还是 连续目标还有共同变量都一样地好。特别地,我们不需要任何共同变量及这些变量的代替条 件的外在分布模型。这样就减少了评估参数的数量以及可能由于假定共同变量的联合分布而 产生的可能的规范错误。我们的重点在于市场决策,对此联合分布是分析的最终目标。多重归责和其他融合方法 被设计用来应付更多一般情况,其中,分析的最终目标在融合时是不为人知的。我们的方法 也设计用来探索将目标变量对
7、共同变量的额外分布建模的现有方法,而不是需要专门的编 码。标准方法(比如,罗吉或回归模型),可以与来自数据挖掘或非参数文献的更灵活的方 法交替地使用。在我们的实证案例中,我们通过基于梯度推进算法的拟合模型检查了我们的 基于罗吉模型的结果(Hastie,Tibshirani, and Friedman 2001, Ch. 10)。我们是这样组织这篇文章的:在下一节,我们列出了数据融合问题的总体框架,并且 陈述我们的一般方法。条件独立性假设在许多数据融合方法中扮演了一个重要角色。我们讨 论了其他方法如何与问题的一般公式相联系,以及这些方法如何使用或不使用条件独立性假 设。然后,我们开发了一个方法,
8、以释放在一些融合数据或先验信息可用的案例中有用的条 件独立性的假设。我们通过使用来自英国消费者的大量调查的购买和媒体收视数据描述了方 法的价值。我们表明了这个方法在不使用高度参数化模型或专门编码的情况下,实现了高度 精确的融合。2数据融合框架为了开发一个数据融合的一般框架,我们需要提出一个数据融合问题的精确定义。大多 数据融合文献认为,数据融合的目标是合并或者融合两个数据集成为一个完整的数据集。设 Db = J, b ), i = 1, .,Nb,表示关于一个目标变量和共同变量x的观察数据集。此外, D Cx ,朋),i = 1, .,N,表示另外一个目标变量的观察数据集(以及相关的共同变量)
9、。我们用“b”和“ m ”来标注目标变量以暗示媒体购买情境,其中,b代表产 品购买或使用,m代表媒体收视。通常情况下,x是变量的一个高维向量。尽管这个符号符合我们的数据实施,问题是更普遍的。我们的看法是,数据融合的目标 是使用数据D = 0, Dm )中的信息对联合分布(b, m )形成推断。然后联合分布(b, m )的评 估可以用于解决任何决策问题,这是市场实施所需要的。例如,在媒体计划中,媒体选择有 高比例的观众购买的广告产品被认为是可取的。因此,媒体选择问题需要联合分布b和m的 各个方面。随后地,我们讨论需要联合概率b和m或简单地说b对m的条件概率的详情。然后,我们的目标能够简洁地陈述为
10、在数据D = 0, Dm )中预测分布(b, m)的计算。预测分布是由求联合分布的参数的积分而得到的,P (b,m I D)=j p (b,m 10, D)dO。因为b和m不是在一起观察的,而是分别与共同变量,我们必须提供一个对x的(b,m) 的条件分布模型。正如我们在关于识别的部分讨论的那样,需要一些更进一步的假设来识别 这个模型。我们以条件独立性的假设开始:(1)P (b, m I x,0)= p (b I x,0)p (m I x,0)这里的主意是b和m的公共源头是变量x,并且在控制或以这些变量为条件之后,b和 m之间的依赖性被消除了。与变量x的排列的情况相比,这是一个合理的近似值。要强
11、调 的重点是某个关于依赖性的假设必须做出以解决数据融合问题。我们以条件独立性假设开 始,这样我们相信可以做出合理的论据。然而,没有联合分布b和m的直接数据,这个假 设不能被验证。部分关于数据融合的文献没有明确的提到条件独立性的假设,但是这样的例子含蓄的假设了。其他研究者,如Rogers (1984),明确地做出了这个假设。在识别部分, 我们讨论其他的方法以及对条件独立性做出的含蓄或明确的假设。我们也开发了一个方法来释放条件独立性,这样就能应用于很多市场实施了。在条件独立性的假设下,b和m的预测分布可以计算如下:p (b, m ID)= JJ p(b,m I x,0)pG)p(0 ID)dxd0
12、=jjp (b I x, 0)p (m I x, 0 ) p (x) p (0 I D )dxd0此处,p(0 I D)是对两个数据集的参数的后验分布,p(x)是共同变量的边际分布。总的来说,x可能不是连续的。所以,把前述的内部积分视作条件分布b和m对于x和0关于 变量x的边际分布的期望值:p (b, m I D ) = J Ep (b, m I x,0) p(0 I D )d00idxp (b, m I x, 0 )对于计算关于x的边际分布期望值,没有必要模仿(b,x)和(m,x)的分布或甚至仅模仿x的边际。我们仅需有取得这个分布期望值的能力。变量x可能呈现很多形式的依赖性,是离散和连续分布
13、的混合体。鉴于仅需期望值而非全部分布,我们可以通过总结观察简单地近似期望值。这避免了武断的分布假设或困难的近似x高维分布的非参数问题。在调查工作中有几千或更多的典型样本,所以这个近似是易于精确的。我们的方法计算b和m的预测分布以形成期望值, p (b, m ID)= E IEp(b,m I x,0)l0 IDx(2)1WTN p (b 1 时)p (m 1Ebm xD总和是基于两个数据集中的x的所有观察的。先验分布0的外部期望易于达到,可通过二E0ID现代马尔可夫链蒙特卡罗方法或通过甚至更少计算地需求方法,如重点取样。作为一个实际 问题,这意味着我们只需要模仿b对x和m对x的条件分布来完成数据
14、融合。在典型情况 下,每个元素b和m要么是二元变量,其中使用简单的罗吉特模型也就够了,要么是连续 变量,其中可以用标准回归模型。诊断可以通过这些适合选取的模型来完成。模仿b对x和m对x的条件分布远没有模仿(b, x)和/或(m, x )的联合分布更有需要。这减少了计算并防止模型规范错误。2.1联合或条件概率决定联合分布b和m的要素是必要的,我们必须检查媒体购买决策。考虑在k种可能 的媒体中如何分配媒体购买预算的问题(在我们的案例中,是在k种可能的电视秀中)。我 们把目标视为把通过购买(b)引起消费者对产品兴趣的总曝光量最大化。因此,媒体购买决策可以形式化如下:max Z k Pr (b = 1
15、 and m = 1Qsubject toZ cost Q = E此处,E是总媒体预算,costk是每接触媒体k 一次的价格,Qk是购买媒体k的数目。 注意曝光的总数是与消费者观看媒体k和购买产品的概率成比例的,简单地说就是联合概率 b和mk。这考虑到了媒体k的总收视和购买时在产品目录中表达兴趣的媒体k收看者的比 例。此问题的解决方案是购买最高比率的媒体,PrQ and m)cost.。这意味着联合概率b和m是媒体计划的关心目标。然而,若一种媒体的价格与收视规模成比例, kP. =cPr区=1),最优化条件成为最高条件概率的媒体的选择:Pr (b and m ) Pr (b and m ) p
16、 心 | )cP (m )r k2.2仅需b I m的情况正如我们先前讨论的,有几种情况,其中我们不需要估计全部联合分布(b,m)而只要条 件分布b I m。在这些情况中,一些计算规范可以通过我们先前略述的方法来达到。现在的目标是计算条件分布b I m的预测分布:p (b I m,D)= J p (b,0 I m,D)d0 = Jp (b 10,m,D)p(0 I m,D)d0现在引进训练变量x,成为:=JJ p (b,x 10,m)dxp (0 ID)d0=JJ p (b I x,0,m)p (x 10, m)dxp (0 ID )d0利用条件独立性的假设,我们得到下面的: = JJp (b
17、 I x,0)p(x 10,m)dx p (0 ID)d0 =J J p (b I x,0) p (x I m)dx p (0 ID )d0这个表达式意为把条件分布b 11和条件分布x I m求平均:xm p (b I x,0 )p(0 ID )d0我们可以大概估计条件期望值,通过对给定值m的x的观察的求和:xlm xlm(3) p(b I m,D) = J ; p(b I x,0)p(0 ID)d0此处,N倾是对m取某个特定值时x的观察的数目。在媒体收看的情况下,这意味着 我们把特定媒体的经验分布X求和。因此,若我们仅对b I m的计算感兴趣,我们可以简单 的模仿b IX,把变量X的相关值求
18、和。这避免了努力和由模仿m I X相关的可能的模型规范 错误。2.3证明和条件独立性假设数据融合问题中有一个基础的证明问题(参见Rassler2002,p.5),与在两个边际分布 (b, x)和(m, X) 的观察数据正相反。目标是对联合分布(b,m)做出推断。在我们的数据融合 方法中,我们通过对边际分布X求平均,p (b,m)=j p (b,m I x)p (x)dx,从条件概率得到 分布(b, m)。 为了观察证明问题,我们认为选择性定义为联合分布(b,m)是联合(b,m,X)的 边际,p (b,m)=j p (b,m I x认。对于任何给定的边际分布(b,X)和(m,X),这里有很多 可
19、能的联合分布(b, m, x)。这意味着若联合分布(b, m, x)或同样地条件分布b, m I X没有某 种限制,数据融合问题从基础上就是未经确认的。我们以(b,m)是独立的以及X是有条件的 来限制。这是基于以下观点:如果向量X够“丰富”,b和m就能够近似地独立。如果向 量X没有足够的解释力,就违背了条件独立假设。如果先验信息源(例如,融合数据的一个 样品)是可用的,我们可以把条件独立性的背离合并,正如我们在下一部分说明的。在很多情况下,条件独立性的假设是合理的。但是,很显然,可能在某些情况下向星 的内容不足以确保条件独立性。例如,考虑向量X仅包括人口统计学变量。为了确保条件独 立性,目录购
20、买和媒体收视在条件X必须没有共同组成。若媒体狭隘地集中在某个具体兴趣 上,可能就违背了条件独立的假设。例如,考虑照相器材的目录。摄影的兴趣与人口统计学 箱关但又未必完全由人口统计学预测。这意味着有可能存在一个共同组成(摄影的兴趣)存 在于b (照相机的购买)和m (摄影杂志的阅读)中。然而,对于更多一般媒体,如电视 节目,电台秀,报纸和一般兴趣杂志,这不成问题。重要的是要意识到限制是必须的,以及 没有关于(b, m )的额外数据源,这个假设不能被测试。检查数据融合的其他方法是有益的,以决定什么样的证明假设明确或含蓄的施加。最初 的数据融合方法牵涉到某种数据匹配。同等观察小组是通过变量X来识别的
21、。例如,hotdeck 方法,假设向量X的同一个值的观察是同样的,或是来自(b,m)对X的条件分布的一个随机 样本。尽管没有明确地陈述,这些匹配程序的理由是条件独立性近似地保持(参见Rogers 1984)。数据匹配方法,定义7X空间的距离度量并利用了X值相近的观察,也采用了条件 独立性假设。Kamakura和Wedel(1997)没有假定条件独立,他们使用了独立多项的有限混 合以近似联合分布(b,m,X)。然而,不清楚地是他们的程序是否引起显示条件独立性的联合 分布的估计。3释放条件独立性假设我们的观点是条件独立性是有用的默认条件或支撑的模型假设。若X变量集是全面的并 且是可以预测(b,m)
22、行为的,条件独立性是有效的。释放条件独立的假设需要除了样本信息以外的额外信息,因为b和m的联合分布是不被识别的。补充信息有多种来源。我们认为b 和m的完全分布的数据子集是可能的,且x是观察的。有很多办法合并条件依赖性,通过用条件联合分布(b, m)I x的某个模型来代替等式1。例如,Rassler(2002)引进了先验分布,捕获了多元常态变量b,m和x的某种依赖性。问 题是结果对先验的选择是敏感的,先验评估是困难的。我们的观点是这个先验信息必须最终 来自于可比较(b, m, x )的联合观察数据。条件依赖性的模型依赖于b和m是否是离散的或连续的,以及甚至在离散的情况下,b 和m的值数能否控制。
23、文献集中在多元正态模型,在市场应用中是否相关是有争议的。这 里,我们制定了一个办法来加入二元变量b和m的依赖性,这在很多市场应用是最重要的。 联合分布表是对x的四维多项分布;概率如下:p 1 (x)= Pr b = 0,m = 01 x ,p (x) = Pr b = 0, m = 1x,p (x)= Prb = 1,m = 0x,总的来说,我们的方法涉及为b I x和m I x建模。设=(1,9),此处七表示b I x模型的参数,9表示m I x模型的参数。设p = pr(b = 1I x,Q ),p = pr(m = 1I x,0 )。mbbmmp (x)= Prb = 1,m = 1x.
24、bm例如,如果我们使用二元罗吉模型,pb= exp(xl)/1 + exp(xl)。若我们假设条件独立性,多项概率阵如下:P = (p)=(1 - p)(1-p )(1-p )p(b m b mp (1 - p ) p pL bmb m -1我们可以通过引进参数( 1)提供一个对条件独立的背离。对正的人,设a = X min(1 一 p )p , p (1 - p )。对负的人,设 a = X minG - p )G - p ) p pb m bmbm b m如此一来,“a”可以用于改变P阵以表现一个条件依赖性的新多项分布:(4)P =(1 -b)(1-p)+a (1 -p)p -a p (1
25、 - p )-ap p +aL bmb m若M 1,这组成了一个有效的多项分布。X的正值提供了正面的条件依赖,反之亦然。 我们注意到:等式4中的参数化表示保持了 b和m的边际,同时通过X调节条件依赖的具体 程度。X 19b,0m的似然函数下面给出:L。)=丽2 P物l=1 i=1 j=1此处,I, 1是在多项分布中表现的四个概率中的每一个的指示函数。在人加入一个先 验,我们可以实施有条件的贝叶斯分析。我们有先验信息,而无论条件依赖的存在可能很小。 对这种情况的合理先验可能是:P 昂等式6一个一个参数的均衡先验,围绕零上下波动,以决定它能提供多少信息。注意等式4给出一个(b,m)I工,q , 0
26、/人的联合模型。如果我们从联合模型中求出b或m的积分,我们得到对b I x或m I x的同样的边际模型,和我们用于构建联合的一样。因此,在经验应用中,我们推断通过拟合模型b I x,七和m I x,0m得到关于人在七,0m的 条件。尽管联合估计所有模型参数是可能的,我们并不预期在我们的条件方法上失去精度, 因为条件方法有执行起来比较简单的好处。4经验应用数据融合方法的共有应用是融合购买行为和媒体曝光。有一般用途的调查印刷媒体和电 视媒体的曝光率。通常地,这些调查也搜集人口统计学信息。如果营销者为某个特定类的一 个或一组产品设计市场沟通策略,知道什么类型的媒体沟通最有效率是很有用的。这意味着营销
27、者的兴趣在对m的具体集的b I m,其覆盖率在媒体曝光调查中被观察到。人口统计学 变量集,在分别的购买调查中可用,在b和m数据集是共同的,这使得融合具有可行性。4.1英国市场研究署数据集我们的数据来自英国市场研究署(BMRB)在1998年进行的一项对英国消费者的调查。这 是对20,000多个消费者的普通用途的调查。BMRB调查搜集了英国最热门的电视秀的收视详 细信息,并随着大量的人口统计学信息。表1列出了数据中可用的19个人口统计学变量0BMRB 调查也搜集了各种不同类产品的购买信息。表1列出了 15类这样的产品。这些产品目录有渗 透率在20%和86%之间。我们从将近35类可用数据中选择这15
28、类产品,并且我们只包括那 些没有缺失数据的类。BMRB调查设计得到原始购买数据和生活方式信息。这包括测量媒体曝 光。我们只限于注意64个没有缺失数据的受调查的电视节目的收视信息。表1提供了节目列 表。我们所有的B和M变量都是二元的,这样的话B = 1指示了产品的使用,M =1指示 了 “特别地选择收看这个节目”。样本规模蔻4,497个观察。BMRB数据集提供融合数据,在 一定意义上b和m变量对同一调查应答者都被观察到。这使我们能够测量我们提出的方法 的性能。最后,数据融合的目标是估计联合分布b和m。具体来说,我们估计条件分布,b I m, 我们指出将用于做出媒体选择决策。在BMRB数据集中,b
29、和m变量中每一个都是二元变量, 我们有一套广泛的x变量。我们的预测方法需要估计条件分布b I x,在“联合”方法中还要 估计m I x。我们首先以双方条件分布的一个逻辑回归规范开始。X变量是顺序的、绝对的、 离散的连续变量的混合体(年龄和教育程度)。我们指明,罗吉对于所有(除了一个)可能 值,适合所有变量(除了年龄)进入作为虚拟变量。罗吉规范通过额外的、可能是非线性函 数来预防潜在的独立变量输入形式的不规范,但它并不抵御概率轨迹和单指数假设的不规 范。表1概要统计:人口统计学,购买,以及媒体收视人口统计学变量1. 性别(男/女)2. 年龄(年)3. 社会状况(“级别”从E到A)4, 工作状况(
30、四个值表示兼职、全职、无业)5. 婚姻状况(单身、已婚、寡居、离异)6. 婚姻维持时间(年)7. 开始教育时间()8. 房屋所有权(自主,抵押,从各种类型房东租赁)9. 在家时间(年)10. 孩子数量( 15)11. 孩子数量( 2)12. 孩子数量(2-4)13. 孩子数量(5-9)14. 孩子数量(10 -15)15. 家庭人数16. 成人数量17. 全职工数量18. 地域(大不列颠11个地理区域)19. 家庭收入(英镑,税前)购买变量(购买)1.人造糖2 09.碳酸饮料(非可乐)6 22.瓶装矿泉水3 110.止头痛药8 43.口香糖4 211.冰激凌6 04.香烟2 812.漱口水3
31、25.可乐5 713.薯片8 66.白日餐馆5 114.果汁7 47.夜间餐馆6 015.维他命4 08.面巾纸7 2电视节目(%收视)1. Antiques Roadshow3533. Hollyoaks82. BBC Nine Oclock News3834. Home and Away203. The Big Breakfast1035. Horizon184. The Bill2936. Horse Racing65. Blues & Twos1337. Inspector Norse396. Breakfast News BBC1538. Londons Burning307. Br
32、ookside1439. Mccallum178. B Sky B Football940. Movie on Channel 5119. Channel 4 News841. National Lottery Live2210. City Central842. Neighbours1911. Cookery Programs2343. News at Ten4212. Coronation Street4444. Newsnight1513. Countdown2345. Night Fever414. Crimewatch3146. Pepsi Chart415. Cutting Edg
33、e1747. Police Camera Action3216. Dispatches1048. A Question of Sport2317. Early Evening Local News4849. Question Time1218. Eastenders3750. The Real Holiday Show1219. Emmerdale3251. Right to Reply620. Equinox952. Rory Bremner821. Eurotrash753. Secret History922. Family Affairs454. The Simpsons1923. 5
34、 News1155. Snooker1824. Food and Drink1456. Taggart2625. Football Italia757. Tfi Friday1126. Football on Channel 51158. Tomorrows World1627. Friends2059. Uefa Champions League1828. Gardeners World2160. Vanessa829. GMTV1461. Wildlife On One3330. Golf1262. Wish You Were Here2031. Heartbeat3663. World
35、in Action2132. Holiday2364. The X-Files26我们用各种图形程序检查了我们的罗吉函数形式的假设,并发现没有违反形式的证据。 我们也通过Friedman(Hastie, Tibshirani,和Friedman 2001)的梯度增强算法用在b I m和m I x模型中,在R包,gbm(Ridgeway 2004)中执行。我们发现在性能上没有区别,可 以视为对我们的发现的坚固证据。对拟合罗吉模型,我们执行了联合方法(等式Z),其中我们求了分布G,m)I工的数据中所有可能值的平均数。一个选择是仅拟合AI x并简单地求m = 1或m = 0时x值的平均数(等式3)。
36、我们称“联合”方法为第一个方法,“直接”方法为第二个方法。注意我们并 不清楚哪种方法在估计条件分布b I m上做得更好。联合方法使用了 x值的大量样本(全部数据集)来求平均值,但它导致了随着模仿m I x出现的取样和误规范错误。直接方法避免了模仿m I x的成本,但在小得多的x值子集中求平均。因为我们的数据集非常大,而且罗 吉模型似乎很详细,基于联合和直接方法的结果非常一致就不足为奇了。假定我们对数据中的联合分布b和m有直接的测量措施,我们可以检查我们的估计是 否与数据中b I m的值一致:n , y b /牛一:/ dim(M )代 Mjj Jj是媒体收视变量的指数。我们不需要把数据作为子集
37、来此处,i是购买变量的指数:测试我们的方法,因为我们在计算等式3我们的评价方式中不使用联合分布b和m的任一方 面。图1中的三角形绘出P direct与p actual,对于所有960(15 b变量x64 m变量)对。i,ji 盘绘出这些概率估计彼此的原值将是具有欺骗性的。若b的边际概率在15个b变量中变化很 大,糟糕的估计,比如仅报告每伊变量的边际,仍将与实际样本值有合理的高相关。由于这个原因,我们从估计中减去每个b变量的边际概率。也就是,我们绘出pdirect与pactual,i, Ji, J此处P = P - P,P.是b变量在i的边际分布。i, ji, j i 1相关率为0.98,并且平
38、均绝对离差,MAD 二 |pi J图1显示了我们的估计与基于全部样本24, 497对b和m的实际样本值有接近的相关。p direct p actual (l X J ),为 0.0176。i, ji, j图1中的黑线是45度线。虚线是一个通过点云的最小二乘拟合线。显然,直接和实际估计是 不同的两个层面。首先,也是最明显的,大多数点位于45度线以下,显示我们的估计有点 偏低。这个向下的“斜线”是轻微的但却是可辨别的。第二,45度线上,点云在顺时针方 向有轻微的旋转,正如45度线和最小二乘拟合线间差别所显示的一样。如我们随后表明的, 这两个差异而非完美的拟合(除了样本错误)是条件独立假设的结果。这
39、个旋转是由条件独 立的正面和负面联合离差的合并导致的。向下的斜线是由正联合离差对负联合离差的优势导 致的。4.2比较匹配程序数据融合最普遍的方法是使用某种算法在同一x值的基础上来“匹配” (b,x)数据集中的每个观察与(m,x)数据集中的相应观察。匹配算法的困难在于指定适当的匹配标准。x变 量常常是离散的,但它们常取大量的值。为了做一个完美的匹配程序工作,对某个特定变量Figure 1Prb|m: DIRECT HOTDECK METHOD ESTIMATES VERSUS ACTUAL-1.01.2.3Actuala = Directh 二 Hotdeck需要指定离散值。然而,对于真实无条件
40、的x变量,不从本质上消除变量是不可能使值瓦解 的。在BMRB数据中,是绝对和顺序变量的混合体。为了使完美匹配的机会最大,我们合并了 很多x变量的类。基于重新编码的X变量集,我们可以得到近50%时间的完美的匹配。在 非完美匹配时我们把b的边际值填入。为了执行和评价一个匹配算法,我们必须区分数据集。如果我们试图匹配数据集比如 BMRB数据的每个观察,都有b和m,我们总能发现完美匹配。因为这个,我们区分24, 497 样本为两个不相重叠的数据集。在数据的一半中,我们认为m值缺失,在另外一半,我们 认为b值缺失。然后我们做一个“直接”匹配,以b那一半开始,接着与m的一半相匹配 以添加推算的m值。然后我
41、们反过来匹配b值与m那一半。我们联合这些数据集以形成融 合数据集。表1覆盖了完美匹配的结果,或者说hotdeck程序,在我们的直接方法结果之上,用+” 号表示。hotdeck程序的性能与我们的程序和两倍的MAD相比是糟糕的(0.037与0.018)。 注意我们的程序事实上是自动的,因此它并不需要对x变量进行任何检查以决定什么样的值 会崩溃。然而,考虑到某些x变量是接近连续的,改进匹配算法的性能是可能的。为了形成 一个复合匹配算法,我们在五个实类变量以及为其它定义的距离度量上坚持完美匹配。我们的距离度量是简单的把绝对差异求和,对于非类变量,调整范围为(0,1)。注意应用Mahalanobi s风
42、格的距离度量是不适当的,因为BMRB中的变量远没有椭圆形分布:Dist (x ,x )= Zx(x )ix5(i)如果i是类变量的指数,8(i)=3,或8(i)=1 (这意味着完美匹配是必须的)。修正 的匹配程序比默认的hotdeck程序效果好得多,但它始终胜不过直接程序,直接程序不需要 距离度量公式,或者x变量的分类和崩溃。修正匹配程序的MAD是0.0191。4.3关于9的条件 、八.对于表1中出现的计算,我们在罗吉参数的估计上是有条件的,9,9。我们的方法 b m不需要这个,直接把这些参数与重点取样求积分。由于有着巨大的样本规模,在全贝叶斯和 条件方法之间的差异是轻微的。通过计算拟合概率的
43、后验分布我们证实了这一点。这个分布 非常适合这个数据集。条件方法对我们的程序是很合适的版本,这样只在标准统计包里用几 行编码就可以执行了。4.4与多重归因方法的比较我们的数据融合方法是直接估计数据集中每对(b, m )的联合分布。这可考虑某种形式的归因原则,其中来自模型m I x的拟合概率插入(b,x)文件的m的缺失值,来自模型b I x的 拟合概率插入(m,x)文件的b的缺失值。(这只能解释为“插入”方法,以逻辑回归的估计 参数为条件。全贝叶斯方法也是通过把后验求平均而成为可能。对于多重归因方法这个扩展 是不可行的。)我们连接这两个文件来形成融合数据集。然后我们通过把连接文件中的观 察求和,
44、构建(b, m)概率表。首先,我们来看这两个数据集:fused =Pbx (xb,Nb 1 %) p(x|9)bIx m,1 bxb, Nh bxm,1p(x19)mixb, Nm、p(xb 19 )mixm ,1mpbix xm,N 1 9b )mxm,N mPmix xm,N 1 9m lmb x ? x m1b ,1m,11b, x =. :和 m,x =:-b x ? x mL nbb, Nbm,NNmm然后,我们插入拟合概率,x b ,1I i A b ,1| 9b连接如下: 、p(x19)mi xb ,1 m等式2中联合方法为每个前述的排列形成了 2 x 2表,然后对排求平均。反之
45、,等式3中直接方法计算p(b = 11 工), 然后仅对m = 1的那些行求平均。r多重归因在适当的拟合概率,通过归因或刺激从伯努利分布抽取的多重数据集而继续下 去。两个归因或抽取的情况描述如下:fused =first imputationsecond imputaionfirst imputation =bxm(1)111,bxm(1)nbnbnbb(1)xm111,b(Dxmnmnmnmsecond imputation =bxm(2)111,bxm(2)nbnbnbb(2)xm111,b(2)xmnn mn。多重数据集用此处,b(j) Bernoulli p C 10)和 m(j) Bernoulli p x 10于捕获关于附加的b和m变量真实值的不确定性。如果最终目标是对b和m的联合分布做 出推断,多重归因显然是效率很低的方法。直接计算应该通过拟合概率来做出。多重归因引 进了不必要的样本错误源。为了检查多重归因如何在融合过程引进更多错误,我们随机在我们的文件抽取