《SAS基础与金融计算.ppt》由会员分享,可在线阅读,更多相关《SAS基础与金融计算.ppt(26页珍藏版)》请在三一办公上搜索。
1、1,SAS基础与金融计算,游家兴厦门大学经济学院计统系,2,上节课上机操作(1),对上节课生成的最终数据集total进行如下操作:(1)剔除金融业上市公司;(2)剔除每股收益为负的上市公司;(3)由于数据集中年涨跌幅采用百分比表示,建立一个新的变量,采用小数表示。(4)建立一个新的变量,表示除第一大股东外其它股东所持有的股份比例。,3,(1)剔除金融业上市公司,第一步:运用substr语句Data test;set total;code=substr(code,1,6);Run;,4,第二步:Data temp1;set test;if code=000562 or code=000001 o
2、r code=000563 or code=600015 or code=600016 or code=600030 or code=600036 or code=600816 or code=600000 or code=601998 or code=601328 or code=601166 or code=601318 or code=601398 or code=601628 then delete;Run;,5,(2)剔除每股收益为负的上市公司,Data temp2;set temp1;if eps0 then delete;Run;,Data temp2;set temp1;if
3、eps=0;Run;,6,(3)建立新变量:用小数表示的涨跌幅,Data temp3;set temp2;re2=re/100;Run;,7,(4)建立新的变量表示其它股东持股比例,Data temp4;set temp3;ratio2=1-ratio/100;Run;,8,本节课上机作业(2),公共信箱下载数据集test1和test2,运用SAS将test1和test2纵向拼成新的数据test。根据股票收益率大小将test分成四个组,并形成四个子数据集:tmp1,tmp2,tmp3,tmp4。在数据集test中,第一大股东持股比例在50%以上且每股收益超过1元的公司有多少家?,9,描述统计分
4、析,常见的数据统计描述量及意义,(1)表示分布平均水平和位置的特征量:,均值:数据的平均值Mean众数:观测值中出现最频繁的数值Mode中位数:观测值排序中处于中间位置的值Median百分位数:中位数的推广P1、P33、P99,10,(2)表示分布离散程度的特征量,标准差,Std,方差,Var,变异系数,CV,标准误,STDEER,11,(3)表示形状的特征量:偏度和峰度,偏度(Skewness):,偏度主要用于判断分布形状是否对称:若g1=0,则对称;若g10,则分布右偏(正偏);若g10,则分布左偏(负偏)。,12,峰度(Kurtosis):,峰度是以正态分布为比较标准。对于正态分布,g2
5、=0;若g20,表示变量分布比正态分布更集中,分布呈尖峰状态,平均数的代表性较好;若g20,表示变量分布比正态分布更分散,分布呈平坦峰,平均数的代表性较差。,13,SAS中可以对数据进行描述统计分析的过程步有很多,其中两个最常用的过程步是:(1)MEANS过程(均值过程)(2)UNIVARIATE过程(单变量过程),14,MEANS过程用来对数据集中的数值变量计算简单描述统计量。该过程由下列语句控制:PROC MEANS options statistics-keywords;VAR variables;BY variables;CLASS variables;OUTPUT OUT=SAS-d
6、ata-set output-statistics;Run;,1.MEANS过程,15,(1)PROC MEANS语句 PROC MEANS options statistic-keywords options:DATA=SAS data set,即用以说明过程分析处理的数据集的名字,若省略,则用最近操作的SAS数据集;statistic-keywords:在MEANS过程中指出你需要计算哪些统计量。,16,N,MEAN,STD,MIN,MAX,SUM,Variance,CV,STDERR,T,PRT,Range,SKEWNESS,KURTOSIS,CLM,LCLM,UCLM,Maxdec T
7、:检验总体平均值是否为0的T统计量的值 PRT:大于T的概率 Maxdec=n:指定打印统计量的小数位的位数 如省略不写,SAS将固定输入默认的最常见的几个统计量。,该过程可计算如下统计量:,17,VAR variables 规定要计算描述性统计量的数值变量及顺序。若省略该句,则对除BY、CLASS语句中列出的变量之外所有数值变量计算描述性统计量。,(2)VAR语句,18,(3)BY语句 BY variables;使用BY语句可以用BY变量定义的观测组分别计算其相应的描述统计量。当使用BY语句时,要求输入数据集已按BY变量排序。(4)CLASS语句 CLASS variables;该语句和BY
8、语句一样,可用CLASS变量定义的观测组分别计算其相应的描述统计量。不同点在于排序要求,CLASS语句不要求数据集事先已按CLASS变量排序。,19,(5)Freq语句 Freq variable;该语句指定一个数值型的变量,它的值表示输入数据集中相应观测出现的频数。该变量的值应为正整数。若变量值1或缺失,相应的观测不参加计算统计量。若这个值不是正整数,则取整数部分。,20,(5)Weight语句 Weight variable;该语句规定一个数值型的变量,它的值表示相应观测的权数。该变量的值应大于0。若变量值0或缺失,假定该值为0。,21,OUTPUT OUT=SAS-data-set ou
9、tput-statistics;该语句要求MEANS过程把计算的描述统计量输出到新的SAS数据集中,并用任选项规定新数据集的名及所包含的变量名。这里:OUT=SAS-data-set:给出由MEANS过程产生的输出数据集的名字,若想创建一个永久数据集,则必须规定一个两级名字,缺省时,机器默认的数据集名为data1等。Output-statistics:规定在新数据集中所要求的统计量,并规定存放这些统计量的变量名。,(6)OUTPUT语句,22,Data student;input class sex$age weight height;cards;1 f 15 46 156 1 f 14 41
10、 149 1 m 13 48 155 1 m 14 38 150 2 m 16 55 165 2 f 17 50 160 2 f 16 60 165 2 m 17 65 175 3 f 18 65 165 3 f 17 58 160 3 m 18 70 180 3 m 17 68 176;Run;,例,23,Proc means data=student;var age weight height;Run;Proc means data=student maxdec=2;var age weight height;by sex;Run;,观察以下几组程序,24,proc means data=
11、student maxdec=2;var age weight height;class sex;run;proc means data=student maxdec=2;var age weight height;output out=sta n=num mean=a1 a2 a3 std=b1 b2 b3 max=c1 c2 c3;run;,25,libname a d:sasdata;proc means data=student maxdec=2;var age weight height;output out=a.sta n=num mean=a1 a2 a3 std=b1 b2 b3 max=c1 c2 c3;run;,26,本次课上机作业,公共信箱下载数据集finance,进行如下操作:(1)计算市场平均股票收益率及其相应的标准差,并将结果生成一个新的数据集;(2)以公司规模为权重计算市场平均收益率;(3)将规模分为5组,分别计算各组的平均股票收益率。,