SAS统计应用¶

描述统计¶

定性变量——proc freq¶

频数frequence
比例percent
众数mode

定量变量——proc means，univariate¶

集中信息
均值mean
中位数median
波动信息
极差range
四分位差qrange
方差var
标准差std
变异系数cv
形状信息
偏度系数skewness
峰度系数kurtosis
qqplot

means过程¶

proc means data=dataname 
    mean median mode #中心水平———集中信息
    n nmiss #非缺失值个数、缺失值个数
    std var range qrange cv#离散水平——波动信息，cv变异系数
    kurtosis skewness;#形状信息——峰度，偏度，简写为kurt，skew
    maxdec=2;#保留小数

    by var1;
    class var2;
    var weight length1-length3;
    output out=dataname;
run;

univariate过程¶

proc univariate data=dataname;
    var 分析变量;
    class 分类变量;
    histogram 分析变量;
    inset 统计量;#在直方图中插入统计量
    qqplot 分析变量;画qq图
    qqplot var1/normal(mu=est sigma=est);估计正态
run;

统计推断(估计+假设检验)¶

对于一个样本：

背后的分布对应的参数是什么？——点估计
背后的分布对应的参数范围是什么？——区间估计
背后的分布某个参数是否等于（小于、大于）某个值？——假设检验
数据是否来自正态分布？——假设检验

区间估计——proc means¶

对置信水平的理解：

==不断重复抽取样本，用此方法产生的许多区间中95%会覆盖真的参数==

而不是参数落入区间的概率是95%，当区间确定了，参数是否落入区间是一个确定事件没有概率可言

proc means data=dataname maxdec=2 stderr clm alpha=.1;标准误、置信区间、置信水平
    var var1;
    #不加var默认全部变量
run;

假设检验¶

思想和反证法类似：

做出原假设H0——导出矛盾（p值很小，原假设是小概率事件）——假设不成立，拒绝原假设

假设零假设成立，可以得到该统计量的分布，再看这个统计量的实现值（realization）属不属于小概率事件

如果是小概率事件（p值小于显著性水平）那么就拒绝原假设，该检验显著

否则说没有足够的证据拒绝原假设，该检验不显著

==在零假设下，检验统计量取其实现值（沿着备择假设的方向）更加极端的概率称为p-值==

假设检验的两类错误：

第一类错误——拒真

第二类错误——取伪

通常原假设是受到保护的，没有充足的证据不能推翻的

正态样本均值推断¶

h0是原假设，做单边检验 均值不高于225（upper上界）

proc ttest data=dataname h0=225 sides=u alpha=0.05;
    var score;
run;

sides = u（upper）、 l（lower）、 2（双边检验）

检验统计量T： $$ T = \frac{\bar{X}-\mu_0}{s/\sqrt{n}}\sim t(n-1) $$

两独立正态样本均值差的推断——class语句¶

proc ttest data=dataname;
    class gender;
    var score;
run;

T检验，注意方差同性，如果不满足同方差但是mn很大的时候看satterwaite检验

两个配对正态样本均值差的推断——paired语句¶

proc ttest data=dataname;
    var x;（x=x1-x2）
run;

or

proc ttest data=dataname;
    paired x1*x2;
run;

正态性检验——univariate过程，normal选项¶

proc univariate data=dataname normal;
    var x;
run;

N<2000，以W检验为准

N>2000，不输出W检验，以D检验为准

proc univariate data=dataname normal;
    var x;
    class var2;
run;

卡方检验——拟合优度检验¶

$$ \chi^2=\sum_{i=1}^m\frac{(n_i-np_{i0})^2}{np_{i0}} $$

proc freq data=bear;
    tables brand/nocum chisq;
    weight num;
run;

卡方检验——独立性检验¶

$$ \chi^2=\sum^I_{i=1}\frac{(n_{ij}-n\times\hat{p}{ij})}{n\times\hat{p} $$}

proc freq data=smoke;
    tables lungorn*smoke/ nocum chisq;
    weight num;
run;

符号检验——非参数检验¶

==X与Y两者分布是否相同，样本做差，符号检验==

proc univariate data=pig normal;
    var diff;
run;

秩和检验——非参数检验——npar1way¶

==多个类的分布是否相同==

proc npar1way <options>;
    var ...;
    class ...;
run;

options可以选median（中位数评分）或wilcoxon（秩和）计算各个分类来检验

2.3 相关系数¶

proc corr data=dataname 
    spearman kendall pearson
    plot = matrix(histogram)
    outk=d1
    outp=d2
    outs=d3;#分不同相关系数类型输出数据集
run;

proc corr data=dataname plots=matrix;#plot选项可以画出矩阵散点图
    var var1 var2 var3;
    with var4;
    #var4*(var1-3)
run;

spearman相关系数$\rho$

源数据$X_i,Y_i$被转换为等级数据$x_i,y_i$ $$ \rho = \frac{\sum _i (x_i-\bar{x})(y_i-\bar{y})}{\sqrt {\sum _i (x_i-\bar{x})^2\sum _i(y_i-\bar{y})^2}} $$

kendall相关系数$\tau$ $$ \tau = \frac{(num\ of\ concordant\ pairs)-(num\ of\ discoreant\ pairs )}{n(n-1)/2} $$

Pearson相关系数$r$（样本相关系数用r表示） $$ r = \frac{\sum _i (X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt {\sum _i (X_i-\bar{X})^2\sum _i(Y_i-\bar{Y})^2}} $$

回归分析¶

:happy:

回归分析框架¶

建模¶

通过一些已知的变量信息来预测一些未知的变量信息，定量地理解变量之间的变化关系

最简单的模型——线性模型¶

模型写法：

$$ Y_i = \beta_0+\beta_1x_i+\epsilon_i \ \epsilon_i \sim _{i.i.d.}N(0,\sigma^2) $$

$\sigma^2$影响着噪声的大小

随机误差的均值假设为0

估计方法

找一条直线：$\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x$，使得总的误差最小

这里的误差我们使用误差平方和 $$ min_{\hat{\beta_0},\hat{\beta_1}} \ \sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2 $$

最小二乘估计：¶

模型评价¶

考虑增加了自变量Xi带来的收益

$SST=\sum_{i=1}^n(y_i-\bar{y})^2$——没有xi时拟合的误差总和

$SSE=\sum_{i=1}^n(y_i-\hat{y})^2$——有xi时拟合的误差总和

$SST=SST-SSE=\sum_{i=1}^n(\hat{y}-\bar{y})^2$——有xi时减少的误差总和

判定系数： $$ 0\leq R^2 = {SSR\over SST} \leq1 $$ 衡量Y的取值多大程度上可以被X的取值解释

R方越大，模型解释能力越强

模型的参数推断¶

一个样本得到的$\hat{\beta_i}$只是真正系数的一个观测

原假设为$H_0 \ :\beta_i=0$

系数的检验，统计量服从T分布

模型的使用¶

注意解释变量系数时的说法

截距项：当所有自变量为0时，若此模型仍然成立，Y的期望的估计值为截距项

x系数：当给定其他所有自变量值保持不变时，x每增加一单位，Y期望增加值为系数

多元线性回归¶

增加无关变量R方也会上升

调整R方 $$ R^2_a = 1-(1-R^2)(\frac{n-1}{n-p-1}) \ p为自变量个数\ n为样本容量 $$

整个模型的显著性检验——F检验¶

方差分析表

每个自变量系数的显著性检验——t检验¶

共线性问题¶

变量不显著或是变量系数和预期不一致（符号不对），可能出现多重共线性问题了

多个自变量之间相关系数较大，删去和响应变量相关性最弱的自变量

方差膨胀因子VIF¶

$$ VIF_i=\frac{1}{1-R_i^2} $$

其中$R_i^2$是$X_i\sim其他自变量回归的R^2$

经验法则：

VIF大于4需要进一步检查

VIF大于10出现严重共线性，$X_i$可以被其他变量替代

变量选择¶

向后消元法backward¶

先所有变量加入模型，然后提出不显著的模型，重复直到所有变量显著性检验通过

向前选择法forward¶

逐步回归法stepwise¶

模型诊断¶

也就是验证假设

每个自变量对于Y取值的影响均是线性关系
残差与自变量无关
散点图
残差之间相互独立（最难检验）
时间序列图，检测趋势
残差之间同方差性
残差-拟合值的散点图，观察趋势
残差正态性
残差的QQ图
异常值检验
杠杆率图 RstudentByLeverage
- 影子价格？偏导数？
- Rstudent是studentized residuals学生化残差，标准化之后的残差
- 检查离群值
CooksD
- 如果一个观测被排除在外，由此造成的回归系数变化进而Y的拟合值有多大

AIC、SC准则¶

$AIC=-2log(L)+2p$

$SC=-2log(L)+log(n)p 也称为BIC$

其中==L为似然函数在最大似然估计处的取值==，越大越好

也就是AIC、SC越小越好

这些准则用于比较对于同一个数据，哪个模型更好

线性回归¶

reg过程需要quit¶

proc reg data=dataname plots(only label) = (RstudentByLeverage RstudentByLeverage);
    model sales= population snow /clb p vif alpha=.1;
            #clb置信区间，confidence limits for beta
            #p产生残差分析
            #vif方差膨胀因子——检查共线性
            #alpha
    id zone;
run;
quit;

预测¶

proc append base=data1 data=data2;
run;
proc reg data=dataname;#默认只使用非缺失值建模
    model sales= population/ p; 
run;
quit;

or

proc reg data=dataname outest=regout;#输出模型得到的参数
    model sales= population/ p; 
run;
proc score data=sales score=RegOut out=mypred type=parms;#使用参数预测
    var price;
run;

变量选择¶

proc reg data=dataname;
    model sales= population snow/
        selection = backward slstary=0.05; 
run;
quit;

还可以使用forward stepwsie

forward 中slentary=value，默认为0.5

stepwise两个参数都可以指定，slentary，slstary，默认均为0.15

GLM广义线性模型¶

响应变量$Y$，均值为$\mu_Y$

某个链接函数$g$

模型为：

==$g(\mu_Y)=\beta_0+\beta_1x_1+...+\beta_kx_k$==

$Y\sim Bernoulli(p), \ g=logit$ 即为logistic回归，适合响应变量是某事发生的概率,这里的p是均值、期望

$Y\sim Bernoulli(p), \ g=\Phi^{-1}$ 即为probit回归

$Y\sim Normal(\mu,\sigma^2), \ g=idnetity（恒等函数）$ 即为线性回归，适合响应变量是连续的

$Y\sim Poisson(\lambda), \ g=log$ 即为poisson回归，适合响应变量是计数数据

logistic回归¶

描述为发生比

x每增加一个单位，event的发生比乘以$exp(\beta)$

proc logistic data=bankrupt;
    model Z = x1 - x3/selection=forward;
run;默认水平Z取第一个，为0

proc logistic data=bankrupt;
    model Z(enevt='1') = x1 - x3;  #可以指定event
run;

==这里的model语句==

model enevts/trials = <effects></options>;

理解为，事件发生的次数

proc logistic data=shuttle;
    model damaged / n = tmp;
run;

probit回归¶

proc logistic data=dataname;
    model Z=x1-x2/ link=normit;
run;

这里加了link选项，指定了链接函数（默认是logit函数 $$ logit(p) = log\frac{p}{1-p} $$

$$ \ probit(p) = \Phi^{-1}(p)\ \ \ 其中\Phi(x)是N(0,1)的累积分布函数, \ \Phi(x)=\int_{-\infty}^xexp(-\frac{x^2}{2})dx $$

genmod过程¶

线性回归

proc genmod data=dataname;
    model Y=x1+x2/ dist=NORMAL link=identy;
run;

logistic回归

proc genmod data=dataname;
    model Y=x1+x2/ dist=BIN link=logit;
run;

聚类分析¶

常用距离¶

明可夫斯基距离¶

$$ d_{ij}=\{\sum_{k=1}^p|x_{ik}-x_{jk}|^q\}^{1/q} $$

q=2时，即为欧氏距离

缺点——量纲影响大，标准化可以解决

match¶

$$ d_{12}=\frac{m_2}{m_1+m_2} $$

m1是配合的变量数，m2是不配合的变量数

cosine余弦距离¶

$$ c_{ij}=\frac{X\cdot Y}{|XY|} $$

distance过程——求距离矩阵¶

proc distanse data=数据集 out=数据集 method=方法;
    freq 变量;
    id 变量;
    var 变量类型;
run;

方法： euclid, cov, corr, l(p)——明可夫斯基距离p, match, dmatch, dsqmatch, cosine

变量类型：interval, ratio, ordinal等

proc distanse data=family out = dis1 method=Euclid;
    var ordinal(age--num/std=Std);
run;

标准化！std默认标准化方法

系统聚类法¶

输入原始数据（欧氏距离

proc cluster data=dataname 
    outtree = dataname
    method = ave|war|sin|com|cen
    std
    pseudo #输出伪t方统计量
    ;
    var x1-x6;
    id province;
run;

method：（类间距离的定义不同）

single最短距离算法¶

类与类之间的距离定义为最近观测之间的距离

complete最长距离算法¶

类与类之间的距离定义为最远观测之间的距离

centroid重心法¶

重心（均值）之间的欧氏距离

average类平均法¶

所有观测对之间的平均距离

ward离差平方和法¶

类中各个观测到中心的平方欧氏距离之和称为类内离差平方和

类间距离： $$ D_{KL}^2 = W_M-(W_K+W_L) $$ $W_K,W_L$是类内离差平方和，$W_M$是K和L合并之后的类内平方和

如果两类之间距离小，合并之后的增加的离差平方和应该较小

==画出谱系图==¶

proc tree data=dataname horizontal; #默认是竖直的，可选水平
run;

proc tree data=dataname noprint ncl=5 out=dataname; #分为5类，输出为数据集
    id province;
run;

采用非欧氏距离¶

proc distance data=dataname method=dcorr out=distdcorr;
    var interval(div_1986--div_1990);
    id company;
run;

proc cluster data=distdcorr method=ward pseudo;
    id company;
run;

什么是距离矩阵¶

data dist(type=distance);#指定数据集类型
    input A B C D$;
    cards;
    1 2 3 A
    4 5 6 B
    7 8 9 C
    ;
run;

快速聚类法¶

Kmeans

proc fastclus data=数据集 
    maxc=3              #指定类的个数，默认为100
    replace=random      #随机指定初始凝聚点，否则选前k个
    out=clusters        
    cluster=cl          #输出数据集中类别的变量名
    maxiter=100         #最大迭代次数
    least=2             #明式距离中的q，明可夫斯基距离
    ;
    var 变量名;
run;

标准化数据¶

proc stdize data=dataname out = std_data;
    var x1-x6;
run;

如何确定类的个数¶

谱系图¶

找一个合适的树高，截断就好了

观察散点图¶

但是变量较多的时候没法看

可以使用主成分分析法

使用统计量伪T方¶

最后更新: 2024-03-07 22:47:33
创建日期: 2022-07-26 03:55:55

SAS统计应用¶

描述统计¶

定性变量——proc freq¶

定量变量——proc means，univariate¶

means过程¶

univariate过程¶

统计推断(估计+假设检验)¶

区间估计——proc means¶

假设检验¶

正态样本均值推断¶

两独立正态样本均值差的推断——class语句¶

两个配对正态样本均值差的推断——paired语句¶

正态性检验——univariate过程，normal选项¶

卡方检验——拟合优度检验¶

卡方检验——独立性检验¶

符号检验——非参数检验¶

秩和检验——非参数检验——npar1way¶

2.3 相关系数¶

回归分析¶

回归分析框架¶

建模¶

最简单的模型——线性模型¶

最小二乘估计：¶

模型评价¶

模型的参数推断¶

模型的使用¶

多元线性回归¶

整个模型的显著性检验——F检验¶

每个自变量系数的显著性检验——t检验¶

共线性问题¶

方差膨胀因子VIF¶

变量选择¶

向后消元法backward¶

向前选择法forward¶

逐步回归法stepwise¶

模型诊断¶

AIC、SC准则¶

线性回归¶

reg过程需要quit¶

预测¶

变量选择¶

GLM广义线性模型¶

logistic回归¶

probit回归¶

genmod过程¶

聚类分析¶

常用距离¶

明可夫斯基距离¶

match¶

cosine余弦距离¶

distance过程——求距离矩阵¶

系统聚类法¶

single最短距离算法¶

complete最长距离算法¶

centroid重心法¶

average类平均法¶

ward离差平方和法¶

==画出谱系图==¶

采用非欧氏距离¶

什么是距离矩阵¶

快速聚类法¶

标准化数据¶

如何确定类的个数¶

谱系图¶

观察散点图¶

使用统计量伪T方¶

广告

评论