1.3 命令基本语法_Stata统计分析从入门到精通-QQ阅读男频武侠网

书名：Stata统计分析从入门到精通
作者名：李昕编著
本章字数：2074字
更新时间：2025-02-18 08:26:02

1.3 命令基本语法

Stata程序语言的基本语法（极少数例外）如下：

其中，方括号[]内的选项表示可以省略或根据需要选用；by varlist为变量名称列表；command为必选项，表示Stata命令；=exp为代数表达式；in range为观察范围；weight为权重表达式；options为可选项列表。

注意

在Stata中，要区分字母大小写，不要混用，否则容易报错。

1.3.1 命令名称（command）

命令名称command是命令中唯一一个必不可少的部分。例如，在命令窗口中输入：

并按Enter键即可将系统自带的auto.dta数据集导入系统内存。其中，clear表示在导入前清除内存中原有的数据集。

说明

命令语句前面的“.”表示命令窗口中命令输入的提示符，在本书中，凡出现带“.”的命令语句，“.”后的内容均表示需要在命令窗口中输入的内容。

执行上述命令，会在结果窗口中输出线性拟合结果，如图1-4所示。

图1-4 线性拟合结果

注意

注释不能出现在命令窗口中，一般只用在do文件或ado文件中。注释可以增加程序的可读性，在命令中是不运行的。为了方便读者理解，本书采用“//”作为注释符，读者在输入命令时无须将该符号后的注释输入到命令窗口中。

在Stata中，很多命令可以采用缩写形式，以提高工作效率。命令的缩写形式可以通过自己摸索尝试掌握，也可以通过帮助功能查看。例如，regress可以缩写为reg、regr等至少保留前三个字母的形式，缩写为re、r则会报错，如图1-5所示。

图1-5 命令缩写形式

1.3.2 变量名称（varlist）

通常情况下，在命令名称command后接变量名称varlist，表示对指定的变量进行操作，如果没有变量出现，则默认varlist为all，Stata将指定对数据集中的所有变量进行操作。在更改或销毁数据的命令中，Stata要求必须明确指定varlist。

变量名称可以由字母、数字、下画线组合而成，需要以字母开头，长度不能超过32bit。在调用已有变量时可以进行简化操作。例如：

可以简写为：

也可以简写为：

注意

变量的简化操作只针对原始数据中的变量，新生成的变量不能进行简化操作。

1.3.3 按变量分类（by varlist：）

by varlist：表示按变量将数据分类后执行冒号后的命令。当以by varlist：作为前缀时，将为每组观测值形成单独的数据集并保存，分别对每个数据集执行命令。数据集必须按变量进行排序。

【例1-1】根据数据集census12.dta给出结婚率-离婚率汇总表，并使用数据中的所有观察结果，生成结婚率（marriage_rate）和离婚率（divorce_rate）的均值、标准差及范围表。

在命令窗口中依次输入：

运行后在结果窗口中输出如图1-6所示的结果。

图1-6 运行结果

按地区进行分类，汇总结婚率和离婚率，为全国每个地区生成一个表。

上述两条命令语句的功能也可以通过以下命令语句实现：

运行后在结果窗口中输出如图1-7所示的结果。

图1-7 运行结果（部分）

说明

数据集必须按变量进行排序，否则会报错，如图1-8所示。

图1-8 错误信息

1.3.4 赋值（=exp）

=exp用于指定要分配给变量的值，此时会统一改变现有变量的值或用新变量替换现有变量，通常用generate命令和replace命令实现。

其中，generate命令可通过现有变量生成一个新变量，并保留原变量不变；replace命令可利用现有变量生成一个新变量来替换原变量。命令的使用方法会在后文中介绍。

1.3.5 条件表达式（if exp）

if exp用于对样本数据集进行筛选，只对符号条件（表达式值为真，即非零）的数据子集执行操作。例如，在命令窗口中依次输入：

运行后在结果窗口中输出如图1-9所示的结果。

图1-9 运行结果

在Stata中，双等号==表示相等测试，一个等号=表示赋值。一条命令语句中最多只能有一个条件表达式。如果希望得到仅限于西部地区且结婚率超过0.015的观察结果，则不能输入：

而应该采用关系运算符&（与），即输入：

如果希望得到西部地区或结婚率超过0.015的观察结果，则应采用关系运算符|（或），即输入：

关于关系运算符，在后文中会详细介绍，这里不再赘述。

1.3.6 限定范围（in range）

in range通过限定范围对样本数据集进行筛选，区别于if exp，in range不依赖于变量是否符合某个条件，而直接筛选出符合范围要求的样本数据并执行相应的操作。操作符in的使用方法如表1-2所示。

表1-2 操作符in的使用方法

例如，基于第6～25年的结婚率和离婚率生成汇总表，在命令窗口中输入：

运行后在结果窗口中输出如图1-10所示的结果。

当带有符号-时，表示逆序选择观测值。例如，在命令窗口中依次输入：

运行后在结果窗口中输出如图1-11所示的结果，即从最后一个观测值开始往前取5个观测值。

图1-10 汇总表

图1-11 运行结果

1.3.7 权重（weight）

weight表示要附加到每个观测值上的权重，即加权操作，多用于加权最小二乘回归分析，其语法格式为：

weightword是表1-3中的任一加权方式。

表1-3 加权方式

【例1-2】数据集census12.dta中包含美国50个州的人口观察结果。从数据中获得一个人口加权均值变量（median_age）。权重采用数据集中的pop变量，即每个州的总人口数。

在命令窗口中依次输入：

运行后在结果窗口中输出如图1-12所示的结果。结果表明，该数据集中包含美国50个州的人口观察结果，权重的总和为225907472，加权均值为30.11047。

图1-12 运行结果

1.3.8 选项（options）

options可以与多数命令一起使用，使用时在命令行末尾输入逗号+要使用的选项。针对不同的命令，可使用的选项差异比较大。

例如，生成一个包含可变结婚率的均值（Mean）、标准差（Std.dev.）、最小值（Min）和最大值（Max）的命令如下：

运行后在结果窗口中输出如图1-13所示的结果。

图1-13 运行结果

将summarize命令中的options设置为detail，即

运行后在结果窗口中输出如图1-14所示的结果。结果表明，增加detail后显示的结果更加详细。

图1-14 运行结果