二 数据资料与变量
1.犯罪率
犯罪率被定义为在一个10万人口单元里发生的犯罪起数。不同类型的犯罪起数的资料来自于联邦调查局的犯罪统一报告(UCR)计划,其资料来源于美国超过1.8万个警方管辖区。然而,由于UCR是“一个义务计划”,而有些一线警察机构没有提交义务报告,导致另一种误差(Maltz & Targonski,2002)。强制执行程度的差异和受害者的报告不全也会导致犯罪资料的误差。
我们可以从UCR获得两种资料——警察机构资料和县级资料,每一种都有自己的优势。警察机构的辖区经常变动,有时还会重叠。由于我们关注的是由县组成的大都市区,于是将县级资料综合起来计算整个大都市区的犯罪率。尽管在研究中使用县级资料比警方辖区级资料更方便达到我们的目标,它同样存在一些问题(Maltz & Targonski,2002)。由于警察机构的辖区有时会重叠,并且可能运用错误的或不同的方法来评估辖区内人口,所以其人口数据也未必正确。由于注意到了人口普查和UCR人口数据的显著差异,所以我们采用了人口普查资料中的人口数据。
县级资料规定了针对第一部分犯罪行为(谋杀、强奸、抢劫、人身攻击、入户行窃、盗窃、汽车盗窃、纵火)和第二部分犯罪行为(伪造、诈骗、盗用、破坏公物、非法私藏武器、性侵犯、滥用毒品和酒精、赌博、游荡、违反宵禁、逃逸)的拘捕。我们着重于第一部分,并将其再分为两大类:暴力犯罪,包括谋杀、强奸、抢劫和人身攻击;财产犯罪,包括入户行窃、盗窃、汽车盗窃和纵火。
2.郊区城市化指标
人们为了获得郊区城市化这个概念各方面的情况,采用了若干衡量标准(Galster et al.,2001;Yang & Jargowsky,2006)。第一个衡量标准是密度梯度。尽管之前的文献常着力研究某个特定地区或城市的人口密度与犯罪之间的关系,但一个单一辖区的人口密度并不能完全涵盖郊区城市化的含义。如果我们将郊区城市化定义为“某个功能性人群整体向一个大范围区域的日益扩大与延伸”(Berry & Kasarda,1977),就需要有一个标准来衡量大都市区人口向广大区域扩散的程度,并将中心城市与郊区的人口密度进行明确对比。梯度密度指的是中心城区人口与更大一块区域之间的比率,它能告诉我们人口密度随着与中心城市距离的增加而下降的程度。当一个地区郊区城市化进程加快时,梯度密度会上升,也就是说,梯度的负面因素减小。倘若我们假设郊区城市化导致更高的犯罪水平,得到的便是正系数。
除此之外,我们还将大都市区的平均人口密度作为衡量郊区城市化的第二个标准。尽管人口密度的实际有用性受到怀疑,人们还是经常通过它来评估大都市区是否拥挤。包括洛杉矶在内的一些大都市区的人口密度很大,但其郊区杂乱扩张的程度也很高。郊区城市化水平越高,人口密度就越小,所以我们在人口密度方面得到的是负系数。
第三个标准是中心城市人口在大都市区人口中所占的比例。尽管在以前的研究中经常用到,这种标准仍由于一些理由而受到质疑。它随地区、大城市发展的时代、地形及其他因素的变化而变化。相对于其所属的大城市总区域来说,美国中心城市的规模是明显不同的,这就导致中心城市人口所占比例反映的可能是各种因素而不是郊区城市化本身。如果忽略这一点,那么更低的中心城市人口比例则标志着更高的郊区城市化水平,所以得到的是一个负系数。
第四个标准是上下班的平均行程时间,这反映了员工与公司的位置和流动性的参数变化。我们认为随着郊区城市化的发展,大城市居民上下班的行程时间会延长。
3.基于人口统计学的变量及辅助变量
归纳起来,我们有四个衡量郊区城市化的标准:密度梯度、平均人口密度、中心城市人口所占比例、上下班的平均行程时间。如果郊区城市化导致其他因素的犯罪行为有所增加,我们认为密度梯度和平均行程时间与郊区城市化呈正相关,而平均人口密度和中心城市人口比例则与其呈负相关。因素分析法可以将这四个指标合成为一个标准。然而,每个因素都表现了郊区城市化独立的一个方面,而不是某个基本组合体的替代成分。此外,我们认为至少有一个标准(即中心城市人口比例)存在固有的缺陷。基于这些考虑,我们保留了各项单独指标,而没有将其结合起来。
我们的分析策略是为了考察郊区城市化能否预测大城市犯罪。郊区城市化很可能与人口特征有关,这也会促成犯罪。因此,我们的分析中包括了大城市级别人口统计学的变量记录,比如人口规模、年龄结构、种族构成、家庭收入中位数,这些变量来自于美国人口普查资料。重点研究如果这些变量不变,人口进入城市和郊区的安排方式是否影响犯罪率。
鉴于可能存在的反因果效应(即犯罪对郊区城市化的因果性影响),我们在最后一组模型里使用了辅助变量估计。看似合理的辅助变量必然会影响郊区城市化,而不是犯罪(以上提到的人口统计学的变量)。我们在分析中用了8个变量作为郊区城市化的影响因素。前三个分别是政府数量、公交习惯和空气污染。当大都市区政治上发生分裂,郊区城市化的水平可能会更高,因为各个城郊社区会以一种迅速且不协调的方式发展并加入排斥性区划。公共交通也可能与郊区城市化有关,因为郊区城市化高度发达的地区对汽车的依赖性更强,而其公交系统则较差。这两项数据——大都市区的政府数量和使用公交系统的人口占大城市总人口的百分比,都来自人口普查资料。而拥挤的闹市区常导致空气污染情况的恶化,促使人们由中心城市向郊区迁移。这里的空气质量指数(AQI)由美国环境保护署(EPA)提供。
另外五个因素则反映了大都市区的地理特征。这些变量都取自Stephen Malpezzi教授的网站,它提供了关于大都市区人口、住房及城市发展情况的宝贵资料。[5]
4.模型说明
我们用大都市区作为分析单位。一个大都市区通常由一个或多个中心县(包括一个或多个中心城市),及其周围通过交通方式和其他因素与之紧密相关的县组成。在2000年的人口普查中,美联邦普查局规定了独立大都市统计区(MSAs),如印第安纳波利斯;主要大都市统计区(PMSAs),如达拉斯PMSA和沃思堡PMSA。主要大都市统计区是更大的单位即联合大都市统计区(CMSAs)的一部分。由于CMSAs与MSAs相比实在过于庞大,故本文中我们将MSAs和PMSAa结合起来,而不采用CMSAs。
我们将大都市区犯罪率制成如下模型。
因变量Vci和Pci分别代表大都市区i的暴力犯罪率和财产犯罪率。大都市区的犯罪率随着诸如人口、种族、年龄和收入之类的人口统计学与经济学参数的变化而变化。Pi代表人口,Bi代表黑人所占人口比例,Hi代表西班牙/拉丁人口所占比例,A13i代表MSA中13~17岁人口所占比例,A18i代表18~24岁人口所占比例,A65i代表65岁以上人口所占比例,Ini则代表收入中间数。在计算18~24岁人口所占比例时,大学生被排除在外;一些MSAs和PMSAs为大学城,导致其在该年龄段的人口比例失衡。我们加入了前文提到的四项郊区城市化指标,以此来研究郊区城市化中大都市人口统计学因素的影响:Gi代表密度梯度,Di代表人口密度,Cci代表中心城市居民所占比例,Ti代表上下班的平均行程时间。最后的ui和vi则是干扰项。
由于郊区城市化和犯罪的内生性,为了突出常规最小二乘法(OLS)回归中的偏见,我们还采用了辅助变量(IV)回归,这是一种在一项回归量与错误项有关时获得未知系数的一致估计量的常用方法(Stock & Watson,2003)。从理论上说,一个有效的辅助变量必须满足两个条件,即工具关联性和工具外生性。首先,一个辅助变量应当与回归量相关。其次,一个辅助变量应当与错误项无关。在模型四中,我们首选的郊区城市化指标,即密度梯度的影响就是通过辅助变量所评估的:
VCi=a1+a2Pi+a3Bi+a4Hi+a5A13i+a6A18i+a7A65i+a8INi+a9Gi+a10Di+a11CCi+a12Ti+ui
PCi=β1+β2Pi+β3Bi+β4Hi+β5A13i+β6A18i+β7A65i+β8INi+β9Gi+β10Di+β11CCi+β12Ti+νi
其中Gi代表前文所述的变量编写出的密度梯度。
由于大都市区的规模各异,越小的大都市区的误差就越大。因此,所有模型都经过了大城市人口的平方根加权。除了回归系数和标准误差之外,标准系数被提出以方便在不同规模上测量所得变量之间进行对比。它们可以通过自变量中单一标准偏差变化对标准偏差单位的影响来说明。