三、研究方法

(一)缓刑官的招募与分组

参与本项研究的缓刑官来自加拿大的三个省:不列颠哥伦比亚省(British Columbia)、萨斯喀彻温省(Saskatchewan)和爱德华王子岛省(Prince Edward Island)。这三个省的缓刑官管理机构招募其下属的负责矫治成年服刑人员(年满17岁)的缓刑官来自愿参与这项研究。招募时对此项研究的下列情况进行了解释和说明:此项研究的基本情况(即参与一项新的社区矫正模式的培训课程)、研究的基本要求(例如,需要对与服刑人员的矫治会谈进行录音和参加每月一次的诊所式的技术支持会议或远程会议)和参与研究的缓刑官将被随机分配到实验组和对照组。自愿参与本项研究的缓刑官在被分配到实验组或对照组之前,还被要求提供一份与他们现在所矫治的具有中等或较高风险的服刑人进行矫治谈话的录音,以与参与培训后的矫治谈话进行对比。

一共有80位缓刑官自愿参与本项研究。其中,有55位来自不列颠哥伦比亚省(该省共有268位缓刑官),15位来自萨斯喀彻温省(该省共有139位缓刑官),另10位来自爱德华王子岛省(该省共有15位缓刑官)。这些缓刑官按照6∶4的比率分配到接受STICS培训的实验组和不接受培训的对照组。之所以在分配样本时实验组多于对照组,是为了对接受培训的实验组缓刑官进行预设的效果分析时,能有充足的样本和足够的说服力。基于上述分组方法,共有51位缓刑官被分配到实验组并参与了为期3天的STICS培训;有29位缓刑官被分配到对照组,他们并不接受STICS培训,但参加了为期半天的介绍研究目的和项目具体要求的研讨。

虽然所有的缓刑官都是自愿参与这项研究的,但仍有28位缓刑官在接受培训后未提交任何的数据,因而导致样本的损耗。实验组和对照组的样本损耗率并无显著区别:实验组的样本损耗率为35.3%,对照组的则为34.5%(χ2(1,80)=0.005; p.94)。在所有损耗的样本中,有35.7% 是由于客观的原因导致的,例如缓刑官的工作变更、休产假或长假。剩余64.3%的缓刑官未提供任何数据而导致样本损耗则是由各种原因所导致的,例如没有充裕的时间,工作量太大和社区服刑人员不愿意参与等。经分析,实验组和对照组的样本损耗原因并没有统计学上的显著差异。最后,为了保证培训后提交数据和未提交数据的缓刑官不存在一些既存差异,我们对这些缓刑官的一些个人背景特征进行了差异性检验,并发现他们在年龄、从事缓刑官工作的年限、性别和种族方面并无显著差异。

(二)参与研究的社区服刑人员的招募

每一位参与研究的缓刑官被要求招募两名中等风险和四名高度风险的服刑人员。当有新的案件时,缓刑官将引导服刑人员参与这一研究。缓刑官向服刑人员解释参与研究的要求,如果其同意参与,将签订同意书。虽然共有183名服刑人员表示愿意参与,但只有在提交首次矫治会谈的录音后(通常在开始社区矫正的3个月以内)才被视为有效的样本。由于在同意参与和提交录音记录之间有一段时间,我们最终确定了143个社区服刑人员作为研究的有效样本。

(三)数据收集程序

在80位参与研究的缓刑官中,有78位提交了培训前的与社区服刑人员会谈的录音材料,有2位因在获得数字录音机方面有困难而无法在培训开始前进行录音。在划分实验组和对照组以后,每位缓刑官被要求对6名新的社区服刑人员进行社区矫正并在整个矫正过程中的三个时间点对他们之间的会谈进行录音。这三个时间点为社区矫正开始时、社区矫正开始3个月后和社区矫正开始6个月后。此外,缓刑官还需要提供这些社区服刑人员的个人背景特征和犯罪前科方面的信息作为分析的变量,以及对他们的风险/需求评估的结果。

52名缓刑官总计招募了143名社区服刑人员。[1]其中,100名由33位在实验组中接受STICS培训的缓刑官负责矫治;43名由19位对照组中的缓刑官负责矫治。虽然实验组每个缓刑官平均招募的社区服刑人员(M=3.03, SD=1.70)多于对照组(M=2.26, SD=1.63),但这一差异并不显著(t(50)=1.59; p.119)。

缓刑官在培训后一共提交了299份录音资料。但是,由于录音机的技术故障,其中的四份录音在前20分钟会突然中断而无法使用,因而未被纳入数据分析的范围。因此,对于录音的分析是针对剩余的295份录音展开的。其中,有220份录音是属于实验组的,即由实验组的缓刑官在接受STICS培训后在与社区服刑人员进行会谈时录制的,这其中又可以按照录音时间点的不同进行区分:98份录制于社区矫正开始之时;71份录制于社区矫正开始3个月后;另外51份录制于社区矫正开始6个月后。有75份录音属于对照组,即由未接受STICS培训的缓刑官所录制,同样可以按照录音时间点的不同进行区分:42份录制于社区矫正开始之时;22份录制于社区矫正开始3个月后;另外11份录制于社区矫正开始6个月后。

(四)随机分配的完整性

我们对本项研究中实验组与对照组的分配是否完全随机从两个方面进行了检验。一方面,通过对缓刑官和社区服刑人员的个人背景特征进行分析来检验实验组和对照组是否可视为相同。另一方面,我们在这些缓刑官参与此项研究前一年内矫治的人中随机抽取了四个中度或高度风险的社区服刑人员进行了回顾性的调查。因为其中一些缓刑官在前一年还未担任缓刑官或未担任现在的职位,所以这一调查并非针对所有缓刑官。在这一回顾性调查中,我们一共获得了185个社区服刑人员作为样本,对他们进行了为期两年的重新犯罪情况分析,并在此基础上确定实验组和对照组的缓刑官在矫治的有效性方面是否一致。

(五)对录音材料的分析

对录音材料的编码(coding)集中于两个方面:(1)讨论的内容;(2)导致服刑人员行为改变的技术的运用与质量。两个训练有素的编码员将录音材料编码为每个五分钟的片段。为了准确记录变量,在每个五分钟的片段里必须至少有两个支持性的例子说明了讨论的内容或技能的运用才能计数,临时性地提到犯因性需求将不被视为有效而不能计数。在完成对这些五分钟的片段的编码后,编码员将从总体上听录音并对会谈的总体质量进行评价(这一点将在后面详述)。两个编码员各自独立对五分钟的片段和录音整体进行编码,之后再通过讨论达成一致的结果,并将这一结果作为分析的基础。其中,30份录音材料被随机抽取出来,由另外两个独立的编码员进行编码,以测量不同的编码者之间对于同一录音材料评价的一致性。[2]

1.会谈讨论的内容

我们认为,有两部分内容可能在缓刑官与社区服刑人员的讨论中涉及但却与犯罪行为无关:对于缓刑条件和非犯因性需求的讨论。STICS的课程培训鼓励缓刑官用尽可能少的时间去讨论上述两个方面的内容,并尽量多关注社区服刑人员的犯因性需求,包括反社会人格(antisocial personality)、反社会同伴(antisocial peers)、家庭/婚姻、工作/教育、药物滥用和空闲/娱乐等,并着重关注亲犯罪态度。

只有在社区服刑人员的犯因性需求通过风险/需求评估被确定后,对上述7个方面的犯因性需求的讨论才会被编码。例如,当一个社区服刑人员的风险/需求评估确定其具有药物滥用这一犯因性需求后,缓刑官在与其谈话时涉及药物使用的讨论部分,才可以视作并编码为一次有关药物滥用这犯一因性需求的对话。但是,当一个社区服刑人员还未被确定有药物滥用的问题时,同样对药物滥用的讨论将被编码为就一个非犯因性需求进行的对话。这一规则的唯一例外是有关亲犯罪态度的讨论。由于培训关注于将亲犯罪态度作为目标,因而每一次涉及亲犯罪态度的讨论都被认定并编码,而不论社区服刑人员的亲犯罪态度是否被风险/需求评估确定为有问题。

缓刑官与社区服刑人员在谈话中涉及上述七个方面犯因性需求的,将根据这些内容在一次谈话中出现的频次来计分。具体来说,编码员对谈话中每一个5分钟的片段是否涉及这些内容进行计分。讨论每一方面犯因性需求的最终得分将是谈及这方面需求的5分钟片段的总数。这个最终得分最低可以为0分,即在所有5分钟的片段里都没有谈及某一方面的需求,最高分则取决于会谈的长度。例如,一次56—60分钟的会谈将会被分为12个5分钟的片段,那么讨论某一方面需求的最高得分则为12分。

除了按照所涉内容出现的频率对谈话进行分析以外,并且由于每次谈话的长度并不统一,我们还对谈及某一方面犯因性需求的片段所占的比例进行了分析,即用谈及某一方面需求的片段的数量除以该次谈话的总片段数量。如果这一比例接近于100%,则说明对某一方面需求的讨论基本贯穿于整个谈话;相反,如果这一比例接近于0,则说明该次谈话非常少地涉及了这一方面的需求。

2.导致社区服刑人员行为改变的技术

为了评估缓刑官在与社区服刑人员会谈过程中所运用的技术和干预方法的质量,编码员通过对24个独立的项目进行评分,来评估各种技术、干预方法的运用情况和缓刑官所表现出来的各种行为(例如倾听、给予回应、强化、布置作业和认知重构)。编码员用一种8分制的量表来对上述项目进行赋分,分数可以从0分到7分:0分意味着缺乏技巧和方法,而7分意味着非常好地运用了技巧和方法。这24个项目则以风险/需求回应模式为预设,分为四个组成部分。

第一部分是组织会谈的技能(Structuring Skills),有8个项目来评价缓刑官在会谈过程中能够运用的组织技术和行为,具体包括:开启会谈的质量(the quality of the session“check-in”,也就是检查是否存在需要立即予以关注的危机,互相开开玩笑等)、对之前谈话的回顾、讨论之前布置的任务、布置新的任务、会谈整体组织(global session structure)、对改变服刑人员行为的整体指导(global direction of influence)、干预目标(intervention targets)和优先需要(prioritizing needs)。第二部分是建立关系的技能(Relationship Building Skills),用5个项目来进行评价,包括角色分辨的质量(quality of role clarification)、对目标的赞同(agreement on goals)、积极倾听技能(active listening skills)、有效反馈技能(effective feedback skills)以及整体的积极关系(global positive relationship)。第三部分是对行为技术(Behavioural Technique)的运用,用7个项目来进行评价,包括一般模型建构(general modeling)、特定模型建构(specific modeling)、对强化的有效使用(effective use of reinforcement)、对反对的有效使用(effective use of disapproval)、问题解决(problem solving)、自我管理技能(self-management skills)和对演练策略的有效使用(use of rehearsal strategies,也就是鼓励社区服刑人员实践新的行为方式的技术)。第四部分是认知技术(Cognitive Techniques),用4个项目来进行评价,包括:锁定亲犯罪态度(targeting of procriminal attitudes)、对社区服刑人员适用一种行为模型(application of a behavioural model with the client)以及另外两个评价认知重构(cognitive restructuring)组成部分的项目。最后,四个方面的得分累计起来以评价总体矫正技能(Effective Correctional Skills)的有效性。

考虑到上述几个部分的项目是为了测量缓刑官掌握并运用有关技术的程度,而不是分析会谈的特征,因此只有在缓刑官提交多个他们与不同社区服刑人员会谈的样本后,我们才开始对培训后的会谈的数据进行汇总。基于对特定行为和技能重复观察多个样本会减少误差和提高信度这一心理测量的基本原则,我们以一位缓刑官为标准来汇总数据。对于每一位缓刑官而言,无论其提交了多少份录音资料,他在上述24个项目中都只会有一个平均得分。从结果上来看,对于那些只提供了一份录音资料的缓刑官来说,对其运用技术能力的评估仅仅依据的是一份培训后的会谈录音资料(一共有6位缓刑官只提交了一份培训后会谈录音资料),而对于其他提交了多份录音资料的缓刑官而言,对其运用技术能力的评估则建立在对多份录音资料进行分析的基础上。上述四个部分中每一部分的最终得分则是该部分各项目总分的平均分。

我们采用科隆巴赫α系数(Cronbach's alpha)对52位缓刑官提交的培训后录音资料进行了内部一致性评估,发现组织会谈技能(alpha =.81)、建立关系的技能(alpha=.70)、认知技术(alpha=.76)和总体矫正技能的有效性(alpha=.89)这四个方面都具有可接受的内部一致性,只有行为技术(alpha=.56)的信度在.70以下,未达到可接受的标准。

由于对录音材料的评分是由两组独立的编码员在各自评分的基础上达成一致的,因此获得较高的“评分者间信度”(Inter-rater reliability)并不奇怪。我们采用两种方法测量了对录音材料进行的所有评分的评分者间信度:一是组内相关系数(intraclass correlation coefficients,简称为ICC)[3];二是针对30份随机抽样的录音资料(大约占所有培训后录音资料的10%),不同的编码小组评分的一致率(差别在正负1分内视为一致)。对于会谈涉及的内容这一变量,组内相关系数最低为.909,最高为1.0,平均则为.980(SD=.031)。需要说明的是,由于空闲/娱乐和急性需求这两方面内容没有差异,因此不能计算组内相关系数。不同编码小组评分的平均一致率则为99.3%。对于改变社区服刑人员行为的一般技巧(general techniques of influence)的上述五个部分,组内相关系数最低为.93,最高为.99,均值则为.96(SD=.03)。

(六)后续的诊所式的技术支持

我们从未幻想三天的培训足够有效改变缓刑官的行为。因此,在最初的培训结束以后,后续有三个方面的支持来保障培训所传授的技术能够维持并得到强化。首先,接受STICS培训的缓刑官会以3—12人的小组每月开一次会,来探讨他们对STICS培训所教授的概念和技术的使用。在开会之前,培训师将采用录音案例的方法为缓刑官提供一些主题练习(例如,一个主题是如何向社区服刑人员教授行为模式)。缓刑官完成这些练习后,培训师将通过电话会议提供一些诊所式的监督。随着月度会议的进行,研究者也对缓刑官的参与程度进行了评估,他们被按照会议的到会率和参与程度(例如,是否及如何积极参与讨论)进行评分。其次,鼓励所有接受培训的缓刑官提供录音资料以进行个别的诊所式的反馈,这些反馈关注缓刑官对于STICS概念、技巧和方法的运用,并侧重于奖励和鼓励他们运用这些所学到的东西。最后,在首次培训结束约一年后提供一个1天的更新课程。

(七)重新犯罪情况

有关参与社区矫正人员被重新定罪的数据则通过“加拿大皇家骑警犯罪前科记录”系统(Royal Canadian Mounted Police's Criminal History Records)来收集。对于重新犯罪的情况,一共采用了两种分析方法。一种方法是从接受培训的缓刑官在参与本项研究之前所矫治的人中抽取一些作为样本,称之为回顾性样本(retrospective sample)。对于这些回顾性的样本,重新犯罪被定义为开始社区矫正后两年内有新的定罪。在缓刑官参与本项研究后,则由缓刑官招募新的社区服刑人员组成预测性样本(prospective sample)。对于预测性的样本,重新犯罪则采用两种方法进行界定:一种方法采用一个固定的两年的追踪回访期限,即在首次录音后的两年内有新的定罪;另一种方法用不固定期限的追踪回访进行重新犯罪方面的生存分析(survival analysis),这些不固定期限的追踪回访的平均期限为2年3个月。[4]所有重新犯罪的信息均由一个不了解实验组与对照组分组情况的研究助理进行记录。

[1] 在自愿参与研究的80位缓刑官中,有28位因各种原因未提交任何数据而未被纳入实验,最终只有剩余的52位缓刑官参与了实验。——译者注

[2] 此处原文为“inter-rater reliability”,即“评分者间信度”或“评分者一致性信度”,系统计学的一个术语,是检验不同的人进行主观评分时是否存在较大差异的一种测量标准,为便于读者理解,此处进行了意译。——译者注

[3] 组间方差与总方差之比,表示同类变量组内变异间相似程度的数值。——译者注

[4] 重新犯罪的生存分析是指对重新犯罪的生存率(survival rates for the recidivism)进行分析,即在追踪回访的一定时期,仍有百分之几的社区服刑人员未重新犯罪。——译者注