多数心理学研究使用对照组设计(controlled group designs),被试组接受由研究人员安排和控制的不同实验条件。这类设计中,至少有一个实验组的被试与至少一个对照组的被试进行比较。在实验设计上各组之间在尽可能多的变量上高度相似(如年龄、性别、教育程度等),只在实验者控制的自变量(independent variable,IV)上不同。例如,一组抑郁症患者接受治疗(实验组),另一组不接受治疗(对照组),其他方面均相同。然后评估自变量(IV)对因变量(dependent variable,DV)或结果测量的影响,经统计分析探讨因变量(DV)的组间差异是否大于偶然因素。若大于且组间差异只来自自变量(IV)的不同,则认为可能是自变量(IV)导致了这一差异。最有说服力的因果关系来自随机对照设计。
1.随机对照设计
这一设计的最重要的特点是随机分配(random assignment)被试组。在严格的随机分配中,每一个被试被分到某一组的机会均等。除了随机分配,随机对照设计的其他特点也会影响研究结论,包括被试选择程序、内部和外部效度以及评估策略等。在决定如何选被试时需慎重考虑是否需要招募类似样本或临床样本。类似样本(好比一个类似物),是那些有所要研究的各种特点和相似的求医需求但不需真正临床治疗的群体。例如,研究者对社交焦虑感兴趣,就可以通过在报纸上刊登广告招募一些有公开演讲焦虑的类似样本。类似样本通常来自大学校园和社区团体。相比之下,临床样本则是那些为特定问题而求医的群体。焦虑障碍诊所的研究人员可以邀请诊所患者参与他们的治疗研究。
招募类似样本或临床样本的决策是同时基于理论和实践考量的(例如,处理什么样的问题并有哪些资源可以利用),而这一决策对研究结论有重要意义。例如,有研究者想检测年轻人中抑郁症的治疗效果,选择来自一般大学人群(可能有大量情绪低落问题的群体)的样本和来自抑郁症相对常见的学生心理咨询中心(学生主动寻求治疗)的样本将得出迥然不同的结论。因此,由一个样本得出的结论不能简单地推广到另一个样本或建立两者的相关。
研究结果的可推广性还受所选样本的多样性和代表性影响。例如,许多研究不能够找到足够多的代表少数民族的被试,因此结论不适于有大量人口的地区。事实上,国家卫生研究所一直强调临床研究中被试群体多样性的重要性,以保证在年龄、性别和民族等方面能充分代表总体人口。
在评估任何一项研究时,另一个至关重要的问题是效度的概念。内部效度是指研究设计能在多大程度上得出自变量(实验处理)引起了因变量(实验结果)变化的结论。为了增加内部效度,研究者会试图控制除所测自变量(IV)外的所有变量(使其保持不变)。例如,由于不考虑潜在的性别反应差异,那么一项研究只使用女性样本能增加其内部效度和得出因果结论的程度。为了提高治疗研究的内部效度,研究人员想要确保在研究过程中两个被试群体(接受治疗和不接受治疗)除了在是否接受治疗上有不同外,其他经验均相同。例如,在一个抑郁症治疗的研究中,确保在研究期间两组被试均没有接受能减轻抑郁的额外服务和经验(如教堂的支持群体、初级保健医生开的药),对增加内部效度非常重要。
某项研究的目的在于检测施加治疗是否比不施加治疗更有利于抑郁症康复。若治疗组的某些被试服用了抗抑郁药物——氟西汀,为什么会影响实验的内部效度?然而,当内部效度增加时,外部效度(指能将实验结果推广到实验条件以外的情境和群体的程度)往往会降低。这是因为严格控制的实验条件往往不能代表“现实世界”。例如,通过女性被试群体得出的实验结论可能只与女性相关,而非男性;那些限制患者在实验性治疗以外活动的抑郁症治疗研究可能无法代表真实生活情境。
在内部效度和外部效度间取得充分平衡对研究者来说是一大挑战。研究人员既想要得出可靠的因果关系结论,也希望研究结果接近真实生活情境。在疗效研究中,内部效度和外部效度在功效(efficacy)与有效性(effectiveness)研究上强调的重点不同(Roy-Byrne et al.,2003)。功效研究试图使内部效度最大化,使研究人员对因果关系结论更有信心。精心挑选同质被试组(即只患所研究的疾病而没有其他疾病),由专业人员提供高度结构化的干预,并精心挑选对照组以控制影响治疗的关键因素。这些严格控制的研究能使研究者得出关于特定治疗方法治疗效果的可靠结论,但有时研究程序并不反映现实世界中的患者情况和临床情况。有效性研究则更注重外部效度,被试组异质性更高(即患者通常有不止一种心理疾病)且与接受常规护理的患者相似性更高。有效性研究常常由常规治疗工作环境中的临床医生按照典型的保健程序(如初级保健)提供治疗;对照条件通常也由诊所常规保健类型组成,并且更注重治疗的成本效益比。这些研究有时在研究设计方面控制得不是很好,但研究结果更能代表治疗应用的“现实”情况。因此,最好把疗效和有效性研究设计看作治疗研究中相辅相成的研究方法。
随机对照组实验设计的结论还与研究人员所使用的评估策略有关。首先,评估工具需要信度(不同时间不同患者的某变量测量上的一致性)和效度(对变量的准确测量)(关于信度和效度的详细信息请见第3章)。此外使用多种评估方法也很重要。例如,一些抑郁症的评估强调身体状况,如睡眠;而另一些则强调思维困难,如注意和记忆问题。抑郁症的评估方法有自我报告法(往往通过标准化调查问卷或调查)、专家综合评价、直接行为观察和心理生理学测量等。根据不同评估方法选择测量方法同样能提高研究结果的信度和可推广性。
对照研究设计在下结论时还会涉及两个很重要的问题,安慰剂对照(placebo control)条件的使用和双盲评估。即使在对照研究中,实验者和被试的期望或偏见也会影响研究结论(认为自己正在接受一个好的治疗的被试可能表现得更好,仅仅因为他们是这样预期的)。安慰剂对照组是指给被试提供一个“不起作用的”治疗,这种治疗的其他方面与实验条件相似,但不具有治疗的“有效成分”。例如在药物研究中,安慰剂对照组摄入的药片与真正的药看起来很像,但事实上没有真的药物成分(即更像一粒“糖丸”)。因为有很大一部分患者在接受安慰剂治疗后病情都有好转(被称作“安慰剂效应”),所以这种对照条件能使研究者判断那一部分的症状改善实际上是受期望效应影响的结果。只有实验性治疗程序产生了比安慰剂更大的反应时,我们才能说治疗的有效成分起重要作用。在安慰剂对照研究中,患者和任何评估病情改善情况的人保持对实验条件的双盲(无察觉)是很重要的。
例如,如果莫妮卡同意参加抑郁症治疗研究,但她和研究者都知道她被分在了“安慰剂组”,那会怎么样?如果莫妮卡知道自己并没有接受实际治疗,她会如何评估自己的病情改善状况呢?
为了减少可能影响研究结论的偏差,保持主试和被试对研究目标和假设以及安排给他们的治疗条件(实际治疗、安慰剂或者不治疗对照)的双盲或不告知非常重要。完全双盲评估并非总是可行的,但由于降低了疗效的偏差,这种评估策略对于提高研究效度还是有用的。
2.临床显著性与统计显著性
临床显著性和统计显著性是评估临床研究的另一个重要考量。
假设治疗后,实验组报告仅需2小时就能入睡,对照组则需2.2小时,比较一下。
统计显著性指的是,治疗后实验组产生的变化不是偶然发生的而确实是由治疗引起的数学概率。研究结果在统计上显著表明治疗改变了靶行为。但另一个同样重要的问题是,统计上显著的研究结果是否具有实践或临床意义。统计上的显著有时表示出现了重要的临床行为变化,但并不总是这样。在一些研究中,特别是大样本研究,统计上的显著差异在实际中是相当小的(就如上例中的睡眠案例),且对患者治疗毫无实际意义。
相比之下,临床显著性检验的是显著性结论是否具有实践和临床价值。例如,使病症减轻的治疗是否会对患者的生活产生有意义的影响?
像莫妮卡这样的患者,治疗前曾一度抑郁到卧床不起,经过治疗后,能否使她不仅感到忧郁减轻并觉得自己的状态好到能回去工作了?
临床显著性强调患者症状的改善是否由治疗所引起,以及患者是否不会再有某种疾病的症状。当统计学上发生了显著变化而对患者病情却没有显著作用时,治疗的临床价值将会受到质疑。从统计角度来看,各种测量方法得到的治疗效果大小被称为效应量(effect sizes)。效应量越大,治疗越有效。