西门子TP1200控制面板
要性的重新评估,以及协作组织的建立,该非营利组织旨在实施针对医疗和保健问题的系统性评审,并维护系统性评审报告数据库。这需要提取每篇文章中针对所研究问题数据,适当地集合数据。有时,可以通过一次正式的元分析来集合数据,但在软件工程和其他非医学领域中,每篇研究的结果通常只是以表格的形式列出来,以确定潜在的趋势。与质量评估一样,数据提取通常由两名研究者来完成,他们讨论并解决所有的不同意见。
我之前批评了对专家观点的依赖,我所见过的关于软件工程的**的系统性评审,是由包含领域专家的团队执行的。领域专家的知识在系统性评审中可以被很好地加以利用,来确定需要搜索的专业会议和期刊,并确定可以用作基准的一组初始研究文章,来检查任何自动搜索过程的有效性。
对于刚开始学习系统性评审流程的新研究员,我推荐他们考虑图谱研究(mappingstudies)。这类系统性评审试图寻找并分类涉及更宽泛研究话题的文献,而不是回答一个特定的研究问题[35]。这两类研究的区别可以通过比较MagneJørgensen的两篇文章而看出。第一篇是传统的系统性评审,调查了成本估算模式的评估在预计项目成本时是否比专家判断的评估更**[22]。这篇文章在3.3.1节中有所讨论。第二篇是高质量的图谱研究,对成本估算文献进行了分类[24]。
下面的3.3节讨论了一些挑战了软件工程“常识”的系统性评审,证明了我们用健全方法论来集合证据的必要。在讨论这些例子之前,我先总览一下系统性文献流程。
只对系统性评审的结果感兴趣,而对系统性评审的具体流程不感兴趣的读者,可以直接
3节。这章的简介应该足够你了解系统性评审流程的严谨性,不用你多花力气去读这么多的细节。
如果你是一个新的或者有经验的研究者,希望评估系统性评审的价值,那你就需要阅读下一节。它讨论了系统性评审流程中的具体步骤,并告诉你这一方法论中所固有的一些实践困难。
你可以在Cochrane协作组织的知识库中找到免费的Crowley等人对皮质类激素报告的更新[43]。这不只是为了记录历史;对那些新开始系统性评审的研究员来说,这也是一个很好的优质评审的例子。
你也许会问系统性评审有什么创新。毕竟,软件工程研究者已经持续多年产出不落后于时代的报告,并且在汇报他们*新研究成果的也了相关的工作。要回答这个问题,我们得先看看其他使用系统性评审的学科(例如,心理学、社会学和医学),它们已经找出了由于缺乏正规方法论而导致的传统评审中的无数问题。始研究在汇报他们的结果时使用了完全不同的实践方法[51][52]。
在循证软件工程的背景下,系统性评审的目标不只是为研究者提供方法论,而是影响实践。我希望业界的管理者和决策者也能在这章中找到一些与他们需求相关的东西。业界*大的教训是,“常识”和专家观点不应该是决定选择软件工程方法的唯一基础。很不幸的是,不能默认地信赖个体的实证研究。面对关于采用新方法的重要决定时,决策者需要不带偏见地对所有的相关证据的概括。系统性评审恰恰提供了交付这种概括的方法。
3.1 系统性评审总览
可信的调查始于原始研究:带有与所研究问题相关的定性和定量结果的实验。一次系统性评审集合了不同独立实验的结果,有时会运用统计学的元分析。
型例子来自医学领域。在1990年,Crowley等人发布了一份关于对将要早产的孕妇使用皮质激素效果的系统性评审,其中包括一份对于12项原始研究的元分析[11]。皮质激素被认为能减少早产儿的肺部问题。Crowley等人的系统性评审确认了皮质激素的使用大幅度地减小了新生儿的死亡风险。在那个时候,皮质类激素并不是治疗早产
观测研究已经证明的一件事是:软件工程专家会收集与之相关的证据,根据它们的目的确定所需的可信程度。也就是说,如果它们在为专业音响设计数字过滤器,它们可能会做一个基于输出的对照实验,来确定软件是否产出了人耳所需的音质。如果他们正在和市场部争论使用模拟控制的客户是否有处理虚拟化接口的准备,他们可能会把一位研究员派去现场讨论“什么是客户所控制的参数”,“他们的现有系统如何运作”,“客户认为他们的任务如何”等。如果他们正在设计安全性至关重要的前端系统,他们可能会做一次客户研究来确定几个设计选择中的哪一个能**地适应人机交互。如果他们在设计安全性至关重要的后端系统,他们可能使用正式的方法来建立对特定需求的正确实现。如果他们在优化排程演算法,他们也许会对工业投入运行基准。
如果做得好的话,*有趣的部分通常是对可推广性的讨论,因为这直接和结果的适用性相关。好的报告会在不同方面针对不同的推广目标领域提供正面和反面的可推广性观点。坚实且适用的结论
他们自己对所呈证据的评估形成自己的观点,不会单纯依赖于作者在摘要和结论中提供的陈述。
如果作者的结论过分吹嘘了结果(把结果推广至没有坚固论点支撑的领域,或有甚者,基于只与研究现象有粗略联系的现象得出结论),你就更应该对报告其余部分的可信度提高警惕。你尤其应该拿起一支*粗的红笔,划掉摘要和结论,那你就绝不会在重新整理你对特定研究的记忆时依赖它们了。请记住很少有读者这样做,而所有人都需要重新整理他们的记忆。很多在报告或课本中引用的研究会错误地指向夸张的结论,就像它们是真的一样。(人无完人,科学家也不例外。)
如果是另一种情况,结论看起来很有思想,明显试图在可信度和适用性之前寻找一个平衡的话,它们的可信度会加固,适用度会被*大化。这样的作者把研究的结果和限制放在一个秤盘上,而把所有(从文献中其他结果的角度来看)的普遍化问题放在另一个秤盘,告诉你他们所想的可能是正确的归纳。这样的信息是有价值的,因为作者有很多在文章中没有明显出现的研究信息,但却在判断的时候使用到了
假设有一项涉及6个不同小组和5个不同度量的研究。一些作者会用表格来呈现他们的数据,每行列出小组名字、小组大小,还可以列出针对一个度量的*大值、*小值、平均值、标准差等。表格被