西门子TP900控制面板
视听(因为作者需要隐藏弱点)或恫吓他人(因为作者自己不能确定这些统计戏法的意义)。
在好的研究中,作者会用简单的语言解释他们所使用的每个统计推论。他们更喜欢使用易于理解的推论(如置信区间)而不是难以解释的推论(如p值和效能,用标准差归一的效应量)。他们会清晰地用如下语句解读每个结果:“这里也许有一些真正的差异”(正面结果),“这里似乎没有影响,或者只有很少的影响;我们看到的大部分是随机噪声”(负面结果),或者“还不清楚其意义”(空结果)。是*后的那种结果,也很令人安心,因为它告诉你在看到数据时对其意义的不确定是有原因的,是统计推论也不能排除这个不确定性(至少不能通过这个来排除;也许有不同的分析可以带来指路明灯)。诚实地讨论局限性
任何实证研究的坚实汇报都需要有一个独立章节来讨论研究的局限性,通常以“对有效性的威胁”为标题。这个讨论提供关于以下问题的信息:“什么是通过这个研究所不能达到的”,“什么样的解读会有问题(构建效度)”,“研究中的什么东西可能或者已经出错了(内部效度)”,“要推广研究结果的限制是什么(外部效度)”。对一份好的研究报告来说,你通常已经意识到了这些问题,那这个章节就不会提供许多令人惊讶的信息。可信研究的作者能接受批判点的存在。如果一份研究试图消除所有批评的可能性,通常不是一个好的兆头。目前为止,你大概会同意达到高可信度绝非易事。这并不意味着没有(或几乎没有)可靠的研究;只是可靠的研究总是很少。它们比我们想象中的专业得多,充满了我们不喜欢的“如果”、“当”和众多假设。在这样的情况下抱怨是没有意义的;这只是我们所生存和创造(就技术而言)的复杂世界所造成的不可规避的结果。如果我们足够耐心,并且能对我们已经发现的东西感到高兴的话,那这就不是一个问题。
题在于:工程师和科学家们很理解复杂性,也很重视复杂性及其带来的工作量,还能对它表示敬畏,我们整体的社会和文化并不是这样。我们被许多壮观的事物和景象所包围,不再把小新闻当做新闻。我们很难去留意那些由50个单词组成的未经扭曲的、错综复杂的研究结论。
大众媒体会有所行动。为了吸引眼球,他们忽视、夸张或扭曲实证研究的结论,这些结论通常被弄得面目全非。科学家们通常也帮不了什么忙,只能写写所谓的摘要,仅仅是宣布结果而不是概括它们。在任何情况下,担子都会压在挑剔的读者肩上,需要他们更仔细地阅读。你需要从研究中挖掘出一份报告,消化它,决定它的可信度,把对你可靠和相关的东西带回家。作为软件工程师你的资质意味着你有能力这样做。软件工程的进步需要许多工程师经常实践这种能力。这本书的内容就代表着一次实践的大好机会。系统性评审已经在其他学科中被广泛应用了几十年。当研究人员需要调查针对一个特定“话题”的所有支持性或反驳性证据时,就需要启动一次系统性评审。在软件工程中,通常会涉及打听一种方法或者流程的效果。实施系统性评审的研究人员会选择与特定研究问题相关的实证研究,评估每个研究的有效性,确定这些研究所显示的趋势。系统性评审旨在以一种公平、可复验、可审查的方式,找到、评估并集合所有关于某个话题的相关证据。一点:结果是可重复的,就是说如果另一个研究小组遵循同样的协议,他们会得到同样的结果。理论上说,系统性评审应该严格按照预先定义好的研究协议展开。这并没有看起来那么容易。虽说协议是被测试过的,它可能
的所有变种。你可能碰到协议所没有包含的情况。在这种情形下,协议需要修订。根据不同修订的性质,你可能需要评审以前的工作甚至重做许多工作,来保证其符合修订后的协议[51]。
在确定相关研究的过程中,关键因素是选择进行搜索的数字图书馆,还要确定搜索是自动的还是手动的。手动搜索需要查看一组(纸面或者在线)期刊的以往发行记录,从标题和摘要中确定哪些文章能够被候选包含在评审中。自动搜索使用字符串,通常是基于复杂布尔公式的字符串,通过在线目录查找文章。在医学文献中,建议从所研究的问题中抽取字符串做搜索。
对自动化搜索来说,Hannay等人推荐仅在ACM数字图书馆、和ISI科技网上搜索资料,因为这些书库确保涵盖了和Wiley的资料[19]。作者们也推荐对重要的主题大会刊物进行手动搜索。如果你需要找到所有相关的文献,无论发表的还是未发表的,你也应该使用。不同的数字图书馆在搜索方式上有一些细微的差别。你应该向图书管理员咨询你的搜索流程和搜索字符串,他会给你一些好的意见。相关的问题包括如下内容。软件工程数字图书馆有不同的界面和对复杂布尔公式的不同容差,这在系统性评审的研究者寻找相关文章时会经常遇到。软件工程数字图书馆对于搜索论文主体,或仅搜索标题、摘要和关键字有着不同的程序。索引系统当然只能用来搜索标题、关键字和摘要。自动化搜索不同的资料源可能会有重叠的结果(也就是说,可能在不同的库中找到相同的论文),每次搜索都会包含许多无关的
对别出对同一篇研究的重复汇报不总是容易的事。在近期的一次系统性评审中,我和我的同事们必须找出重复的样本量,也要找出重复作者的名单,以便确认对同一篇研究的重复汇报[52]。在其他系统性评审中,问题会更微妙,因为不同的研究者使用同样的数据组来调查同样的数据分析方法,但不总会清楚地指出他们所使用的数据组[31]。
评审由一个研究团队来执行。这是因为许多流程依赖人的主观判断,特别是:在初始搜索或是运用包含和排除的标准时,决定一篇论文是否成为原始研究的候选;回答质量评估的问题;从每篇原始研究中抽取数据。
让多个研究者来执行系统性评审是希望能削弱个人判断造成的偏差。一开始,我和我的同事们建议采取一个抽取员流程和一个检查员流程,那样也许比两个人独立抽取数据和评估质量效率高但*后,这被证明是个错误的选择有时系统性评审必须由单个研究者来完成,比如为研究生学位做研究,或者当人手有限的时候。举个例子,我9项在大学环境下展开。
关于系统性评审和非正式评审的区别,Dybå和Dingsøyr报告称发现了5篇在2003年及以前发表的论文,并未在2004年发布的两篇非正式评审中包含。出于对高质量证据的需求,他们否决了两次非正式评审中所汇报的所有论文,因为它们要么研究了结对编程并开展了一次元分析来集合研究结果。如果你对如何做元分析感兴趣的话,这篇论文提供了可靠的介绍。他们的系统性评审确定了18项原始研究,全部都是实验。18项研究中,4项实验只涉及专业对象,1项涉及专业人员和学生,其他13项用学生做研究对象。Hannay等人调研了3种不同的结果:质量、持续时间和工作量(不是每项研究都处理了所有结果)。他们的初始分析显示,使用结对编程有以下效果:对质量的少许正面影响;对持续时间的中等正面效果;对工作量的中等负面效果。
这些结果似乎支持对结对编程影响的标准观点。结果也指出,研究之间有显著的混杂性。混杂性指