Go or No Go: Differential Fuzzing of Native and C Libraries
时间:2023.5
作者:Alessandro Sorniotti(IBM)、Michael Weissbacher、Anil Kurmus
会议:S&P‘2023
Abstract
十多年来,Go 已经成为当今最流行的编程语言之一。Go 是一种静态类型的编译语言,通过强类型、自动插入的边界检查和标记-清扫垃圾收集器,实现了空间和时间上的内存安全性。Go 开发人员可以即时使用大量的本地库,这些库可以作为运行时的一部分提供,也可以从社区代码中导入;或者,Go 开发人员可以直接链接到 C/C++ 库,这些库可以通过cgo功能从GO源码中调用。做出支持以上功能的这一决定的原因包括稳定性、性能和可用性。因此,开发人员可以在 Go 本地库或非本地代码之间做出选择。然而,如今人们对如何在这一决策中考虑安全问题还知之甚少。
我们的研究首次探讨了 Go 程序在本地库和非本地库之间做出选择的安全影响。我们首先调查了流行的 GitHub 项目在多大程度上使用了 cgo,结果发现这种选择实际上相当流行。然后,我们设计并构建了一个differential fuzzer,它可以比较相同功能的本地和 C/C++ 实现。我们实现了该fuzzer,并在四个流行软件包(libcrypto、libpng、libssl 和 libz)上测试了其有效性,描述了结果并强调了它们的安全影响。最后,我们介绍了两个真实世界的案例研究(anti-virus evasion,包括 Gmail 中包含的反病毒扫描仪和证书透明度案例研究),并讨论了我们的differential fuzzer是如何发现具有安全影响的实现差异的。我们的工作促使 Golang zlib 发生了变化,这些变化已经发布。
Background
Go 是一种编程语言,因其安全优势和并发性而广受赞誉。该语言默认情况下是内存安全的,并克服了 C/C++ 等语言数十年来的安全问题。然而,在使用库来利用常用功能时,开发人员面临着一个艰难的选择: 使用本地 Go 库或非本地 C/C++(使用编译器/运行时的 cgo 功能)。目前,影响这一决定的因素包括可用性、性能和稳定性。
尽管 Go 提供了大量库,但并非所有库都能在 Go 中使用,开发人员可能需要按照规范重新实现功能。这不仅成本高昂,而且容易出错。在决定使用本地库还是非本地库时,性能也是一个考虑因素,因为使用 C/C++ 库可以为大量使用此类功能的程序带来性能优势。稳定性是另一个因素,因为库的成熟度各不相同。Go 库是从零开始实现的,但可能缺少大量的测试,而 C/C++ 库可能有陈旧的代码,但经过了数十年的测试。
除了可用性、性能、稳定性等因素外,在做出这一决定时还应考虑安全问题,因为无论哪种方案都会涉及安全问题。如果开发人员重用现有的 C 代码,就有可能引入 C 库中可能存在的内存安全问题。如果重新实现 Go,则可能在规范或实现层面引入 C 库版本中不存在的新缺陷。更广义地说,不同设计和实现的库可能会在输出结果上产生偏差。从语言理论的角度来看,我们可以将其视为解析树差异攻击的一个实例[38]、[30]、[37]:相同协议/语言存在两种不同的解析器,它们之间的差异可能会导致安全问题。遗憾的是,对于无上下文语言来说,正式验证两个解析器是否等价是无法判定的[29],这就促使人们采用灰盒模糊(greybox fuzzing)等实用但不完整的方法。
Contribution
在本文中,我们提出并实现了一种方法,用于研究在 Go 编程语言中使用本地库与非本地库所产生的问题。特别是,我们通过使用差分模糊(differential fuzzing)来寻找这两类库之间的差异,重点关注差异可能导致广泛安全影响的常用库。
我们采用了一种有效的差异模糊方法,利用现有的fuzzer,针对两个库版本中的任何一个生成输入语料库和harness。对于每个输入,我们都会比较两个库的输出(可能还有其他副作用)。例如,就解析库而言,如果相同的输入导致两种不同的解析输出,则可能存在潜在缺陷。仅根据解析结果,并不能立即看出两个解析器中哪个偏离了规范(如果有的话)。具体来说,安全漏洞可能仅仅来自于差异,而不是一个解析器误解了输入。
我们还介绍了两个案例研究:在第一个案例研究中,我们展示了如何破坏 libz 压缩数据的标头,从而导致 19 种反病毒(AV)产品和 Gmail 中包含的 AV 扫描仪出现漏洞。在附录提供的第二部分中,我们展示了解析器错配如何影响证书透明度基础设施。对于所有受影响的产品,我们都启动了负责任的披露程序。
我们的研究结果表明(i) 从安全角度来看,Go 开发人员在 Go 实现库和 C/C++ 库之间的选择并不简单;(ii) 差异模糊是发现库实现之间解析器差异的有效方法,应在 C 库的 Go 再实现中系统地使用;(iii) 解析器差异可能导致重要的安全问题。
我们的主要贡献有:
- 我们设计了一种定制的differential fuzzer,以发现 Go 程序所用库中与安全相关的解析差异;
- 我们实现了设计原型,支持广泛使用的 libcrypto、libpng、libssl 和 libz 库;
- 我们对fuzzer的独特差异进行了广泛评估,并分析了根本原因和其潜在影响;
- 我们介绍了两个case-study,其中发现的解析器差异导致了安全问题。一项研究影响了证书透明度,一项研究绕过了在 Virus Total 和 Gmail 上测试的 19 个防病毒系统。
Some Questions
1. How to choose/generate Fuzz target for C/C++ library?
作者选用的待测试库(asn1,libpng,libcrypto,libzip)在go中都有现成的fuzz harness,然后将其转化为等价的C/C++ api,生成C的fuzz harness.
2. How to locate the root cause of discrepancy?
没说,大概率是手动分析。