私有数据、删掉的内容可以永久访问 GitHub官方：故意设计的-品论天涯网

最近，一个消息震惊开源社区：在GitHub上删掉的内容、私有存储库的数据都是可以永久访问的，而且这是官方故意设计的。开源安全软件公司TruffleSecurity在一篇博客中详细描述了这个问题。MLY品论天涯网

MLY品论天涯网

TruffleSecurity引入了一个新术语：CFOR（CrossForkObjectReference）：当一个存储库fork可以访问另一个fork中的敏感数据（包括来自私有和已删除fork的数据）时，就会出现CFOR漏洞。MLY品论天涯网

与不安全的直接对象引用类似，在CFOR中，用户提供提交（commit）哈希值就可以直接访问提交数据，否则这些数据是不可见的。MLY品论天涯网

以下是TruffleSecurity博客原文内容。MLY品论天涯网

访问已删除fork存储库的数据MLY品论天涯网

想象如下工作流程：MLY品论天涯网

在GitHub上fork一个公共存储库；MLY品论天涯网

将代码提交到你的fork存储库中；MLY品论天涯网

你删除你的fork存储库。MLY品论天涯网

MLY品论天涯网

那么，你提交给fork的代码应该是不能访问了对吧，因为你把fork存储库删除了。然而它却永久可以访问，不受你控制。MLY品论天涯网

如下视频所示，fork一个存储库，向其中提交数据，再删除fork存储库，那么可以通过原始存储库访问“已删除”的提交数据。
MLY品论天涯网

这种情况普遍存在。TruffleSecurity调查了一家大型AI公司3个经常被fork的公共存储库，并从已删除的fork存储库中轻松找到了40个有效的API密钥。MLY品论天涯网

MLY品论天涯网

访问已删除存储库的数据MLY品论天涯网

考虑如下工作流程：MLY品论天涯网

你在GitHub上有一个公共存储库；MLY品论天涯网

用户fork你的存储库；MLY品论天涯网

你在他们fork后提交数据，并且他们从不将其fork存储库与你的更新同步；MLY品论天涯网

你删除整个存储库。MLY品论天涯网

MLY品论天涯网

那么，用户fork你的存储库后你提交的代码仍然可以访问。MLY品论天涯网

GitHub将存储库和fork存储库储存在存储库网络中，原始“上游”存储库充当根节点。当已fork的公共“上游”存储库被“删除”时，GitHub会将根节点角色重新分配给下游fork存储库之一。但是，来自“上游”存储库的所有提交仍然存在，并且可以通过任何fork存储库访问。MLY品论天涯网

MLY品论天涯网

这种情况不是个例，上周就发生了这样一件事情：MLY品论天涯网

TruffleSecurity向一家大型科技公司提交了一个P1漏洞，显示他们意外地提交了一名员工GitHub帐户的密钥，而该帐户对整个GitHub机构拥有重要访问权限。该公司立即删除了存储库，但由于该存储库已被fork，因此仍然可以通过fork存储库访问包含敏感数据的提交，尽管fork存储库从未与原始“上游”存储库同步。MLY品论天涯网

也就是说，只要存储库有至少一个fork存储库，那么提交到公共存储库的任何代码都可以永久访问。MLY品论天涯网

访问私有存储库数据MLY品论天涯网

考虑如下工作流程：MLY品论天涯网

你创建一个最终将公开的私有存储库；MLY品论天涯网

创建该存储库的私有内部版本（通过fork），并为不打算公开的特征提交额外的代码；MLY品论天涯网

你将你的“上游”存储库公开，并将你的fork存储库保持私有。MLY品论天涯网

MLY品论天涯网

那么，私有特征和相关代码则可供公众查看。从你创建工具的内部fork存储库到开源该工具之间提交的任何代码，这些提交都可以通过公共存储库访问。MLY品论天涯网

在你将“上游”存储库公开后，对你的私有fork存储库所做的任何提交都是不可见的。这是因为更改私有“上游”存储库的可见性会导致两个存储库网络：一个用于私有版本，一个用于公开版本。MLY品论天涯网

MLY品论天涯网

不幸的是，该工作流程是用户和机构开发开源软件时最常用的方法之一。因此，机密数据可能会无意中暴露在GitHub公共存储库上。MLY品论天涯网

如何访问数据？MLY品论天涯网

GitHub存储库网络中的破坏性操作（如上述3个场景）会从标准GitHubUI和正常git操作中删除提交数据的引用。但是，这些数据仍然存在并且可以访问（commithash）。这是CFOR和IDOR漏洞之间的联系。MLY品论天涯网

MLY品论天涯网

commithash可以通过GitHub的UI进行暴力破解，特别是因为git协议允许在引用提交时使用短SHA-1值。短SHA-1值是避免与另一个commithash发生冲突所需的最小字符数，绝对最小值为4。所有4个字符SHA-1值的密钥空间为65536(16^4)。暴力破解所有可能的值可以相对容易地实现。MLY品论天涯网

MLY品论天涯网

有趣的是，GitHub公开了一个公共事件API端点。你还可以在由第三方管理的事件存档中查询commithash，并将过去十年的所有GitHub事件保存在GitHub之外，即使在存储库被删除之后也是如此。MLY品论天涯网

GitHub的规定MLY品论天涯网

TruffleSecurity通过GitHub的VDP计划将其发现提交给了GitHub官方。GitHub回应道：“这是故意设计的”，并附上了说明文档。MLY品论天涯网

MLY品论天涯网

说明文档：https://docs.github.com/en/pull-requests/collaborating-with-pull-requests/working-with-forks/what-happens-to-forks-when-a-repository-is-deleted-or-changes-visibilityMLY品论天涯网

TruffleSecurity赞赏GitHub对其架构保持透明，但TruffleSecurity认为：普通用户将私有和公共存储库的分离视为安全边界，并且认为公共用户无法访问私有存储库中的任何数据。不幸的是，如上所述，情况并不总是如此。MLY品论天涯网

TruffleSecurity得出的结论是：只要一个fork存储库存在，对该存储库网络的任何提交（即“上游”存储库或“下游”fork存储库上的提交）都将永久存在。MLY品论天涯网

TruffleSecurity还提出一种观点：安全修复公共GitHub存储库上泄露密钥的唯一方法是通过密钥轮换。MLY品论天涯网

GitHub的存储库架构存在这些设计缺陷。不幸的是，绝大多数GitHub用户永远不会理解存储库网络的实际工作原理，并且会因此而降低安全性。MLY品论天涯网

原文链接：https://trufflesecurity.com/blog/anyone-can-access-deleted-and-private-repo-data-github
MLY品论天涯网