隐私与数据权利

为什么「数据饥渴」的模型会拉扯隐私

走到这里，你已经知道：一套机器学习系统会随着数据增多而变强——这正是你一路攀爬的这个领域的整体轮廓。[[privacy|隐私]]这条原则是说，你应当对「关于你的什么被知道、又被如何使用」保有一定掌控；而现代AI以一种特定的方式拉扯它：因为模型靠更多样本变得更好，于是「把一切都收集起来、永远留着、再挪去做谁也没同意过的事」的压力始终存在。隐私无关「你有什么要藏的」；它和关上一扇门、封好一个信封是同一种本能。

有两种失效方式值得精确地点名。其一，重新识别：看起来匿名的数据，往往并不匿名。你的生日、邮政编码与性别合在一起，就能锁定大多数个人，所以删掉名字并不等于匿名——普通事实的独特组合，照样能把你单独指认出来。其二，记忆：一个训练好的模型会吸收、并在日后吐出训练集里的具体例子。一个被巧妙诱导的大语言模型，有时会吐出某个真实之人的电话号码，或一段它只见过一次的原文。这些都不是假想；它们是你一路在研究的那些系统被记录在案的行为。

差分隐私：一个保证，而非一种指望

[[differential-privacy|差分隐私]]是少数几个背后真有数学证明的隐私思想之一。它的核心承诺很精确：系统所发布的任何东西，无论你的数据是否被包含在内，看起来都应当基本一样。于是看着输出的分析者，根本无从判断你究竟在不在这份数据里——因此即便他早已知道其他所有人的一切，也几乎学不到任何专属于你的东西。它把「相信我们」变成了一条你真能证明的性质。

诀窍是经过精心校准的随机噪声。在发布一个答案之前——比如「这个镇上有多少人患某种病」——系统会加上一小撮、经数学调校过的随机扰动。在一大群人身上，噪声大体相互抵消，汇总数字依然有用；但对任何一个人来说，它给了「可否认性」，就像加入一点微弱底噪，让任何单一嗓音都无法从合唱里被挑出来。一个叫隐私预算（写作 epsilon，ε）的旋钮掌控着这个取舍：噪声越少，答案越准，但隐私越弱，反之亦然。

RAW count:    diabetic = 412
ADD NOISE  +  random draw  ~  (-3, +5, -1, ...)
PUBLISHED:    diabetic ~= 410   useful for the town,
                                useless for outing any one person

epsilon small  ->  more noise  ->  stronger privacy, less accuracy
epsilon large  ->  less noise  ->  weaker privacy,  more accuracy

汇总数字在噪声中存活下来，个体则藏身其中。epsilon 拨动着这个刻度。

联邦学习：把数据留在家中

[[federated-learning|联邦学习]]把通常的训练配方翻转过来。它不再把每个人的原始数据都拉到一个中央大堆里、在那里学习，而是把模型派到数据本就所在之处——你的手机、某家医院自己的服务器——让它在本地学习，再只把「学到的东西」（对模型的一些小小数学更新）带回来，原始数据始终不动。想象一位厨师，想从一百个家庭厨房里取经，却从不踏进任何一间：每家各自在自己的厨房做菜，寄回来的只是他们对菜谱的微调。

一台中央服务器把当前的共享模型发给成千上万台设备。
每台设备用自己的私有例子——你的照片、消息、打字——把模型改进一点点。
设备只把它们的参数更新传回来，原始数据从不离开。
服务器把这些更新平均成一个更好的共享模型，然后循环往复。

这正是为什么一部手机键盘能在某个夜里趁充电时学会你的俚语，只上传一个微小的更新、而绝不上传你的消息；也是为什么那些依法不能共享患者档案的医院，仍可联合训练出一个诊断模型。但这里有许多宣传一笔带过、却必须诚实说清的要害：「联邦」并不自动等于「隐私」。更新本身就可能泄露出产生它们的那些数据的信息——研究者已仅凭更新就反推出过训练样本。所以现实系统会把联邦与差分隐私或加密聚合结合起来。把数据留在设备上是一个有力的开端，却不是一份完成了的保证。

同意、治理，与「我同意」的限度

技术能带你走的距离有限；更难的问题是人文的。[[data-governance-consent|数据治理]]，是一套规则与「可问责的角色分工」，用来决定一个组织收集什么、数据存在哪里、谁能接触、保留多久、何时删除。同意是它的支柱之一：人们对自己数据的使用方式，应当是知情且自愿地同意——而不是因为在一堵从没读过的小字条款墙上点了「接受」，数据就被拿走了。好的同意是知情的（你明白它）、具体的（绑定一个明示的目的）、且可撤回的（你能改变主意）。

诚实的难处在于：在大规模下，「有意义的同意」很难——没人会读条款，而当一项服务不可或缺时，「要么接受、要么走人」算不上自由的选择。所以好的治理，与其说在于一份完美的同意书，不如说在于从一开始就少收集、对「目的」保持诚实、并在出岔子时承担起责任。许多数据保护法已把这些写进条文：欧盟的GDPR要求「目的限定」「数据最小化」与一项真正的「删除权」，而欧盟AI法案更在其上、为更高风险的系统叠加了义务。

版权：模型从中学习的东西归谁所有

今天最大的那些模型，靠吞下海量的文本、图像、代码与音乐来学习——其中大量从开放网络抓取，而这其中又有大量受版权保护。[[copyright-training-data|版权与训练数据]]就是由此引出的一团缠结，把它拆成几个答案各不相同的问题会有帮助。（1）「输入」之问：为训练模型而复制这些作品，算侵权，还是作为合理使用／文本与数据挖掘而被允许？（2）「记忆」之问：模型是否有时会吐出某些特定作品近乎一字不差的副本——这是个更清楚的问题？（3）「输出」之问：模型生成之物归谁所有，一张高度模仿在世艺术家的图像会构成侵权吗？（4）「作者身份」之问：纯由AI做出的作品，究竟能不能享有版权？

其中两件事老被混为一谈，而这区分很要紧：*用*受版权保护的数据*训练*，在法律上模糊、争议激烈；而模型*复制出*某个特定受保护作品近乎完全的副本，则是清楚得多的侵权风险。截至2020年代中期，诚实的现状是悬而未决——没有全球共识，法院刚发出最初的、且往往彼此矛盾的裁决，通情达理的人意见相左。当心任一方向上的笃定断言：「这显然是盗窃」与「这显然是合理使用」都说过了头。而「模型像人一样学习」只是一个修辞性的类比，并非一条已确立的法律原则。

把它们串起来

隐私与数据权利，正是技术与人文正面相遇之处。风险是具体的——重新识别与记忆，而非科幻。防御是真实的、却也是局部的：差分隐私以准确性为代价给出可被证明的保证，联邦学习把原始数据留在家中、却需要帮手才能真正做到隐私。这一切都不是靠某个巧妙算法就能解决的；它需要关于「收集什么、为何收集」的刻意治理抉择，也需要对一个真的尚未尘埃落定的法律图景保持诚实。

在你继续攀爬这一阶时，带上一个习惯：当有人承诺一套系统是「隐私的」或「已匿名」时，问一句*怎么做到的*，再问它的代价是什么。隐私很少是「全有或全无」。它是一组刻意的抉择——收集什么、保留多久、谁能看到、他们被允许拿它做什么——而最值得信任的系统，恰恰是那些对「自己的保护究竟在哪里到头」保持诚实的系统。