为什么「数据饥渴」的模型会拉扯隐私
走到这里,你已经知道:一套机器学习系统会随着数据增多而变强——这正是你一路攀爬的这个领域的整体轮廓。[[privacy|隐私]]这条原则是说,你应当对「关于你的什么被知道、又被如何使用」保有一定掌控;而现代AI以一种特定的方式拉扯它:因为模型靠更多样本变得更好,于是「把一切都收集起来、永远留着、再挪去做谁也没同意过的事」的压力始终存在。隐私无关「你有什么要藏的」;它和关上一扇门、封好一个信封是同一种本能。
有两种失效方式值得精确地点名。其一,重新识别:看起来匿名的数据,往往并不匿名。你的生日、邮政编码与性别合在一起,就能锁定大多数个人,所以删掉名字并不等于匿名——普通事实的独特组合,照样能把你单独指认出来。其二,记忆:一个训练好的模型会吸收、并在日后吐出训练集里的具体例子。一个被巧妙诱导的大语言模型,有时会吐出某个真实之人的电话号码,或一段它只见过一次的原文。这些都不是假想;它们是你一路在研究的那些系统被记录在案的行为。
差分隐私:一个保证,而非一种指望
[[differential-privacy|差分隐私]]是少数几个背后真有数学证明的隐私思想之一。它的核心承诺很精确:系统所发布的任何东西,无论你的数据是否被包含在内,看起来都应当基本一样。于是看着输出的分析者,根本无从判断你究竟在不在这份数据里——因此即便他早已知道其他所有人的一切,也几乎学不到任何专属于你的东西。它把「相信我们」变成了一条你真能证明的性质。
诀窍是经过精心校准的随机噪声。在发布一个答案之前——比如「这个镇上有多少人患某种病」——系统会加上一小撮、经数学调校过的随机扰动。在一大群人身上,噪声大体相互抵消,汇总数字依然有用;但对任何一个人来说,它给了「可否认性」,就像加入一点微弱底噪,让任何单一嗓音都无法从合唱里被挑出来。一个叫隐私预算(写作 epsilon,ε)的旋钮掌控着这个取舍:噪声越少,答案越准,但隐私越弱,反之亦然。
RAW count: diabetic = 412
ADD NOISE + random draw ~ (-3, +5, -1, ...)
PUBLISHED: diabetic ~= 410 useful for the town,
useless for outing any one person
epsilon small -> more noise -> stronger privacy, less accuracy
epsilon large -> less noise -> weaker privacy, more accuracy联邦学习:把数据留在家中
[[federated-learning|联邦学习]]把通常的训练配方翻转过来。它不再把每个人的原始数据都拉到一个中央大堆里、在那里学习,而是把模型派到数据本就所在之处——你的手机、某家医院自己的服务器——让它在本地学习,再只把「学到的东西」(对模型的一些小小数学更新)带回来,原始数据始终不动。想象一位厨师,想从一百个家庭厨房里取经,却从不踏进任何一间:每家各自在自己的厨房做菜,寄回来的只是他们对菜谱的微调。
- 一台中央服务器把当前的共享模型发给成千上万台设备。
- 每台设备用自己的私有例子——你的照片、消息、打字——把模型改进一点点。
- 设备只把它们的参数更新传回来,原始数据从不离开。
- 服务器把这些更新平均成一个更好的共享模型,然后循环往复。
这正是为什么一部手机键盘能在某个夜里趁充电时学会你的俚语,只上传一个微小的更新、而绝不上传你的消息;也是为什么那些依法不能共享患者档案的医院,仍可联合训练出一个诊断模型。但这里有许多宣传一笔带过、却必须诚实说清的要害:「联邦」并不自动等于「隐私」。更新本身就可能泄露出产生它们的那些数据的信息——研究者已仅凭更新就反推出过训练样本。所以现实系统会把联邦与差分隐私或加密聚合结合起来。把数据留在设备上是一个有力的开端,却不是一份完成了的保证。
同意、治理,与「我同意」的限度
技术能带你走的距离有限;更难的问题是人文的。[[data-governance-consent|数据治理]],是一套规则与「可问责的角色分工」,用来决定一个组织收集什么、数据存在哪里、谁能接触、保留多久、何时删除。同意是它的支柱之一:人们对自己数据的使用方式,应当是知情且自愿地同意——而不是因为在一堵从没读过的小字条款墙上点了「接受」,数据就被拿走了。好的同意是知情的(你明白它)、具体的(绑定一个明示的目的)、且可撤回的(你能改变主意)。
诚实的难处在于:在大规模下,「有意义的同意」很难——没人会读条款,而当一项服务不可或缺时,「要么接受、要么走人」算不上自由的选择。所以好的治理,与其说在于一份完美的同意书,不如说在于从一开始就少收集、对「目的」保持诚实、并在出岔子时承担起责任。许多数据保护法已把这些写进条文:欧盟的GDPR要求「目的限定」「数据最小化」与一项真正的「删除权」,而欧盟AI法案更在其上、为更高风险的系统叠加了义务。
版权:模型从中学习的东西归谁所有
今天最大的那些模型,靠吞下海量的文本、图像、代码与音乐来学习——其中大量从开放网络抓取,而这其中又有大量受版权保护。[[copyright-training-data|版权与训练数据]]就是由此引出的一团缠结,把它拆成几个答案各不相同的问题会有帮助。(1)「输入」之问:为训练模型而复制这些作品,算侵权,还是作为合理使用/文本与数据挖掘而被允许?(2)「记忆」之问:模型是否有时会吐出某些特定作品近乎一字不差的副本——这是个更清楚的问题?(3)「输出」之问:模型生成之物归谁所有,一张高度模仿在世艺术家的图像会构成侵权吗?(4)「作者身份」之问:纯由AI做出的作品,究竟能不能享有版权?
其中两件事老被混为一谈,而这区分很要紧:*用*受版权保护的数据*训练*,在法律上模糊、争议激烈;而模型*复制出*某个特定受保护作品近乎完全的副本,则是清楚得多的侵权风险。截至2020年代中期,诚实的现状是悬而未决——没有全球共识,法院刚发出最初的、且往往彼此矛盾的裁决,通情达理的人意见相左。当心任一方向上的笃定断言:「这显然是盗窃」与「这显然是合理使用」都说过了头。而「模型像人一样学习」只是一个修辞性的类比,并非一条已确立的法律原则。
把它们串起来
隐私与数据权利,正是技术与人文正面相遇之处。风险是具体的——重新识别与记忆,而非科幻。防御是真实的、却也是局部的:差分隐私以准确性为代价给出可被证明的保证,联邦学习把原始数据留在家中、却需要帮手才能真正做到隐私。这一切都不是靠某个巧妙算法就能解决的;它需要关于「收集什么、为何收集」的刻意治理抉择,也需要对一个真的尚未尘埃落定的法律图景保持诚实。
在你继续攀爬这一阶时,带上一个习惯:当有人承诺一套系统是「隐私的」或「已匿名」时,问一句*怎么做到的*,再问它的代价是什么。隐私很少是「全有或全无」。它是一组刻意的抉择——收集什么、保留多久、谁能看到、他们被允许拿它做什么——而最值得信任的系统,恰恰是那些对「自己的保护究竟在哪里到头」保持诚实的系统。