隱私與資料權利

為什麼「資料飢渴」的模型會拉扯隱私

走到這裡，你已經知道：一套機器學習系統會隨著資料增多而變強——這正是你一路攀爬的這個領域的整體輪廓。[[privacy|隱私]]這條原則是說，你應當對「關於你的什麼被知道、又被如何使用」保有一定掌控；而現代AI以一種特定的方式拉扯它：因為模型靠更多樣本變得更好，於是「把一切都收集起來、永遠留著、再挪去做誰也沒同意過的事」的壓力始終存在。隱私無關「你有什麼要藏的」；它和關上一扇門、封好一個信封是同一種本能。

有兩種失效方式值得精確地點名。其一，重新識別：看起來匿名的資料，往往並不匿名。你的生日、郵遞區號與性別合在一起，就能鎖定大多數個人，所以刪掉名字並不等於匿名——普通事實的獨特組合，照樣能把你單獨指認出來。其二，記憶：一個訓練好的模型會吸收、並在日後吐出訓練集裡的具體例子。一個被巧妙誘導的大語言模型，有時會吐出某個真實之人的電話號碼，或一段它只見過一次的原文。這些都不是假想；它們是你一路在研究的那些系統被記錄在案的行為。

差分隱私：一個保證，而非一種指望

[[differential-privacy|差分隱私]]是少數幾個背後真有數學證明的隱私思想之一。它的核心承諾很精確：系統所發布的任何東西，無論你的資料是否被包含在內，看起來都應當基本一樣。於是看著輸出的分析者，根本無從判斷你究竟在不在這份資料裡——因此即便他早已知道其他所有人的一切，也幾乎學不到任何專屬於你的東西。它把「相信我們」變成了一條你真能證明的性質。

訣竅是經過精心校準的隨機噪聲。在發布一個答案之前——比如「這個鎮上有多少人患某種病」——系統會加上一小撮、經數學調校過的隨機擾動。在一大群人身上，噪聲大體相互抵消，匯總數字依然有用；但對任何一個人來說，它給了「可否認性」，就像加入一點微弱底噪，讓任何單一嗓音都無法從合唱裡被挑出來。一個叫隱私預算（寫作 epsilon，ε）的旋鈕掌控著這個取捨：噪聲越少，答案越準，但隱私越弱，反之亦然。

RAW count:    diabetic = 412
ADD NOISE  +  random draw  ~  (-3, +5, -1, ...)
PUBLISHED:    diabetic ~= 410   useful for the town,
                                useless for outing any one person

epsilon small  ->  more noise  ->  stronger privacy, less accuracy
epsilon large  ->  less noise  ->  weaker privacy,  more accuracy

匯總數字在噪聲中存活下來，個體則藏身其中。epsilon 撥動著這個刻度。

聯邦學習：把資料留在家中

[[federated-learning|聯邦學習]]把通常的訓練配方翻轉過來。它不再把每個人的原始資料都拉到一個中央大堆裡、在那裡學習，而是把模型派到資料本就所在之處——你的手機、某家醫院自己的伺服器——讓它在本地學習，再只把「學到的東西」（對模型的一些小小數學更新）帶回來，原始資料始終不動。想像一位廚師，想從一百個家庭廚房裡取經，卻從不踏進任何一間：每家各自在自己的廚房做菜，寄回來的只是他們對菜譜的微調。

一台中央伺服器把當前的共享模型發給成千上萬台裝置。
每台裝置用自己的私有例子——你的照片、訊息、打字——把模型改進一點點。
裝置只把它們的參數更新傳回來，原始資料從不離開。
伺服器把這些更新平均成一個更好的共享模型，然後循環往復。

這正是為什麼一部手機鍵盤能在某個夜裡趁充電時學會你的俚語，只上傳一個微小的更新、而絕不上傳你的訊息；也是為什麼那些依法不能共享患者檔案的醫院，仍可聯合訓練出一個診斷模型。但這裡有許多宣傳一筆帶過、卻必須誠實說清的要害：「聯邦」並不自動等於「隱私」。更新本身就可能洩露出產生它們的那些資料的資訊——研究者已僅憑更新就反推出過訓練樣本。所以現實系統會把聯邦與差分隱私或加密聚合結合起來。把資料留在裝置上是一個有力的開端，卻不是一份完成了的保證。

同意、治理，與「我同意」的限度

技術能帶你走的距離有限；更難的問題是人文的。[[data-governance-consent|資料治理]]，是一套規則與「可問責的角色分工」，用來決定一個組織收集什麼、資料存在哪裡、誰能接觸、保留多久、何時刪除。同意是它的支柱之一：人們對自己資料的使用方式，應當是知情且自願地同意——而不是因為在一堵從沒讀過的小字條款牆上點了「接受」，資料就被拿走了。好的同意是知情的（你明白它）、具體的（綁定一個明示的目的）、且可撤回的（你能改變主意）。

誠實的難處在於：在大規模下，「有意義的同意」很難——沒人會讀條款，而當一項服務不可或缺時，「要麼接受、要麼走人」算不上自由的選擇。所以好的治理，與其說在於一份完美的同意書，不如說在於從一開始就少收集、對「目的」保持誠實、並在出岔子時承擔起責任。許多資料保護法已把這些寫進條文：歐盟的GDPR要求「目的限定」「資料最小化」與一項真正的「刪除權」，而歐盟AI法案更在其上、為更高風險的系統疊加了義務。

著作權：模型從中學習的東西歸誰所有

今天最大的那些模型，靠吞下海量的文本、圖像、程式碼與音樂來學習——其中大量從開放網路抓取，而這其中又有大量受著作權保護。[[copyright-training-data|著作權與訓練資料]]就是由此引出的一團纏結，把它拆成幾個答案各不相同的問題會有幫助。（1）「輸入」之問：為訓練模型而複製這些作品，算侵權，還是作為合理使用／文本與資料探勘而被允許？（2）「記憶」之問：模型是否有時會吐出某些特定作品近乎一字不差的副本——這是個更清楚的問題？（3）「輸出」之問：模型生成之物歸誰所有，一張高度模仿在世藝術家的圖像會構成侵權嗎？（4）「作者身份」之問：純由AI做出的作品，究竟能不能享有著作權？

其中兩件事老被混為一談，而這區分很要緊：*用*受著作權保護的資料*訓練*，在法律上模糊、爭議激烈；而模型*複製出*某個特定受保護作品近乎完全的副本，則是清楚得多的侵權風險。截至2020年代中期，誠實的現狀是懸而未決——沒有全球共識，法院剛發出最初的、且往往彼此矛盾的裁決，通情達理的人意見相左。當心任一方向上的篤定斷言：「這顯然是盜竊」與「這顯然是合理使用」都說過了頭。而「模型像人一樣學習」只是一個修辭性的類比，並非一條已確立的法律原則。

把它們串起來

隱私與資料權利，正是技術與人文正面相遇之處。風險是具體的——重新識別與記憶，而非科幻。防禦是真實的、卻也是局部的：差分隱私以準確性為代價給出可被證明的保證，聯邦學習把原始資料留在家中、卻需要幫手才能真正做到隱私。這一切都不是靠某個巧妙演算法就能解決的；它需要關於「收集什麼、為何收集」的刻意治理抉擇，也需要對一個真的尚未塵埃落定的法律圖景保持誠實。

在你繼續攀爬這一階時，帶上一個習慣：當有人承諾一套系統是「隱私的」或「已匿名」時，問一句*怎麼做到的*，再問它的代價是什麼。隱私很少是「全有或全無」。它是一組刻意的抉擇——收集什麼、保留多久、誰能看到、他們被允許拿它做什麼——而最值得信任的系統，恰恰是那些對「自己的保護究竟在哪裡到頭」保持誠實的系統。