JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

隱私與資料權利

「資料飢渴」的模型讓隱私承受著真實的壓力——所以這篇導讀會帶你走過那些具體的風險,以及誠實而局部的防禦:差分隱私、聯邦學習、同意與治理,還有訓練資料著作權這個懸而未決的問題。

為什麼「資料飢渴」的模型會拉扯隱私

走到這裡,你已經知道:一套機器學習系統會隨著資料增多而變強——這正是你一路攀爬的這個領域的整體輪廓。[[privacy|隱私]]這條原則是說,你應當對「關於你的什麼被知道、又被如何使用」保有一定掌控;而現代AI以一種特定的方式拉扯它:因為模型靠更多樣本變得更好,於是「把一切都收集起來、永遠留著、再挪去做誰也沒同意過的事」的壓力始終存在。隱私無關「你有什麼要藏的」;它和關上一扇門、封好一個信封是同一種本能。

有兩種失效方式值得精確地點名。其一,重新識別:看起來匿名的資料,往往並不匿名。你的生日、郵遞區號與性別合在一起,就能鎖定大多數個人,所以刪掉名字並不等於匿名——普通事實的獨特組合,照樣能把你單獨指認出來。其二,記憶:一個訓練好的模型會吸收、並在日後吐出訓練集裡的具體例子。一個被巧妙誘導的大語言模型,有時會吐出某個真實之人的電話號碼,或一段它只見過一次的原文。這些都不是假想;它們是你一路在研究的那些系統被記錄在案的行為。

差分隱私:一個保證,而非一種指望

[[differential-privacy|差分隱私]]是少數幾個背後真有數學證明的隱私思想之一。它的核心承諾很精確:系統所發布的任何東西,無論你的資料是否被包含在內,看起來都應當基本一樣。於是看著輸出的分析者,根本無從判斷你究竟在不在這份資料裡——因此即便他早已知道其他所有人的一切,也幾乎學不到任何專屬於你的東西。它把「相信我們」變成了一條你真能證明的性質。

訣竅是經過精心校準的隨機噪聲。在發布一個答案之前——比如「這個鎮上有多少人患某種病」——系統會加上一小撮、經數學調校過的隨機擾動。在一大群人身上,噪聲大體相互抵消,匯總數字依然有用;但對任何一個人來說,它給了「可否認性」,就像加入一點微弱底噪,讓任何單一嗓音都無法從合唱裡被挑出來。一個叫隱私預算(寫作 epsilon,ε)的旋鈕掌控著這個取捨:噪聲越少,答案越準,但隱私越弱,反之亦然。

RAW count:    diabetic = 412
ADD NOISE  +  random draw  ~  (-3, +5, -1, ...)
PUBLISHED:    diabetic ~= 410   useful for the town,
                                useless for outing any one person

epsilon small  ->  more noise  ->  stronger privacy, less accuracy
epsilon large  ->  less noise  ->  weaker privacy,  more accuracy
匯總數字在噪聲中存活下來,個體則藏身其中。epsilon 撥動著這個刻度。

聯邦學習:把資料留在家中

[[federated-learning|聯邦學習]]把通常的訓練配方翻轉過來。它不再把每個人的原始資料都拉到一個中央大堆裡、在那裡學習,而是把模型派到資料本就所在之處——你的手機、某家醫院自己的伺服器——讓它在本地學習,再只把「學到的東西」(對模型的一些小小數學更新)帶回來,原始資料始終不動。想像一位廚師,想從一百個家庭廚房裡取經,卻從不踏進任何一間:每家各自在自己的廚房做菜,寄回來的只是他們對菜譜的微調。

  1. 一台中央伺服器把當前的共享模型發給成千上萬台裝置。
  2. 每台裝置用自己的私有例子——你的照片、訊息、打字——把模型改進一點點。
  3. 裝置只把它們的參數更新傳回來,原始資料從不離開。
  4. 伺服器把這些更新平均成一個更好的共享模型,然後循環往復。

這正是為什麼一部手機鍵盤能在某個夜裡趁充電時學會你的俚語,只上傳一個微小的更新、而絕不上傳你的訊息;也是為什麼那些依法不能共享患者檔案的醫院,仍可聯合訓練出一個診斷模型。但這裡有許多宣傳一筆帶過、卻必須誠實說清的要害:「聯邦」並不自動等於「隱私」。更新本身就可能洩露出產生它們的那些資料的資訊——研究者已僅憑更新就反推出過訓練樣本。所以現實系統會把聯邦與差分隱私或加密聚合結合起來。把資料留在裝置上是一個有力的開端,卻不是一份完成了的保證。

同意、治理,與「我同意」的限度

技術能帶你走的距離有限;更難的問題是人文的。[[data-governance-consent|資料治理]],是一套規則與「可問責的角色分工」,用來決定一個組織收集什麼、資料存在哪裡、誰能接觸、保留多久、何時刪除。同意是它的支柱之一:人們對自己資料的使用方式,應當是知情且自願地同意——而不是因為在一堵從沒讀過的小字條款牆上點了「接受」,資料就被拿走了。好的同意是知情的(你明白它)、具體的(綁定一個明示的目的)、且可撤回的(你能改變主意)。

誠實的難處在於:在大規模下,「有意義的同意」很難——沒人會讀條款,而當一項服務不可或缺時,「要麼接受、要麼走人」算不上自由的選擇。所以好的治理,與其說在於一份完美的同意書,不如說在於從一開始就少收集、對「目的」保持誠實、並在出岔子時承擔起責任。許多資料保護法已把這些寫進條文:歐盟的GDPR要求「目的限定」「資料最小化」與一項真正的「刪除權」,而歐盟AI法案更在其上、為更高風險的系統疊加了義務。

著作權:模型從中學習的東西歸誰所有

今天最大的那些模型,靠吞下海量的文本、圖像、程式碼與音樂來學習——其中大量從開放網路抓取,而這其中又有大量受著作權保護。[[copyright-training-data|著作權與訓練資料]]就是由此引出的一團纏結,把它拆成幾個答案各不相同的問題會有幫助。(1)「輸入」之問:為訓練模型而複製這些作品,算侵權,還是作為合理使用/文本與資料探勘而被允許?(2)「記憶」之問:模型是否有時會吐出某些特定作品近乎一字不差的副本——這是個更清楚的問題?(3)「輸出」之問:模型生成之物歸誰所有,一張高度模仿在世藝術家的圖像會構成侵權嗎?(4)「作者身份」之問:純由AI做出的作品,究竟能不能享有著作權?

其中兩件事老被混為一談,而這區分很要緊:*用*受著作權保護的資料*訓練*,在法律上模糊、爭議激烈;而模型*複製出*某個特定受保護作品近乎完全的副本,則是清楚得多的侵權風險。截至2020年代中期,誠實的現狀是懸而未決——沒有全球共識,法院剛發出最初的、且往往彼此矛盾的裁決,通情達理的人意見相左。當心任一方向上的篤定斷言:「這顯然是盜竊」與「這顯然是合理使用」都說過了頭。而「模型像人一樣學習」只是一個修辭性的類比,並非一條已確立的法律原則。

把它們串起來

隱私與資料權利,正是技術與人文正面相遇之處。風險是具體的——重新識別與記憶,而非科幻。防禦是真實的、卻也是局部的:差分隱私以準確性為代價給出可被證明的保證,聯邦學習把原始資料留在家中、卻需要幫手才能真正做到隱私。這一切都不是靠某個巧妙演算法就能解決的;它需要關於「收集什麼、為何收集」的刻意治理抉擇,也需要對一個真的尚未塵埃落定的法律圖景保持誠實。

在你繼續攀爬這一階時,帶上一個習慣:當有人承諾一套系統是「隱私的」或「已匿名」時,問一句*怎麼做到的*,再問它的代價是什麼。隱私很少是「全有或全無」。它是一組刻意的抉擇——收集什麼、保留多久、誰能看到、他們被允許拿它做什麼——而最值得信任的系統,恰恰是那些對「自己的保護究竟在哪裡到頭」保持誠實的系統。