版權大戰如何重塑 AI 產品的未來?
免費數據時代的終結那種可以隨意抓取數據、不用負責任的時代已經結束了。多年來,開發者們總是理所當然地認為開放的網際網路就是公共資源,並以此為基礎構建大型語言模型(LLM)。但現在,這份「理所當然」正撞上法律的現實。新聞機構和藝術家們發起的重磅訴訟,正迫使這些產品的構建與銷售方式發生根本性轉變。企業再也無法忽視訓練數據集的來源。結果就是,我們正走向一個「授權模式」的時代,每一個 token 都有其價格。這場轉變將決定哪些公司能存活,哪些會被法律費用壓垮。這不僅僅是關於道德或創作者權利,更是關於商業的可持續性。如果法院裁定利用版權數據進行訓練不屬於「合理使用」(fair use),那麼構建競爭性模型的成本將會飆升。這對那些財力雄厚且已有授權協議的科技巨頭有利,而小型開發者可能會被完全擠出市場。開發速度正撞上一堵法律高牆,這將在未來多年內重塑整個產業。 從「抓取」到「授權」核心問題在於生成式模型是如何學習的。這些系統吞噬了數十億的文字和圖像來識別模式。在開發初期,研究人員使用像 Common Crawl 這樣的大型數據集時,並未太在意數據背後的個人權利。他們辯稱這個過程是「轉換性」(transformative)的,意味著它創造了全新的東西,並沒有取代原始作品。這正是美國「合理使用」辯護的基石。然而,當前 AI 生產的規模改變了這個等式。當一個模型能生成特定記者的報導風格,或是模仿在世藝術家的畫作時,所謂的「轉換性」主張就變得難以辯護。這導致內容所有者發起了一波訴訟潮,因為他們眼睜睜看著自己的心血被用來訓練取代自己的工具。最近的趨勢顯示,產業正遠離「先斬後奏」的策略。大型科技公司現在正與出版商簽署數百萬美元的協議,以確保獲得高品質、合法的數據。這創造了一個雙軌系統:一邊是基於授權或公共領域數據訓練的「乾淨」模型,另一邊則是基於抓取數據、帶有巨大法律風險的模型。商業世界開始偏好前者。企業不想整合一個可能隨時被法院禁令關閉,或導致鉅額版權侵權帳單的工具。這使得法律溯源(legal provenance)成為產品的關鍵功能。了解數據來源,現在與模型的功能一樣重要。這種趨勢在 OpenAI 和 Apple 等公司的近期行動中顯而易見,他們積極尋求與大型媒體集團合作,以確保訓練管道不會被法院禁令中斷。 破碎的全球法律地圖這場法律戰並非侷限於一國,而是一場全球性的角力,各地區採取的方法大相逕庭。在歐盟,《AI 法案》(AI Act)設定了嚴格的透明度標準,開發者必須公開訓練所使用的版權材料。對於那些一直將訓練集視為秘密的公司來說,這是一個巨大的障礙。根據 Reuters 的報導,這些法規旨在平衡企業權力與個人權利,但也增加了沉重的合規負擔。在日本,政府採取了對開發者更友善的立場,暗示在許多情況下,利用數據進行訓練可能不違反版權法。這創造了「監管套利」,公司可能會將業務轉移到規則更寬鬆的國家,這可能導致全球 AI 能力出現地理上的割裂。美國依然是主戰場,因為大多數大型 AI 公司都位於那裡。涉及 The New York Times 和多位作者的案件結果,將為全球定下基調。如果美國法院判決 AI 公司敗訴,可能會在全球引發一波類似的訴訟。這種不確定性對某些人來說是投資的阻礙,但對另一些人來說,卻是鞏固權力的機會。擁有現有內容庫的大型企業(如電影製片廠和圖庫代理商)突然處於極具優勢的地位。他們不再只是內容創作者,而是下一代軟體所需原材料的守門人。這種轉變正在改變整個科技產業的權力動態,將影響力從純軟體工程師手中,轉移到那些擁有「人類表達權利」的人手中。這種演變是現代 AI 治理與倫理 討論的核心。 新的商業成本這些法律糾紛的實際影響已經在企業董事會中顯現。想像一下 2026 一家中型科技公司的產品經理的日常。他們的任務是推出一個新的自動化行銷工具。幾年前,他們只需要串接一個熱門的 API 就能直接發布。但今天,他們必須花數小時與法律團隊審查該 API 的服務條款。他們需要確認模型是否在「安全」數據上進行訓練,以及供應商是否提供賠償保證(indemnification)——即如果客戶因版權侵權被起訴,供應商承諾承擔法律費用。這是軟體銷售方式的巨大轉變,重心已從純粹的效能轉向法律安全。如果工具無法保證數據來源,通常會被風險厭惡的企業客戶拒絕。想像一位平面設計師使用 AI 工具為全球品牌製作廣告。他們生成了一張圖片,但看起來卻很像某位知名攝影師的作品。如果品牌使用了該圖片,可能會面臨訴訟。為了避免這種情況,公司現在實施「人在迴路」(human-in-the-loop)工作流程,將每個 AI 輸出與版權數據庫進行比對。這增加了一層許多人沒預料到的摩擦力,減緩了生產速度,而速度本來是 AI 的主要賣點。法律不確定性的商業後果很明確:更高的保險費、更慢的產品週期,以及對訴訟的持續恐懼。公司現在被迫將預算的大部分用於法律辯護和授權費用,而不是研發。 您有任何關於 AI 的故事、工具、趨勢或問題,認為我們應該報導嗎? 將您的文章想法寄給我們 — 我們很樂意聽取您的意見。 人們常高估這些法律問題的解決速度,以為單一訴訟就能定案。事實上,這可能是一個長達十年的上訴與立法調整過程。同時,人們也低估了從已訓練模型中移除版權數據的技術難度。你無法簡單地從神經網路中「刪除」某本書或某篇文章。通常,遵守刪除令的唯一方法就是刪除整個模型並從頭開始。這對任何企業來說都是災難性的風險,意味著單一法律敗訴就可能抹去多年的努力和數百萬美元的投資。這一現實迫使開發者從一開始就對訓練集內容更加謹慎。