AI 訓練的著作權大戰:輕鬆搞懂所有眉角!
嘿,各位!如果你最近常在網路上閒逛,肯定看過不少超酷的東西吧?現在的 AI 不只能寫出洗腦神曲,幫你寫網站的 code,甚至還能畫出太空貓咪騎腳踏車的圖!是不是超神奇?但這魔法背後,其實藏著一個大家都在討論的超大問題:這些知識到底從哪裡來?為了讓這些工具變得這麼聰明,科技公司可是用上百萬篇文章、照片和書籍來「訓練」它們。這也引爆了一場關於內容所有權,以及創作者是否該獲得報酬的巨大討論。現在正是關注 AI 新聞和更新的熱鬧時刻,因為我們使用網路的規則,正被重新定義!重點是,我們正朝著一個科技公司和創作者能攜手合作、共創雙贏的未來邁進。這是一個令人興奮的轉變,將有助於讓我們的日常工具變得更棒、更可靠!
你可能會好奇,AI 到底怎麼學習的?想像一下,它就像一個在巨大圖書館裡的學生。為了學會像人類一樣寫作,這個 AI 學生幾乎把圖書館裡的所有東西都讀了一遍,包括新聞報導、部落格文章,甚至是公開的社群媒體貼文。這個過程通常被稱為「訓練」(training)。AI 不會只是複製貼上它讀到的內容,而是會尋找其中的「模式」(patterns)。它會學到「蘋果」這個詞常常出現在「多汁」或「紅色」旁邊;它會學到夕陽通常有橘色和粉紅色的漸層。透過觀察數十億個例子,它就成了預測「接下來會是什麼」的專家。這就是它如何創造出感覺非常像人類的新東西。很久以來,這都只被視為一個很酷的科學專案。但現在這些工具都成了大生意,那些在圖書館裡寫書、拍照的人,也開始提出一些關於他們作品如何被使用的合理問題了。
發現錯誤或需要修正的地方?請告訴我們。一個常見的誤解是,AI 只是個巨大、充滿「偷來」作品的資料庫。這不太對。AI 並沒有儲存原始檔案,它儲存的是從這些檔案中學到的「模式」。然而,爭議的點在於,這些資訊一開始是怎麼被收集的?這種做法被稱為「資料爬取」(data scraping)。想像一台巨大的數位吸塵器,在網路上到處跑,把所有能找到的公開資料都吸走。早期,這大多被忽略了。但最近,情況變了。創意界的大咖們,從知名作家到主要新聞媒體,都開始說這種「吸塵」不該是免費的。他們認為自己的作品有價值,如果科技公司要利用他們的資料訓練工具來賺錢,他們就該分一杯羹。這就是這場辯論的核心:一場在創新速度與提供這些原始材料的人的權利之間的拔河。
AI 大腦究竟是誰的?這個大哉問!
這場討論正在全球各地發生,對網路的未來來說,其實是個好消息!為什麼?因為這代表我們終於在思考,如何以一種符合現代潮流的方式來評估數位作品的價值。在像美國這樣的地方,法院正在審視一種叫做「合理使用」(fair use)的概念。這是一個法律上的想法,意思是如果你將受著作權保護的內容改造成新的東西,並且沒有損害原創作者的利益,你就可以在未經許可的情況下使用它。科技公司主張,AI 訓練就是「合理使用」的終極形式。他們說,他們創造出來的東西與原始資料完全不同。另一方面,創作者則說,如果 AI 能寫出某位特定作家的風格故事,那它肯定是在跟那位作家競爭。這不只發生在美國,歐盟和像日本這樣的國家也正在制定自己的規則。有些國家對 AI 公司非常友善,鼓勵其成長;而另一些國家則設置了護欄,以保護當地的藝術家和記者。
這些決策的全球影響將會非常巨大。如果每個國家都有不同的規則,對於那些全球營運的公司來說,可能會變得非常混亂。這就是為什麼許多人都在關注 世界智慧財產權組織,希望能幫助建立一個所有人都能遵循的標準。這不只關乎大型訴訟,更是為了建立一個可持續的系統。我們已經看到一些令人興奮的進展了!一些科技巨頭已經開始與大型出版商簽署「授權協議」(licensing deals),這意味著他們正在付費,以獲得使用高品質資料來訓練其模型的權利。這可能是一個很棒的方式,既能支持新聞業和藝術,又能讓 AI 技術快速發展。這證明我們不必在「酷炫科技」和「公平報酬」之間做選擇,我們可以兩者兼得!這種轉向授權的趨勢,與一兩年前大多數公司只是隨意爬取資料而不詢問的情況相比,是一個巨大的轉變。
數位吸塵器是怎麼運作的?
對於企業來說,這種法律上的不確定性可能會讓人有點頭痛。想像你是一家想用 AI 開發新 App 的小公司,如果你不確定你使用的 AI 是否經過合法訓練,你可能會擔心日後被起訴。這種不確定性會拖慢腳步,公司可能會選擇觀望,而不是積極創新。這就是為什麼明確的規則如此重要。當規則清晰時,企業就能放心地投資,他們會清楚知道需要做什麼才能合法合規。這可能意味著要為有授權的 AI 模型支付多一點費用,但換來的安心是值得的。這也鼓勵了更多道德 AI 工具的產生,讓企業可以自豪地使用。我們正從過去那種「快速行動、打破常規」的舊思維中轉變,現在的目標是快速前進,同時確保所有必要的許可都已到位。這是一個建立長期、值得信賴產業的更好方式。
全世界都在看法院怎麼判,為什麼?
讓我們看看這對一個真實的人有什麼影響。認識一下 Mike,他經營一家小型廣告公司,很喜歡用 AI 幫客戶發想點子。以前,他從沒真正想過 AI 的點子是從哪裡來的。但最近,他的客戶開始提出問題,他們想確保 Mike 提供給他們的圖片和文字不會引起法律麻煩。由於業界最近的變化,Mike 現在可以選擇使用只在有授權資料上訓練的 AI 工具。這對他來說是個巨大的勝利!他可以告訴客戶,一切都是百分之百合法且合乎道德的,這也給了他競爭優勢。在世界的另一端,一位名叫 Elena 的作家也看到了好處。她所屬的團體剛與一家大型 AI 公司簽署了一項協議。現在,每當 AI 使用她的作品來學習時,一小筆錢就會進入一個為像她這樣的作家設立的基金。這幫助她可以繼續做她喜歡的事情,同時科技世界也在她身邊不斷變化。
現代創作者的一天:現在跟以前有什麼不同?
像 Elena 或 Mike 這樣的人,現在的日常比以前清晰多了。Elena 早上會先查看她的「儀表板」(dashboard),看看她的內容是如何被使用的。她感到被尊重,因為她有權選擇「退出」(opt-out)或加入授權計畫。同時,Mike 正在使用一個帶有明確標章的 AI 工具,上面寫著它是在授權資料上訓練的。他下午為一家當地麵包店設計了一個漂亮的行銷活動,他知道自己正在支持那些幫助 AI 學習的藝術家們。這就是著作權大戰在現實世界中的影響。這不只是關於穿西裝的律師們,更是關於確保那些讓網路變得有趣好玩的人,可以繼續他們的工作。創新與所有權之間的張力依然存在,但它正轉變為一種有建設性的張力,推動我們去尋找原本可能想不到的創意解決方案。
有人可能會好奇,所有這些法律審查的隱藏成本會不會讓我們的愛用工具變得更貴?這是一個非常合理的問題。如果公司必須為每一份資料付費,他們會把這些成本轉嫁給我們嗎?我們也必須思考,這會不會讓那些有最多錢支付授權費的大型科技公司獲得巨大優勢?這是一個有趣的難題,因為我們希望 AI 能讓所有人都能使用,而不僅僅是富人。我們還必須對「隱私」(privacy)保持好奇心。如果 AI 是在公開資料上訓練的,我們應該始終詢問我們的個人資訊是如何被處理的。這些都不是需要擔心的理由,但它們是我們在共同學習的過程中,需要密切關注的重要事項。保持好奇心有助於確保這項技術在長期內對每個人都保持有用和友善。
您有任何關於 AI 的故事、工具、趨勢或問題,認為我們應該報導嗎? 將您的文章想法寄給我們 — 我們很樂意聽取您的意見。合法合規的技術面,到底怎麼搞?
現在,對於那些喜歡鑽研細節控的朋友們,我們來聊聊這在技術層面上是怎麼運作的。開發者們正在建立一些非常聰明的方法來處理著作權問題。其中一個最大的趨勢是使用更小、更「專門模型」(specialized models)。與其用一個什麼都懂的巨型 AI,公司正在建立一些只在非常特定、有授權的資料集上訓練的小型 AI。這使得追溯資訊來源變得容易得多。我們也看到許多關於「API 限制」(API limits)和「資料來源」(data provenance)的工作。Provenance 只是個花俏的詞,指的是資料的歷史脈絡。透過使用「區塊鏈」(blockchain)或其他「數位簽章」(digital signatures),開發者可以證明某份訓練資料是經過許可使用的。這在許多 AI 團隊的工作流程(workflow)中,正逐漸成為標準配備。這一切都是為了建立一個從創作者到 AI 輸出的透明管道。
另一個很酷的技術叫做「檢索增強生成」(Retrieval-Augmented Generation)。這是一種 AI 可以從特定、可信賴的來源即時查找資訊的方式,而不是只依賴它在訓練期間學到的東西。這對於保持合法性非常有用,因為公司可以精確控制 AI 允許查看哪些文件。它也有助於「本地儲存」(local storage)。許多企業現在選擇在自己的伺服器上運行自己的 AI 模型,使用自己的私人資料。這完全避免了所有公開爬取的爭議。他們可以使用一個已經獲准使用的「基礎模型」(base model),然後在上面添加自己的「獨門秘方」。這是一種非常聰明的方式,既能保持創新,又能確保一切安全無虞。美國著作權局 不斷更新這些技術方法的指南,所以隨時關注他們的報告是個好主意。
BotNews.today 使用 AI 工具研究、撰寫、編輯和翻譯內容。 我們的團隊審查並監督此過程,以確保資訊實用、清晰且可靠。
我們也看到「合成資料」(synthetic data)領域的巨大成長。這是一種由另一個 AI 專門為訓練目的而創建的資料。既然是機器製造的,就沒有人類著作權問題需要擔心了!然而,你仍然需要一些真實的人類資料才能讓事情開始運作。在真實人類創意和合成資料之間取得平衡,是研究人員目前關注的重點。此外,還有一個很大的推動是為了更好的「robots.txt 檔案」。這些是網站上的小檔案,它們告訴搜尋引擎可以和不可以查看什麼。這些檔案的新版本正在設計中,以精確地告訴「AI 爬蟲」(AI scrapers)它們被允許使用什麼。這是一個針對非常人性化問題的技術解決方案,它正在幫助建立一個對每個人都更禮貌、更尊重的網路。想了解更多這些發展,你可以查看 紐約時報訴訟案 的最新更新,這是一個檢驗這些想法的重要案例。
編者按: 我們創建這個網站,是為了那些不是電腦高手,但仍希望了解人工智慧、更自信地使用它,並追隨已經到來的未來的人們,提供一個多語言的人工智慧新聞和指南中心。
總之,AI 的世界正在長大。我們正在擺脫過去那種有點亂糟糟的階段,進入一個每個人都有明確道路的時代。這場著作權討論,正是一個信號,表明 AI 正在成為我們社會中一個永久且受尊重的部分。它讓我們思考身為創作者的意義,以及我們如何保護我們創造的東西。無論你是科技迷、企業主還是藝術家,這一切都是非常正面的。這意味著我們使用的工具將建立在公平和尊重的基礎上。隨著我們向前邁進,我們將看到更多令人驚嘆的發明,幫助我們工作更快、更有創意。這是一個光明燦爛的科技未來,我們都是這段旅程的一部分。保持好奇心,繼續探索吧,因為好戲還在後頭呢!