สงครามลิขสิทธิ์จะเปลี่ยนโฉมหน้าผลิตภัณฑ์ AI ในปี 2026 อย่างไร
ยุคสมัยแห่งข้อมูลฟรีได้สิ้นสุดลงแล้วยุคของการเก็บข้อมูลโดยไม่ต้องรับผลกระทบได้จบลงแล้ว หลายปีที่ผ่านมานักพัฒนาสร้างโมเดลภาษาขนาดใหญ่โดยตั้งสมมติฐานว่าอินเทอร์เน็ตแบบเปิดเป็นทรัพยากรสาธารณะ แต่สมมติฐานนี้กำลังเผชิญกับความจริงในชั้นศาล การฟ้องร้องครั้งใหญ่จากองค์กรสื่อและศิลปินกำลังบีบให้เกิดการเปลี่ยนแปลงพื้นฐานในวิธีการสร้างและขายผลิตภัณฑ์เหล่านี้ บริษัทต่างๆ ไม่สามารถเพิกเฉยต่อแหล่งที่มาของชุดข้อมูลที่ใช้ฝึกฝนได้อีกต่อไป ผลลัพธ์ที่ตามมาคือการเปลี่ยนไปสู่โมเดลแบบมีลิขสิทธิ์ที่ทุกโทเค็นมีราคาค่างวด การเปลี่ยนแปลงนี้จะเป็นตัวตัดสินว่าบริษัทใดจะอยู่รอดและบริษัทใดจะล้มละลายภายใต้ภาระค่าใช้จ่ายทางกฎหมาย นี่ไม่ใช่แค่เรื่องของจริยธรรมหรือสิทธิของผู้สร้างสรรค์ แต่เป็นเรื่องของความยั่งยืนทางธุรกิจ หากศาลตัดสินว่าการฝึกฝนด้วยข้อมูลที่มีลิขสิทธิ์ไม่ใช่การใช้งานที่เป็นธรรม ต้นทุนในการสร้างโมเดลที่แข่งขันได้จะพุ่งสูงขึ้น ซึ่งจะเอื้อประโยชน์ต่อยักษ์ใหญ่ด้านเทคโนโลยีที่มีเงินทุนหนาและมีข้อตกลงด้านลิขสิทธิ์อยู่แล้ว ส่วนผู้เล่นรายย่อยอาจถูกบีบออกจากตลาดโดยสิ้นเชิง ความเร็วในการพัฒนาเทคโนโลยีตอนนี้กำลังชนกำแพงทางกฎหมายที่จะปรับเปลี่ยนอุตสาหกรรมไปอีกนานหลายปี จากการคัดลอกข้อมูลสู่การขออนุญาตหัวใจสำคัญของความขัดแย้งในปัจจุบันอยู่ที่วิธีการเรียนรู้ของโมเดล Generative AI ระบบเหล่านี้รับข้อมูลคำศัพท์และรูปภาพจำนวนมหาศาลเพื่อระบุรูปแบบ ในช่วงแรกของการพัฒนา นักวิจัยใช้ชุดข้อมูลขนาดใหญ่อย่าง Common Crawl โดยไม่ได้กังวลเรื่องสิทธิส่วนบุคคลที่ติดมากับข้อมูลนั้นมากนัก พวกเขาโต้แย้งว่ากระบวนการนี้เป็นการเปลี่ยนแปลงเชิงสร้างสรรค์ (transformative) ซึ่งหมายความว่ามันสร้างสิ่งใหม่ขึ้นมาทั้งหมดและไม่ได้มาแทนที่ผลงานต้นฉบับ ข้อโต้แย้งนี้เป็นรากฐานของการป้องกันการใช้งานที่เป็นธรรม (fair use) ในสหรัฐอเมริกา อย่างไรก็ตาม ขนาดของการผลิต AI ในปัจจุบันได้เปลี่ยนสมการไปแล้ว เมื่อโมเดลสามารถสร้างบทความข่าวในสไตล์ของนักข่าวคนใดคนหนึ่ง หรือสร้างภาพที่เลียนแบบศิลปินที่มีชีวิตอยู่ การอ้างว่าเป็นการเปลี่ยนแปลงเชิงสร้างสรรค์จึงทำได้ยากขึ้น นำไปสู่การฟ้องร้องที่เพิ่มขึ้นจากเจ้าของเนื้อหาที่เห็นว่าผลงานที่เลี้ยงชีพพวกเขาถูกนำไปใช้ฝึกฝนเพื่อสร้างสิ่งที่มาแทนที่พวกเขาในที่สุดความเปลี่ยนแปลงล่าสุดแสดงให้เห็นว่าอุตสาหกรรมกำลังเลิกใช้กลยุทธ์ “ขออภัยทีหลัง” แล้ว บริษัทเทคโนโลยีขนาดใหญ่กำลังทำข้อตกลงมูลค่าหลายล้านดอลลาร์กับสำนักพิมพ์เพื่อรับประกันข้อมูลที่มีคุณภาพสูงและถูกกฎหมาย สิ่งนี้สร้างระบบสองมาตรฐาน ด้านหนึ่งคือโมเดล “สะอาด” ที่ฝึกฝนจากข้อมูลที่มีลิขสิทธิ์หรือข้อมูลสาธารณะ อีกด้านหนึ่งคือโมเดลที่สร้างจากข้อมูลที่คัดลอกมาซึ่งมีความเสี่ยงทางกฎหมายสูง โลกธุรกิจเริ่มชอบแบบแรกมากกว่า บริษัทต่างๆ ไม่ต้องการรวมเครื่องมือที่อาจถูกสั่งปิดโดยคำสั่งศาลหรือนำไปสู่บิลค่าเสียหายจากการละเมิดลิขสิทธิ์ก้อนโต สิ่งนี้ทำให้ ที่มาทางกฎหมาย (legal