Những vụ kiện có thể làm thay đổi hoàn toàn cục diện AI
Các cuộc chiến pháp lý đang diễn ra tại các tòa án liên bang không chỉ đơn thuần là về tiền bạc hay phí bản quyền. Chúng đại diện cho một cuộc đấu tranh căn bản nhằm định nghĩa thế nào là sáng tạo trong kỷ nguyên của các mô hình tạo sinh (generative models). Trong nhiều năm, các công ty công nghệ đã quét dữ liệu từ web mở mà hầu như không gặp trở ngại nào, với suy nghĩ rằng quy mô hoạt động khổng lồ sẽ mang lại cho họ một dạng miễn trừ thực tế. Kỷ nguyên đó đã kết thúc. Các thẩm phán tại New York và California hiện đang phải quyết định xem liệu một cỗ máy có thể học từ tài liệu có bản quyền giống như cách một học sinh học từ sách giáo khoa hay không, hay liệu những mô hình này chỉ là những cỗ máy tinh vi phục vụ cho việc đạo văn tốc độ cao. Kết quả sẽ quyết định cấu trúc kinh tế của internet trong thập kỷ tới. Nếu tòa án phán quyết rằng việc huấn luyện là sử dụng mang tính chuyển đổi (transformative use), quỹ đạo phát triển nhanh chóng hiện tại sẽ tiếp tục. Nếu họ phán quyết rằng việc huấn luyện đòi hỏi sự cho phép rõ ràng cho từng điểm dữ liệu, chi phí xây dựng các hệ thống quy mô lớn sẽ tăng vọt. Đây là căng thẳng pháp lý quan trọng nhất kể từ thời kỳ đầu của chia sẻ tệp tin, nhưng rủi ro liên quan đến chính những nền tảng của tri thức và biểu đạt của con người.
Định nghĩa ranh giới của Fair Use
Trọng tâm của hầu hết các vụ kiện lớn là học thuyết fair use (sử dụng hợp lý). Nguyên tắc pháp lý này cho phép sử dụng tài liệu có bản quyền mà không cần xin phép trong các điều kiện cụ thể, như để phê bình, đưa tin hoặc nghiên cứu. Các công ty công nghệ lập luận rằng các mô hình của họ không lưu trữ bản sao của các tác phẩm gốc. Thay vào đó, họ khẳng định các mô hình học các mối quan hệ toán học giữa các từ hoặc pixel để tạo ra thứ gì đó hoàn toàn mới. Đây là điều mà ngành công nghiệp gọi là sử dụng mang tính chuyển đổi. Họ chỉ ra các phán quyết trước đây liên quan đến các công cụ tìm kiếm được phép lập chỉ mục các trang web vì chúng cung cấp một dịch vụ mới thay vì thay thế nội dung gốc. Tuy nhiên, các nguyên đơn, bao gồm các tổ chức tin tức lớn và các nhóm nghệ sĩ, lập luận rằng các hệ thống tạo sinh thì khác. Họ cho rằng các mô hình này được thiết kế để cạnh tranh trực tiếp với những người mà tác phẩm của họ đã được dùng để huấn luyện. Khi một người dùng yêu cầu AI viết một câu chuyện theo phong cách của một tác giả cụ thể còn sống, mô hình đang sử dụng thành quả cả đời của tác giả đó để có khả năng thay thế thu nhập tương lai của họ.
Các bước thủ tục trong những vụ án này cũng quan trọng không kém các phán quyết cuối cùng. Trước khi thẩm phán đưa ra quyết định về nội dung vụ việc, họ phải phán quyết về các kiến nghị bác bỏ và yêu cầu cung cấp chứng cứ. Những giai đoạn đầu này buộc các công ty công nghệ phải tiết lộ chính xác dữ liệu họ đã sử dụng và cách họ xử lý dữ liệu đó. Nhiều công ty đã giữ bí mật các tập dữ liệu huấn luyện của mình, viện dẫn lợi thế cạnh tranh. Các tòa án hiện đang gỡ bỏ sự bí mật đó. Ngay cả khi một vụ án cuối cùng được dàn xếp ngoài tòa, thông tin được công khai trong giai đoạn cung cấp chứng cứ có thể cung cấp lộ trình cho các quy định trong tương lai. Chúng ta đang thấy một sự thay đổi nơi gánh nặng chứng minh đang chuyển từ người sáng tạo sang các gã khổng lồ công nghệ. Các tòa án không chỉ xem xét kết quả đầu ra cuối cùng của AI, mà là toàn bộ quy trình nạp dữ liệu. Điều này bao gồm cách dữ liệu được quét, nơi nó được lưu trữ và liệu có bất kỳ công cụ quản lý quyền kỹ thuật số nào bị bỏ qua trong quá trình này hay không. Những chi tiết kỹ thuật này sẽ tạo thành cơ sở cho các tiêu chuẩn pháp lý mới cho toàn bộ ngành công nghiệp.
Sự khác biệt quốc tế về quyền dữ liệu
Trong khi các tòa án Mỹ tập trung vào fair use, phần còn lại của thế giới đang đi theo một con đường khác. Điều này tạo ra một môi trường pháp lý phân mảnh cho các công ty công nghệ toàn cầu. Tại Liên minh châu Âu, Đạo luật AI (AI Act) đưa ra các yêu cầu minh bạch nghiêm ngặt. Nó bắt buộc các công ty phải tiết lộ tài liệu có bản quyền được sử dụng để huấn luyện, bất kể việc huấn luyện diễn ra ở đâu. Đây là sự tương phản rõ rệt với hệ thống của Mỹ, vốn dựa nhiều hơn vào kiện tụng sau sự việc. Cách tiếp cận của EU mang tính chủ động, nhằm ngăn chặn vi phạm bản quyền trước khi một mô hình được phát hành ra công chúng. Sự khác biệt về triết lý này có nghĩa là một mô hình hợp pháp để vận hành ở San Francisco có thể là bất hợp pháp để triển khai ở Berlin. Đối với khán giả toàn cầu, điều này có nghĩa là các tính năng có sẵn trong khu vực của bạn sẽ ngày càng phụ thuộc vào cách giải thích địa phương về chủ quyền dữ liệu. Một số quốc gia thậm chí đang xem xét các ngoại lệ về