Cuộc chiến bản quyền AI: Giải thích đơn giản về đào tạo AI
Chào bạn! Nếu bạn lướt mạng dạo gần đây, chắc hẳn bạn đã thấy những điều siêu đỉnh rồi đúng không? AI giờ có thể viết nhạc bắt tai, giúp bạn code web, hay thậm chí vẽ tranh mèo cưỡi xe đạp trong không gian. Nghe ảo diệu ghê ha? Nhưng đằng sau phép màu đó là một câu hỏi cực lớn và quan trọng mà ai cũng đang bàn tán: Tất cả kiến thức đó từ đâu mà ra? Để mấy công cụ này thông minh được như vậy, các công ty đã phải “dạy” chúng bằng hàng triệu bài báo, ảnh và sách. Điều này đã châm ngòi cho một cuộc tranh luận khổng lồ về quyền sở hữu nội dung đó và liệu những người tạo ra chúng có nên được trả tiền hay không. Đây là thời điểm cực kỳ sôi động để theo dõi tin tức và cập nhật về AI, vì luật chơi trên internet đang được viết lại ngay trước mắt chúng ta. Tóm lại, chúng ta đang tiến tới một thế giới nơi các công ty công nghệ và nhà sáng tạo tìm cách hợp tác để tất cả cùng thắng. Đây là một sự thay đổi thú vị, giúp các công cụ chúng ta dùng hàng ngày trở nên tốt hơn và đáng tin cậy hơn trong .
Bạn có thể thắc mắc là AI thực sự học hỏi như thế nào để làm được những điều nó làm, đúng không? Hãy hình dung nó như một sinh viên trong một thư viện khổng lồ. Để học cách viết như con người, “sinh viên AI” này đọc gần như mọi thứ trong thư viện đó. Bao gồm tin tức, bài blog và cả những cập nhật công khai trên mạng xã hội. Quá trình này thường được gọi là “training” (đào tạo). AI không chỉ copy-paste những gì nó đọc. Thay vào đó, nó tìm kiếm các “pattern” (mẫu hình). Nó học được rằng từ “apple” (táo) thường xuất hiện gần từ “juicy” (mọng nước) hay “red” (đỏ). Nó biết rằng một cảnh hoàng hôn thường có sắc cam và hồng. Bằng cách xem xét hàng tỷ ví dụ, nó trở thành chuyên gia trong việc dự đoán điều gì sẽ xảy ra tiếp theo. Đây là cách nó tạo ra những thứ mới mẻ mà lại rất “người”. Trong một thời gian dài, đây chỉ được coi là một dự án khoa học “cool ngầu”. Nhưng giờ đây, khi những công cụ này đã trở thành các “big business” (doanh nghiệp lớn), những người đã viết sách và chụp ảnh trong thư viện đó bắt đầu đặt ra những câu hỏi hợp lý về cách tác phẩm của họ đang được sử dụng.
Tìm thấy lỗi hoặc điều gì đó cần được sửa chữa? Hãy cho chúng tôi biết.Một hiểu lầm phổ biến là AI chỉ là một cơ sở dữ liệu khổng lồ chứa các tác phẩm bị đánh cắp. Điều đó không hoàn toàn đúng đâu nhé. AI không lưu trữ các file gốc. Nó lưu trữ các “pattern” mà nó học được từ chúng. Tuy nhiên, căng thẳng lại đến từ cách thông tin đó được thu thập ngay từ đầu. Thực hành này được gọi là “data scraping” (cào dữ liệu). Hãy tưởng tượng một máy hút bụi kỹ thuật số khổng lồ lướt qua web và hút sạch mọi dữ liệu công khai mà nó tìm thấy. Những ngày đầu, việc này hầu như bị bỏ qua. Nhưng gần đây, mọi thứ đã thay đổi. Những tên tuổi lớn trong giới sáng tạo, từ các tác giả nổi tiếng đến các hãng tin lớn, đã bắt đầu lên tiếng rằng việc “hút bụi” này không nên miễn phí. Họ lập luận rằng tác phẩm của họ có giá trị và nếu một công ty công nghệ kiếm tiền từ một công cụ được đào tạo trên dữ liệu của họ, thì họ cũng nên được chia sẻ lợi nhuận. Đây chính là trọng tâm của cuộc tranh luận. Đó là một cuộc giằng co giữa tốc độ đổi mới và quyền lợi của những người cung cấp “nguyên liệu thô” cho sự đổi mới đó.
Câu hỏi lớn: Ai sở hữu “bộ não” AI?
Cuộc trò chuyện này đang diễn ra trên khắp thế giới, và thực ra đây là tin tốt cho tương lai của internet đấy. Tại sao ư? Vì điều đó có nghĩa là cuối cùng chúng ta cũng đang tìm ra cách định giá các tác phẩm kỹ thuật số một cách hợp lý trong thời đại hiện đại. Ở những nơi như Hoa Kỳ, các tòa án đang xem xét một khái niệm gọi là **fair use** (sử dụng hợp lý). Đây là một ý tưởng pháp lý cho phép bạn sử dụng tài liệu có bản quyền mà không cần xin phép nếu bạn biến đổi nó thành một thứ mới và không gây hại cho người tạo ra tác phẩm gốc. Các công ty công nghệ lập luận rằng việc “training” AI là hình thức “fair use” tối thượng. Họ nói rằng họ đang tạo ra một thứ hoàn toàn khác biệt so với dữ liệu gốc. Ở phía bên kia, các nhà sáng tạo lại cho rằng nếu một AI có thể viết một câu chuyện theo phong cách của một tác giả cụ thể, thì nó chắc chắn đang cạnh tranh với tác giả đó. Điều này không chỉ xảy ra ở Mỹ. Liên minh Châu Âu và các quốc gia như Nhật Bản cũng đang tự xây dựng luật lệ riêng. Một số quốc gia rất thân thiện với các công ty AI để khuyến khích tăng trưởng, trong khi những quốc gia khác lại đặt ra các rào cản để bảo vệ các nghệ sĩ và nhà báo địa phương của họ.
Tác động toàn cầu của những quyết định này sẽ rất lớn. Nếu mỗi quốc gia có luật lệ khác nhau, mọi thứ có thể trở nên rất phức tạp cho các công ty hoạt động trên toàn cầu. Đó là lý do tại sao nhiều người đang hướng tới Tổ chức Sở hữu Trí tuệ Thế giới (WIPO) để giúp tạo ra một tiêu chuẩn mà mọi người có thể tuân theo. Đây không chỉ là về những vụ kiện lớn. Mà là về việc tạo ra một hệ thống bền vững. Chúng ta đã thấy một số tiến bộ thú vị. Một số “tech giant” (ông lớn công nghệ) đã bắt đầu ký kết các thỏa thuận “licensing” (cấp phép) với các nhà xuất bản lớn. Điều này có nghĩa là họ đang trả tiền để có quyền sử dụng dữ liệu chất lượng cao để “train” các “model” của mình. Đây có thể là một cách tuyệt vời để hỗ trợ báo chí và nghệ thuật, đồng thời vẫn cho phép công nghệ AI tiến lên với tốc độ nhanh chóng. Nó cho thấy chúng ta không cần phải chọn giữa công nghệ “cool ngầu” và thù lao công bằng. Chúng ta có thể có cả hai! Sự chuyển dịch sang “licensing” này là một thay đổi lớn so với chỉ một hoặc hai năm trước, khi hầu hết các công ty chỉ “scrape” (cào) bất cứ thứ gì họ tìm thấy mà không cần hỏi.
Máy hút bụi kỹ thuật số hoạt động như thế nào?
Đối với một doanh nghiệp, sự không chắc chắn về mặt pháp lý này có thể là một cơn đau đầu không nhỏ. Hãy tưởng tượng bạn là một công ty nhỏ muốn xây dựng một “app” mới sử dụng AI. Nếu bạn không biết liệu AI bạn đang dùng có được “train” hợp pháp hay không, bạn có thể lo lắng về việc bị kiện sau này. Sự không chắc chắn này có thể làm chậm mọi thứ. Các công ty có thể sẽ đứng ngoài quan sát thay vì xây dựng những điều mới mẻ. Đây là lý do tại sao các quy tắc rõ ràng lại quan trọng đến vậy. Khi luật chơi minh bạch, các doanh nghiệp có thể đầu tư với sự tự tin. Họ sẽ biết chính xác mình cần làm gì để tuân thủ pháp luật. Điều này có thể đồng nghĩa với việc trả thêm một chút tiền cho các “AI model” được cấp phép, nhưng sự an tâm đó rất đáng giá. Nó cũng khuyến khích việc tạo ra các công cụ AI đạo đức hơn mà các doanh nghiệp có thể tự hào khi sử dụng. Chúng ta đang chứng kiến sự dịch chuyển khỏi quan niệm cũ là “move fast and break things” (đi nhanh và phá vỡ mọi thứ). Giờ đây, mục tiêu là đi nhanh nhưng phải đảm bảo có đủ các quyền cần thiết. Đây là một cách tốt hơn nhiều để xây dựng một ngành công nghiệp lâu dài mà mọi người có thể tin tưởng.
Tại sao cả thế giới đang dõi theo các tòa án?
Hãy cùng xem điều này ảnh hưởng đến một người thật như thế nào nhé. Gặp gỡ Mike. Mike điều hành một công ty quảng cáo nhỏ. Anh ấy rất thích dùng AI để “brainstorm” (động não) ý tưởng cho khách hàng của mình. Trước đây, anh ấy chưa bao giờ thực sự nghĩ về việc AI lấy ý tưởng từ đâu. Nhưng gần đây, khách hàng của anh ấy bắt đầu đặt câu hỏi. Họ muốn đảm bảo rằng hình ảnh và văn bản Mike cung cấp sẽ không gây ra rắc rối pháp lý. Nhờ những thay đổi gần đây trong ngành, Mike giờ đây có thể chọn sử dụng các công cụ AI chỉ được “train” trên dữ liệu có “license” (giấy phép). Đây là một chiến thắng lớn cho anh ấy. Anh ấy có thể nói với khách hàng rằng mọi thứ đều hợp pháp và đạo đức 100%. Điều này mang lại cho anh ấy lợi thế cạnh tranh. Ở một nơi khác trên thế giới, một nhà văn tên Elena cũng đang thấy được những lợi ích. Cô ấy thuộc một nhóm vừa ký thỏa thuận với một công ty AI lớn. Giờ đây, mỗi khi AI sử dụng tác phẩm của cô ấy để học hỏi, một khoản tiền nhỏ sẽ được chuyển vào quỹ dành cho các nhà văn như cô ấy. Điều này giúp cô ấy tiếp tục làm điều mình yêu thích trong khi thế giới công nghệ vẫn không ngừng thay đổi xung quanh.
Một ngày của nhà sáng tạo hiện đại diễn ra như thế nào?
Một ngày bình thường của những người như Elena hay Mike giờ đây rõ ràng hơn rất nhiều so với trước đây. Elena bắt đầu buổi sáng bằng cách kiểm tra “dashboard” (bảng điều khiển) để xem nội dung của mình đang được sử dụng như thế nào. Cô ấy cảm thấy được tôn trọng vì cô ấy có quyền lựa chọn *opt-out* (rút khỏi) hoặc tham gia chương trình cấp phép. Trong khi đó, Mike đang sử dụng một công cụ AI có huy hiệu rõ ràng cho biết nó được “train” trên dữ liệu đã được cấp phép. Anh ấy dành buổi chiều để tạo ra một “campaign” (chiến dịch) tuyệt đẹp cho một tiệm bánh địa phương, biết rằng mình đang ủng hộ những nghệ sĩ có tác phẩm đã giúp AI học hỏi. Đây là tác động thực tế của cuộc chiến bản quyền. Nó không chỉ là chuyện của những luật sư mặc vest. Mà là về việc đảm bảo rằng những người tạo ra internet thành một nơi thú vị và vui vẻ có thể tiếp tục công việc của họ. Sự căng thẳng giữa đổi mới và quyền sở hữu vẫn còn đó, nhưng nó đang trở thành một sự căng thẳng mang tính xây dựng. Nó đang thúc đẩy chúng ta tìm ra những giải pháp sáng tạo mà có lẽ chúng ta chưa từng nghĩ tới.
Người ta có thể tự hỏi về những chi phí ẩn của tất cả các khâu kiểm tra pháp lý này và liệu nó có làm cho các công cụ yêu thích của chúng ta trở nên đắt đỏ hơn không. Đó là một câu hỏi rất công bằng. Nếu các công ty phải trả tiền cho mỗi mẩu dữ liệu, liệu họ có chuyển những chi phí đó sang cho chúng ta không? Chúng ta cũng phải suy nghĩ xem liệu điều này có mang lại lợi thế lớn cho các công ty công nghệ lớn nhất, những người có nhiều tiền nhất để trả cho các “license” hay không. Đây là một câu đố thú vị cần giải quyết vì chúng ta muốn giữ cho AI dễ tiếp cận với tất cả mọi người, chứ không chỉ những người giàu có. Chúng ta cũng phải luôn tò mò về quyền riêng tư. Nếu một AI được “train” trên dữ liệu công khai, chúng ta nên luôn đặt câu hỏi về cách thông tin cá nhân của chúng ta đang được xử lý. Đây không phải là lý do để lo lắng, nhưng chúng là những điều tuyệt vời để chúng ta cùng nhau theo dõi khi tất cả chúng ta cùng học hỏi. Việc tò mò giúp chúng ta đảm bảo rằng công nghệ sẽ luôn hữu ích và thân thiện với tất cả mọi người về lâu dài.
Bạn có câu chuyện, công cụ, xu hướng hoặc câu hỏi về AI mà bạn nghĩ chúng tôi nên đề cập không? Gửi cho chúng tôi ý tưởng bài viết của bạn — chúng tôi rất muốn nghe từ bạn.Mặt kỹ thuật của việc tuân thủ pháp luật
Giờ thì, với những ai thích đi sâu vào chi tiết nhỏ nhặt, hãy cùng nói về cách điều này hoạt động ở cấp độ kỹ thuật nhé. Các “developer” (nhà phát triển) đang xây dựng một số cách thực sự thông minh để xử lý bản quyền. Một trong những “trend” (xu hướng) lớn nhất là việc sử dụng các “model” nhỏ hơn, chuyên biệt hơn. Thay vì một AI khổng lồ biết mọi thứ, các công ty đang xây dựng những AI nhỏ hơn được “train” trên các “dataset” (tập dữ liệu) rất cụ thể, đã được cấp phép. Điều này giúp việc theo dõi nguồn gốc thông tin trở nên dễ dàng hơn nhiều. Chúng ta cũng đang thấy nhiều nỗ lực về giới hạn “API” và “data provenance” (nguồn gốc dữ liệu). “Provenance” chỉ là một từ “fancy” (mỹ miều) để chỉ lịch sử nơi một mẩu dữ liệu bắt đầu. Bằng cách sử dụng “blockchain” hoặc các chữ ký số khác, các “developer” có thể chứng minh rằng một phần dữ liệu “training” đã được sử dụng với sự cho phép. Điều này đang trở thành một phần tiêu chuẩn trong “workflow” (quy trình làm việc) của nhiều nhóm AI trong . Tất cả là về việc xây dựng một “pipeline” (đường ống) minh bạch từ người tạo ra đến “output” (đầu ra) của AI.
Một công nghệ “cool” khác được gọi là Retrieval-Augmented Generation (RAG). Đây là một cách để AI tra cứu thông tin theo thời gian thực từ một nguồn cụ thể, đáng tin cậy, thay vì chỉ dựa vào những gì nó đã học được trong quá trình “training”. Điều này rất tuyệt vời để duy trì tính hợp pháp vì công ty có thể kiểm soát chính xác những tài liệu nào AI được phép xem. Nó cũng giúp ích cho việc lưu trữ cục bộ. Nhiều doanh nghiệp hiện đang chọn chạy các “AI model” của riêng họ trên các “server” (máy chủ) của riêng họ, sử dụng dữ liệu riêng tư của họ. Điều này hoàn toàn tránh được toàn bộ cuộc tranh luận về “scraping” công khai. Họ có thể sử dụng một “base model” (mô hình cơ sở) đã được cấp phép sử dụng và sau đó thêm “secret sauce” (bí quyết riêng) của mình vào. Đây là một cách rất thông minh để duy trì sự đổi mới đồng thời giữ mọi thứ an toàn và bảo mật. Văn phòng Bản quyền Hoa Kỳ liên tục cập nhật hướng dẫn về các phương pháp kỹ thuật này, vì vậy bạn nên theo dõi các báo cáo của họ nhé.
BotNews.today sử dụng các công cụ AI để nghiên cứu, viết, chỉnh sửa và dịch nội dung. Đội ngũ của chúng tôi xem xét và giám sát quy trình để giữ cho thông tin hữu ích, rõ ràng và đáng tin cậy.
Chúng ta cũng đang thấy nhiều sự phát triển trong thế giới “synthetic data” (dữ liệu tổng hợp). Đây là dữ liệu được tạo ra bởi một AI khác, đặc biệt cho mục đích “training”. Vì một cỗ máy đã tạo ra nó, nên không có vấn đề bản quyền con người nào phải lo lắng! Tuy nhiên, bạn vẫn cần một số dữ liệu thực từ con người để mọi thứ bắt đầu. Sự cân bằng giữa việc sử dụng sự sáng tạo thực của con người và “synthetic data” là một trọng tâm lớn của các nhà nghiên cứu hiện nay. Cũng có một nỗ lực lớn để cải thiện các “file robots.txt”. Đây là những “file” nhỏ trên các trang web cho công cụ tìm kiếm biết chúng có thể và không thể xem gì. Các phiên bản mới của những “file” này đang được thiết kế để cho các “AI scraper” biết chính xác những gì họ được phép sử dụng. Đó là một giải pháp kỹ thuật cho một vấn đề rất con người, và nó đang giúp xây dựng một internet lịch sự và tôn trọng hơn cho tất cả mọi người. Để biết thêm về những phát triển này, bạn có thể xem các cập nhật mới nhất về vụ kiện của New York Times, đây là một trường hợp thử nghiệm lớn cho những ý tưởng này.
Lưu ý của biên tập viên: Chúng tôi tạo trang web này như một trung tâm tin tức và hướng dẫn AI đa ngôn ngữ dành cho những người không phải là chuyên gia máy tính, nhưng vẫn muốn hiểu trí tuệ nhân tạo, sử dụng nó tự tin hơn và theo dõi tương lai đang đến gần.
Tóm lại, thế giới AI đang trưởng thành. Chúng ta đang vượt qua giai đoạn mọi thứ còn hơi lộn xộn và bước vào một thời kỳ có những con đường rõ ràng cho tất cả mọi người. Cuộc trò chuyện về bản quyền này là một dấu hiệu cho thấy AI đang trở thành một phần vĩnh viễn và được tôn trọng trong xã hội chúng ta. Nó khiến chúng ta suy nghĩ về ý nghĩa của việc trở thành một nhà sáng tạo và cách chúng ta có thể bảo vệ những gì mình tạo ra. Dù bạn là một “fan tech”, chủ doanh nghiệp hay nghệ sĩ, tất cả những điều này đều rất tích cực. Điều đó có nghĩa là các công cụ chúng ta sử dụng sẽ được xây dựng trên nền tảng của sự công bằng và tôn trọng. Khi chúng ta tiến về phía trước, chúng ta sẽ thấy nhiều phát minh tuyệt vời hơn nữa giúp chúng ta làm việc nhanh hơn và sáng tạo hơn. Đó là một tương lai tươi sáng và rạng rỡ cho công nghệ, và tất cả chúng ta đều là một phần của hành trình đó. Hãy luôn tò mò và tiếp tục khám phá, vì những điều tốt đẹp nhất vẫn còn ở phía trước!