Війна за авторські права навколо навчання ШІ: пояснюємо просто
Привіт! Якщо ви останнім часом зависали в інтернеті, то, мабуть, бачили досить дивовижні речі. ШІ тепер може написати зачіпну пісню, допомогти вам закодити сайт або навіть намалювати кота, що їде на велосипеді в космосі. Відчувається як магія, правда? Але за цією магією стоїть дуже велике і дуже важливе питання, про яке всі говорять. Звідки беруться всі ці знання? Щоб зробити ці інструменти такими розумними, компаніям довелося навчати їх, використовуючи мільйони статей, фотографій та книг. Це розпочало гігантську розмову про те, кому належить цей контент і чи повинні отримувати гроші люди, які його створили. Це жвавий час, щоб стежити за останніми новинами та оновленнями ШІ, тому що правила використання інтернету переписуються прямо зараз. Головний висновок полягає в тому, що ми рухаємося до світу, де тех-компанії та творці намагаються знайти спосіб співпрацювати, щоб усі виграли. Це захопливий зсув, який допоможе зробити інструменти, якими ми користуємося щодня, ще кращими та надійнішими.
Можливо, вам цікаво, як ШІ насправді вчиться робити те, що він робить. Уявіть собі його як студента у гігантській бібліотеці. Щоб навчитися писати як людина, цей студент-ШІ читає майже все в цій бібліотеці. Це включає новинні статті, пости в блогах і навіть публічні оновлення в соцмережах. Цей процес часто називають тренуванням (або навчанням). ШІ не просто копіює і вставляє те, що читає. Натомість він шукає патерни. Він вчиться, що слово «яблуко» часто з’являється поруч зі словами «соковитий» або «червоний». Він дізнається, що захід сонця зазвичай має відтінки помаранчевого та рожевого. Переглядаючи мільярди прикладів, він стає експертом у прогнозуванні того, що має бути далі. Так він створює щось нове, що здається дуже людським. Довгий час це вважалося просто крутим науковим проєктом. Але тепер, коли ці інструменти стали великим бізнесом, люди, які написали книги та зробили фотографії в цій бібліотеці, починають ставити цілком справедливі питання про те, як використовується їхня робота.
Знайшли помилку або щось, що потрібно виправити? Повідомте нас.Поширеною хибною думкою є те, що ШІ — це просто гігантська база даних вкрадених робіт. Це не зовсім так. ШІ не зберігає оригінальні файли. Він зберігає патерни, які вивчив з них. Однак напруга виникає через те, як ця інформація була зібрана спочатку. Ця практика відома як data scraping (збирання даних). Уявіть собі гігантський цифровий пилосос, який подорожує по інтернету і всмоктує кожен шматочок публічних даних, які може знайти. На початках це здебільшого ігнорувалося. Але нещодавно все змінилося. Великі імена у творчому світі, від відомих авторів до великих новинних видань, почали говорити, що це «пилососіння» не повинно бути безкоштовним. Вони стверджують, що їхня робота має цінність, і якщо тех-компанія збирається заробляти гроші, використовуючи інструмент, навчений на їхніх даних, вони повинні отримати свою частку. Це серце дебатів. Це перетягування канату між швидкістю інновацій та правами людей, які надають сировину для цих інновацій.
Велике питання: кому належить мозок ШІ?
Ця розмова відбувається по всьому світу, і це насправді чудова новина для майбутнього інтернету. Чому? Тому що це означає, що ми нарешті з’ясовуємо, як оцінювати цифрову роботу таким чином, що має сенс для сучасної епохи. У таких місцях, як Сполучені Штати, суди розглядають щось, що називається **добросовісним використанням (fair use)**. Це юридична ідея, яка говорить, що ви можете використовувати матеріал, захищений авторським правом, без дозволу, якщо ви перетворюєте його на щось нове і не шкодите оригінальному творцю. Тех-компанії стверджують, що навчання ШІ є найвищою формою добросовісного використання. Вони кажуть, що створюють щось абсолютно відмінне від оригінальних даних. З іншого боку, творці кажуть, що якщо ШІ може написати історію в стилі конкретного автора, він безумовно конкурує з цим автором. Це відбувається не лише в США. Європейський Союз та такі країни, як Японія, також створюють власні правила. Деякі дуже прихильні до ШІ-компаній, щоб заохотити зростання, тоді як інші встановлюють обмежувачі для захисту своїх місцевих художників та журналістів.
Глобальний вплив цих рішень буде величезним. Якщо кожна країна матиме різні правила, це може дуже заплутати компанії, які працюють по всьому світу. Саме тому багато хто звертає увагу на Всесвітню організацію інтелектуальної власності, щоб допомогти створити стандарт, якого зможуть дотримуватися всі. Йдеться не лише про великі судові позови. Йдеться про створення стійкої системи. Ми вже бачимо захопливий прогрес. Деякі тех-гіганти почали підписувати ліцензійні угоди з великими видавцями. Це означає, що вони платять за право використовувати високоякісні дані для навчання своїх моделей. Це може бути фантастичним способом підтримати журналістику та мистецтво, дозволяючи технологіям ШІ швидко розвиватися. Це показує, що нам не потрібно вибирати між крутими технологіями та справедливою оплатою. Ми можемо мати і те, й інше! Цей зсув у бік ліцензування — велика зміна порівняно з тим, що було лише рік чи два тому, коли більшість компаній просто збирали все, що могли знайти, не питаючи дозволу.
Як працює цифровий пилосос
Для бізнесу ця юридична невизначеність може бути справжнім головним болем. Уявіть, що ви невелика компанія, яка хоче створити новий застосунок (app) за допомогою ШІ. Якщо ви не знаєте, чи був ШІ, який ви використовуєте, навчений законно, ви можете хвилюватися про можливий позов пізніше. Ця невизначеність може уповільнити процеси. Компанії можуть вичікувати, замість того, щоб створювати щось нове. Ось чому чіткі правила такі важливі. Коли правила чіткі, бізнес може інвестувати з упевненістю. Вони точно знатимуть, що їм потрібно робити, щоб залишатися в рамках закону. Це може означати трохи більшу плату за ліцензовані ШІ-моделі, але душевний спокій того вартий. Це також заохочує створення більш етичних ШІ-інструментів, якими бізнес може пишатися. Ми бачимо відхід від старої ідеї «рухатися швидко і ламати речі». Тепер мета — рухатися швидко, переконавшись, що у вас є всі необхідні дозволи. Це набагато кращий спосіб побудувати довгострокову індустрію, якій кожен може довіряти.
Чому весь світ стежить за судами
Давайте подивимося, як це впливає на реальну людину. Зустрічайте Майка. Майк керує невеликою рекламною агенцією. Він обожнює використовувати ШІ, щоб генерувати ідеї для своїх клієнтів. Раніше він ніколи не замислювався, звідки ШІ бере свої ідеї. Але останнім часом його клієнти почали ставити питання. Вони хочуть бути впевненими, що зображення та текст, які Майк їм надає, не спричинять юридичних проблем. Завдяки останнім змінам в індустрії, Майк тепер може обирати ШІ-інструменти, які навчаються лише на ліцензованих даних. Це величезна перемога для нього. Він може сказати своїм клієнтам, що все на 100 відсотків законно та етично. Це дає йому конкурентну перевагу. На іншому кінці світу письменниця Олена також бачить переваги. Вона належить до групи, яка щойно підписала угоду з великою ШІ-компанією. Тепер, щоразу, коли ШІ використовує її роботу для навчання, невелика сума грошей надходить до фонду для таких письменників, як вона. Це допомагає їй продовжувати займатися улюбленою справою, поки світ технологій змінюється навколо неї.
День із життя сучасного творця
Типовий день для когось на кшталт Олени чи Майка тепер наповнений набагато більшою ясністю, ніж раніше. Олена починає свій ранок з перевірки своєї панелі керування (dashboard), щоб побачити, як використовується її контент. Вона відчуває себе поважною, тому що мала вибір *відмовитися (opt-out)* або приєднатися до ліцензійної програми. Тим часом Майк використовує ШІ-інструмент, який має чіткий значок, що вказує на його навчання на авторизованих даних. Він проводить свій день, створюючи чудову кампанію для місцевої пекарні, знаючи, що підтримує художників, чия робота допомогла ШІ навчитися. Це реальний вплив війни за авторські права. Йдеться не лише про юристів у костюмах. Йдеться про те, щоб люди, які роблять інтернет веселим та цікавим місцем, могли продовжувати свою роботу. Напруга між інноваціями та власністю все ще існує, але вона стає продуктивною. Вона підштовхує нас до пошуку креативних рішень, про які ми могли б і не подумати інакше.
Можна задатися питанням про приховані витрати всіх цих юридичних перевірок і чи зробить це наші улюблені інструменти дорожчими. Це дуже справедливе питання. Якщо компаніям доведеться платити за кожен шматочок даних, чи перекладуть вони ці витрати на нас? Ми також повинні подумати, чи не дасть це величезну перевагу найбільшим тех-компаніям, які мають найбільше грошей для оплати ліцензій. Це цікава головоломка, яку потрібно розв’язати, тому що ми хочемо, щоб ШІ був доступним для всіх, а не лише для багатих. Ми також повинні залишатися допитливими щодо приватності. Якщо ШІ навчається на публічних даних, ми завжди повинні запитувати, як обробляється наша особиста інформація. Це не приводи для хвилювання, але це чудові речі, за якими варто стежити, поки ми всі вчимося разом. Бути допитливими допомагає нам забезпечити, щоб технологія залишалася корисною та дружньою для всіх у довгостроковій перспективі.
Маєте історію, інструмент, тренд або питання про ШІ, які, на вашу думку, ми повинні висвітлити? Надішліть нам свою ідею статті — ми будемо раді її почути.Технічний бік юридичної відповідності
Тепер, для тих, хто любить занурюватися в дрібні деталі, давайте поговоримо про те, як це працює на технічному рівні. Розробники створюють справді розумні способи поводження з авторським правом. Однією з найбільших тенденцій є використання менших, спеціалізованих моделей. Замість одного гігантського ШІ, який знає все, компанії створюють менші, які навчаються на дуже специфічних, ліцензованих датасетах. Це значно полегшує відстеження походження інформації. Ми також бачимо багато роботи над лімітами API та походженням даних (data provenance). Провенанс — це просто вишукане слово для історії того, звідки походить шматочок даних. Використовуючи блокчейн або інші цифрові підписи, розробники можуть довести, що фрагмент навчальних даних був використаний з дозволу. Це стає стандартною частиною робочого процесу для багатьох ШІ-команд. Йдеться про створення прозорого пайплайну від творця до виводу ШІ.
Ще одна крута технологія називається Retrieval-Augmented Generation (генерація з доповненням пошуком). Це спосіб для ШІ шукати інформацію в реальному часі з конкретного, довіреного джерела, замість того, щоб просто покладатися на те, що він вивчив під час навчання. Це чудово для дотримання законності, тому що компанія може точно контролювати, які документи ШІ дозволено переглядати. Це також допомагає з локальним зберіганням. Багато компаній тепер обирають запускати власні ШІ-моделі на своїх серверах, використовуючи власні приватні дані. Це повністю уникає всієї дискусії про публічний скрейпінг. Вони можуть використовувати базову модель, яка вже дозволена для використання, а потім додавати свій власний «секретний соус» зверху. Це дуже розумний спосіб залишатися інноваційним, зберігаючи все в безпеці та цілості. Бюро авторських прав США постійно оновлює свої вказівки щодо цих технічних методів, тому варто стежити за їхніми звітами.
BotNews.today використовує інструменти ШІ для дослідження, написання, редагування та перекладу контенту. Наша команда перевіряє та контролює процес, щоб інформація залишалася корисною, зрозумілою та надійною.
Ми також бачимо значне зростання у світі синтетичних даних. Це дані, створені іншим ШІ спеціально для цілей навчання. Оскільки це зробила машина, немає жодних проблем з авторськими правами людини, про які варто було б турбуватися! Однак вам все ще потрібні деякі реальні людські дані, щоб запустити процес. Баланс між використанням справжньої людської творчості та синтетичних даних є головним фокусом для дослідників прямо зараз. Також є великий поштовх до покращення файлів robots.txt. Це маленькі файли на вебсайтах, які повідомляють пошуковим системам, що вони можуть, а що не можуть переглядати. Нові версії цих файлів розробляються, щоб точно повідомляти ШІ-скреперам, що їм дозволено використовувати. Це технічне рішення дуже людської проблеми, і воно допомагає побудувати більш ввічливий та шанобливий інтернет для всіх. Щоб дізнатися більше про ці розробки, ви можете переглянути останні оновлення щодо позову New York Times, який є головним прецедентом для цих ідей.
Примітка редактора: Ми створили цей сайт як багатомовний центр новин та посібників зі штучного інтелекту для людей, які не є комп'ютерними гіками, але все ще хочуть зрозуміти штучний інтелект, використовувати його з більшою впевненістю та стежити за майбутнім, яке вже настає.
Суть у тому, що світ ШІ дорослішає. Ми проходимо фазу, коли все було трохи безладно, і вступаємо в час, коли є чіткі шляхи для кожного. Ця розмова про авторські права є ознакою того, що ШІ стає постійною та шанованою частиною нашого суспільства. Вона змушує нас замислитися над тим, що означає бути творцем і як ми можемо захистити те, що створюємо. Незалежно від того, чи ви тех-фанат, власник бізнесу чи художник, все це дуже позитивно. Це означає, що інструменти, якими ми користуємося, будуть побудовані на засадах справедливості та поваги. Рухаючись вперед, ми побачимо ще більше дивовижних винаходів, які допоможуть нам працювати швидше та бути креативнішими. Це яскраве та сонячне майбутнє для технологій, і ми всі є частиною цієї подорожі. Продовжуйте бути допитливими та досліджувати, адже найкраще ще попереду!