AI обучение и авторски права: Разплитаме голямата дигитална каша
Здравейте, хора! Ако напоследък сте се мотали из нета, сигурно сте видели доста готини неща. AI вече може да напише яка песен, да ти помогне да кодираш уебсайт или дори да нарисува котка, караща колело в космоса. Звучи като магия, нали? Но зад тази магия стои един огромен и супер важен въпрос, за който всички говорят: Откъде идва цялото това знание? За да станат тези инструменти толкова умни, компаниите трябваше да ги „обучат“ с милиони статии, снимки и книги. Това отприщи гигантски разговор за това кой притежава това съдържание и дали хората, които са го създали, трябва да получават пари. Вълнуващо време е да следим последните AI новини и ъпдейти, защото правилата за това как използваме интернет се пренаписват в момента. Основният извод е, че вървим към свят, в който tech компаниите и създателите се опитват да намерят начин да работят заедно, така че всички да печелят. Това е вълнуваща промяна, която ще помогне инструментите, които използваме всеки ден, да станат още по-добри и надеждни в .
Може би се чудите как всъщност един AI се научава да прави това, което прави. Представете си го като студент в огромна библиотека. За да се научи да пише като човек, AI студентът прочита почти всичко в тази библиотека. Това включва новинарски статии, blog постове и дори публични social media ъпдейти. Този процес често се нарича training. AI не просто копира и пейства прочетеното. Вместо това, той търси модели. Той научава, че думата „ябълка“ често се появява до думите „сочна“ или „червена“. Научава, че залезът обикновено има оранжеви и розови нюанси. Разглеждайки милиарди примери, той става експерт в предсказването на това какво трябва да следва. Ето как създава нещо ново, което звучи много човешко. Дълго време това се смяташе просто за готин научен проект. Но сега, когато тези инструменти са голям бизнес, хората, които са написали книгите и са направили снимките в тази библиотека, започват да задават съвсем основателни въпроси за това как се използва тяхната работа.
Открихте грешка или нещо, което трябва да бъде коригирано? Уведомете ни.Често срещано погрешно схващане е, че AI е просто гигантска база данни от открадната работа. Това не е съвсем вярно. AI не съхранява оригиналните файлове. Той съхранява моделите, които е научил от тях. Напрежението обаче идва от това как е била събрана тази информация на първо място. Тази практика е известна като data scraping. Представете си гигантска дигитална прахосмукачка, която пътува из мрежата и изсмуква всяка частица публични данни, която може да намери. В ранните дни това до голяма степен беше игнорирано. Но напоследък нещата се промениха. Големи имена в творческия свят, от известни автори до големи новинарски агенции, започнаха да твърдят, че това „прахосмучене“ не трябва да е безплатно. Те твърдят, че работата им има стойност и ако една tech компания ще печели пари, използвайки инструмент, обучен с техните данни, те трябва да получат част от баницата. Това е сърцето на дебата. Това е надпревара между скоростта на иновациите и правата на хората, които предоставят суровината за тези иновации.
Големият въпрос: Кой притежава AI мозъка?
Този разговор се води по целия свят и всъщност е страхотна новина за бъдещето на интернет. Защо ли? Защото означава, че най-накрая разбираме как да оценим дигиталната работа по начин, който има смисъл за модерната епоха. На места като Съединените щати съдилищата разглеждат нещо, наречено fair use. Това е правна идея, която гласи, че можете да използвате защитен с авторски права материал без разрешение, ако го променяте в нещо ново и не вредите на оригиналния създател. Tech компаниите твърдят, че AI training е върховната форма на fair use. Те казват, че създават нещо напълно различно от оригиналните данни. От друга страна, създателите казват, че ако един AI може да напише история в стила на конкретен автор, той определено се конкурира с този автор. Това не се случва само в САЩ. Европейският съюз и страни като Япония също създават свои собствени правила. Някои са много приятелски настроени към AI компаниите, за да насърчат растежа, докато други поставят предпазни мерки, за да защитят своите местни артисти и журналисти.
Глобалното въздействие на тези решения ще бъде огромно. Ако всяка страна има различни правила, това може да стане много объркващо за компаниите, които оперират навсякъде. Ето защо много хора гледат към Световната организация за интелектуална собственост, за да помогне за създаването на стандарт, който всеки може да следва. Не става въпрос само за големи съдебни дела. Става въпрос за създаване на устойчива система. Вече виждаме вълнуващ напредък. Някои tech гиганти започнаха да подписват licensing сделки с големи издатели. Това означава, че плащат за правото да използват висококачествени данни за training на своите модели. Това може да е фантастичен начин да подкрепим журналистиката и изкуството, като същевременно позволяваме на AI технологията да напредва бързо. Показва, че не е нужно да избираме между готини tech и справедливо заплащане. Можем да имаме и двете! Тази промяна към licensing е голяма разлика отпреди година-две, когато повечето компании просто „изстъргваха“ каквото намерят, без да питат.
Как работи дигиталната прахосмукачка
За един бизнес тази правна несигурност може да е малко главоболие. Представете си, че сте малка компания, която иска да създаде ново app с помощта на AI. Ако не знаете дали AI, който използвате, е бил обучен законно, може да се притеснявате да не бъдете съдени по-късно. Тази несигурност може да забави нещата. Компаниите може да изчакат отстрани, вместо да създават нови неща. Ето защо ясните правила са толкова важни. Когато правилата са ясни, бизнесите могат да инвестират с увереност. Те ще знаят точно какво трябва да направят, за да останат от правилната страна на закона. Това може да означава да плащат малко повече за лицензирани AI модели, но спокойствието си заслужава. Насърчава и създаването на по-етични AI инструменти, които бизнесите могат да използват с гордост. Виждаме отдалечаване от старата идея за „движение бързо и чупене на неща“. Сега целта е да се движим бързо, като същевременно се уверяваме, че имаме правилните разрешения. Това е много по-добър начин да изградим дългосрочна индустрия, на която всеки може да се довери.
Защо целият свят гледа към съдилищата
Нека видим как това засяга един реален човек. Запознайте се с Майк. Майк управлява малка рекламна агенция. Той обича да използва AI, за да помага за brainstorm идеи за своите клиенти. В миналото той никога не се е замислял откъде AI получава идеите си. Но напоследък клиентите му задават въпроси. Искат да са сигурни, че изображенията и текстът, които Майк им дава, няма да причинят правни проблеми. Заради последните промени в индустрията, Майк вече може да избира да използва AI инструменти, които се обучават само с лицензирани данни. Това е огромна победа за него. Може да каже на клиентите си, че всичко е 100 процента законно и етично. Това му дава конкурентно предимство. От другата страна на света, писателка на име Елена също вижда ползите. Тя принадлежи към група, която току-що е подписала сделка с голяма AI компания. Сега, всеки път, когато AI използва нейната работа, за да се учи, малка сума пари отива във фонд за писатели като нея. Това ѝ помага да продължи да прави това, което обича, докато светът на технологиите продължава да се променя около нея.
Един ден от живота на модерния създател
Един типичен ден за някой като Елена или Майк сега е изпълнен с много повече яснота, отколкото преди. Елена започва сутринта си, като проверява своя dashboard, за да види как се използва съдържанието ѝ. Тя се чувства уважавана, защото е имала избора да *opt-out* или да се присъедини към licensing програмата. Междувременно Майк използва AI инструмент, който има ясна значка, показваща, че е обучен с оторизирани данни. Той прекарва следобеда си, създавайки красива кампания за местна пекарна, знаейки, че подкрепя артистите, чиято работа е помогнала на AI да се учи. Това е реалното въздействие на войната за авторски права. Не става въпрос само за адвокати в костюми. Става въпрос за това да се гарантира, че хората, които правят интернет забавно и интересно място, могат да продължат да си вършат работата. Напрежението между иновациите и собствеността все още съществува, но то се превръща в продуктивно напрежение. То ни подтиква да намираме креативни решения, за които иначе може би не бихме се сетили.
Някой може да се запита за скритите разходи на всички тези правни проверки и дали това ще направи любимите ни инструменти по-скъпи. Това е много справедлив въпрос. Ако компаниите трябва да плащат за всяка част от данните, дали ще прехвърлят тези разходи на нас? Трябва също така да помислим дали това няма да даде огромно предимство на най-големите tech компании, които имат най-много пари да плащат за licenses. Това е интересен пъзел за решаване, защото искаме AI да остане достъпен за всички, не само за богатите. Трябва също така да останем любопитни относно privacy. Ако един AI е обучен с публични данни, винаги трябва да питаме как се обработва личната ни информация. Това не са причини за притеснение, но са страхотни неща, които да следим, докато всички учим заедно. Да бъдем любознателни ни помага да гарантираме, че технологията ще остане полезна и приятелска за всички в дългосрочен план.
Имате история, инструмент, тенденция или въпрос, свързани с ИИ, които смятате, че трябва да обхванем? Изпратете ни вашата идея за статия — ще се радваме да я чуем.Техническата страна на правното съответствие
Сега, за тези, които обичат да навлизат в най-малките детайли, нека поговорим как работи това на техническо ниво. Developers изграждат наистина умни начини за справяне с авторските права. Една от най-големите тенденции е използването на по-малки, специализирани модели. Вместо един гигантски AI, който знае всичко, компаниите изграждат по-малки, които са обучени с много специфични, лицензирани datasets. Това прави много по-лесно проследяването откъде е дошла информацията. Виждаме и много работа по API лимити и data provenance. Provenance е просто изискана дума за историята на произхода на дадена част от данни. Използвайки blockchain или други дигитални подписи, developers могат да докажат, че част от training данни е била използвана с разрешение. Това се превръща в стандартна част от workflow за много AI екипи в . Всичко е свързано с изграждането на прозрачен pipeline от създателя до AI output.
Друга готина tech е наречена Retrieval-Augmented Generation. Това е начин AI да търси информация в реално време от специфичен, доверен източник, вместо просто да разчита на това, което е научил по време на training. Това е страхотно за спазване на закона, защото компанията може да контролира точно кои документи AI има право да разглежда. Помага и с local storage. Много бизнеси сега избират да пускат свои собствени AI модели на свои собствени сървъри, използвайки свои собствени частни данни. Това избягва целия дебат за публичното scraping изцяло. Те могат да използват базов модел, който вече е одобрен за употреба, и след това да добавят своя собствен „таен сос“ отгоре. Това е много умен начин да останете иновативни, като същевременно пазите всичко безопасно и сигурно. Службата за авторски права на САЩ постоянно актуализира своите насоки относно тези технически методи, така че е добра идея да следите техните доклади.
BotNews.today използва инструменти за изкуствен интелект за проучване, писане, редактиране и превод на съдържание. Нашият екип преглежда и наблюдава процеса, за да запази информацията полезна, ясна и надеждна.
Виждаме и голям растеж в света на synthetic data. Това са данни, създадени от друг AI специално за training цели. Тъй като машина ги е направила, няма човешки проблеми с авторските права, за които да се притеснявате! Въпреки това, все още са ви необходими някои реални човешки данни, за да задвижите нещата. Балансът между използването на реална човешка креативност и synthetic data е основен фокус за изследователите в момента. Има и голям натиск за по-добри robots.txt файлове. Това са малките файлове на уебсайтовете, които казват на търсачките какво могат и какво не могат да разглеждат. Нови версии на тези файлове се проектират, за да казват на AI scrapers точно какво им е позволено да използват. Това е техническо решение на много човешки проблем и помага за изграждането на по-учтив и уважителен интернет за всички. За повече информация относно тези развития, можете да проверите последните ъпдейти по делото на New York Times, което е основен тест за тези идеи.
Бележка на редактора: Създадохме този сайт като многоезичен център за новини и ръководства за изкуствен интелект за хора, които не са компютърни маниаци, но все пак искат да разберат изкуствения интелект, да го използват с повече увереност и да следят бъдещето, което вече настъпва.
В крайна сметка, светът на AI пораства. Преминаваме от фазата, в която всичко беше малко объркано, към време, в което има ясни пътища за всички. Този разговор за авторските права е знак, че AI става постоянна и уважавана част от нашето общество. Кара ни да мислим какво означава да си създател и как можем да защитим нещата, които правим. Независимо дали сте tech фен, собственик на бизнес или артист, всичко това е много позитивно. Означава, че инструментите, които използваме, ще бъдат изградени върху основите на справедливостта и уважението. Докато вървим напред, ще видим още по-невероятни изобретения, които ни помагат да работим по-бързо и да бъдем по-креативни. Бъдещето на технологиите е светло и слънчево, и всички сме част от това пътешествие. Продължавайте да бъдете любопитни и да изследвате, защото най-доброто тепърва предстои!