ਪ੍ਰਾਈਵੇਸੀ ਦੇ ਉਹ ਸਵਾਲ ਜੋ ਹਰ AI ਯੂਜ਼ਰ ਨੂੰ ਪੁੱਛਣੇ ਚਾਹੀਦੇ ਹਨ
ਡਿਜੀਟਲ ਇਕੱਲਤਾ ਦਾ ਦੌਰ ਖਤਮ ਹੋ ਗਿਆ ਹੈ। ਦਹਾਕਿਆਂ ਤੱਕ, ਪ੍ਰਾਈਵੇਸੀ ਦਾ ਮਤਲਬ ਸਿਰਫ਼ ਇਹ ਕੰਟਰੋਲ ਕਰਨਾ ਸੀ ਕਿ ਤੁਹਾਡੀਆਂ ਫਾਈਲਾਂ ਕੌਣ ਦੇਖ ਸਕਦਾ ਹੈ ਜਾਂ ਤੁਹਾਡੇ ਮੈਸੇਜ ਕੌਣ ਪੜ੍ਹ ਸਕਦਾ ਹੈ। ਅੱਜ, ਚੁਣੌਤੀ ਬਿਲਕੁਲ ਵੱਖਰੀ ਹੈ। Large language models ਸਿਰਫ਼ ਤੁਹਾਡਾ ਡੇਟਾ ਸਟੋਰ ਨਹੀਂ ਕਰਦੇ, ਉਹ ਇਸਨੂੰ ਖਾ ਜਾਂਦੇ ਹਨ। ਹਰ prompt, ਹਰ ਅਪਲੋਡ ਕੀਤੀ ਡੌਕੂਮੈਂਟ, ਅਤੇ ਹਰ ਆਮ ਗੱਲਬਾਤ ਪੈਟਰਨ ਪਛਾਣਨ ਵਾਲੇ ਇੱਕ ਕਦੇ ਨਾ ਰੱਜਣ ਵਾਲੇ ਇੰਜਣ ਲਈ ਬਾਲਣ ਬਣ ਜਾਂਦੀ ਹੈ। ਆਧੁਨਿਕ ਯੂਜ਼ਰ ਲਈ ਮੁੱਖ ਗੱਲ ਇਹ ਹੈ ਕਿ ਤੁਹਾਡਾ ਡੇਟਾ ਹੁਣ ਇੱਕ ਸਥਿਰ ਰਿਕਾਰਡ ਨਹੀਂ ਰਿਹਾ। ਇਹ ਹੁਣ ਇੱਕ training set ਹੈ। ਡੇਟਾ ਸਟੋਰੇਜ ਤੋਂ ਡੇਟਾ ਇੰਜੈਸ਼ਨ ਵੱਲ ਇਸ ਬਦਲਾਅ ਨੇ ਜੋਖਮਾਂ ਦਾ ਇੱਕ ਨਵਾਂ ਸੈੱਟ ਪੈਦਾ ਕੀਤਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਰਵਾਇਤੀ ਪ੍ਰਾਈਵੇਸੀ ਸੈਟਿੰਗਾਂ ਤਿਆਰ ਨਹੀਂ ਹਨ। ਜਦੋਂ ਤੁਸੀਂ ਕਿਸੇ generative system ਨਾਲ ਗੱਲਬਾਤ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸਮੂਹਿਕ ਬੁੱਧੀ (collective intelligence) ਦੇ ਇੱਕ ਵਿਸ਼ਾਲ, ਚੱਲ ਰਹੇ ਪ੍ਰਯੋਗ ਵਿੱਚ ਹਿੱਸਾ ਲੈ ਰਹੇ ਹੁੰਦੇ ਹੋ ਜਿੱਥੇ ਵਿਅਕਤੀਗਤ ਮਾਲਕੀ ਦੀਆਂ ਸੀਮਾਵਾਂ ਧੁੰਦਲੀਆਂ ਹੁੰਦੀਆਂ ਜਾ ਰਹੀਆਂ ਹਨ।
ਮੂਲ ਟਕਰਾਅ ਇਸ ਗੱਲ ਵਿੱਚ ਹੈ ਕਿ ਇਨਸਾਨ ਗੱਲਬਾਤ ਨੂੰ ਕਿਵੇਂ ਸਮਝਦੇ ਹਨ ਅਤੇ ਮਸ਼ੀਨ ਜਾਣਕਾਰੀ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰੋਸੈਸ ਕਰਦੀ ਹੈ। ਤੁਸੀਂ ਸ਼ਾਇਦ ਸੋਚਦੇ ਹੋਵੋਗੇ ਕਿ ਤੁਸੀਂ ਕਿਸੇ ਪ੍ਰਾਈਵੇਟ ਅਸਿਸਟੈਂਟ ਨੂੰ ਇੱਕ ਸੰਵੇਦਨਸ਼ੀਲ ਮੀਟਿੰਗ ਦਾ ਸਾਰ ਦੇਣ ਲਈ ਕਹਿ ਰਹੇ ਹੋ। ਅਸਲ ਵਿੱਚ, ਤੁਸੀਂ ਇੱਕ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ, ਇਨਸਾਨ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤਾ ਨਮੂਨਾ ਪ੍ਰਦਾਨ ਕਰ ਰਹੇ ਹੋ ਜਿਸਦੀ ਵਰਤੋਂ ਬਾਕੀ ਸਾਰਿਆਂ ਲਈ ਮਾਡਲ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਇਹ ਸਿਸਟਮ ਵਿੱਚ ਕੋਈ ਬੱਗ ਨਹੀਂ ਹੈ, ਇਹ ਉਹਨਾਂ ਕੰਪਨੀਆਂ ਲਈ ਮੁੱਖ ਪ੍ਰੇਰਣਾ ਹੈ ਜੋ ਇਹ ਟੂਲ ਬਣਾ ਰਹੀਆਂ ਹਨ। ਡੇਟਾ ਇਸ ਸਮੇਂ ਦੁਨੀਆ ਦੀ ਸਭ ਤੋਂ ਕੀਮਤੀ ਮੁਦਰਾ ਹੈ, ਅਤੇ ਸਭ ਤੋਂ ਕੀਮਤੀ ਡੇਟਾ ਉਹ ਹੈ ਜੋ ਇਨਸਾਨੀ ਸੋਚ ਅਤੇ ਇਰਾਦੇ ਨੂੰ ਕੈਪਚਰ ਕਰਦਾ ਹੈ। ਜਿਵੇਂ-ਜਿਵੇਂ ਅਸੀਂ ਅੱਗੇ ਵਧ ਰਹੇ ਹਾਂ, ਯੂਜ਼ਰ ਦੀ ਉਪਯੋਗਤਾ ਅਤੇ ਕਾਰਪੋਰੇਟ ਡੇਟਾ ਪ੍ਰਾਪਤੀ ਵਿਚਕਾਰ ਤਣਾਅ ਸਿਰਫ਼ ਵਧੇਗਾ ਹੀ।
ਇੰਜੈਸ਼ਨ ਦੀ ਮਕੈਨਿਕਸ
ਪ੍ਰਾਈਵੇਸੀ ਦੇ ਦਾਅਵਿਆਂ ਨੂੰ ਸਮਝਣ ਲਈ, training data ਅਤੇ inference data ਵਿਚਕਾਰ ਫਰਕ ਕਰਨਾ ਜ਼ਰੂਰੀ ਹੈ। Training data ਉਹ ਵਿਸ਼ਾਲ ਟੈਕਸਟ, ਚਿੱਤਰ ਅਤੇ ਕੋਡ ਦਾ ਭੰਡਾਰ ਹੈ ਜਿਸਦੀ ਵਰਤੋਂ ਮਾਡਲ ਨੂੰ ਸ਼ੁਰੂ ਵਿੱਚ ਬਣਾਉਣ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਵਿੱਚ ਅਕਸਰ ਓਪਨ ਵੈੱਬ, ਕਿਤਾਬਾਂ ਅਤੇ ਅਕਾਦਮਿਕ ਪੇਪਰਾਂ ਤੋਂ ਲਏ ਗਏ ਅਰਬਾਂ ਪੰਨੇ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ। Inference data ਉਹ ਹੈ ਜੋ ਤੁਸੀਂ ਟੂਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹੋ। ਜ਼ਿਆਦਾਤਰ ਵੱਡੇ ਪ੍ਰੋਵਾਈਡਰਾਂ ਨੇ ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ inference data ਦੀ ਵਰਤੋਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ fine tune ਕਰਨ ਲਈ ਕੀਤੀ ਹੈ, ਜਦੋਂ ਤੱਕ ਕੋਈ ਯੂਜ਼ਰ ਲੁਕੇ ਹੋਏ ਮੀਨੂ ਰਾਹੀਂ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ opt out ਨਹੀਂ ਕਰਦਾ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਤੁਹਾਡਾ ਖਾਸ ਲਿਖਣ ਦਾ ਅੰਦਾਜ਼, ਤੁਹਾਡੀ ਕੰਪਨੀ ਦਾ ਅੰਦਰੂਨੀ jargon, ਅਤੇ ਤੁਹਾਡੀਆਂ ਵਿਲੱਖਣ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੀਆਂ ਵਿਧੀਆਂ neural network ਦੇ weights ਵਿੱਚ ਸ਼ਾਮਲ ਹੋ ਰਹੀਆਂ ਹਨ।
ਇਸ ਸੰਦਰਭ ਵਿੱਚ ਸਹਿਮਤੀ ਅਕਸਰ ਇੱਕ ਕਾਨੂੰਨੀ ਕਲਪਨਾ ਹੁੰਦੀ ਹੈ। ਜਦੋਂ ਤੁਸੀਂ ਪੰਜਾਹ ਪੰਨਿਆਂ ਦੇ terms of service ਦਸਤਾਵੇਜ਼ ‘ਤੇ “I agree” ਕਲਿੱਕ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸ਼ਾਇਦ ਹੀ ਸੂਚਿਤ ਸਹਿਮਤੀ ਦੇ ਰਹੇ ਹੁੰਦੇ ਹੋ। ਤੁਸੀਂ ਇੱਕ ਮਸ਼ੀਨ ਨੂੰ ਆਪਣੇ ਵਿਚਾਰਾਂ ਨੂੰ ਅੰਕੜਾ ਸੰਭਾਵਨਾਵਾਂ ਵਿੱਚ ਤੋੜਨ ਦੀ ਇਜਾਜ਼ਤ ਦੇ ਰਹੇ ਹੁੰਦੇ ਹੋ। ਇਹਨਾਂ ਸਮਝੌਤਿਆਂ ਦੀ ਭਾਸ਼ਾ ਜਾਣਬੁੱਝ ਕੇ ਵਿਆਪਕ ਰੱਖੀ ਜਾਂਦੀ ਹੈ। ਇਹ ਕੰਪਨੀਆਂ ਨੂੰ ਡੇਟਾ ਨੂੰ ਅਜਿਹੇ ਤਰੀਕਿਆਂ ਨਾਲ ਰੱਖਣ ਅਤੇ ਦੁਬਾਰਾ ਵਰਤਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਟਰੈਕ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੈ। ਇੱਕ ਖਪਤਕਾਰ ਲਈ, ਕੀਮਤ ਨਿੱਜੀ ਹੈ। ਇੱਕ ਪ੍ਰਕਾਸ਼ਕ ਲਈ, ਕੀਮਤ ਹੋਂਦ ਦੀ ਹੈ। ਜਦੋਂ ਇੱਕ AI ਕਿਸੇ ਪੱਤਰਕਾਰ ਜਾਂ ਕਲਾਕਾਰ ਦੇ ਕੰਮ ‘ਤੇ ਸਿਖਲਾਈ ਲੈ ਕੇ ਬਿਨਾਂ ਕਿਸੇ ਮੁਆਵਜ਼ੇ ਦੇ ਉਹਨਾਂ ਦੇ ਅੰਦਾਜ਼ ਅਤੇ ਸਮੱਗਰੀ ਦੀ ਨਕਲ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ ਬੌਧਿਕ ਸੰਪੱਤੀ (intellectual property) ਦਾ ਵਿਚਾਰ ਹੀ ਖਤਮ ਹੋਣ ਲੱਗਦਾ ਹੈ। ਇਹੀ ਕਾਰਨ ਹੈ ਕਿ ਅਸੀਂ ਵੱਡੇ ਮੀਡੀਆ ਸੰਗਠਨਾਂ ਅਤੇ ਸਿਰਜਣਹਾਰਾਂ ਵੱਲੋਂ ਮੁਕੱਦਮਿਆਂ ਦੀ ਵਧਦੀ ਗਿਣਤੀ ਦੇਖ ਰਹੇ ਹਾਂ ਜੋ ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ ਉਹਨਾਂ ਦੇ ਕੰਮ ਨੂੰ ਅਜਿਹੇ ਉਤਪਾਦ ਬਣਾਉਣ ਲਈ ਵਰਤਿਆ ਜਾ ਰਿਹਾ ਹੈ ਜੋ ਅੰਤ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਥਾਂ ਲੈ ਲੈਣਗੇ।
Enterprise ਨੂੰ ਵੱਖ-ਵੱਖ ਦਬਾਅ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ। ਇੱਕ ਕਰਮਚਾਰੀ ਦੁਆਰਾ proprietary codebase ਨੂੰ ਪਬਲਿਕ AI ਟੂਲ ਵਿੱਚ ਪੇਸਟ ਕਰਨਾ ਕੰਪਨੀ ਦੇ ਪੂਰੇ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਫਾਇਦੇ ਨੂੰ ਖਤਰੇ ਵਿੱਚ ਪਾ ਸਕਦਾ ਹੈ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਉਹ ਡੇਟਾ ingest ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਆਸਾਨੀ ਨਾਲ ਬਾਹਰ ਨਹੀਂ ਕੱਢਿਆ ਜਾ ਸਕਦਾ। ਇਹ ਸਰਵਰ ਤੋਂ ਫਾਈਲ ਡਿਲੀਟ ਕਰਨ ਵਰਗਾ ਨਹੀਂ ਹੈ। ਜਾਣਕਾਰੀ ਮਾਡਲ ਦੀਆਂ ਭਵਿੱਖਬਾਣੀ ਸਮਰੱਥਾਵਾਂ ਦਾ ਹਿੱਸਾ ਬਣ ਜਾਂਦੀ ਹੈ। ਜੇਕਰ ਮਾਡਲ ਨੂੰ ਬਾਅਦ ਵਿੱਚ ਕਿਸੇ ਪ੍ਰਤੀਯੋਗੀ ਦੁਆਰਾ ਇੱਕ ਖਾਸ ਤਰੀਕੇ ਨਾਲ prompt ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇਹ ਅਣਜਾਣੇ ਵਿੱਚ ਅਸਲ proprietary ਕੋਡ ਦੇ ਤਰਕ ਜਾਂ ਬਣਤਰ ਨੂੰ ਲੀਕ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ AI ਪ੍ਰਾਈਵੇਸੀ ਦੀ “black box” ਸਮੱਸਿਆ ਹੈ। ਅਸੀਂ ਜਾਣਦੇ ਹਾਂ ਕਿ ਕੀ ਅੰਦਰ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਅਸੀਂ ਦੇਖਦੇ ਹਾਂ ਕਿ ਕੀ ਬਾਹਰ ਆਉਂਦਾ ਹੈ, ਪਰ ਮਾਡਲ ਦੇ neural connections ਦੇ ਅੰਦਰ ਡੇਟਾ ਨੂੰ ਸਟੋਰ ਕਰਨ ਦੇ ਤਰੀਕੇ ਨੂੰ ਆਡਿਟ ਕਰਨਾ ਜਾਂ ਮਿਟਾਉਣਾ ਲਗਭਗ ਅਸੰਭਵ ਹੈ।
ਡੇਟਾ ਪ੍ਰਭੂਸੱਤਾ ਲਈ ਗਲੋਬਲ ਲੜਾਈ
ਇਹਨਾਂ ਚਿੰਤਾਵਾਂ ਪ੍ਰਤੀ ਪ੍ਰਤੀਕਿਰਿਆ ਦੁਨੀਆ ਭਰ ਵਿੱਚ ਬਹੁਤ ਵੱਖਰੀ ਹੈ। ਯੂਰਪੀਅਨ ਯੂਨੀਅਨ ਵਿੱਚ, AI Act ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਿਵੇਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਇਸ ਬਾਰੇ ਨਿਯਮ ਬਣਾਉਣ ਦੀ ਹੁਣ ਤੱਕ ਦੀ ਸਭ ਤੋਂ ਅਭਿਲਾਸ਼ੀ ਕੋਸ਼ਿਸ਼ ਹੈ। ਇਹ ਪਾਰਦਰਸ਼ਤਾ ਅਤੇ ਵਿਅਕਤੀਆਂ ਦੇ ਇਹ ਜਾਣਨ ਦੇ ਅਧਿਕਾਰ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ ਕਿ ਉਹ ਕਦੋਂ AI ਨਾਲ ਗੱਲਬਾਤ ਕਰ ਰਹੇ ਹਨ। ਹੋਰ ਵੀ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ, ਇਹ ਉਸ “ਸਭ ਕੁਝ ਸਕ੍ਰੈਪ ਕਰੋ” ਮਾਨਸਿਕਤਾ ਨੂੰ ਚੁਣੌਤੀ ਦਿੰਦਾ ਹੈ ਜਿਸਨੇ ਮੌਜੂਦਾ ਬੂਮ ਦੇ ਸ਼ੁਰੂਆਤੀ ਸਾਲਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਸੀ। ਰੈਗੂਲੇਟਰ ਤੇਜ਼ੀ ਨਾਲ ਇਹ ਦੇਖ ਰਹੇ ਹਨ ਕਿ ਕੀ ਸਿਖਲਾਈ ਦੇ ਉਦੇਸ਼ਾਂ ਲਈ ਡੇਟਾ ਦਾ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਸੰਗ੍ਰਹਿ General Data Protection Regulation (GDPR) ਦੇ ਬੁਨਿਆਦੀ ਸਿਧਾਂਤਾਂ ਦੀ ਉਲੰਘਣਾ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਕੋਈ ਮਾਡਲ ਭੁੱਲੇ ਜਾਣ ਦੇ ਅਧਿਕਾਰ (right to be forgotten) ਦੀ ਗਰੰਟੀ ਨਹੀਂ ਦੇ ਸਕਦਾ, ਤਾਂ ਕੀ ਇਹ ਕਦੇ ਵੀ ਸੱਚਮੁੱਚ GDPR ਅਨੁਕੂਲ ਹੋ ਸਕਦਾ ਹੈ? ਇਹ ਇੱਕ ਅਜਿਹਾ ਸਵਾਲ ਹੈ ਜੋ ਅਜੇ ਵੀ ਅਣਸੁਲਝਿਆ ਹੋਇਆ ਹੈ।
ਸੰਯੁਕਤ ਰਾਜ ਵਿੱਚ, ਪਹੁੰਚ ਵਧੇਰੇ ਖਿੰਡੀ ਹੋਈ ਹੈ। ਫੈਡਰਲ ਪ੍ਰਾਈਵੇਸੀ ਕਾਨੂੰਨ ਤੋਂ ਬਿਨਾਂ, ਬੋਝ ਵਿਅਕਤੀਗਤ ਰਾਜਾਂ ਅਤੇ ਅਦਾਲਤਾਂ ‘ਤੇ ਪੈਂਦਾ ਹੈ। New York Times ਦਾ OpenAI ਵਿਰੁੱਧ ਮੁਕੱਦਮਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕੇਸ ਹੈ ਜੋ ਡਿਜੀਟਲ ਯੁੱਗ ਲਈ “fair use” ਸਿਧਾਂਤ ਨੂੰ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ ਕਰ ਸਕਦਾ ਹੈ। ਜੇਕਰ ਅਦਾਲਤਾਂ ਇਹ ਫੈਸਲਾ ਕਰਦੀਆਂ ਹਨ ਕਿ ਕਾਪੀਰਾਈਟ ਕੀਤੇ ਡੇਟਾ ‘ਤੇ ਸਿਖਲਾਈ ਲਈ ਲਾਇਸੈਂਸ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਉਦਯੋਗ ਦਾ ਪੂਰਾ ਆਰਥਿਕ ਮਾਡਲ ਰਾਤੋ-ਰਾਤ ਬਦਲ ਜਾਵੇਗਾ। ਇਸ ਦੌਰਾਨ, ਚੀਨ ਵਰਗੇ ਦੇਸ਼ ਸਖ਼ਤ ਨਿਯਮ ਲਾਗੂ ਕਰ ਰਹੇ ਹਨ ਜੋ AI ਮਾਡਲਾਂ ਨੂੰ “ਸਮਾਜਵਾਦੀ ਕਦਰਾਂ-ਕੀਮਤਾਂ” ਨੂੰ ਦਰਸਾਉਣ ਅਤੇ ਜਨਤਕ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਸਖ਼ਤ ਸੁਰੱਖਿਆ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚੋਂ ਲੰਘਣ ਲਈ ਮਜਬੂਰ ਕਰਦੇ ਹਨ। ਇਸ ਨਾਲ ਇੱਕ ਖਿੰਡਿਆ ਹੋਇਆ ਗਲੋਬਲ ਵਾਤਾਵਰਣ ਪੈਦਾ ਹੋਇਆ ਹੈ ਜਿੱਥੇ ਉਹੀ AI ਟੂਲ ਸਰਹੱਦ ਦੇ ਕਿਸ ਪਾਸੇ ਤੁਸੀਂ ਖੜ੍ਹੇ ਹੋ, ਇਸ ਦੇ ਆਧਾਰ ‘ਤੇ ਵੱਖਰੇ ਤਰੀਕੇ ਨਾਲ ਵਿਵਹਾਰ ਕਰ ਸਕਦਾ ਹੈ।
ਔਸਤ ਯੂਜ਼ਰ ਲਈ, ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ **data sovereignty** ਇੱਕ ਲਗਜ਼ਰੀ ਬਣ ਰਹੀ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆ ਵਾਲੇ ਖੇਤਰ ਵਿੱਚ ਰਹਿੰਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਡੇ ਕੋਲ ਆਪਣੇ ਡਿਜੀਟਲ ਫੁੱਟਪ੍ਰਿੰਟ ‘ਤੇ ਵਧੇਰੇ ਕੰਟਰੋਲ ਹੋ ਸਕਦਾ ਹੈ। ਜੇਕਰ ਨਹੀਂ, ਤਾਂ ਤੁਹਾਡਾ ਡੇਟਾ ਅਸਲ ਵਿੱਚ fair game ਹੈ। ਇਹ ਇੱਕ ਦੋ-ਪੱਧਰੀ ਇੰਟਰਨੈੱਟ ਬਣਾਉਂਦਾ ਹੈ ਜਿੱਥੇ ਪ੍ਰਾਈਵੇਸੀ ਇੱਕ ਵਿਸ਼ਵਵਿਆਪੀ ਅਧਿਕਾਰ ਦੀ ਬਜਾਏ ਭੂਗੋਲ ਦਾ ਕੰਮ ਹੈ। ਹਾਸ਼ੀਏ ‘ਤੇ ਰਹਿਣ ਵਾਲੇ ਭਾਈਚਾਰਿਆਂ ਅਤੇ ਰਾਜਨੀਤਿਕ ਅਸਹਿਮਤੀ ਰੱਖਣ ਵਾਲਿਆਂ ਲਈ ਦਾਅ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹਨ, ਜਿਨ੍ਹਾਂ ਲਈ ਪ੍ਰਾਈਵੇਸੀ ਦੀ ਕਮੀ ਦੇ ਜੀਵਨ-ਬਦਲਣ ਵਾਲੇ ਨਤੀਜੇ ਹੋ ਸਕਦੇ ਹਨ। ਜਦੋਂ AI ਦੀ ਵਰਤੋਂ ਵਿਵਹਾਰ ਦੇ ਪੈਟਰਨਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਜਾਂ ingest ਕੀਤੇ ਡੇਟਾ ਦੇ ਆਧਾਰ ‘ਤੇ ਭਵਿੱਖ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਤਾਂ ਨਿਗਰਾਨੀ ਅਤੇ ਕੰਟਰੋਲ ਦੀ ਸੰਭਾਵਨਾ ਬੇਮਿਸਾਲ ਹੈ।
ਫੀਡਬੈਕ ਲੂਪ ਵਿੱਚ ਰਹਿਣਾ
ਸਾਰਾਹ, ਇੱਕ ਮੱਧ-ਆਕਾਰ ਦੀ ਟੈਕ ਫਰਮ ਵਿੱਚ ਸੀਨੀਅਰ ਮਾਰਕੀਟਿੰਗ ਮੈਨੇਜਰ, ਦੇ ਦਿਨ ਬਾਰੇ ਸੋਚੋ। ਉਸਦੀ ਸਵੇਰ ਪਿਛਲੇ ਦਿਨ ਦੀ ਰਣਨੀਤੀ ਮੀਟਿੰਗ ਦੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਦੇ ਆਧਾਰ ‘ਤੇ ਈਮੇਲਾਂ ਦੀ ਇੱਕ ਲੜੀ ਤਿਆਰ ਕਰਨ ਲਈ AI ਅਸਿਸਟੈਂਟ ਦੀ ਵਰਤੋਂ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ। ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਵਿੱਚ ਨਵੇਂ ਉਤਪਾਦ ਲਾਂਚ ਬਾਰੇ ਸੰਵੇਦਨਸ਼ੀਲ ਵੇਰਵੇ ਸ਼ਾਮਲ ਹਨ, ਜਿਸ ਵਿੱਚ ਅਨੁਮਾਨਿਤ ਕੀਮਤ ਅਤੇ ਅੰਦਰੂਨੀ ਕਮਜ਼ੋਰੀਆਂ ਸ਼ਾਮਲ ਹਨ। ਇਸਨੂੰ ਟੂਲ ਵਿੱਚ ਪੇਸਟ ਕਰਕੇ, ਸਾਰਾਹ ਨੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਉਹ ਜਾਣਕਾਰੀ ਸਰਵਿਸ ਪ੍ਰੋਵਾਈਡਰ ਨੂੰ ਸੌਂਪ ਦਿੱਤੀ ਹੈ। ਬਾਅਦ ਵਿੱਚ ਉਸ ਦੁਪਹਿਰ, ਉਹ ਸੋਸ਼ਲ ਮੀਡੀਆ ਮੁਹਿੰਮ ਲਈ ਸੰਪਤੀਆਂ ਬਣਾਉਣ ਲਈ ਇੱਕ ਇਮੇਜ ਜਨਰੇਟਰ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਜਨਰੇਟਰ ਨੂੰ ਉਹਨਾਂ ਕਲਾਕਾਰਾਂ ਦੇ ਲੱਖਾਂ ਚਿੱਤਰਾਂ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ ਜਿਨ੍ਹਾਂ ਨੇ ਕਦੇ ਇਜਾਜ਼ਤ ਨਹੀਂ ਦਿੱਤੀ ਸੀ। ਸਾਰਾਹ ਪਹਿਲਾਂ ਨਾਲੋਂ ਵੱਧ ਉਤਪਾਦਕ ਹੈ, ਪਰ ਉਹ ਇੱਕ ਫੀਡਬੈਕ ਲੂਪ ਵਿੱਚ ਇੱਕ ਨੋਡ ਵੀ ਹੈ ਜੋ ਉਸਦੀ ਕੰਪਨੀ ਦੀ ਪ੍ਰਾਈਵੇਸੀ ਅਤੇ ਸਿਰਜਣਹਾਰਾਂ ਦੀ ਰੋਜ਼ੀ-ਰੋਟੀ ਨੂੰ ਖਤਮ ਕਰ ਰਿਹਾ ਹੈ।
ਸਹਿਮਤੀ ਦਾ ਟੁੱਟਣਾ ਛੋਟੇ ਪਲਾਂ ਵਿੱਚ ਹੁੰਦਾ ਹੈ। ਇਹ “Help us improve our products” ਚੈਕਬਾਕਸ ਹੈ ਜੋ ਡਿਫੌਲਟ ਰੂਪ ਵਿੱਚ ਚੈੱਕ ਕੀਤਾ ਹੁੰਦਾ ਹੈ। ਇਹ ਇੱਕ “ਮੁਫਤ” ਟੂਲ ਦੀ ਸਹੂਲਤ ਹੈ ਜੋ ਅਸਲ ਵਿੱਚ ਤੁਹਾਡੇ ਡੇਟਾ ਦੀ ਕੀਮਤ ‘ਤੇ ਆਉਂਦਾ ਹੈ। ਸਾਰਾਹ ਦੇ ਦਫਤਰ ਵਿੱਚ, ਇਹਨਾਂ ਟੂਲਾਂ ਨੂੰ ਅਪਣਾਉਣ ਦਾ ਦਬਾਅ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ। ਮੈਨੇਜਮੈਂਟ ਉੱਚ ਆਉਟਪੁੱਟ ਚਾਹੁੰਦੀ ਹੈ, ਅਤੇ AI ਇਸਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਦਾ ਇੱਕੋ ਇੱਕ ਤਰੀਕਾ ਹੈ। ਹਾਲਾਂਕਿ, ਕੰਪਨੀ ਕੋਲ ਇਹ ਕੋਈ ਸਪੱਸ਼ਟ ਨੀਤੀ ਨਹੀਂ ਹੈ ਕਿ ਇਹਨਾਂ ਸਿਸਟਮਾਂ ਨਾਲ ਕੀ ਸਾਂਝਾ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਕੀ ਨਹੀਂ। ਇਹ ਅੱਜ ਦੇ ਪੇਸ਼ੇਵਰ ਸੰਸਾਰ ਵਿੱਚ ਇੱਕ ਆਮ ਸਥਿਤੀ ਹੈ। ਤਕਨਾਲੋਜੀ ਇੰਨੀ ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧੀ ਹੈ ਕਿ ਨੀਤੀ ਅਤੇ ਨੈਤਿਕਤਾ ਪਿੱਛੇ ਰਹਿ ਗਈ ਹੈ। ਨਤੀਜਾ ਕੁਝ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਟੈਕ ਕੰਪਨੀਆਂ ਦੇ ਹੱਥਾਂ ਵਿੱਚ ਕਾਰਪੋਰੇਟ ਅਤੇ ਨਿੱਜੀ ਖੁਫੀਆ ਜਾਣਕਾਰੀ ਦਾ ਇੱਕ ਚੁੱਪ, ਸਥਿਰ ਲੀਕ ਹੈ।
ਅਸਲ ਸੰਸਾਰ ਦਾ ਪ੍ਰਭਾਵ ਦਫਤਰ ਤੋਂ ਬਾਹਰ ਵੀ ਫੈਲਦਾ ਹੈ। ਜਦੋਂ ਤੁਸੀਂ ਆਪਣੇ ਲੱਛਣਾਂ ਨੂੰ ਟਰੈਕ ਕਰਨ ਲਈ ਸਿਹਤ-ਸਬੰਧਤ AI ਜਾਂ ਵਸੀਅਤ ਤਿਆਰ ਕਰਨ ਲਈ ਕਾਨੂੰਨੀ AI ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ, ਤਾਂ ਦਾਅ ਹੋਰ ਵੀ ਵੱਡੇ ਹੁੰਦੇ ਹਨ। ਇਹ ਸਿਸਟਮ ਸਿਰਫ਼ ਟੈਕਸਟ ਨੂੰ ਪ੍ਰੋਸੈਸ ਨਹੀਂ ਕਰ ਰਹੇ ਹਨ, ਉਹ ਤੁਹਾਡੀਆਂ ਸਭ ਤੋਂ ਨਿੱਜੀ ਕਮਜ਼ੋਰੀਆਂ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰ ਰਹੇ ਹਨ। ਜੇਕਰ ਕਿਸੇ ਪ੍ਰੋਵਾਈਡਰ ਦਾ ਡੇਟਾਬੇਸ ਬ੍ਰੀਚ ਹੁੰਦਾ ਹੈ, ਜਾਂ ਜੇਕਰ ਉਹਨਾਂ ਦੀਆਂ ਅੰਦਰੂਨੀ ਨੀਤੀਆਂ ਬਦਲਦੀਆਂ ਹਨ, ਤਾਂ ਉਸ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਤੁਹਾਡੇ ਵਿਰੁੱਧ ਉਹਨਾਂ ਤਰੀਕਿਆਂ ਨਾਲ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਦੀ ਤੁਸੀਂ ਕਦੇ ਕਲਪਨਾ ਵੀ ਨਹੀਂ ਕੀਤੀ ਸੀ। ਬੀਮਾ ਕੰਪਨੀਆਂ ਤੁਹਾਡੇ ਪ੍ਰੀਮੀਅਮ ਨੂੰ ਅਡਜਸਟ ਕਰਨ ਲਈ ਤੁਹਾਡੀਆਂ “ਪ੍ਰਾਈਵੇਟ” ਕੁਐਰੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੀਆਂ ਹਨ। ਭਵਿੱਖ ਦੇ ਰੁਜ਼ਗਾਰਦਾਤਾ ਤੁਹਾਡੀ ਸ਼ਖਸੀਅਤ ਜਾਂ ਭਰੋਸੇਯੋਗਤਾ ਦਾ ਨਿਰਣਾ ਕਰਨ ਲਈ ਤੁਹਾਡੇ ਇੰਟਰੈਕਸ਼ਨ ਇਤਿਹਾਸ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਨ। ਇਸਨੂੰ ਸਮਝਣ ਲਈ “useful frame” ਇਹ ਅਹਿਸਾਸ ਕਰਨਾ ਹੈ ਕਿ ਹਰ ਇੰਟਰੈਕਸ਼ਨ ਇੱਕ ਅਜਿਹੇ ਲੇਜ਼ਰ ਵਿੱਚ ਇੱਕ ਸਥਾਈ ਐਂਟਰੀ ਹੈ ਜਿਸਨੂੰ ਤੁਸੀਂ ਕੰਟਰੋਲ ਨਹੀਂ ਕਰਦੇ।
ਮਾਲਕੀ ਦੇ ਬੇਆਰਾਮ ਸਵਾਲ
ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਇਸ ਨਵੀਂ ਹਕੀਕਤ ਵਿੱਚ ਅੱਗੇ ਵਧਦੇ ਹਾਂ, ਸਾਨੂੰ ਉਹ ਮੁਸ਼ਕਲ ਸਵਾਲ ਪੁੱਛਣੇ ਚਾਹੀਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਤੋਂ ਉਦਯੋਗ ਅਕਸਰ ਬਚਦਾ ਹੈ। ਕੀ ਕੋਈ AI ਜੋ ਮਨੁੱਖਤਾ ਦੇ ਸਮੂਹਿਕ ਕੰਮ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਸੀ, ਉਸਦੇ ਆਉਟਪੁੱਟ ਦਾ ਅਸਲ ਵਿੱਚ ਮਾਲਕ ਕੌਣ ਹੈ? ਜੇਕਰ ਕਿਸੇ ਮਾਡਲ ਨੇ ਤੁਹਾਡੀ ਨਿੱਜੀ ਜਾਣਕਾਰੀ “ਸਿੱਖ” ਲਈ ਹੈ, ਤਾਂ ਕੀ ਉਹ ਜਾਣਕਾਰੀ ਅਜੇ ਵੀ ਤੁਹਾਡੀ ਹੈ? Large language models ਵਿੱਚ *memorization* ਦਾ ਸੰਕਲਪ ਖੋਜਕਰਤਾਵਾਂ ਲਈ ਇੱਕ ਵਧਦੀ ਚਿੰਤਾ ਹੈ। ਉਹਨਾਂ ਨੇ ਪਾਇਆ ਹੈ ਕਿ ਮਾਡਲਾਂ ਨੂੰ ਕਈ ਵਾਰ ਸਿਖਲਾਈ ਡੇਟਾ ਦੇ ਖਾਸ ਟੁਕੜਿਆਂ ਨੂੰ ਪ੍ਰਗਟ ਕਰਨ ਲਈ prompt ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸੋਸ਼ਲ ਸਿਕਿਉਰਿਟੀ ਨੰਬਰ, ਨਿੱਜੀ ਪਤੇ ਅਤੇ proprietary ਕੋਡ ਸ਼ਾਮਲ ਹਨ। ਇਹ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਡੇਟਾ ਸਿਰਫ਼ ਇੱਕ ਅਮੂਰਤ ਅਰਥ ਵਿੱਚ “ਸਿੱਖਿਆ” ਨਹੀਂ ਜਾਂਦਾ, ਇਹ ਅਕਸਰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਜਿਸਨੂੰ ਇੱਕ ਚਲਾਕ ਹਮਲਾਵਰ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
“ਮੁਫਤ” AI ਕ੍ਰਾਂਤੀ ਦੀ ਲੁਕਵੀਂ ਕੀਮਤ ਕੀ ਹੈ? ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਅਤੇ ਚਲਾਉਣ ਲਈ ਲੋੜੀਂਦੀ ਊਰਜਾ ਹੈਰਾਨੀਜਨਕ ਹੈ, ਅਤੇ ਵਾਤਾਵਰਣ ‘ਤੇ ਪ੍ਰਭਾਵ ਨੂੰ ਅਕਸਰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਪਰ ਇਨਸਾਨੀ ਕੀਮਤ ਹੋਰ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਅਸੀਂ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਮਾਮੂਲੀ ਵਾਧੇ ਲਈ ਆਪਣੀ ਪ੍ਰਾਈਵੇਸੀ ਅਤੇ ਆਪਣੀ ਬੌਧਿਕ ਖੁਦਮੁਖਤਿਆਰੀ ਦਾ ਵਪਾਰ ਕਰ ਰਹੇ ਹਾਂ। ਕੀ ਇਹ ਵਪਾਰ ਇਸਦੇ ਯੋਗ ਹੈ? ਜੇਕਰ ਅਸੀਂ ਨਿੱਜੀ ਤੌਰ ‘ਤੇ ਸੋਚਣ ਅਤੇ ਬਣਾਉਣ ਦੀ ਸਮਰੱਥਾ ਗੁਆ ਦਿੰਦੇ ਹਾਂ, ਤਾਂ ਸਾਡੇ ਵਿਚਾਰਾਂ ਦੀ ਗੁਣਵੱਤਾ ਦਾ ਕੀ ਹੋਵੇਗਾ? ਇਨੋਵੇਸ਼ਨ ਲਈ ਇੱਕ ਅਜਿਹੀ ਜਗ੍ਹਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਜਿੱਥੇ ਕੋਈ ਦੇਖੇ ਜਾਂ ਰਿਕਾਰਡ ਕੀਤੇ ਬਿਨਾਂ ਅਸਫਲ ਹੋ ਸਕੇ, ਪ੍ਰਯੋਗ ਕਰ ਸਕੇ ਅਤੇ ਖੋਜ ਕਰ ਸਕੇ। ਜਦੋਂ ਹਰ ਵਿਚਾਰ ingest ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਉਹ ਜਗ੍ਹਾ ਸੁੰਗੜਨ ਲੱਗਦੀ ਹੈ। ਅਸੀਂ ਇੱਕ ਅਜਿਹੀ ਦੁਨੀਆ ਬਣਾ ਰਹੇ ਹਾਂ ਜਿੱਥੇ “ਪ੍ਰਾਈਵੇਟ” ਹੁਣ ਮੌਜੂਦ ਨਹੀਂ ਹੈ, ਅਤੇ ਅਸੀਂ ਇਹ ਇੱਕ-ਇੱਕ prompt ਕਰਕੇ ਕਰ ਰਹੇ ਹਾਂ।
ਖਪਤਕਾਰਾਂ, ਪ੍ਰਕਾਸ਼ਕਾਂ ਅਤੇ enterprise ਲਈ ਪ੍ਰਾਈਵੇਸੀ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਵੱਖਰੀਆਂ ਹਨ ਕਿਉਂਕਿ ਉਹਨਾਂ ਦੀਆਂ ਪ੍ਰੇਰਣਾਵਾਂ ਵੱਖਰੀਆਂ ਹਨ। ਖਪਤਕਾਰ ਸਹੂਲਤ ਚਾਹੁੰਦੇ ਹਨ। ਪ੍ਰਕਾਸ਼ਕ ਆਪਣੇ ਵਪਾਰਕ ਮਾਡਲਾਂ ਦੀ ਰੱਖਿਆ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ। Enterprise ਆਪਣਾ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਫਾਇਦਾ ਬਰਕਰਾਰ ਰੱਖਣਾ ਚਾਹੁੰਦੇ ਹਨ। ਫਿਰ ਵੀ, ਤਿੰਨੋਂ ਵਰਤਮਾਨ ਵਿੱਚ ਉਹਨਾਂ ਕੁਝ ਕੰਪਨੀਆਂ ਦੀ ਦਇਆ ‘ਤੇ ਹਨ ਜੋ AI ਯੁੱਗ ਦੇ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਨੂੰ ਕੰਟਰੋਲ ਕਰਦੀਆਂ ਹਨ। ਸ਼ਕਤੀ ਦਾ ਇਹ ਕੇਂਦਰੀਕਰਨ ਆਪਣੇ ਆਪ ਵਿੱਚ ਇੱਕ ਪ੍ਰਾਈਵੇਸੀ ਜੋਖਮ ਹੈ। ਜੇਕਰ ਇਹਨਾਂ ਵਿੱਚੋਂ ਕੋਈ ਕੰਪਨੀ ਆਪਣੀ ਡੇਟਾ ਰਿਟੈਨਸ਼ਨ ਨੀਤੀਆਂ ਜਾਂ ਆਪਣੀਆਂ terms of service ਨੂੰ ਬਦਲਣ ਦਾ ਫੈਸਲਾ ਕਰਦੀ ਹੈ, ਤਾਂ ਪੂਰੇ ਈਕੋਸਿਸਟਮ ਨੂੰ ਇਸਦਾ ਪਾਲਣ ਕਰਨਾ ਪੈਂਦਾ ਹੈ। ਜਦੋਂ ਅੰਡਰਲਾਈੰਗ ਡੇਟਾ ਸੈੱਟਾਂ ਦੀ ਗੱਲ ਆਉਂਦੀ ਹੈ ਤਾਂ ਕੋਈ ਅਸਲ ਮੁਕਾਬਲਾ ਨਹੀਂ ਹੁੰਦਾ। ਜਿਨ੍ਹਾਂ ਕੰਪਨੀਆਂ ਨੇ ਜਲਦੀ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਅਤੇ ਸਭ ਤੋਂ ਵੱਧ ਡੇਟਾ ਸਕ੍ਰੈਪ ਕੀਤਾ, ਉਹਨਾਂ ਕੋਲ ਇੱਕ ਅਜਿਹੀ ਖਾਈ (moat) ਹੈ ਜਿਸਨੂੰ ਪਾਰ ਕਰਨਾ ਲਗਭਗ ਅਸੰਭਵ ਹੈ।
ਕੀ ਤੁਹਾਡੇ ਕੋਲ ਕੋਈ AI ਕਹਾਣੀ, ਟੂਲ, ਰੁਝਾਨ ਜਾਂ ਸਵਾਲ ਹੈ ਜੋ ਤੁਹਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਸਾਨੂੰ ਕਵਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ? ਸਾਨੂੰ ਆਪਣਾ ਲੇਖ ਦਾ ਵਿਚਾਰ ਭੇਜੋ — ਅਸੀਂ ਇਸਨੂੰ ਸੁਣਨਾ ਪਸੰਦ ਕਰਾਂਗੇ।ਪ੍ਰਾਈਵੇਸੀ ਦੀ ਤਕਨੀਕੀ ਆਰਕੀਟੈਕਚਰ
ਪਾਵਰ ਯੂਜ਼ਰ ਲਈ, ਫੋਕਸ ਨੀਤੀ ਤੋਂ ਲਾਗੂਕਰਨ ਵੱਲ ਬਦਲ ਜਾਂਦਾ ਹੈ। ਅਸੀਂ ਜੋਖਮ ਨੂੰ ਘੱਟ ਕਰਦੇ ਹੋਏ ਇਹਨਾਂ ਟੂਲਾਂ ਦੀ ਵਰਤੋਂ ਕਿਵੇਂ ਕਰ ਸਕਦੇ ਹਾਂ? ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰਣਨੀਤੀਆਂ ਵਿੱਚੋਂ ਇੱਕ local storage ਅਤੇ local execution ਦੀ ਵਰਤੋਂ ਹੈ। Llama.cpp ਅਤੇ ਵੱਖ-ਵੱਖ local LLM wrappers ਵਰਗੇ ਟੂਲ ਯੂਜ਼ਰਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਆਪਣੇ ਹਾਰਡਵੇਅਰ ‘ਤੇ ਮਾਡਲ ਚਲਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਕੋਈ ਵੀ ਡੇਟਾ ਕਦੇ ਵੀ ਡਿਵਾਈਸ ਤੋਂ ਬਾਹਰ ਨਹੀਂ ਜਾਂਦਾ। ਹਾਲਾਂਕਿ ਇਹ ਮਾਡਲ ਸ਼ਾਇਦ ਅਜੇ ਸਭ ਤੋਂ ਵੱਡੇ cloud-based ਸਿਸਟਮਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨਾਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦੇ, ਪਰ ਉਹ ਤੇਜ਼ੀ ਨਾਲ ਸੁਧਾਰ ਕਰ ਰਹੇ ਹਨ। ਸੰਵੇਦਨਸ਼ੀਲ ਸਮੱਗਰੀ ‘ਤੇ ਕੰਮ ਕਰਨ ਵਾਲੇ ਡਿਵੈਲਪਰ ਜਾਂ ਲੇਖਕ ਲਈ, ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਵਪਾਰ ਅਕਸਰ ਪ੍ਰਾਈਵੇਸੀ ਦੀ ਪੂਰੀ ਗਰੰਟੀ ਦੇ ਯੋਗ ਹੁੰਦਾ ਹੈ। ਇਹ ਅੰਤਮ “Geek Section” ਹੱਲ ਹੈ: ਜੇਕਰ ਤੁਸੀਂ ਨਹੀਂ ਚਾਹੁੰਦੇ ਕਿ ਉਹਨਾਂ ਕੋਲ ਤੁਹਾਡਾ ਡੇਟਾ ਹੋਵੇ, ਤਾਂ ਇਸਨੂੰ ਉਹਨਾਂ ਦੇ ਸਰਵਰਾਂ ‘ਤੇ ਨਾ ਭੇਜੋ।
Workflow integrations ਅਤੇ API limits ਵੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੇ ਹਨ। ਬਹੁਤ ਸਾਰੇ enterprise-grade APIs “zero retention” ਨੀਤੀਆਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੇ ਹਨ, ਜਿੱਥੇ inference ਲਈ ਭੇਜਿਆ ਗਿਆ ਡੇਟਾ ਕਦੇ ਵੀ ਸਟੋਰ ਜਾਂ ਸਿਖਲਾਈ ਲਈ ਨਹੀਂ ਵਰਤਿਆ ਜਾਂਦਾ। ਇਹ consumer-grade ਟੂਲਾਂ ਨਾਲੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹੈ, ਪਰ ਇਹ ਵਧੇਰੇ ਕੀਮਤ ‘ਤੇ ਆਉਂਦਾ ਹੈ। ਪਾਵਰ ਯੂਜ਼ਰਾਂ ਨੂੰ fine-tuning ਅਤੇ Retrieval-Augmented Generation (RAG) ਵਿਚਕਾਰ ਅੰਤਰ ਬਾਰੇ ਵੀ ਪਤਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। RAG ਇੱਕ ਮਾਡਲ ਨੂੰ ਪ੍ਰਾਈਵੇਟ ਡੇਟਾ ਤੱਕ ਪਹੁੰਚ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ ਬਿਨਾਂ ਇਸਦੇ ਕਿ ਉਹ ਡੇਟਾ ਮਾਡਲ ਦੇ weights ਦੁਆਰਾ ਕਦੇ “ਸਿੱਖਿਆ” ਜਾਵੇ। ਡੇਟਾ ਨੂੰ ਇੱਕ ਵੱਖਰੇ vector database ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਮਾਡਲ ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਖਾਸ ਕੁਐਰੀ ਲਈ ਸੰਦਰਭ ਵਜੋਂ ਪ੍ਰਦਾਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਪੇਸ਼ੇਵਰ ਸੈਟਿੰਗ ਵਿੱਚ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਭਾਲਣ ਦਾ ਇਹ ਬਹੁਤ ਸੁਰੱਖਿਅਤ ਤਰੀਕਾ ਹੈ।
BotNews.today ਸਮੱਗਰੀ ਦੀ ਖੋਜ, ਲਿਖਣ, ਸੰਪਾਦਨ ਅਤੇ ਅਨੁਵਾਦ ਕਰਨ ਲਈ AI ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਸਾਡੀ ਟੀਮ ਜਾਣਕਾਰੀ ਨੂੰ ਉਪਯੋਗੀ, ਸਪਸ਼ਟ ਅਤੇ ਭਰੋਸੇਮੰਦ ਰੱਖਣ ਲਈ ਪ੍ਰਕਿਰਿਆ ਦੀ ਸਮੀਖਿਆ ਅਤੇ ਨਿਗਰਾਨੀ ਕਰਦੀ ਹੈ।
ਅੰਤ ਵਿੱਚ, ਸਾਨੂੰ ਐਨਕ੍ਰਿਪਸ਼ਨ ਅਤੇ ਵਿਕੇਂਦਰੀਕ੍ਰਿਤ AI ਦੀ ਭੂਮਿਕਾ ‘ਤੇ ਵਿਚਾਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। “federated learning” ਵਿੱਚ ਚੱਲ ਰਹੀ ਖੋਜ ਹੈ, ਜਿੱਥੇ ਇੱਕ ਮਾਡਲ ਨੂੰ ਬਹੁਤ ਸਾਰੇ ਵੱਖ-ਵੱਖ ਡਿਵਾਈਸਾਂ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ ਬਿਨਾਂ ਕੱਚੇ ਡੇਟਾ ਨੂੰ ਕਦੇ ਵੀ ਕੇਂਦਰੀਕ੍ਰਿਤ ਕੀਤੇ। ਇਹ ਅੰਤ ਵਿੱਚ ਸਾਨੂੰ ਡੇਟਾ ਸਿਲੋਜ਼ ਦੇ ਵੱਡੇ ਪ੍ਰਾਈਵੇਸੀ ਜੋਖਮਾਂ ਤੋਂ ਬਿਨਾਂ ਵੱਡੇ ਪੱਧਰ ਦੇ AI ਦੇ ਲਾਭ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦੇ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹ ਤਕਨਾਲੋਜੀਆਂ ਅਜੇ ਆਪਣੇ ਸ਼ੁਰੂਆਤੀ ਪੜਾਅ ਵਿੱਚ ਹਨ। ਫਿਲਹਾਲ