徹底改變一切的 AI 時刻
從「遵循指令」的軟體轉向「從範例中學習」的軟體,是運算史上最重要的轉捩點。數十年來,工程師編寫嚴謹的程式碼來定義每一個可能的結果;這種方法對試算表很有效,但對人類語言和視覺辨識卻行不通。這個轉變在 2012 年的 ImageNet 競賽中正式展開,當時一種特殊的數學方法超越了所有傳統手段。這不僅僅是一個更好的工具,更是對過去五十年邏輯思維的徹底背離。今天,我們在每一個文字框和影像產生器中都看到了成果。這項技術已從實驗室的好奇心,變成了全球基礎設施的核心組件。要理解這種轉變,必須看穿行銷炒作,看看預測的底層機制是如何取代舊有的邏輯機制。本文將探討帶領我們走到這裡的具體技術轉折,以及將定義未來十年發展的未解難題。我們不再是教導機器思考,而是在訓練它們預測下一個最可能的資訊片段。 從邏輯到預測的轉變傳統運算依賴符號邏輯:如果使用者點擊按鈕,程式就開啟檔案。這既可預測又透明。然而,現實世界是混亂的。貓的照片在不同的光線和角度下看起來都不一樣,要編寫足夠的「如果-那麼」(if-then) 語句來涵蓋所有可能的貓是不可能的。突破點在於研究人員不再試圖向電腦描述貓,而是讓電腦自行找出模式。透過使用 neural networks(受生物神經元啟發的數學函數層),電腦開始在沒有人類指導的情況下識別特徵。這種改變將軟體開發變成了一種策展行為,而非指令編寫。工程師現在不再寫程式碼,而是收集龐大的資料集並設計架構,讓機器去學習。這種稱為 deep learning 的方法,正是現代世界的動力來源。最重要的技術轉折發生在 2017 年,當時 Transformer 架構問世。在此之前,機器以線性序列處理資訊;如果模型讀取句子,它會先看第一個詞,再看第二個,依此類推。Transformer 引入了「注意力」(attention) 機制,讓模型能同時查看句子中的每個詞以理解上下文。這就是為什麼現代工具比十年前的聊天機器人感覺自然得多。它們不只是在尋找關鍵字,而是在計算輸入內容各部分之間的關係。這種從序列到上下文的轉變,造就了我們今天所見的巨大規模。它使模型能夠在整個公開網路上進行訓練,引領了生成式工具的時代,這些工具能根據簡單的提示詞編寫程式碼、撰寫文章並創作藝術。 運算資源的全球重分配這種技術轉變具有深遠的全球影響。過去,軟體幾乎可以在任何消費級硬體上執行,但 deep learning 改變了這一切。訓練這些模型需要數千個專用晶片和巨大的電力。這創造了一種新的地緣政治鴻溝:擁有最多「運算資源」(compute) 的國家和公司,現在在經濟生產力上佔有明顯優勢。我們看到權力集中在少數幾個擁有支援這些龐大資料中心基礎設施的地理樞紐。這不再只是關於誰擁有最好的工程師,而是關於誰擁有最穩定的電網和最先進的半導體供應鏈。構建頂級模型的門檻已升至數十億美元,這限制了能在最高水準競爭的參與者數量。與此同時,這些模型的產出正在民主化。一個小鎮的開發者現在可以存取與大型科技公司資深工程師相同的程式設計助手。這正在即時改變勞動力市場。過去需要數小時專業勞動的任務,例如翻譯複雜文件或除錯舊程式碼,現在幾秒鐘就能完成。這創造了一個奇怪的悖論:雖然技術的創造變得更加集中,但技術的使用卻比以往任何創新擴散得更快。這種快速採用正迫使各國政府重新思考從著作權法到教育的一切。問題不再是一個國家是否會使用這些工具,而是當認知勞動成本趨近於零時,他們將如何管理隨之而來的經濟轉變。全球影響正朝向一個世界邁進,在這個世界中,指揮機器的能力比執行任務本身更有價值。 預測時代的日常生活考慮一位名叫 Sarah 的軟體開發者。五年前,她的早晨包括搜尋特定語法的說明文件並手動編寫樣板程式碼。今天,她的一天從向整合助手描述功能開始。助手產生草稿,她則花時間審核邏輯而非輸入字元。這個過程在各行各業中重複出現。律師使用模型來總結數千頁的證據資料;醫生使用演算法來標記人類肉眼可能遺漏的醫學影像異常。這些不是未來的場景,而是正在發生的現實。這項技術已融入專業生活的背景中,人們往往沒意識到底層工作流程改變了多少。這是一種從「創作者」到「編輯者」的轉變。在典型的一天中,一個人可能會與十幾個不同的模型互動。當你在智慧型手機上拍照時,模型會調整光線和對焦;當你收到電子郵件時,模型會建議回覆;當你搜尋資訊時,模型會合成直接的答案,而不是給你一串連結。這改變了我們與資訊的關係。我們正從「搜尋與尋找」模式轉向「請求與接收」模式。然而,這種便利性伴隨著我們對真相感知方式的改變。由於這些模型是預測性的,它們可能會自信地出錯。它們優先考慮下一個最可能的詞,而非最準確的事實。這導致了「幻覺」(hallucinations) 現象,即模型捏造出看似合理但虛假的現實。使用者正在學習以一種新的懷疑態度對待機器輸出,在工具的速度與人類驗證的必要性之間取得平衡。 BotNews.today 使用 AI 工具研究、撰寫、編輯和翻譯內容。 我們的團隊審查並監督此過程,以確保資訊實用、清晰且可靠。 這種轉變最近從單純的文字生成轉向了多模態能力。這意味著同一個模型可以同時理解影像、音訊和文字。這將爭論從關於「智慧」的理論辯論,轉變為關於實用性的實際討論。人們過去高估了機器像人類一樣「思考」的速度,卻低估了一個「非思考」的模式匹配器能有多大用處。我們現在看到這些工具被整合到實體機器人和自動化系統中。辯論中已解決的部分是,這些模型在狹窄任務上非常有效;未解的部分是它們將如何處理需要真正理解因果關係的複雜多步驟推理。近未來的日常生活可能涉及管理一群這類專業代理人,每個代理人處理我們數位存在的一部分。 黑盒子的隱藏成本隨著我們越來越依賴這些系統,我們必須提出關於隱藏成本的棘手問題。首先是環境影響:訓練單一大型模型所消耗的電力,可能相當於數百個家庭一年的用電量。隨著模型變大,碳足跡也隨之增加。我們願意為了更快的電子郵件摘要而犧牲環境穩定性嗎?此外還有資料所有權的問題。這些模型是在人類文化的集體產出上進行訓練的。作家、藝術家和程式設計師提供了原始素材,通常未經同意或補償。這引發了關於創意未來的根本問題:如果模型可以模仿在世藝術家的風格,該藝術家的生計會如何?我們目前處於法律灰色地帶,對「合理使用」(fair use) 的定義正被推向極限。隱私是另一個主要擔憂。與雲端模型的每一次互動都是一個可用於進一步訓練的資料點。這創造了我們思想、問題和專業秘密的永久記錄。許多公司禁止在內部工作中使用公開模型,因為擔心智慧財產權會洩漏到公開訓練集中。此外,我們必須解決「黑盒子」(black box) 問題。即使是這些模型的創造者,也無法完全理解它們為何做出某些決定。這種缺乏可解釋性的問題在刑事司法或醫療保健等高風險領域非常危險。如果模型拒絕貸款或建議治療方案,我們需要知道原因。將這些系統標記為 *stochastic parrots*(隨機鸚鵡)凸顯了風險。它們可能在沒有掌握底層現實的情況下重複模式,導致難以追蹤或修正的偏見或有害結果。 您有任何關於 AI 的故事、工具、趨勢或問題,認為我們應該報導嗎? 將您的文章想法寄給我們 — 我們很樂意聽取您的意見。 極客專區:硬體與整合對於那些在這些系統之上進行構建的人來說,重點已從模型規模轉向效率與整合。雖然頭條新聞關注擁有數兆參數的龐大模型,但真正的工作正在量化 (quantization) 和本地執行中進行。量化是降低模型權重精度的過程,通常從 16-bit 降至 4-bit 或 8-bit。這使得大型模型能在消費級 GPU 甚至高階筆電上執行,而不會顯著降低效能。這對於隱私和成本管理至關重要。模型的本地儲存確保敏感資料永遠不會離開使用者的機器。我們看到 Llama.cpp 和 Ollama