Tại sao những cải tiến nhỏ lại tạo ra bước ngoặt lớn cho AI
Cuộc đua xây dựng các mô hình trí tuệ nhân tạo (AI) lớn nhất có thể đang dần chạm ngưỡng giới hạn. Trong khi các tiêu đề tin tức thường tập trung vào những hệ thống khổng lồ với hàng nghìn tỷ tham số, thì sự tiến bộ thực sự lại đang diễn ra ở những chi tiết nhỏ. Những cải tiến tinh tế trong cách các mô hình này xử lý dữ liệu đang tạo ra những thay đổi to lớn trong khả năng thực tế của phần mềm hàng ngày. Chúng ta đang rời xa thời kỳ mà quy mô thô là thước đo duy nhất. Ngày nay, trọng tâm là việc nhồi nhét bao nhiêu trí tuệ vào một không gian nhỏ gọn hơn. Sự thay đổi này giúp công nghệ trở nên dễ tiếp cận và nhanh chóng hơn cho tất cả mọi người. Không còn là chuyện xây dựng một bộ não lớn hơn, mà là làm cho bộ não hiện có hoạt động với hiệu suất cao hơn nhiều. Khi một mô hình nhỏ hơn mười phần trăm nhưng vẫn giữ được độ chính xác, nó không chỉ tiết kiệm chi phí máy chủ. Nó còn mở ra một danh mục ứng dụng hoàn toàn mới mà trước đây không thể thực hiện được do hạn chế về phần cứng. Sự chuyển dịch này là xu hướng quan trọng nhất trong lĩnh vực công nghệ hiện nay vì nó đưa sức mạnh tính toán tiên tiến từ các trung tâm dữ liệu khổng lồ vào ngay trong lòng bàn tay bạn.
Kỷ nguyên “càng lớn càng tốt” đã kết thúc
Để hiểu tại sao những tinh chỉnh nhỏ này lại quan trọng, chúng ta phải xem xét bản chất của chúng. Hầu hết sự tiến bộ đến từ ba lĩnh vực: quản lý dữ liệu, lượng tử hóa (quantization) và tinh chỉnh kiến trúc. Trong một thời gian dài, các nhà nghiên cứu tin rằng càng nhiều dữ liệu thì càng tốt. Họ quét toàn bộ internet và nạp vào máy móc. Giờ đây, chúng ta biết rằng dữ liệu chất lượng cao có giá trị hơn nhiều so với khối lượng thuần túy. Bằng cách làm sạch các tập dữ liệu và loại bỏ thông tin dư thừa, các kỹ sư có thể huấn luyện các mô hình nhỏ hơn nhưng lại vượt trội hơn các mô hình tiền nhiệm khổng lồ. Đây thường được gọi là dữ liệu chất lượng chuẩn sách giáo khoa. Một yếu tố quan trọng khác là lượng tử hóa. Đây là quá trình giảm độ chính xác của các con số mà mô hình sử dụng để tính toán. Thay vì sử dụng các số thập phân có độ chính xác cao, mô hình có thể sử dụng các số nguyên đơn giản. Điều này nghe có vẻ làm hỏng kết quả, nhưng toán học thông minh cho phép mô hình vẫn thông minh gần như cũ trong khi chỉ cần một phần nhỏ bộ nhớ. Bạn có thể đọc thêm về những thay đổi kỹ thuật này trong nghiên cứu gần đây về QLoRA và nén mô hình.
Cuối cùng, có những thay đổi về kiến trúc như cơ chế chú ý (attention mechanisms) tập trung vào các phần liên quan nhất của câu. Đây không phải là những cuộc đại tu lớn, mà là những điều chỉnh tinh tế về toán học giúp hệ thống bỏ qua nhiễu. Khi kết hợp các yếu tố này, bạn có một mô hình vừa vặn trên một chiếc laptop tiêu chuẩn thay vì cần cả một phòng đầy chip chuyên dụng. Mọi người thường đánh giá quá cao nhu cầu về các mô hình khổng lồ cho các tác vụ đơn giản. Họ đánh giá thấp khả năng logic có thể được gói gọn trong vài tỷ tham số. Chúng ta đang thấy xu hướng “đủ tốt” trở thành tiêu chuẩn cho hầu hết các sản phẩm tiêu dùng. Điều này cho phép các nhà phát triển tích hợp các tính năng thông minh vào ứng dụng mà không cần thu phí đăng ký để bù đắp chi phí cloud cao. Đó là một sự thay đổi cơ bản trong cách phần mềm được xây dựng và phân phối.
Tại sao trí tuệ cục bộ quan trọng hơn sức mạnh Cloud
Tác động toàn cầu của những cải tiến nhỏ này rất khó để nói hết. Hầu hết thế giới không có quyền truy cập vào internet tốc độ cao cần thiết để tương tác với các mô hình dựa trên cloud khổng lồ. Khi trí tuệ đòi hỏi kết nối liên tục với máy chủ ở Virginia hoặc Dublin, nó vẫn là một thứ xa xỉ đối với người giàu. Những cải tiến mô hình nhỏ thay đổi điều này bằng cách cho phép phần mềm chạy cục bộ trên phần cứng tầm trung. Điều này có nghĩa là một sinh viên ở vùng nông thôn hoặc một công nhân ở thị trường mới nổi có thể tiếp cận cùng mức hỗ trợ như ai đó ở trung tâm công nghệ. Nó san bằng sân chơi theo cách mà việc mở rộng quy mô thô không bao giờ làm được. Chi phí cho trí tuệ đang giảm dần về không. Điều này đặc biệt quan trọng đối với quyền riêng tư và bảo mật. Khi dữ liệu không cần rời khỏi thiết bị, nguy cơ bị rò rỉ thấp hơn đáng kể. Các chính phủ và nhà cung cấp dịch vụ chăm sóc sức khỏe đang xem xét các mô hình hiệu quả này như một cách để cung cấp dịch vụ mà không làm ảnh hưởng đến dữ liệu công dân.
Sự chuyển dịch này cũng tác động đến môi trường. Các đợt huấn luyện quy mô lớn tiêu thụ lượng điện và nước khổng lồ để làm mát. Bằng cách tập trung vào hiệu quả, ngành công nghiệp có thể giảm dấu chân carbon trong khi vẫn cung cấp các sản phẩm tốt hơn. Các tạp chí khoa học như Nature đã nhấn mạnh cách AI hiệu quả có thể giảm thiểu tác động môi trường của ngành. Dưới đây là một vài cách mà sự thay đổi toàn cầu này đang thể hiện:
- Dịch vụ dịch thuật cục bộ hoạt động mà không cần kết nối internet.
- Công cụ chẩn đoán y tế chạy trên máy tính bảng di động tại các phòng khám từ xa.
- Phần mềm giáo dục thích ứng với nhu cầu của học sinh trên phần cứng giá rẻ.
- Lọc quyền riêng tư thời gian thực cho các cuộc gọi video diễn ra hoàn toàn trên thiết bị.
- Giám sát cây trồng tự động cho nông dân sử dụng máy bay không người lái giá rẻ và xử lý cục bộ.
Đây không chỉ là làm cho mọi thứ nhanh hơn, mà là làm cho chúng trở nên phổ quát. Khi yêu cầu về phần cứng giảm xuống, cơ sở người dùng tiềm năng sẽ tăng lên hàng tỷ người. Xu hướng này gắn liền với các xu hướng phát triển AI mới nhất ưu tiên khả năng tiếp cận hơn là sức mạnh thô.
Một ngày thứ Ba với trợ lý ngoại tuyến
Hãy xem xét một ngày làm việc của kỹ sư hiện trường tên Marcus. Anh làm việc tại các tuabin gió ngoài khơi nơi không có internet. Trước đây, nếu Marcus gặp lỗi cơ khí mà anh không nhận ra, anh phải chụp ảnh, đợi đến khi quay lại bờ và tham khảo hướng dẫn hoặc đồng nghiệp cấp cao. Điều này có thể làm chậm việc sửa chữa hàng ngày trời. Bây giờ, anh mang theo một chiếc máy tính bảng bền bỉ với mô hình cục bộ được tối ưu hóa cao. Anh hướng camera vào các thành phần tuabin và mô hình xác định vấn đề trong thời gian thực. Nó cung cấp hướng dẫn sửa chữa từng bước dựa trên số sê-ri cụ thể của máy. Mô hình Marcus sử dụng không phải là một gã khổng lồ hàng nghìn tỷ tham số, mà là một phiên bản nhỏ, chuyên biệt được tinh chỉnh để hiểu về kỹ thuật cơ khí. Đây là ví dụ cụ thể về cách một cải tiến nhỏ trong hiệu suất mô hình tạo ra thay đổi lớn trong năng suất.
Cuối ngày hôm đó, Marcus sử dụng cùng thiết bị để dịch một tài liệu kỹ thuật từ nhà cung cấp nước ngoài. Bản dịch gần như hoàn hảo vì mô hình được huấn luyện trên một tập hợp văn bản kỹ thuật nhỏ nhưng chất lượng cao. Anh không bao giờ phải tải một tệp nào lên cloud. Sự tin cậy này là điều làm cho công nghệ trở nên hữu ích trong thế giới thực. Nhiều người cho rằng AI phải là một chuyên gia đa năng mới hữu ích, nhưng Marcus chứng minh rằng các hệ thống nhỏ, chuyên biệt thường vượt trội hơn cho các tác vụ chuyên nghiệp. Bản chất nhỏ của mô hình thực sự là một tính năng, không phải lỗi. Nó có nghĩa là hệ thống nhanh hơn, riêng tư hơn và vận hành rẻ hơn. Marcus đã nhận được bản cập nhật mới nhất vào tuần trước và sự khác biệt về tốc độ được nhận thấy ngay lập tức.
BotNews.today sử dụng các công cụ AI để nghiên cứu, viết, chỉnh sửa và dịch nội dung. Đội ngũ của chúng tôi xem xét và giám sát quy trình để giữ cho thông tin hữu ích, rõ ràng và đáng tin cậy.
Nghịch lý ở đây là trong khi các mô hình ngày càng nhỏ hơn, công việc chúng làm lại ngày càng lớn hơn. Chúng ta đang thấy sự chuyển dịch từ việc trò chuyện với bot sang tích hợp một công cụ vào quy trình làm việc. Mọi người có xu hướng đánh giá quá cao tầm quan trọng của việc mô hình có thể viết thơ. Họ đánh giá thấp giá trị của một mô hình có thể trích xuất dữ liệu hoàn hảo từ một hóa đơn mờ hoặc xác định một vết nứt nhỏ trên dầm thép. Đây là những tác vụ thúc đẩy nền kinh tế toàn cầu. Khi những cải tiến nhỏ này tiếp tục, ranh giới giữa phần mềm thông minh và phần mềm thông thường sẽ biến mất. Mọi thứ sẽ chỉ hoạt động tốt hơn. Đây là thực tế của môi trường công nghệ hiện tại.
Những câu hỏi khó về sự đánh đổi hiệu suất
Tuy nhiên, chúng ta phải áp dụng sự hoài nghi kiểu Socrates vào xu hướng này. Nếu chúng ta đang tiến tới các mô hình nhỏ hơn, được tối ưu hóa hơn, chúng ta đang bỏ lại điều gì? Một câu hỏi khó là liệu việc tập trung vào hiệu quả có dẫn đến một cao nguyên “đủ tốt” hay không. Nếu một mô hình được tối ưu hóa để nhanh, liệu nó có mất khả năng xử lý các trường hợp biên mà một mô hình lớn hơn có thể bắt được? Chúng ta phải tự hỏi liệu việc vội vã thu nhỏ các mô hình có tạo ra một loại định kiến mới hay không. Nếu chúng ta chỉ sử dụng dữ liệu chất lượng cao để huấn luyện các hệ thống này, ai là người định nghĩa thế nào là chất lượng? Chúng ta có thể vô tình loại bỏ tiếng nói và quan điểm của các nhóm yếu thế vì dữ liệu của họ không phù hợp với tiêu chuẩn sách giáo khoa.
Bạn có câu chuyện, công cụ, xu hướng hoặc câu hỏi về AI mà bạn nghĩ chúng tôi nên đề cập không? Gửi cho chúng tôi ý tưởng bài viết của bạn — chúng tôi rất muốn nghe từ bạn.
Cũng có câu hỏi về chi phí ẩn. Trong khi chạy một mô hình nhỏ thì rẻ, việc nghiên cứu và phát triển cần thiết để thu nhỏ một mô hình lớn lại cực kỳ đắt đỏ. Liệu chúng ta có chỉ đang chuyển mức tiêu thụ năng lượng từ giai đoạn suy luận sang giai đoạn huấn luyện và tối ưu hóa không? Ngoài ra, khi các mô hình này trở nên phổ biến hơn trên các thiết bị cá nhân, điều gì sẽ xảy ra với quyền riêng tư của chúng ta? Ngay cả khi mô hình chạy cục bộ, siêu dữ liệu về cách chúng ta sử dụng nó vẫn có thể bị thu thập. Chúng ta cần tự hỏi liệu sự tiện lợi của trí tuệ cục bộ có đáng giá với khả năng theo dõi xâm lấn hơn hay không. Nếu mọi ứng dụng trên điện thoại của bạn đều có bộ não nhỏ riêng, ai đang giám sát những gì các bộ não đó đang học về bạn? Chúng ta cũng phải xem xét tuổi thọ của phần cứng. Nếu phần mềm tiếp tục trở nên hiệu quả hơn, liệu các công ty có còn thúc ép chúng ta nâng cấp thiết bị mỗi năm? Hay điều này sẽ dẫn đến một kỷ nguyên bền vững nơi một chiếc điện thoại năm tuổi vẫn hoàn toàn có khả năng chạy các công cụ mới nhất? Đây là những nghịch lý chúng ta phải đối mặt khi công nghệ phát triển.
Kỹ thuật đằng sau quá trình nén
Đối với người dùng chuyên nghiệp và nhà phát triển, sự chuyển dịch sang các mô hình nhỏ hơn là vấn đề về các chi tiết kỹ thuật. Thước đo quan trọng nhất không còn chỉ là số lượng tham số. Đó là số bit trên mỗi tham số. Chúng ta đang thấy sự chuyển dịch từ trọng số dấu phẩy động 16-bit sang lượng tử hóa 8-bit và thậm chí 4-bit. Điều này cho phép một mô hình thường yêu cầu 40 gigabyte VRAM vừa vặn trong dưới 10 gigabyte. Đây là một bước ngoặt lớn đối với lưu trữ cục bộ và yêu cầu GPU. Các nhà phát triển hiện đang xem xét LoRA, hay Low-Rank Adaptation, để tinh chỉnh các mô hình này cho các tác vụ cụ thể mà không cần huấn luyện lại toàn bộ hệ thống. Điều này giúp việc tích hợp quy trình làm việc dễ dàng hơn nhiều. Bạn có thể tìm thấy tài liệu kỹ thuật về các phương pháp này tại MIT Technology Review.
Khi xây dựng ứng dụng, bạn phải xem xét các giới hạn kỹ thuật sau:
- Băng thông bộ nhớ thường là nút thắt lớn hơn sức mạnh tính toán thô cho suy luận cục bộ.
- Giới hạn API cho các mô hình cloud đang trở nên ít liên quan hơn khi việc lưu trữ cục bộ trở nên khả thi cho sản xuất.
- Quản lý cửa sổ ngữ cảnh vẫn là một thách thức đối với các mô hình nhỏ hơn vì chúng có xu hướng mất dấu các cuộc hội thoại dài nhanh hơn.
- Sự lựa chọn giữa độ chính xác FP8 và INT4 có thể ảnh hưởng đáng kể đến tỷ lệ ảo tưởng (hallucination) trong các tác vụ sáng tạo.
- Yêu cầu lưu trữ cục bộ đang giảm nhưng nhu cầu về ổ đĩa NVMe tốc độ cao vẫn còn để tải mô hình nhanh.
Chúng ta cũng đang thấy sự trỗi dậy của suy luận suy đoán (speculative decoding), nơi một mô hình nhỏ dự đoán các token tiếp theo và một mô hình lớn hơn xác minh chúng. Cách tiếp cận lai này mang lại tốc độ của một mô hình nhỏ với độ chính xác của một gã khổng lồ. Đó là một cách thông minh để vượt qua những sự đánh đổi truyền thống về kích thước mô hình. Đối với bất kỳ ai muốn dẫn đầu trong lĩnh vực này, việc hiểu các kỹ thuật nén này quan trọng hơn việc biết cách xây dựng một mô hình từ đầu. Tương lai thuộc về những người tối ưu hóa có thể làm được nhiều hơn với ít hơn. Trọng tâm đang chuyển từ sức mạnh thô sang kỹ thuật thông minh.
Mục tiêu di động của hiệu suất tối ưu
Điểm mấu chốt là kỷ nguyên “càng lớn càng tốt” đang đi đến hồi kết. Những tiến bộ quan trọng nhất không còn là thêm nhiều lớp hay nhiều dữ liệu hơn. Đó là về sự tinh chỉnh, hiệu quả và khả năng tiếp cận. Chúng ta đang thấy một sự chuyển dịch sẽ làm cho tính toán tiên tiến trở nên phổ biến như một chiếc máy tính bỏ túi. Sự tiến bộ này không chỉ là một thành tựu kỹ thuật. Nó là một thành tựu xã hội. Nó mang sức mạnh của các nghiên cứu tiên tiến nhất đến với mọi người, bất kể phần cứng hay kết nối internet của họ ra sao. Đó là sự dân chủ hóa trí tuệ thông qua cánh cửa sau của sự tối ưu hóa.
Lưu ý của biên tập viên: Chúng tôi tạo trang web này như một trung tâm tin tức và hướng dẫn AI đa ngôn ngữ dành cho những người không phải là chuyên gia máy tính, nhưng vẫn muốn hiểu trí tuệ nhân tạo, sử dụng nó tự tin hơn và theo dõi tương lai đang đến gần.
Tìm thấy lỗi hoặc điều gì đó cần được sửa chữa? Hãy cho chúng tôi biết.Khi chúng ta nhìn về tương lai, câu hỏi mở vẫn còn đó: liệu chúng ta sẽ tiếp tục tìm cách thu nhỏ trí tuệ, hay cuối cùng sẽ chạm tới giới hạn vật lý buộc chúng ta quay lại với cloud? Hiện tại, xu hướng đã rõ ràng. Nhỏ là cái lớn mới. Các hệ thống chúng ta sử dụng ngày mai sẽ không được định nghĩa bởi việc chúng biết bao nhiêu, mà bởi việc chúng sử dụng những gì đang có tốt như thế nào.