Những người chiến thắng thực sự từ các bài kiểm tra AI mới nhất
Sự xung đột giữa cường điệu và tính hữu dụng
Làn sóng các công cụ trí tuệ nhân tạo hiện nay hứa hẹn một thế giới nơi công việc tự vận hành. Các phòng marketing khẳng định phần mềm của họ sẽ xử lý email, viết code và quản lý lịch trình cho bạn. Sau khi thử nghiệm các bản phát hành phổ biến nhất của 2026, thực tế lại thực tế hơn nhiều. Hầu hết các công cụ này chưa sẵn sàng để làm việc mà không có sự giám sát. Chúng là những công cụ tự động hoàn thành (autocomplete) tinh vi đòi hỏi phải có người trông chừng liên tục. Nếu bạn mong đợi một công cụ thay thế công việc của mình, bạn sẽ thất vọng. Nếu bạn sử dụng nó để rút ngắn khoảng cách giữa ý tưởng và bản nháp, bạn có thể thấy được giá trị. Những người chiến thắng trong không gian này không phải là các mô hình phức tạp nhất, mà là những mô hình phù hợp với quy trình làm việc hiện có mà không làm gián đoạn chúng. Chúng tôi nhận thấy rằng các gói đăng ký đắt đỏ nhất thường mang lại ít giá trị gia tăng nhất cho người dùng phổ thông.
Nhiều người dùng hiện đang bị “mệt mỏi vì tự động hóa”. Họ chán ngấy những câu lệnh (prompt) dẫn đến kết quả chung chung. Họ mệt mỏi vì phải kiểm tra các lỗi ảo giác (hallucinations). Những công cụ thực sự hiệu quả là những công cụ tập trung vào một tác vụ đơn lẻ, hẹp. Một công cụ chỉ chuyên làm sạch âm thanh thường có giá trị hơn một trợ lý chung chung tuyên bố làm được mọi thứ. Năm nay đã cho thấy khoảng cách giữa các bản demo của doanh nghiệp và việc sử dụng hàng ngày vẫn còn rất lớn. Chúng ta đang thấy sự chuyển dịch từ chatbot chung sang các tác nhân (agents) chuyên biệt. Tuy nhiên, các tác nhân này vẫn gặp khó khăn với logic cơ bản. Chúng có thể viết một bài thơ về máy nướng bánh mì nhưng lại thất bại trong việc lên lịch một cuộc họp qua ba múi giờ mà không mắc lỗi. Bài kiểm tra thực sự của bất kỳ công cụ nào là liệu nó có tiết kiệm thời gian hơn thời gian bỏ ra để xác minh kết quả đầu ra hay không.
Cơ chế suy luận hiện đại
Hầu hết các công cụ AI hiện đại dựa vào các mô hình ngôn ngữ lớn (large language models) xử lý các token để dự đoán bước logic tiếp theo trong một chuỗi. Đây là một quá trình thống kê, không phải quá trình nhận thức. Khi bạn tương tác với một công cụ như Claude hoặc ChatGPT, bạn không nói chuyện với một trí tuệ. Bạn đang tương tác với một bản đồ đa chiều của ngôn ngữ con người. Sự khác biệt này rất quan trọng để hiểu tại sao các công cụ này thất bại. Chúng không hiểu thế giới vật lý hay những sắc thái trong doanh nghiệp cụ thể của bạn. Chúng chỉ hiểu cách các từ thường đi theo các từ khác. Các bản cập nhật gần đây tập trung vào việc tăng cửa sổ ngữ cảnh (context window). Điều này cho phép mô hình “ghi nhớ” nhiều thông tin hơn trong một phiên làm việc. Mặc dù nghe có vẻ hữu ích, nhưng nó thường dẫn đến một vấn đề gọi là “lạc lối ở giữa” (lost in the middle). Mô hình chú ý đến phần đầu và phần cuối của câu lệnh nhưng lại bỏ qua phần giữa.
Sự chuyển dịch sang các khả năng đa phương thức (multimodal) là thay đổi đáng kể nhất trong những tháng gần đây. Điều này có nghĩa là cùng một mô hình có thể xử lý văn bản, hình ảnh và đôi khi là video hoặc âm thanh cùng lúc. Trong quá trình thử nghiệm, đây là nơi chứa đựng các ứng dụng hữu ích nhất. Có thể tải lên ảnh của một bộ phận bị hỏng và yêu cầu hướng dẫn sửa chữa là một lợi ích hữu hình. Tuy nhiên, độ tin cậy của các diễn giải hình ảnh này vẫn còn hên xui. Một mô hình có thể xác định đúng chiếc xe nhưng lại “ảo giác” ra biển số xe. Sự không nhất quán này khiến việc dựa vào AI cho các tác vụ quan trọng trở nên khó khăn. Các công ty đang cố gắng khắc phục điều này bằng cách sử dụng Retrieval-Augmented Generation (RAG). Kỹ thuật này buộc AI phải xem xét một tập hợp tài liệu cụ thể trước khi trả lời. Nó làm giảm các lỗi ảo giác nhưng không loại bỏ hoàn toàn. Nó cũng thêm một lớp phức tạp vào quá trình thiết lập mà nhiều người dùng phổ thông cảm thấy khó chịu.
Ai nên thử các công cụ này? Nếu bạn dành bốn giờ mỗi ngày để tóm tắt các tài liệu dài hoặc viết code lặp đi lặp lại, các trợ lý hiện nay sẽ giúp ích cho bạn. Nếu bạn là một chuyên gia sáng tạo đang tìm kiếm một tiếng nói độc đáo, các công cụ này có khả năng sẽ làm loãng tác phẩm của bạn. Chúng có xu hướng hướng tới mức trung bình. Chúng sử dụng các cụm từ phổ biến nhất và các cấu trúc dễ đoán nhất. Điều này làm cho chúng trở nên tuyệt vời cho các bản ghi nhớ của công ty nhưng lại tồi tệ cho văn học. Bạn nên bỏ qua sự cường điệu hiện tại nếu công việc của bạn đòi hỏi độ chính xác tuyệt đối về thực tế. Chi phí kiểm tra công việc của AI thường vượt quá thời gian tiết kiệm được khi sử dụng nó. Chúng ta đang ở trong giai đoạn mà công nghệ rất ấn tượng nhưng việc triển khai thường còn vụng về. Phần mềm đang cố gắng trở thành một con người trong khi nó chỉ nên là một công cụ tốt hơn.
Những thay đổi kinh tế ngoài bong bóng Silicon Valley
Tác động toàn cầu của các công cụ này được cảm nhận rõ nhất trong lĩnh vực gia công (outsourcing). Các quốc gia xây dựng nền kinh tế xung quanh các trung tâm cuộc gọi (call centers) và nhập liệu cơ bản đang phải đối mặt với một sự thay đổi lớn. Khi một công ty có thể triển khai một bot với giá vài xu mỗi giờ, động lực để thuê nhân viên con người ở một quốc gia khác sẽ biến mất. Đây không chỉ là mối đe dọa trong tương lai. Nó đang xảy ra ngay bây giờ. Chúng ta đang thấy các nhóm nhỏ ở các khu vực như Đông Nam Á và Đông Âu sử dụng AI để cạnh tranh với các công ty lớn hơn nhiều. Một công ty ba người giờ đây có thể xử lý khối lượng công việc mà trước đây cần tới hai mươi người. Sự dân chủ hóa sản xuất này là một con dao hai lưỡi. Nó làm giảm rào cản gia nhập nhưng cũng làm sụp đổ giá thị trường cho các dịch vụ kỹ thuật số cơ bản. Giá trị đang chuyển dịch từ khả năng thực hiện công việc sang khả năng đánh giá công việc.
Tiêu thụ năng lượng là một mối quan tâm toàn cầu khác hiếm khi xuất hiện trong các tờ rơi quảng cáo. Mỗi câu lệnh bạn gửi đòi hỏi một lượng điện năng và nước đáng kể để làm mát các trung tâm dữ liệu. Khi hàng triệu người tích hợp các công cụ này vào thói quen hàng ngày, chi phí môi trường tổng hợp sẽ tăng lên. Một số ước tính cho thấy một lượt tìm kiếm bằng AI sử dụng năng lượng gấp mười lần so với tìm kiếm truyền thống trên Google. Điều này tạo ra sự căng thẳng giữa các mục tiêu bền vững của doanh nghiệp và sự vội vã áp dụng công nghệ mới. Các chính phủ đang bắt đầu chú ý. Chúng ta hy vọng sẽ thấy nhiều quy định hơn liên quan đến tính minh bạch của dữ liệu đào tạo AI và dấu chân carbon của việc suy luận quy mô lớn. Khán giả toàn cầu cần xem xét liệu sự tiện lợi của một bản tóm tắt AI có xứng đáng với “thuế môi trường” ẩn giấu hay không.
Các luật về quyền riêng tư cũng đang chật vật để theo kịp. Ở Mỹ, cách tiếp cận phần lớn là không can thiệp. Ở EU, Đạo luật AI đang cố gắng phân loại các công cụ theo mức độ rủi ro. Điều này tạo ra một trải nghiệm phân mảnh cho các công ty toàn cầu. Một công cụ hợp pháp ở New York có thể bị cấm ở Paris. Sự ma sát về quy định này sẽ làm chậm quá trình triển khai một số tính năng. Nó cũng tạo ra sự chia rẽ giữa những người dùng có quyền truy cập vào toàn bộ sức mạnh của các mô hình này và những người được bảo vệ bởi các quy tắc quyền riêng tư nghiêm ngặt hơn. Hầu hết mọi người đánh giá thấp việc bao nhiêu dữ liệu cá nhân của họ đang được sử dụng để đào tạo thế hệ mô hình tiếp theo. Mỗi khi bạn “giúp” AI bằng cách sửa lỗi của nó, bạn đang cung cấp lao động và dữ liệu miễn phí cho một tập đoàn trị giá hàng tỷ đô la. Đây là một sự chuyển giao tài sản trí tuệ khổng lồ từ công chúng sang các thực thể tư nhân.
Sự sinh tồn thực tế trong văn phòng tự động
Hãy nhìn vào một ngày làm việc của một quản lý dự án sử dụng các công cụ này. Vào buổi sáng, cô ấy sử dụng AI để tóm tắt bản ghi của ba cuộc họp mà cô ấy đã bỏ lỡ. Bản tóm tắt chính xác 90 phần trăm, nhưng nó bỏ lỡ một chi tiết quan trọng về việc cắt giảm ngân sách. Dù sao thì cô ấy cũng dành hai mươi phút để kiểm tra lại âm thanh. Sau đó, cô ấy sử dụng một trợ lý lập trình để viết một đoạn script di chuyển dữ liệu giữa hai bảng tính. Đoạn script hoạt động ở lần thử thứ ba sau khi cô ấy sửa lỗi cú pháp. Đến chiều, cô ấy sử dụng trình tạo hình ảnh để tạo tiêu đề cho một bài thuyết trình. Phải mất mười lăm câu lệnh mới có được một hình ảnh không có sáu ngón tay trên một bàn tay. Người dùng nhận được thông báo rằng giới hạn sử dụng đã đạt tới, buộc cô ấy phải chuyển sang một mô hình kém năng lực hơn trong phần còn lại của ngày. Đây là thực tế của ngày làm việc “được hỗ trợ bởi AI”. Đó là một chuỗi các chiến thắng nhỏ theo sau bởi việc khắc phục sự cố tẻ nhạt.
Những người hưởng lợi nhiều nhất là những người đã biết cách làm công việc đó mà không cần AI. Một lập trình viên cấp cao có thể phát hiện lỗi trong mã do AI tạo ra trong vài giây. Một lập trình viên cấp dưới có thể mất hàng giờ để tìm hiểu tại sao mã không chạy. Điều này tạo ra một “cái bẫy thâm niên” nơi con đường trở thành chuyên gia bị chặn lại bởi các công cụ tự động hóa các tác vụ cấp độ đầu vào. Chúng ta đang đánh giá quá cao khả năng thay thế các chuyên gia của AI và đánh giá thấp mức độ nó sẽ gây hại cho việc đào tạo những người mới bắt đầu. Nếu công việc “nhàm chán” được tự động hóa, làm thế nào những người lao động mới học được các nguyên tắc cơ bản? Đây vẫn là một vấn đề chưa được giải quyết trong mọi ngành, từ luật đến thiết kế đồ họa. Các công cụ về cơ bản là một bộ nhân lực cho tài năng hiện có. Nếu bạn nhân với không, bạn vẫn nhận được không.
Chúng ta cũng thấy rất nhiều sự ma sát trong môi trường cộng tác. Khi một người sử dụng AI để viết email của họ, nó làm thay đổi tông giọng của toàn bộ văn phòng. Các cuộc trò chuyện trở nên trang trọng hơn và ít tính người hơn. Điều này dẫn đến một vòng lặp kỳ lạ nơi AI được sử dụng để tóm tắt văn bản do AI tạo ra. Không ai thực sự đọc, và không ai thực sự viết. Mật độ thông tin trong giao tiếp của chúng ta đang giảm xuống. Chúng ta đang tạo ra nhiều nội dung hơn bao giờ hết, nhưng ít nội dung trong số đó đáng để tiêu thụ. Để tồn tại trong môi trường này, bạn phải là người cung cấp “bộ lọc tỉnh táo” của con người. Giá trị của góc nhìn con người đang tăng lên khi thế giới tràn ngập dữ liệu tổng hợp. Các công ty quá phụ thuộc vào tự động hóa thường thấy giọng điệu thương hiệu của họ trở nên cũ kỹ và dễ đoán. Họ mất đi sự “kỳ lạ” khiến một thương hiệu trở nên đáng nhớ.
Bạn có câu chuyện, công cụ, xu hướng hoặc câu hỏi về AI mà bạn nghĩ chúng tôi nên đề cập không? Gửi cho chúng tôi ý tưởng bài viết của bạn — chúng tôi rất muốn nghe từ bạn.Dưới đây là danh sách những người nên tránh các công cụ này vào lúc này:
- Các chuyên gia y tế đưa ra quyết định chẩn đoán mà không có sự giám sát của con người.
- Các nhà nghiên cứu pháp lý làm việc trên các vụ án mà một trích dẫn sai duy nhất dẫn đến việc bị tước quyền hành nghề.
- Các nhà văn sáng tạo coi trọng phong cách cá nhân độc đáo và dễ nhận biết.
- Các chủ doanh nghiệp nhỏ không có thời gian để kiểm tra từng kết quả đầu ra xem có lỗi hay không.
- Các ngành công nghiệp nhạy cảm với dữ liệu không thể mạo hiểm để tài liệu nội bộ của họ bị sử dụng cho việc đào tạo.
Cái giá của sự chắc chắn thuật toán
Chúng ta phải đặt ra những câu hỏi khó về chi phí ẩn của công nghệ này. Nếu một mô hình AI được đào tạo trên toàn bộ internet, nó sẽ kế thừa những định kiến và sự không chính xác của internet. Chúng ta về cơ bản đang số hóa và khuếch đại định kiến của con người. Điều gì sẽ xảy ra khi AI bắt đầu đưa ra các quyết định về khoản vay ngân hàng hoặc tuyển dụng? Bản chất “hộp đen” của các mô hình này có nghĩa là chúng ta thường không biết tại sao một quyết định cụ thể lại được đưa ra. Sự thiếu minh bạch này là một rủi ro lớn đối với các quyền tự do dân sự. Chúng ta đang đánh đổi trách nhiệm giải trình để lấy hiệu quả. Đó có phải là một sự đánh đổi mà chúng ta sẵn sàng thực hiện?
BotNews.today sử dụng các công cụ AI để nghiên cứu, viết, chỉnh sửa và dịch nội dung. Đội ngũ của chúng tôi xem xét và giám sát quy trình để giữ cho thông tin hữu ích, rõ ràng và đáng tin cậy.
Cũng có câu hỏi về chủ quyền dữ liệu. Khi bạn tải dữ liệu độc quyền của công ty mình lên một AI dựa trên đám mây, bạn đang mất quyền kiểm soát thông tin đó. Ngay cả với các thỏa thuận “doanh nghiệp”, rủi ro rò rỉ dữ liệu hoặc thay đổi điều khoản dịch vụ luôn hiện hữu. Chúng ta đang thấy một sự chuyển dịch sang thực thi cục bộ (local execution) vì lý do này. Chạy một mô hình trên phần cứng của riêng bạn là cách duy nhất để chắc chắn 100% rằng dữ liệu của bạn vẫn là của bạn. Tuy nhiên, điều này đòi hỏi GPU đắt tiền và chuyên môn kỹ thuật mà hầu hết mọi người không có. Sự chia rẽ giữa “giàu dữ liệu” và “nghèo dữ liệu” đang ngày càng rộng ra. Các tập đoàn lớn có nguồn lực để xây dựng các mô hình riêng tư của riêng họ. Các doanh nghiệp nhỏ buộc phải sử dụng các công cụ công cộng có thể đang khai thác bí mật của họ. Điều này tạo ra một loại bất lợi cạnh tranh mới khó vượt qua.
Cuối cùng, chúng ta cần xem xét “thuyết internet chết” (dead internet theory). Đây là ý tưởng cho rằng phần lớn internet sẽ sớm là các bot nói chuyện với các bot khác. Nếu AI tạo ra nội dung mà AI tiếp theo được đào tạo, các mô hình cuối cùng sẽ sụp đổ. Đây được gọi là sự sụp đổ mô hình (model collapse). Các kết quả đầu ra trở nên méo mó hơn và ít hữu ích hơn qua mỗi thế hệ. Chúng ta đã thấy những dấu hiệu của điều này trong việc tạo hình ảnh, nơi một số phong cách nhất định đang trở nên thống trị vì các mô hình đang tự ăn vào các kết quả đầu ra trước đó của chính chúng. Làm thế nào để chúng ta bảo tồn tia sáng con người trong một thế giới của các vòng lặp phản hồi tổng hợp? Đây là câu hỏi trực tiếp sẽ định nghĩa thập kỷ phát triển công nghệ tiếp theo. Chúng ta hiện đang ở “giai đoạn trăng mật” nơi vẫn còn đủ dữ liệu con người để giữ cho mọi thứ thú vị. Điều đó có thể không kéo dài mãi mãi.
Giới hạn kiến trúc và thực thi cục bộ
Đối với những người dùng chuyên nghiệp (power users), hành động thực sự đang diễn ra trong thực thi cục bộ và tích hợp quy trình làm việc. Trong khi người bình thường sử dụng giao diện web, các chuyên gia đang sử dụng API và các trình chạy cục bộ. Các công cụ như Ollama và LM Studio cho phép bạn chạy các mô hình trực tiếp trên máy của mình. Điều này bỏ qua phí đăng ký và các mối lo ngại về quyền riêng tư. Tuy nhiên, bạn bị giới hạn bởi phần cứng của mình. Để chạy một mô hình chất lượng cao với 70 tỷ tham số, bạn cần một lượng VRAM đáng kể. Điều này đã dẫn đến sự gia tăng nhu cầu về các máy trạm cao cấp. Phân khúc thị trường dành cho dân công nghệ đang chuyển dịch từ “trò chuyện” sang “gọi hàm” (function calling). Đây là nơi AI thực sự có thể kích hoạt mã hoặc tương tác với hệ thống tệp của bạn dựa trên các hướng dẫn của bạn.
Giới hạn API vẫn là một nút thắt cổ chai lớn đối với các nhà phát triển. Hầu hết các nhà cung cấp đều có giới hạn tốc độ nghiêm ngặt khiến việc mở rộng sản phẩm trở nên khó khăn. Bạn cũng phải đối phó với “sự trôi dạt mô hình” (model drift), nơi nhà cung cấp cập nhật mô hình ở phía sau và các câu lệnh của bạn đột nhiên ngừng hoạt động. Điều này làm cho việc xây dựng trên nền tảng AI giống như xây dựng trên cát lún. Để giảm thiểu điều này, nhiều người đang chuyển sang các mô hình “chưng cất” (distilled) nhỏ hơn, nhanh hơn và rẻ hơn để chạy. Các mô hình này thường tốt ngang ngửa với các gã khổng lồ cho các tác vụ cụ thể như phân tích cảm xúc hoặc trích xuất dữ liệu. Bí quyết là sử dụng mô hình nhỏ nhất có thể cho công việc. Điều này giúp tiết kiệm tiền và giảm độ trễ. Chúng ta cũng đang thấy sự trỗi dậy của “cơ sở dữ liệu vector” cho phép AI tìm kiếm qua hàng triệu tài liệu trong vài mili giây để tìm ra ngữ cảnh phù hợp cho một câu lệnh.
Các yêu cầu kỹ thuật cho một thiết lập cục bộ thường bao gồm:
- Một GPU NVIDIA với ít nhất 12GB VRAM cho các mô hình cơ bản hoặc 24GB cho các mô hình tốt hơn.
- Ít nhất 32GB RAM hệ thống để xử lý việc truyền dữ liệu giữa CPU và GPU.
- Lưu trữ NVMe tốc độ cao để tải các tệp mô hình lớn vào bộ nhớ nhanh chóng.
- Hiểu biết cơ bản về Python hoặc môi trường container như Docker.
- Một hệ thống làm mát đáng tin cậy vì chạy suy luận trong nhiều giờ tạo ra rất nhiều nhiệt.
Phán quyết cuối cùng về năng suất
Những người chiến thắng thực sự trong các bài kiểm tra mới nhất của chúng tôi là những người dùng coi AI như một thực tập sinh cấp dưới thay vì là sự thay thế cho một chuyên gia. Công nghệ này là một công cụ mạnh mẽ để vượt qua vấn đề “trang giấy trắng”. Nó rất tuyệt vời để động não và xử lý các phần tẻ nhạt trong cuộc sống kỹ thuật số. Tuy nhiên, nó vẫn là một rủi ro trong bất kỳ tình huống nào đòi hỏi sự tinh tế, logic sâu sắc hoặc sự thật tuyệt đối. Việc triển khai thành công nhất mà chúng tôi thấy liên quan đến việc sử dụng AI để tạo ra nhiều tùy chọn mà con người sau đó sẽ giám tuyển. Mô hình “con người trong vòng lặp” (human in the loop) này là cách duy nhất để đảm bảo chất lượng. Khi chúng ta tiến về phía trước, trọng tâm sẽ chuyển từ quy mô của các mô hình sang chất lượng của sự tích hợp. AI tốt nhất là AI mà bạn thậm chí không nhận ra mình đang sử dụng. Đó là AI chỉ làm cho phần mềm hiện có của bạn thông minh hơn một chút. Hiện tại, hãy giữ kỳ vọng thấp và sự hoài nghi cao. Tương lai đã ở đây, nhưng nó vẫn cần rất nhiều sự hiệu đính.
Lưu ý của biên tập viên: Chúng tôi tạo trang web này như một trung tâm tin tức và hướng dẫn AI đa ngôn ngữ dành cho những người không phải là chuyên gia máy tính, nhưng vẫn muốn hiểu trí tuệ nhân tạo, sử dụng nó tự tin hơn và theo dõi tương lai đang đến gần.
Tìm thấy lỗi hoặc điều gì đó cần được sửa chữa? Hãy cho chúng tôi biết.