“Cơn bão” DeepSeek vẽ lại tương lai ngành AI toàn cầu

Thứ Ba, 11/02/2025, 12:34

Một mô hình trí tuệ nhân tạo (AI) nguồn mở đến từ Trung Quốc gây náo loạn ngành công nghệ toàn cầu bởi khả năng phản hồi thông minh, hiệu quả cao dù chi phí vận hành và đầu tư ban đầu thấp hơn đáng kể các đối thủ. Mô hình AI này được phát triển bởi DeepSeek, một công ty khởi nghiệp thành lập cách đây một năm, có thể đã mở ra một kỷ nguyên công nghệ mới.

“Khoảnh khắc Sputnik” trong ngành AI

Trong thế giới AI, có một quan niệm phổ biến rằng, việc phát triển các mô hình ngôn ngữ lớn (LLM) đòi hỏi nguồn lực kỹ thuật và tài chính khổng lồ. Bởi, để một mô hình AI sáng tạo ra những nội dung mới và giải quyết vấn đề hóc búa theo cách nghĩ của con người, các kĩ sư theo đuổi việc mở rộng quy mô trung tâm dữ liệu với những con chip tiên tiến nhất, sử dụng chúng để đào tạo AI nhận dạng các mẫu hình từ khối dữ liệu khổng lồ văn bản, hình ảnh trực tuyến. Tuy nhiên, công ty AI DeepSeek đến từ Trung Quốc đã đảo ngược quan niệm đó.

Cách đây 3 tuần, DeepSeek ra mắt R1, một mô hình AI LLM “lý luận” hoạt động tương tự mô hình o1 của OpenAI (ông chủ ChatGPT). Điểm đột phá của DeepSeek là, thay vì chạy đua đầu tư phần cứng, họ tập trung cải tiến thuật toán để mô hình AI có thể sử dụng các con chip có sức mạnh vừa phải, nhưng cho ra kết quả giống những con chip đắt tiền. Và họ đã làm điều đó ở Trung Quốc, nơi mà nhiều chuyên gia Mỹ cho rằng đang ở vị trí thứ hai trong cuộc đua AI toàn cầu, vốn đang bị Mỹ áp đặt các biện pháp hạn chế nhập khẩu chip và công cụ sản xuất chip AI.

“Cơn bão” DeepSeek vẽ lại tương lai ngành AI toàn cầu -0
Liang Wenfeng, CEO DeepSeek.

Theo công bố của DeepSeek, các kĩ sư của họ mất hai tháng và chi phí dưới 6 triệu USD để xây dựng mô hình AI mới. Công ty Trung Quốc khẳng định, mô hình AI R1 được đào tạo trên các con chip GPU kém tiên tiến H800 của Nvidia - vốn thường được xem là “chip hạng hai” nếu so với những con chip H100 mạnh mẽ và đắt đỏ nhất hiện nay. Để so sánh, OpenAI đã chi hàng trăm triệu USD để huấn luyện, kết hợp hệ thống chip xử lý Nvidia mới nhất, đắt nhất. DeepSeek cũng tiết lộ, mô hình R1 được đào tạo trên tập dữ liệu gồm 14.800 tỷ token cùng kích thước khổng lồ với 671 tỷ tham số, lớn hơn 1,6 lần mô hình Llama 3.1 405B của Meta. (Token là đơn vị dữ liệu nhỏ nhất mà mô hình AI xử lý. 1 triệu token tương đương 750.000 chữ tiếng Anh).

Và bởi vận hành hiệu quả trên những con chip giá rẻ, nó có chi phí thấp, chỉ tốn 0,55 USD/ 1 triệu token đầu vào so với 15 USD của OpenAI o1. “Nếu OpenAI o1 tốn 60 USD cho 1 triệu token đầu ra, DeepSeek R1 cần 2,19 USD”, Shubham Saboo, Giám đốc sản phẩm DeepSeek, viết trên mạng xã hội X hồi cuối tháng 1/2025. Hiện nay, DeepSeek đang cung cấp ứng dụng miễn phí. Phần lớn người dùng ứng dụng này khẳng định họ nhận được kết quả phản hồi từ DeepSeek có chất lượng tương tự phiên bản trả phí giá hàng chục, thậm chí hàng trăm USD/tháng như các đối thủ khác.

Ở thời điểm mới ra mắt, nhiều người vội vã so sánh con số 6 triệu USD mà DeepSeek công bố với chi phí hàng tỷ USD mà các tập đoàn công nghệ Mỹ bỏ ra để xây dựng các trung tâm máy chủ khổng lồ phục vụ mô hình AI của riêng họ. Giới chuyên gia sau đó đã phải lên tiếng làm rõ điều này. Yann Lecun, một trong ba người được mệnh danh là “Godfather of AI” (Bố già AI) đặt nền móng cho AI hiện đại, khẳng định: “Phần lớn trong số hàng tỷ USD (của các công ty AI Mỹ) được đầu tư vào cơ sở hạ tầng để “suy luận”, không phải chỉ riêng đào tạo AI”.

Trong khi đó, con số 6 triệu USD mà DeepSeek nêu là tiền thuê máy chủ và “đào tạo chính thức” cho các mô hình AI, chưa bao gồm chi phí phần cứng, nghiên cứu, thí nghiệm liên quan đến thuật toán, dữ liệu. Theo phân tích của SemiAnalysis, công ty nổi tiếng về tư vấn thị trường bán dẫn và AI, chi tiêu phần cứng của DeepSeek “cao hơn 500 triệu USD”. SemiAnalysis nhận định, DeepSeek có thể đã tiếp cận khoảng 10.000 mẫu GPU Nvidia H800, do tác động của lệnh cấm chip AI của Mỹ đối với Trung Quốc và khoảng 10.000 GPU H100 đã được mua trước lệnh cấm. Ngoài ra, công ty có thể dùng phiên bản H20 để đào tạo các mô hình.

Dẫu vậy, New York Times bình luận, dù chi phí tổng thể của DeepSeek có cao hơn 10 lần con số công bố, nó vẫn chắc chắn thấp hơn những gì mà các đối thủ đến từ Mỹ phải bỏ ra. Chuyên gia AI Morgan Brown giải thích thêm, bức tranh toàn cảnh về trí tuệ nhân tạo hiện nay giống như xây một tòa nhà chọc trời. “Bạn cần nguồn lực khổng lồ, hàng tỷ USD tiền tài trợ và nhiều năm làm việc”, ông viết trên LinkedIn. “DeepSeek cho thấy bạn có thể xây cùng tòa nhà với chi phí 5% và một chút thời gian”.

“Cơn bão” DeepSeek vẽ lại tương lai ngành AI toàn cầu -0
DeepSeek là ứng dụng AI có lượt tải cao nhất những tuần qua.

Lãnh đạo các công ty công nghệ hàng đầu của Mỹ cũng thừa nhận sự ưu việt của DeepSeek trong khả năng tối ưu chi phí. “Mô hình DeepSeek thực sự ấn tượng. Họ đã biết cách thực hiện hiệu quả một mô hình nguồn mở có khả năng suy luận, đạt được hiệu quả tính toán siêu việt. Chúng ta nên xem xét những diễn biến ở Trung Quốc một cách rất, rất nghiêm túc”, CEO Microsoft Satya Nadella nói tại Diễn đàn Kinh tế Thế giới ở Davos. Đích thân Tổng thống Mỹ Donald Trump cũng tin rằng, DeepSeek “nên là lời cảnh tỉnh” đối với các công ty công nghệ Mỹ. “Việc phát hành DeepSeek AI từ một công ty Trung Quốc nên là lời cảnh tỉnh cho ngành công nghiệp của chúng ta, rằng chúng ta cần tập trung cao độ vào việc cạnh tranh”, ông Trump phát biểu.

Trong một bài bình luận gây chú ý, tờ Washington Post thậm chí mô tả sự ra đời của mô hình R1 có thể xem là “khoảnh khắc Sputnik” ở lĩnh vực AI – đề cập tới vụ phóng vệ tinh đầu tiên của Liên Xô ngày 4/10/1957, gây chấn động thế giới và khởi động cho cuộc chạy đua không gian. Trong khi đó, Business Today đánh giá: “DeepSeek đang được coi là một bước ngoặt trong cuộc chiến AI toàn cầu. Các mô hình AI của công ty DeepSeek đã chứng minh Trung Quốc có khả năng cạnh tranh”, trang này bình luận thêm.

Bí quyết thành công của DeepSeek là gì?

Rất ít bài báo nhắc tới DeepSeek trên truyền thông quốc tế trước khi R1 xuất hiện. Theo TechTarget, công ty này mới được thành lập tháng 12/2023 bởi Liang Wenfeng, một kỹ sư khoa học máy tính tốt nghiệp Đại học Chiết Giang của Trung Quốc. Wenfeng cũng là người đồng sáng lập High-Flyer, một quỹ đầu tư tư nhân có trụ sở ở Trung Quốc sử dụng công nghệ AI để phân tích dữ liệu tài chính nhằm đưa ra các quyết định đầu tư. Năm 2019, High-Flyer gây tiếng vang khi trở thành công ty đầu tiên kiểu này tại Trung Quốc huy động được hơn 100 tỷ NDT (13 triệu USD). Hiện toàn bộ số tiền tài trợ và định giá của DeepSeek vẫn chưa được công khai. Giới truyền thông cho biết, DeepSeek đang hoạt động dưới sự bảo trợ tài chính của High-Flyer và không công bố kế hoạch huy động vốn nào, cho thấy DeepSeek có nguồn lực tài chính mạnh mẽ và không chịu áp lực từ các nhà đầu tư bên ngoài như các đối thủ tương tự từ Mỹ.

Bình luận về những lí do dẫn đến thành công của DeepSeek, tờ Bloomberg tin rằng yếu tố đội ngũ rất quan trọng. Kỹ sư của DeepSeek chủ yếu là những sinh viên trẻ, tài năng, tốt nghiệp từ các trường đại học hàng đầu Trung Quốc, yêu thích đổi mới và hiểu biết sâu sắc về văn hóa, ngôn ngữ. Các hoạt động tuyển dụng của DeepSeek ưu tiên kỹ thuật lập trình hơn kinh nghiệm, từ đó kiến tạo một đội ngũ các cá nhân có năng lực và góc nhìn mới mẻ về phát triển AI. Từ trước R1 (V3), DeepSeek từng ra mắt mô hình V2 tháng 5/2024 với hiệu suất tốt và chi phí rẻ, buộc các “gã khổng lồ” công nghệ nội địa Trung Quốc như ByteDance, Tencent, Baidu hay Alibaba phải hạ giá mô hình AI của họ để duy trì khả năng cạnh tranh.

“Cơn bão” DeepSeek vẽ lại tương lai ngành AI toàn cầu -0
Sự xuất hiện của DeepSeek đặt ra câu hỏi về tính hiệu quả của các trung tâm dữ liệu trị giá nhiều tỷ USD.

Thành tựu của DeepSeek còn có đóng góp bởi những đối tác tên tuổi. Bloomberg nói rằng, AMD – đối thủ của Nvidia và cũng là nhà cung cấp các giải pháp điện toán hiệu suất cao hàng đầu, có quan hệ đối tác chiến lược với DeepSeek. Công ty Trung Quốc được cho là đã tận dụng hiệu quả chip AMD Instinct và phần mềm ROCM của AMD để tối ưu hiệu suất và mở rộng khả năng của mô hình V3. Tuy nhiên, hiện chưa có nhiều thông tin về chủng loại và số lượng chip AMD đang được DeepSeek sử dụng.

Về công nghệ, Bloomberg cho hay, mô hình DeepSeek R1 gây tiếng vang nhờ thuật toán “học tăng cường”. Nó tiếp nhận dữ liệu đầu vào, tiến hành chuỗi s uy nghĩ, tìm kiếm, thử nghiệm, phát hiện sai sót và tự cải thiện qua những sai sót đó, tương tự như cách con người học hỏi qua kinh nghiệm. Điều này khiến mô hình AI của DeepSeek ngày càng cải thiện khả năng suy luận phức tạp và thích nghi đa dạng tình huống. Bên cạnh đó, R1 còn là một mô hình AI sử dụng kiến trúc “đa chuyên gia” MoE.

“Hãy tưởng tượng (DeepSeek là tập hợp) một nhóm chuyên gia về các lĩnh vực khác nhau. Khi đối mặt với một tác vụ, chỉ những chuyên gia có liên quan mới được triệu tập để sử dụng hiệu quả nguồn lực và chuyên môn”, Bloomberg viết.

Theo các công bố chính thức, DeepSeek R1 kết hợp 671 tỷ tham số, gấp hàng chục lần mô hình ngôn ngữ lớn nguồn mở phổ biến khác và hỗ trợ độ dài ngữ cảnh đầu vào đến 128.000 token. Mỗi lớp của mô hình có 256 “chuyên gia”. Mỗi token được tạo ra sẽ được gửi đến 8 “chuyên gia” riêng biệt song song để đánh giá. Việc thực hiện chuỗi suy luận này được gọi là test-time scaling. “DeepSeek-R1 là một ví dụ hoàn hảo về quy luật này”, Nvidia đánh giá. Các công nghệ trên giúp DeepSeek có tốc độ phản hồi rất nhanh, thông minh và tiết kiệm chi phí tính toán.

Một trong những bí quyết khác của DeepSeek là kỹ thuật “chưng cất”, qua đó, DeepSeek có thể chuyển kiến thức và khả năng của các mô hình AI lớn cho các mô hình AI nhỏ, để tiếp cận được với nhiều người dùng và thiết bị. Kỹ thuật này giống như cách giáo viên truyền đạt kiến thức của mình cho học sinh, cho phép học sinh thực hiện các nhiệm vụ cụ thể thông qua kiến thức đã được truyền đạt, dù trên thực tế, học sinh có ít kinh nghiệm và khả năng giải quyết vấn đề hơn giáo viên. Quy trình “chưng cất” của DeepSeek cho phép các mô hình nhỏ hơn kế thừa khả năng xử lý ngôn ngữ và lý luận tiên tiến của các mô hình lớn hơn, giúp chúng linh hoạt và dễ tiếp cận.

Ở một góc nhìn khác, OpenAI cáo buộc, đối thủ DeepSeek còn sử dụng một quy trình “chưng cất” theo kiểu các nhà phát triển đi sau sẽ sử dụng mô hình AI có sẵn để đánh giá câu trả lời của mô hình mới, đồng thời đào tạo, chuyển giao bài học cho mô hình mới. Khi đó, họ tận dụng được kết quả từ mô hình AI sẵn có trên thị trường (ví dụ như OpenAI o1), giảm thiểu thời gian và chi phí đầu tư, trong khi kết quả mang lại gần giống. Tuy nhiên, nhiều ý kiến cho rằng “chưng cất” kiểu này là hoạt động tất yếu trong phát triển AI, thậm chí có thể xuất hiện trong nhiều lĩnh vực khác. Sam Altman, CEO OpenAI, mới đây khẳng định công ty của ông không có kế hoạch kiện DeepSeek, đồng thời khen sản phẩm từ Trung Quốc ấn tượng, thúc đẩy cạnh tranh. Theo Reuters, từ khi ra mắt ChatGPT (hiện dựa trên mô hình GPT-3.5), OpenAI cũng liên tục phải đối mặt với cáo buộc sử dụng tài liệu có bản quyền để đào tạo mô hình AI của riêng mình.

Cuối cùng, việc sử dụng phương pháp nguồn mở khi phát triển mô hình AI giúp DeepSeek tiếp cận và tiếp nhận những đóng góp từ cộng đồng phát triển AI trên toàn cầu. Theo CNBC, nguồn mở có nghĩa là mã nguồn của DeepSeek được cung cấp miễn phí trên mạng để các nhà phát triển có thể xem, phân tích, sửa đổi rồi phân phối lại. DeepSeek không phải bên duy nhất theo đuổi phương pháp này. “DeepSeek đã hưởng lợi từ nghiên cứu mở và mã nguồn mở (ví dụ PyTorch và Llama từ Meta). Họ đưa ra những ý tưởng mới và xây dựng chúng dựa trên công trình của những người khác. Bởi vì công trình của họ được công bố và mã nguồn mở, mọi người đều có thể hưởng lợi từ nó. Đó là sức mạnh của nghiên cứu mở và mã nguồn mở”, chuyên gia Yann Lecun nói.

“Cơn bão” DeepSeek vẽ lại tương lai ngành AI toàn cầu -0
Cuộc đua AI được dự báo sẽ diễn ra ác liệt hơn trong thời gian tới.

Cuộc đua đổi mới AI bước vào kỷ nguyên mới

Bloomberg nhận xét, DeepSeek không chỉ là bước tiến về mặt công nghệ mà còn là điểm rẽ trong cách thế giới phát triển AI, xóa nhòa thế độc tôn của Mỹ. Nó chứng minh rằng, những đột phá có thể đến từ bất cứ đâu trên thế giới, không chỉ từ những công ty Mỹ có nguồn lực dồi dào. Sự thành công của DeepSeek cũng là chỉ dấu cho thấy, việc tối ưu hiệu quả của thuật toán sẽ giúp giảm đáng kể chi phí đầu tư phần cứng.

Trong khi các ông lớn AI như OpenAI, Microsoft, Nvidia đang dồn tâm huyết vào Stargate, dự án đầu tư hạ tầng máy chủ trị giá 500 tỷ USD của Mỹ, được đích thân Tổng thống Trump công bố sau khi nhậm chức, sự xuất hiện của DeepSeek như “dội gáo nước lạnh”, khiến giới đầu tư lo ngại các mô hình AI rẻ như sẽ làm giảm nhu cầu về chip đắt tiền cần thiết cho các trung tâm dữ liệu, vốn thúc đẩy sự tăng trưởng của các công ty cung cấp chip như Nvidia. Các nhà đầu tư giờ đây đặt câu hỏi liệu có cần rót số tiền lớn cho AI không, một startup như DeepSeek có thể thành công dù bị hạn chế nguồn lực và chip.

Trong phiên giao dịch ngày 27/1, cổ phiếu ngành công nghệ Mỹ sụt giảm, trong đó Nvidia giảm 17%. Ba tuần trôi qua, giá trị vốn hóa của Nvidia phục hồi, nhưng chưa thể trở lại đỉnh. Nvidia sau đó trấn an nhà đầu tư rằng những tiến bộ của DeepSeek càng cho thấy tầm quan trọng của chip AI tại thị trường Trung Quốc, khi họ sẽ cần nhiều chip hơn trong tương lai để đáp ứng nhu cầu ngày một mở rộng của DeepSeek và các công ty AI khác.

Đối với các đối thủ như OpenAI, Google và Meta, sự xuất hiện của DeepSeek rõ ràng tạo ra áp lực cạnh tranh trực tiếp. Bằng cách cung cấp các mô hình AI hiệu quả và tiết kiệm chi phí, DeepSeek buộc các “ông lớn” phải giảm giá, cải thiện dịch vụ của mình để duy trì cạnh tranh. Một số ý kiến cho rằng, các “gã khổng lồ” công nghệ đã tốn kém vô ích cho hạ tầng công nghệ, nhưng New York Times nhận định, những con chip đắt tiền của Mỹ sẽ không bị bỏ phí, bởi chúng giúp các công ty lớn chạy nhiều thử nghiệm hơn khi khám phá những cách mới để xây dựng, cải tiến mô hình AI.

Vẫn theo Bloomberg, việc các hãng công nghệ thay đổi theo hướng cải thiện thuật toán để sử dụng phần cứng hiệu quả hơn sẽ góp phần tiêu thụ ít năng lượng hơn phục vụ AI trong tương lai, từ đó tác động tích cực đến môi trường. Các chuyên gia môi trường gần đây liên tiếp bày tỏ lo ngại rằng, lượng khí thải carbon từ các trung tâm dữ liệu AI quy mô lớn đang khiến biến đổi khí hậu diễn ra nhanh hơn.

Trong khi đó, Yann LeCun, nhà khoa học AI hàng đầu của Meta, cho rằng, thành công của DeepSeek còn được xem là đại diện cho chiến thắng của các mô hình AI nguồn mở, vốn được khởi xướng bởi các công ty lớn như Meta. “Đối với những người nhìn thấy hiệu suất của DeepSeek và nghĩ rằng: Trung Quốc đang vượt qua Mỹ về AI. Bạn đang đọc sai. Đọc đúng là: Các mô hình nguồn mở đang vượt qua các mô hình độc quyền”, ông viết trên LinkedIn. Còn Seena Rejal, giám đốc công ty AI NetMind, nói với CNBC, thành công của DeepSeek cho thấy AI nguồn mở “không còn chỉ là một sáng kiến nghiên cứu phi thương mại mà là một giải pháp thay thế khả thi, có thể mở rộng cho các mô hình đóng” như GPT của OpenAI.

“DeepSeek R1 đã chứng minh rằng, các mô hình nguồn mở có thể đạt được hiệu suất tiên tiến, cạnh tranh với các mô hình độc quyền từ OpenAI và các mô hình khác”, Rejal nói. “Điều này thách thức niềm tin rằng chỉ các mô hình nguồn đóng mới có thể thống trị sự đổi mới trong không gian ngành này”.

Từ khi ra mắt, DeepSeek luôn cam kết duy trì mô hình nguồn mở với các mô hình AI, động thái được dự báo sẽ mở ra thêm cơ hội để nhiều chuyên gia, công ty khởi nghiệp, nhà nghiên cứu tiếp cận, tùy biến mô hình AI công nghệ cao mà không phải đầu tư hạ tầng lớn. Khả năng truy cập này sẽ thúc đẩy đổi mới và góp phần tạo nên hệ sinh thái AI đa dạng, sôi động hơn, với nhiều người dùng hơn. Cũng thông qua cách tiếp cận nguồn mở, DeepSeek góp phần tăng cường tính minh bạch và trách nhiệm giải trình trong quá trình phát triển AI. Ngày đầu tiên tháng 2/2025, trong phiên “Ask Me Anything” trên Reddit, CEO Sam Altman của OpenAI thừa nhận ông đang cân nhắc “đi ngược lại lịch sử” khi xem xét công khai các nghiên cứu về AI của mình. Ông bày tỏ sự ủng hộ đối với ý tưởng này và cho biết đây là một chủ đề đang được thảo luận nội bộ tại OpenAI.

Tuy nhiên, AI nguồn mở cũng có những nhược điểm, do nó có thể bị khai thác với ý đồ xấu trên mạng. Nghiên cứu mà hãng công nghệ Cisco công bố tuần trước cho thấy, DeepSeek R1 chứa một số lỗ hổng bảo mật nghiêm trọng. Ngoài ra, do nguồn gốc Trung Quốc, ứng dụng của DeepSeek bị một số bên hạn chế sử dụng vì vấn đề bảo mật. Theo CNBC, Italy cấm DeepSeek trên hai kho ứng dụng của Apple và Google. Tại Mỹ, Cơ quan hàng không vũ trụ NASA, hải quân, hạ viện quốc hội Mỹ và bang Texas cấm toàn bộ nhân viên sử dụng với lý do an ninh quốc gia và quyền riêng tư.

Nguyễn Viết
.
.