spot_img
29.2 C
Vietnam
Thứ Năm,4 Tháng 6
spot_img

“AI giá rẻ” DeepSeek là gì và vì sao nó làm đảo lộn thế giới trí tuệ nhân tạo?

Một công ty khởi nghiệp ít người biết đến của Trung Quốc có tên DeepSeek đang được đánh giá có khả năng tạo địa chấn trong giới phát triển trí tuệ nhân tạo. Thực hư chuyện này như thế nào?

Một mô hình AI mới do công ty trí tuệ nhân tạo DeepSeek của Trung Quốc ra mắt đã thu hút sự chú ý ở Thung lũng Silicon. (Ảnh: Ghép từ ảnh Pixabay)

Cổ phiếu công nghệ lao dốc. Các công ty lớn như Meta và Nvidia phải đối mặt với hàng loạt câu hỏi về tương lai. Nhiều giám đốc điều hành trong giới công nghệ đã lên mạng xã hội để tuyên bố về nỗi sợ hãi của họ.

Tất cả những chuyện trên diễn ra do tác động từ một công ty khởi nghiệp trí tuệ nhân tạo (AI) ít người biết đến của Trung Quốc có tên là DeepSeek.

DeepSeek đã thu hút sự chú ý của cả thế giới trong ngày 27-1 khi giới thiệu một trong những thành tựu của công ty: một mô hình AI rất mạnh mẽ, với chi phí chế tạo ít hơn nhiều so với những gì người ta tưởng, đặc biệt nếu so với các mô hình AI nổi tiếng khác như ChatGPT, Gemini.

DeepSeek đã mang tới một loạt câu hỏi, bao gồm việc liệu các công ty Mỹ có còn ở thế “cửa trên” trong lĩnh vực AI hay không?

Làm thế nào mà một công ty ít người biết đến lại có thể tạo ra tác động lớn như vậy? Sau đây là những điều cần biết về DeepSeek, công nghệ đứng sau nó và những tác động nó có thể tạo ra

DeepSeek là gì?

DeepSeek là một công ty khởi nghiệp, do công ty giao dịch chứng khoán Trung Quốc High-Flyer thành lập và nắm quyền sở hữu. Cả High-Flyer và DeepSeek đều do Liang Wenfeng, một doanh nhân người Trung Quốc điều hành. Mục tiêu của công ty là xây dựng hệ thống AI tương tự như chatbot ChatGPT của công ty OpenAI hoặc Gemini của Google.

DeepSeek sử dụng ít chip Nvidia hơn so với các hệ thống của Mỹ.

Năm 2021, DeepSeek đã mua hàng nghìn chip máy tính từ nhà sản xuất chip Nvidia của Mỹ, đặt những viên gạch đầu tiên cho nỗ lực tạo ra hệ thống AI mạnh mẽ. Tại Trung Quốc, công ty này nổi tiếng với chính sách thu hút các nhà nghiên cứu AI trẻ và tài năng từ những trường đại học hàng đầu ở trong nước, hứa hẹn mức lương cao và cơ hội làm việc trong các dự án nghiên cứu tiên tiến.

Trong vài năm qua, DeepSeek đã phát hành một số mô hình ngôn ngữ lớn. Đây là loại công nghệ hỗ trợ các chatbot như ChatGPT và Gemini. Ngày 10/1 vừa qua, công ty đã phát hành ứng dụng chatbot miễn phí đầu tiên dựa trên một mô hình mới có tên là DeepSeek-V3.

Vì sao thị trường chứng khoán lại phản ứng mạnh với DeepSeek?

Ngay khi DeepSeek giới thiệu DeepSeek-V3, năng lực của chatbot này đã được đánh giá sánh ngang các chatbot tốt nhất từ các công ty Mỹ như OpenAI và Google. Chỉ riêng điều này thôi cũng đã là một thành tích đặc biệt ấn tượng.

Nhưng nhóm nghiên cứu đằng sau hệ thống mới còn tiết lộ một bước tiến lớn hơn. Trong một bài báo khoa học giải thích cách xây dựng công nghệ AI, DeepSeek tiết lộ rằng công ty chỉ sử dụng một lượng nhỏ chip máy tính, so với lượng chip rất lớn mà các công ty AI hàng đầu ở Mỹ sử dụng để đào tạo hệ thống của họ.

Cụ thể hơn, các công ty hàng đầu thế giới thường đào tạo chatbot của họ bằng siêu máy tính sử dụng tới 16.000 con chip hoặc hơn thế. Tuy nhiên, các kỹ sư của DeepSeek cho biết họ chỉ cần sử dụng khoảng 2.000 chip do Nvidia sản xuất.

Tại sao Deepseek lại gây ra sự náo loạn

Việc phát hành ChatGPT ra thị trường của OpenAI vào cuối năm 2022 đã gây ra một cuộc chạy đua giữa các công ty công nghệ Trung Quốc. Những công ty Trung Quốc đã vội vã tạo ra các chatbot của riêng mình được hỗ trợ bởi trí tuệ nhân tạo.

Nhưng sau khi phát hành phiên bản tương tự ChatGPT đầu tiên của Trung Quốc, do gã khổng lồ công cụ tìm kiếm Baidu tạo ra, đã có sự thất vọng rộng khắp ở Trung Quốc đối với sự chênh lệch về khả năng AI giữa các công ty Hoa Kỳ và Trung Quốc.

Chất lượng và hiệu quả về chi phí của các mô hình của DeepSeek đã đảo ngược câu chuyện này. Công ty khởi nghiệp Deepseek cho rằng hai mô hình DeepSeek-V3 và DeepSeek-R1 vốn được các giám đốc điều hành của Thung lũng Silicon và các kỹ sư công ty công nghệ Hoa Kỳ khen ngợi, là ngang bằng với các mô hình tiên tiến nhất của OpenAI và Meta.

Chúng cũng rẻ hơn khi sử dụng. Theo một bài đăng trên tài khoản WeChat chính thức của DeepSeek, DeepSeek-R1, được phát hành vào tuần trước, rẻ hơn từ 20 đến 50 lần khi sử dụng so với mô hình OpenAI o1, tùy thuộc vào nhiệm vụ.

Nhưng một số người đã công khai bày tỏ sự hoài nghi về câu chuyện thành công của DeepSeek.

Tổng giám đốc điều hành của Scale AI, Alexandr Wang, tuyên bố trong một cuộc phỏng vấn với CNBC vào thứ Năm (23/1), mà không đưa ra bằng chứng, rằng DeepSeek sử dụng 50.000 chip Nvidia H100, nhưng ông cho rằng nó đã không được tiết lộ vì điều đó sẽ vi phạm các biện pháp kiểm soát xuất khẩu của Washington, cấm bán các chip AI tiên tiến như vậy cho các công ty Trung Quốc. DeepSeek đã không trả lời ngay lập tức yêu cầu bình luận về cáo buộc này.

Các nhà phân tích của công ty Bernstein đã nêu bật trong một nghiên cứu vào thứ Hai (27/1), lưu ý rằng tổng chi phí đào tạo của DeepSeek cho mô hình V3 của họ là không rõ, nhưng cao hơn nhiều so với chi phí 5,58 triệu đô la mà công ty khởi nghiệp này tuyên bố, đã được sử dụng cho năng lực tính toán. Các nhà phân tích cũng cho rằng chi phí đào tạo của mô hình R1 vốn được ca ngợi không kém, đã không được tiết lộ.

Ai đứng sau Deepseek?

DeepSeek là một công ty khởi nghiệp có trụ sở tại Hàng Châu, có cổ đông kiểm soát là Lương Văn Phong (Liang Wenfeng), đồng sáng lập Quỹ đầu cơ định lượng High-Flyer, theo hồ sơ công ty ở Trung Quốc.

Quỹ của ông Lương thông báo vào tháng 3 năm 2023 trên tài khoản WeChat chính thức của mình rằng họ đang “bắt đầu lại“, không chỉ giới hạn ở kinh doanh mà còn tập trung nguồn lực vào việc tạo ra một “nhóm nghiên cứu mới và độc lập, để khám phá bản chất của AGI” (Trí tuệ nhân tạo tổng quát). DeepSeek được thành lập vào cuối năm đó.

Những người tạo ra ChatGPT là OpenAI định nghĩa AGI là các hệ thống tự động vượt qua con người trong hầu hết các nhiệm vụ có giá trị kinh tế.

Không rõ High-Flyer đã đầu tư bao nhiêu vào DeepSeek. Theo hồ sơ của công ty Trung Quốc, High-Flyer có một văn phòng đặt tại cùng tòa nhà với DeepSeek, và cũng sở hữu các bằng sáng chế liên quan đến cụm chip được sử dụng để đào tạo các mô hình AI.

Bộ phận AI của High-Flyer cho biết trên tài khoản WeChat chính thức của mình vào tháng 7 năm 2022 rằng họ sở hữu và vận hành một cụm gồm 10.000 chip A100.

Bắc Kinh đánh giá DeepSeek như thế nào?

Thành công của DeepSeek đã được ghi nhận trong các nhóm chính trị cấp cao của Trung Quốc. Vào ngày 20 tháng 1, ngày DeepSeek-R1 được công bố rộng rãi, nhà sáng lập Lương Văn Phong đã tham dự một hội nghị chuyên đề kín, dành cho các doanh nhân và chuyên gia do thủ tướng Trung Quốc Lý Cường chủ trì, theo hãng thông tấn nhà nước Tân Hoa Xã.

Sự hiện diện của ông Lương tại cuộc họp có khả năng là một dấu hiệu cho thấy thành công của DeepSeek có thể quan trọng đối với mục tiêu chính sách của Bắc Kinh, là vượt qua các biện pháp kiểm soát xuất khẩu của Washington và đạt được sự tự cung tự cấp trong các ngành công nghiệp chiến lược như AI.

Một hội nghị chuyên đề tương tự vào năm ngoái co sự tham gia của Tổng giám đốc điều hành Baidu Lý Ngạn Hoành (Robin Li).

Nghi Vân (Theo Reuters, Vietnam+)

BÀI CHỌN LỌC:

Xem thêm

- Quảng cáo -spot_img

Xem nhiều