Tin đồn đã đúng. Microsoft chính thức nhảy vào làm chip AI tùy chỉnh của riêng mình, có thể được sử dụng để đào tạo các mô hình ngôn ngữ lớn và có khả năng tránh được sự phụ thuộc tốn kém vào Nvidia. Microsoft đã phát triển CPU dựa trên kiến trúc ARM phục vụ cho hạ tầng đám mây. Cả hai chip tùy chỉnh của Microsoft đều được thiết kế để cung cấp cho các trung tâm dữ liệu Azure và giúp công ty cũng như khách hàng doanh nghiệp sẵn sàng cho một tương lai tràn ngập AI.
Theo The Verge, hai chip Azure Maia AI của Microsoft và CPU Azure Cobalt chạy bằng kiến trúc ARM sẽ ra mắt vào năm 2024. Hiện nay, nhu cầu mua GPU H100 của Nvidia dùng đào tạo và vận hành các công cụ hình ảnh tổng hợp và mô hình ngôn ngữ lớn đang tăng lên rất cao. Nhu cầu về những GPU này cao đến mức một số thậm chí đã bán được với giá hơn 40.000 USD (940 triệu đồng) trên eBay.
Rani Borkar, người đứng đầu hệ thống phần cứng và cơ sở hạ tầng Azure tại Microsoft, giải thích trong một cuộc phỏng vấn với The Verge: “Microsoft thực sự có lịch sử lâu dài trong việc phát triển chip. Microsoft đã hợp tác sản xuất chip cho Xbox hơn 20 năm trước và thậm chí còn đồng thiết kế chip cho các thiết bị Surface của mình.
Rani Borkar nói: “Những nỗ lực làm chip hiện nay được xây dựng dựa trên kinh nghiệm đó. Vào năm 2017, chúng tôi đã bắt đầu kiến trúc hệ thống phần cứng đám mây và bắt đầu hành trình đưa chúng tôi đi đúng hướng để xây dựng các chip tùy chỉnh mới của mình.”
Chip AI Azure Maia mới và CPU Azure Cobalt đều được xây dựng nội bộ tại Microsoft, kết hợp với việc đại tu sâu toàn bộ hệ thống máy chủ đám mây để tối ưu hóa hiệu suất, sức mạnh và chi phí. Rani Borkar cho biết: “Chúng tôi đang xem xét lại cơ sở hạ tầng đám mây cho kỷ nguyên AI và tối ưu hóa mọi lớp của cơ sở hạ tầng đó theo đúng nghĩa đen”.
CPU Azure Cobalt là một con chip 128 lõi được xây dựng trên thiết kế CSS của ARM Neoverse và được tùy chỉnh riêng cho Microsoft. Nó được thiết kế để cung cấp sức mạnh tính toán cho các dịch vụ đám mây nói chung trên Azure. Rani Borkar giải thích: “Chúng tôi đã suy nghĩ rất nhiều để không chỉ làm cho nó có hiệu suất cao mà còn đảm bảo rằng chúng tôi quan tâm đến việc quản lý năng lượng. Chúng tôi đã thực hiện một số lựa chọn thiết kế có chủ ý, bao gồm khả năng kiểm soát hiệu suất và mức tiêu thụ điện năng trên mỗi lõi và trên từng máy ảo.”
Microsoft hiện đang thử nghiệm CPU Cobalt của mình trên các khối lượng công việc như Microsoft Teams và máy chủ SQL, với kế hoạch cung cấp máy ảo cho khách hàng vào năm tới cho nhiều khối lượng công việc khác nhau. Mặc dù Rani Borkar không bị so sánh trực tiếp với các máy chủ Graviton 3 của Amazon có sẵn trên AWS, nhưng sẽ có một số mức tăng hiệu suất đáng chú ý so với các máy chủ dựa trên ARM mà Microsoft hiện đang sử dụng cho Azure. Borkar cho biết: “Thử nghiệm ban đầu của chúng tôi cho thấy hiệu suất của chúng tôi tốt hơn tới 40% so với hiệu suất hiện tại ở các trung tâm dữ liệu sử dụng máy chủ ARM thương mại”. Microsoft chưa chia sẻ thông số kỹ thuật hoặc điểm chuẩn đầy đủ của hệ thống.
Trình tăng tốc AI Maia 100 của Microsoft được thiết kế để chạy các khối lượng công việc AI trên đám mây, chẳng hạn như đào tạo và suy luận mô hình ngôn ngữ lớn. Nó sẽ được sử dụng để hỗ trợ một số khối lượng công việc AI lớn nhất của công ty trên Azure, bao gồm cả các phần trong mối quan hệ đối tác trị giá hàng tỷ đô la với OpenAI, nơi Microsoft hỗ trợ tất cả khối lượng xử lý của OpenAI. Gã khổng lồ phần mềm đã hợp tác với OpenAI trong các giai đoạn thiết kế và thử nghiệm Maia.
Sam Altman, Giám đốc điều hành của OpenAI cho biết: “Chúng tôi rất vui mừng khi Microsoft lần đầu tiên chia sẻ thiết kế của họ cho chip Maia và chúng tôi đã làm việc cùng nhau để tinh chỉnh và thử nghiệm nó trên các mô hình của mình. Kiến trúc AI đầu cuối của Azure, hiện được tối ưu hóa cho chip Maia, mở đường cho việc đào tạo các mô hình có năng lực hơn và làm cho các mô hình đó rẻ hơn cho khách hàng của chúng tôi.”
Được sản xuất trên tiến trình 5nm của TSMC, Maia có 105 tỷ bóng bán dẫn, ít hơn khoảng 30% so với 153 tỷ bóng bán dẫn được tìm thấy trên GPU AI MI300X của AMD, đối thủ chính của Nvidia hiện nay. Rani Borkar cho biết: “Maia hỗ trợ việc triển khai lần đầu tiên các loại dữ liệu phụ 8 bit, loại dữ liệu MX, để cùng thiết kế phần cứng và phần mềm. Điều này giúp chúng tôi hỗ trợ thời gian suy luận và đào tạo mô hình nhanh hơn.”
Microsoft là thành viên của một nhóm bao gồm AMD, ARM, Intel, Meta, Nvidia và Qualcomm đang chuẩn hóa thế hệ định dạng dữ liệu tiếp theo cho các mô hình AI. Microsoft đang xây dựng dựa trên hoạt động cộng tác và mở của Dự án Điện toán Mở (OCP) để điều chỉnh toàn bộ hệ thống cho phù hợp với nhu cầu của AI.
Tủ rack server Maia 100 và hệ thống làm chất lỏng
Rani Borkar tiết lộ: “Maia là bộ xử lý máy chủ làm mát bằng chất lỏng hoàn chỉnh đầu tiên do Microsoft chế tạo. Mục tiêu ở đây là cho phép mật độ máy chủ cao hơn với hiệu suất cao hơn. Bởi vì chúng tôi đang hình dung lại toàn bộ ngăn xếp nên chúng tôi chủ tâm nghĩ đến từng lớp, nên những hệ thống này thực sự sẽ phù hợp với quy mô trung tâm dữ liệu hiện tại của chúng tôi.”
Đó là chìa khóa để Microsoft tăng tốc các máy chủ AI này nhanh hơn mà không cần phải nhường chỗ cho chúng trong các trung tâm dữ liệu trên toàn thế giới. Microsoft đã chế tạo một giá đỡ độc đáo để chứa các bo mạch máy chủ Maia, hoàn chỉnh với một máy làm lạnh chất lỏng “phụ” hoạt động giống như bộ tản nhiệt mà chúng ta tìm thấy trong ô tô hoặc một PC chơi game ưa thích để làm mát bề mặt của chip Maia.
Cùng với việc chia sẻ các kiểu dữ liệu MX, Microsoft cũng đang chia sẻ các thiết kế giá đỡ của mình với các đối tác để họ có thể sử dụng chúng trên các hệ thống có chip khác bên trong. Nhưng các thiết kế chip Maia sẽ không được chia sẻ rộng rãi hơn, Microsoft sẽ giữ chúng dùng trong nội bộ.
Maia 100 hiện đang được thử nghiệm trên GPT 3.5 Turbo, cùng một mô hình hỗ trợ khối lượng công việc ChatGPT, Bing AI và GitHub Copilot. Microsoft đang trong giai đoạn đầu triển khai và giống như Cobalt, hãng này chưa sẵn sàng đưa ra các thông số kỹ thuật hoặc điểm chuẩn hiệu suất chính xác của Maia.
Điều đó gây khó khăn cho việc giải mã chính xác Maia sẽ so sánh như thế nào với GPU H100 phổ biến của Nvidia, GPU H200 được công bố gần đây hay thậm chí MI300X mới nhất của AMD. Rani Borkar không muốn thảo luận về những so sánh, thay vào đó nhắc lại rằng quan hệ đối tác với Nvidia và AMD vẫn rất quan trọng đối với tương lai của đám mây AI của Azure. Rani Borkar cho biết: “Ở quy mô mà đám mây vận hành, điều thực sự quan trọng là phải tối ưu hóa và tích hợp mọi lớp trong hệ thống, để tối đa hóa hiệu suất, đa dạng hóa chuỗi cung ứng và thẳng thắn cung cấp cho khách hàng những lựa chọn về cơ sở hạ tầng”.
Việc đa dạng hóa chuỗi cung ứng rất quan trọng đối với Microsoft, đặc biệt khi Nvidia hiện là nhà cung cấp chip máy chủ AI chính và các công ty đang chạy đua để mua hết các chip này. Các ước tính cho thấy OpenAI cần hơn 30.000 GPU A100 cũ của Nvidia để thương mại hóa ChatGPT, vì vậy chip của Microsoft có thể giúp giảm chi phí AI cho khách hàng của mình. Microsoft cũng đã phát triển những con chip này cho khối lượng công việc trên nền tảng đám mây Azure của riêng mình chứ không phải để bán cho những hãng khác như Nvidia, AMD, Intel và Qualcomm.
Rani Borkar nhấn mạnh: “Tôi coi điều này là sự bổ sung chứ không phải cạnh tranh với họ. Hôm nay chúng tôi có cả Intel và AMD trong hạ tầng điện toán đám mây của mình và tương tự về AI, chúng tôi dùng cả AMD và Nvidia. Những đối tác này rất quan trọng đối với cơ sở hạ tầng của chúng tôi và chúng tôi thực sự muốn mang đến cho khách hàng những lựa chọn.”
Bạn có thể đã nhận thấy cách đặt tên Maia 100 và Cobalt 100, điều này cho thấy rằng Microsoft đã thiết kế phiên bản thế hệ thứ hai của những con chip này. Rani Borkar nói: “Đây là một chuỗi, không chỉ 100 là xong… nhưng chúng tôi sẽ không chia sẻ lộ trình của mình. Vẫn chưa rõ tần suất Microsoft sẽ cung cấp các phiên bản Maia và Cobalt mới, nhưng với tốc độ của AI, tôi sẽ không ngạc nhiên khi thấy người kế nhiệm Maia 100 xuất hiện với tốc độ tương tự như thông báo ra mắt H200 của Nvidia (khoảng 20 tháng).
Điều quan trọng bây giờ sẽ là Microsoft khiến Maia hành động nhanh như thế nào để tăng tốc việc triển khai các tham vọng AI rộng lớn của mình và cách những con chip này sẽ tác động đến việc định giá việc sử dụng các dịch vụ đám mây AI. Microsoft chưa sẵn sàng nói về giá máy chủ mới này, nhưng chúng tôi đã thấy công ty lặng lẽ ra mắt Copilot cho Microsoft 365 với mức phí hàng tháng 30 USD.
Copilot dành cho Microsoft 365 hiện chỉ giới hạn cho những khách hàng lớn nhất của Microsoft, là những người dùng doanh nghiệp cam kết có ít nhất 300 người dùng để có tên trong danh sách trợ lý Office mới được hỗ trợ bởi AI. Khi Microsoft tiếp tục phát triển nhiều tính năng Copilot hơn nữa trong tuần này, Maia có thể sớm giúp cân bằng nhu cầu về chip AI hỗ trợ những trải nghiệm mới này
Theo The Verge, hai chip Azure Maia AI của Microsoft và CPU Azure Cobalt chạy bằng kiến trúc ARM sẽ ra mắt vào năm 2024. Hiện nay, nhu cầu mua GPU H100 của Nvidia dùng đào tạo và vận hành các công cụ hình ảnh tổng hợp và mô hình ngôn ngữ lớn đang tăng lên rất cao. Nhu cầu về những GPU này cao đến mức một số thậm chí đã bán được với giá hơn 40.000 USD (940 triệu đồng) trên eBay.
Rani Borkar, người đứng đầu hệ thống phần cứng và cơ sở hạ tầng Azure tại Microsoft, giải thích trong một cuộc phỏng vấn với The Verge: “Microsoft thực sự có lịch sử lâu dài trong việc phát triển chip. Microsoft đã hợp tác sản xuất chip cho Xbox hơn 20 năm trước và thậm chí còn đồng thiết kế chip cho các thiết bị Surface của mình.
Rani Borkar nói: “Những nỗ lực làm chip hiện nay được xây dựng dựa trên kinh nghiệm đó. Vào năm 2017, chúng tôi đã bắt đầu kiến trúc hệ thống phần cứng đám mây và bắt đầu hành trình đưa chúng tôi đi đúng hướng để xây dựng các chip tùy chỉnh mới của mình.”
Chip AI Azure Maia mới và CPU Azure Cobalt đều được xây dựng nội bộ tại Microsoft, kết hợp với việc đại tu sâu toàn bộ hệ thống máy chủ đám mây để tối ưu hóa hiệu suất, sức mạnh và chi phí. Rani Borkar cho biết: “Chúng tôi đang xem xét lại cơ sở hạ tầng đám mây cho kỷ nguyên AI và tối ưu hóa mọi lớp của cơ sở hạ tầng đó theo đúng nghĩa đen”.
CPU Azure Cobalt là một con chip 128 lõi được xây dựng trên thiết kế CSS của ARM Neoverse và được tùy chỉnh riêng cho Microsoft. Nó được thiết kế để cung cấp sức mạnh tính toán cho các dịch vụ đám mây nói chung trên Azure. Rani Borkar giải thích: “Chúng tôi đã suy nghĩ rất nhiều để không chỉ làm cho nó có hiệu suất cao mà còn đảm bảo rằng chúng tôi quan tâm đến việc quản lý năng lượng. Chúng tôi đã thực hiện một số lựa chọn thiết kế có chủ ý, bao gồm khả năng kiểm soát hiệu suất và mức tiêu thụ điện năng trên mỗi lõi và trên từng máy ảo.”
Microsoft hiện đang thử nghiệm CPU Cobalt của mình trên các khối lượng công việc như Microsoft Teams và máy chủ SQL, với kế hoạch cung cấp máy ảo cho khách hàng vào năm tới cho nhiều khối lượng công việc khác nhau. Mặc dù Rani Borkar không bị so sánh trực tiếp với các máy chủ Graviton 3 của Amazon có sẵn trên AWS, nhưng sẽ có một số mức tăng hiệu suất đáng chú ý so với các máy chủ dựa trên ARM mà Microsoft hiện đang sử dụng cho Azure. Borkar cho biết: “Thử nghiệm ban đầu của chúng tôi cho thấy hiệu suất của chúng tôi tốt hơn tới 40% so với hiệu suất hiện tại ở các trung tâm dữ liệu sử dụng máy chủ ARM thương mại”. Microsoft chưa chia sẻ thông số kỹ thuật hoặc điểm chuẩn đầy đủ của hệ thống.
Trình tăng tốc AI Maia 100 của Microsoft được thiết kế để chạy các khối lượng công việc AI trên đám mây, chẳng hạn như đào tạo và suy luận mô hình ngôn ngữ lớn. Nó sẽ được sử dụng để hỗ trợ một số khối lượng công việc AI lớn nhất của công ty trên Azure, bao gồm cả các phần trong mối quan hệ đối tác trị giá hàng tỷ đô la với OpenAI, nơi Microsoft hỗ trợ tất cả khối lượng xử lý của OpenAI. Gã khổng lồ phần mềm đã hợp tác với OpenAI trong các giai đoạn thiết kế và thử nghiệm Maia.
Sam Altman, Giám đốc điều hành của OpenAI cho biết: “Chúng tôi rất vui mừng khi Microsoft lần đầu tiên chia sẻ thiết kế của họ cho chip Maia và chúng tôi đã làm việc cùng nhau để tinh chỉnh và thử nghiệm nó trên các mô hình của mình. Kiến trúc AI đầu cuối của Azure, hiện được tối ưu hóa cho chip Maia, mở đường cho việc đào tạo các mô hình có năng lực hơn và làm cho các mô hình đó rẻ hơn cho khách hàng của chúng tôi.”
Được sản xuất trên tiến trình 5nm của TSMC, Maia có 105 tỷ bóng bán dẫn, ít hơn khoảng 30% so với 153 tỷ bóng bán dẫn được tìm thấy trên GPU AI MI300X của AMD, đối thủ chính của Nvidia hiện nay. Rani Borkar cho biết: “Maia hỗ trợ việc triển khai lần đầu tiên các loại dữ liệu phụ 8 bit, loại dữ liệu MX, để cùng thiết kế phần cứng và phần mềm. Điều này giúp chúng tôi hỗ trợ thời gian suy luận và đào tạo mô hình nhanh hơn.”
Microsoft là thành viên của một nhóm bao gồm AMD, ARM, Intel, Meta, Nvidia và Qualcomm đang chuẩn hóa thế hệ định dạng dữ liệu tiếp theo cho các mô hình AI. Microsoft đang xây dựng dựa trên hoạt động cộng tác và mở của Dự án Điện toán Mở (OCP) để điều chỉnh toàn bộ hệ thống cho phù hợp với nhu cầu của AI.
Tủ rack server Maia 100 và hệ thống làm chất lỏng
Rani Borkar tiết lộ: “Maia là bộ xử lý máy chủ làm mát bằng chất lỏng hoàn chỉnh đầu tiên do Microsoft chế tạo. Mục tiêu ở đây là cho phép mật độ máy chủ cao hơn với hiệu suất cao hơn. Bởi vì chúng tôi đang hình dung lại toàn bộ ngăn xếp nên chúng tôi chủ tâm nghĩ đến từng lớp, nên những hệ thống này thực sự sẽ phù hợp với quy mô trung tâm dữ liệu hiện tại của chúng tôi.”
Đó là chìa khóa để Microsoft tăng tốc các máy chủ AI này nhanh hơn mà không cần phải nhường chỗ cho chúng trong các trung tâm dữ liệu trên toàn thế giới. Microsoft đã chế tạo một giá đỡ độc đáo để chứa các bo mạch máy chủ Maia, hoàn chỉnh với một máy làm lạnh chất lỏng “phụ” hoạt động giống như bộ tản nhiệt mà chúng ta tìm thấy trong ô tô hoặc một PC chơi game ưa thích để làm mát bề mặt của chip Maia.
Cùng với việc chia sẻ các kiểu dữ liệu MX, Microsoft cũng đang chia sẻ các thiết kế giá đỡ của mình với các đối tác để họ có thể sử dụng chúng trên các hệ thống có chip khác bên trong. Nhưng các thiết kế chip Maia sẽ không được chia sẻ rộng rãi hơn, Microsoft sẽ giữ chúng dùng trong nội bộ.
Maia 100 hiện đang được thử nghiệm trên GPT 3.5 Turbo, cùng một mô hình hỗ trợ khối lượng công việc ChatGPT, Bing AI và GitHub Copilot. Microsoft đang trong giai đoạn đầu triển khai và giống như Cobalt, hãng này chưa sẵn sàng đưa ra các thông số kỹ thuật hoặc điểm chuẩn hiệu suất chính xác của Maia.
Điều đó gây khó khăn cho việc giải mã chính xác Maia sẽ so sánh như thế nào với GPU H100 phổ biến của Nvidia, GPU H200 được công bố gần đây hay thậm chí MI300X mới nhất của AMD. Rani Borkar không muốn thảo luận về những so sánh, thay vào đó nhắc lại rằng quan hệ đối tác với Nvidia và AMD vẫn rất quan trọng đối với tương lai của đám mây AI của Azure. Rani Borkar cho biết: “Ở quy mô mà đám mây vận hành, điều thực sự quan trọng là phải tối ưu hóa và tích hợp mọi lớp trong hệ thống, để tối đa hóa hiệu suất, đa dạng hóa chuỗi cung ứng và thẳng thắn cung cấp cho khách hàng những lựa chọn về cơ sở hạ tầng”.
Việc đa dạng hóa chuỗi cung ứng rất quan trọng đối với Microsoft, đặc biệt khi Nvidia hiện là nhà cung cấp chip máy chủ AI chính và các công ty đang chạy đua để mua hết các chip này. Các ước tính cho thấy OpenAI cần hơn 30.000 GPU A100 cũ của Nvidia để thương mại hóa ChatGPT, vì vậy chip của Microsoft có thể giúp giảm chi phí AI cho khách hàng của mình. Microsoft cũng đã phát triển những con chip này cho khối lượng công việc trên nền tảng đám mây Azure của riêng mình chứ không phải để bán cho những hãng khác như Nvidia, AMD, Intel và Qualcomm.
Rani Borkar nhấn mạnh: “Tôi coi điều này là sự bổ sung chứ không phải cạnh tranh với họ. Hôm nay chúng tôi có cả Intel và AMD trong hạ tầng điện toán đám mây của mình và tương tự về AI, chúng tôi dùng cả AMD và Nvidia. Những đối tác này rất quan trọng đối với cơ sở hạ tầng của chúng tôi và chúng tôi thực sự muốn mang đến cho khách hàng những lựa chọn.”
Bạn có thể đã nhận thấy cách đặt tên Maia 100 và Cobalt 100, điều này cho thấy rằng Microsoft đã thiết kế phiên bản thế hệ thứ hai của những con chip này. Rani Borkar nói: “Đây là một chuỗi, không chỉ 100 là xong… nhưng chúng tôi sẽ không chia sẻ lộ trình của mình. Vẫn chưa rõ tần suất Microsoft sẽ cung cấp các phiên bản Maia và Cobalt mới, nhưng với tốc độ của AI, tôi sẽ không ngạc nhiên khi thấy người kế nhiệm Maia 100 xuất hiện với tốc độ tương tự như thông báo ra mắt H200 của Nvidia (khoảng 20 tháng).
Điều quan trọng bây giờ sẽ là Microsoft khiến Maia hành động nhanh như thế nào để tăng tốc việc triển khai các tham vọng AI rộng lớn của mình và cách những con chip này sẽ tác động đến việc định giá việc sử dụng các dịch vụ đám mây AI. Microsoft chưa sẵn sàng nói về giá máy chủ mới này, nhưng chúng tôi đã thấy công ty lặng lẽ ra mắt Copilot cho Microsoft 365 với mức phí hàng tháng 30 USD.
Copilot dành cho Microsoft 365 hiện chỉ giới hạn cho những khách hàng lớn nhất của Microsoft, là những người dùng doanh nghiệp cam kết có ít nhất 300 người dùng để có tên trong danh sách trợ lý Office mới được hỗ trợ bởi AI. Khi Microsoft tiếp tục phát triển nhiều tính năng Copilot hơn nữa trong tuần này, Maia có thể sớm giúp cân bằng nhu cầu về chip AI hỗ trợ những trải nghiệm mới này