Nỗi ám ảnh về quy mô của ngành AI đang hướng đến bờ vực thẳm

Một nghiên cứu mới từ MIT cho thấy các mô hình AI lớn nhất và có cường độ tính toán cao nhất có thể sớm mang lại lợi nhuận giảm dần so với các mô hình nhỏ hơn. Bằng cách lập bản đồ các quy luật tỷ lệ dựa trên những cải tiến liên tục về hiệu quả của mô hình, các nhà nghiên cứu nhận thấy rằng việc đạt được những bước nhảy vọt về hiệu suất từ ​​các mô hình khổng lồ có thể trở nên khó khăn hơn trong khi việc tăng hiệu suất có thể khiến các mô hình chạy trên phần cứng khiêm tốn hơn ngày càng có nhiều khả năng hơn trong thập kỷ tới.

Neil Thompson, nhà khoa học máy tính và giáo sư tại MIT tham gia nghiên cứu, cho biết: “Trong vòng 5 đến 10 năm tới, mọi thứ rất có thể sẽ bắt đầu thu hẹp lại”.

Những bước nhảy vọt về hiệu quả, giống như những gì đã thấy với mô hình chi phí thấp đáng kể của DeepSeek vào tháng 1, đã đóng vai trò như một phép thử thực tế đối với ngành AI, vốn đã quen với việc đốt cháy lượng lớn máy tính.

Theo tình hình hiện tại, mô hình tiên phong của một công ty như OpenAI hiện tốt hơn nhiều so với mô hình được đào tạo với một phần tính toán từ phòng thí nghiệm học thuật. Mặc dù dự đoán của nhóm MIT có thể không đúng nếu các phương pháp đào tạo mới như học tăng cường tạo ra kết quả mới đáng ngạc nhiên, nhưng họ cho rằng các công ty AI lớn sẽ có ít lợi thế hơn trong tương lai.

Hans Gundlach, nhà khoa học nghiên cứu tại MIT, người đứng đầu cuộc phân tích, bắt đầu quan tâm đến vấn đề này do tính chất khó sử dụng của việc chạy các mô hình tiên tiến. Cùng với Thompson và Jayson Lynch, một nhà khoa học nghiên cứu khác tại MIT, ông đã vạch ra hiệu suất trong tương lai của các mô hình tiên phong so với những mô hình được xây dựng bằng các phương tiện tính toán khiêm tốn hơn. Gundlach cho biết xu hướng được dự đoán đặc biệt rõ ràng đối với các mô hình lý luận hiện đang thịnh hành, vốn dựa nhiều hơn vào tính toán bổ sung trong quá trình suy luận.

Thompson cho biết kết quả cho thấy giá trị của việc mài giũa thuật toán cũng như mở rộng quy mô tính toán. Ông nói thêm: “Nếu bạn đang chi nhiều tiền để đào tạo những mô hình này, thì bạn chắc chắn nên dành một phần trong số đó để cố gắng phát triển các thuật toán hiệu quả hơn, bởi vì điều đó có thể cực kỳ quan trọng”.

Nghiên cứu này đặc biệt thú vị trong bối cảnh sự bùng nổ cơ sở hạ tầng AI ngày nay (hay chúng ta nên nói là “bong bóng”?)—có rất ít dấu hiệu chậm lại.

OpenAI và các công ty công nghệ khác của Hoa Kỳ đã ký các thỏa thuận trị giá hàng trăm tỷ đô la để xây dựng cơ sở hạ tầng AI tại Hoa Kỳ. “Thế giới cần tính toán nhiều hơn nữa,” chủ tịch OpenAI, Greg Brockman, tuyên bố trong tuần này khi ông công bố mối quan hệ hợp tác giữa OpenAI và Broadcom cho các chip AI tùy chỉnh.

Ngày càng có nhiều chuyên gia đặt câu hỏi về tính đúng đắn của những thương vụ này. Khoảng 60% chi phí xây dựng một trung tâm dữ liệu dành cho GPU, loại GPU có xu hướng mất giá nhanh chóng. Quan hệ đối tác giữa những người chơi chính cũng có vẻ vòng tròn và không rõ ràng.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *