Google ra mắt thuật toán nén giúp tối ưu bộ nhớ AI Thuật toán TurboQuant mới của Google có khả năng nén bộ nhớ đệm của các mô hình ngôn ngữ lớn xuống sáu lần mà không làm giảm chất lượng phản hồi.