O novo algoritmo TurboQuant do Google acelera a memória AI em 8x, reduzindo custos em 50% ou mais
À medida que os Large Language Models (LLMs) expandem suas janelas de contexto para processar documentos massivos e conversas complexas, eles encontram uma realidade de hardware brutal conhecida como "gargalo de cache de valor-chave (KV)".
Cada palavra que um modelo processa deve ser armazenada como um vetor de alta dimensão na memória de alta velocidade. Para tarefas de formato longo, essa "folha de dicas digital" aumenta rapidamente, devorando o sistema de memória de acesso aleatório de vídeo (VRAM) da unidade de processamento gráfico (GPU) usado durante a inferência e diminuindo rapidamente o desempenho do modelo ao longo do tempo.
Mas não tenha medo, o Google Research está aqui: ontem, a unidade do gigante das buscas lançou seu conjunto de algoritmos TurboQuant — uma inovação exc...

