MiniMax lança MSA: atenção esparsa treinada em modelo de 109B parâmetros com 3 trilhões de tokens
A MiniMax acaba de lançar o MSA (MiniMax Sparse Attention) , um novo mecanismo de atenção esparsa que resolve um dos gargalos…
1 publicações encontradas
A MiniMax acaba de lançar o MSA (MiniMax Sparse Attention) , um novo mecanismo de atenção esparsa que resolve um dos gargalos…