Processamento Samsung em tecnologia de memória na Hot Chips 2023

blog

LarLar / blog / Processamento Samsung em tecnologia de memória na Hot Chips 2023

Jun 07, 2023

Processamento Samsung em tecnologia de memória na Hot Chips 2023

No Hot Chips 2023 (35) a Samsung está falando novamente sobre seu processamento em memória (PIM) com novas pesquisas e uma nova reviravolta. Já cobrimos isso anteriormente, por exemplo, em nosso Hot Chips 33 Samsung

No Hot Chips 2023 (35) a Samsung está falando novamente sobre seu processamento em memória (PIM) com novas pesquisas e uma nova reviravolta. Já abordamos isso anteriormente, por exemplo, em nossos Hot Chips 33 Samsung HBM2-PIM e Aquabolt-XL. Agora, a Samsung está mostrando isso no contexto da IA.

Como isso está sendo feito ao vivo no auditório, desculpe os erros de digitação. Hot Chips é um ritmo louco.

Um dos maiores custos da computação é mover dados de diferentes locais de armazenamento e memória para os mecanismos de computação reais.

Atualmente, as empresas tentam adicionar mais pistas ou canais para diferentes tipos de memória. Isso tem seus limites.

Samsung está discutindo CXL. O CXL ajuda porque permite coisas como redirecionar fios para PCIe para fornecer mais largura de banda de memória. Discutiremos mais sobre dispositivos CXL Tipo 3 no futuro no STH e já os abordamos algumas vezes.

A Samsung está discutindo gargalos do GPT.

A Samsung traçou o perfil das cargas de trabalho vinculadas à memória e à carga computacional do GPT.

Aqui está um pouco mais sobre o trabalho de criação de perfil em termos de utilização e tempo de execução.

A Samsung mostra como partes do pipeline de computação podem ser transferidas para módulos de processamento na memória (PIM).

Fazer o processamento no módulo de memória, em vez do acelerador, economiza a movimentação de dados, reduzindo o consumo de energia e os custos de interconexão.

Enquanto a SK hynix falava sobre GDDR6 para sua solução, a Samsung mostra sua memória de alta largura de banda HBM-PIM. Estaremos mostrando HBM em CPUs Intel Xeon MAX na próxima semana em STH, mas isso não está usando este novo tipo de memória.

Aparentemente, a Samsung e a AMD tinham MI100 com HBM-PIM em vez de apenas PIM padrão para que pudessem construir um cluster para ter o que parece ser um cluster de 12 nós e 8 aceleradores para testar a nova memória.

Veja como o modelo T5-MoE usa HBM-PIM no cluster.

Aqui estão os ganhos de desempenho e eficiência energética.

Uma grande parte disso também é como fazer com que os módulos PIM façam um trabalho útil. Isso requer trabalho de software para programar e utilizar os módulos PIM.

A Samsung espera obter esses módulos de programação padrão integrados.

Aqui está o OneMCC para o estado futuro da computação acoplada à memória, mas isso parece um estado futuro, e não atual.

Parece que a Samsung está exibindo não apenas o HBM-PIM, mas também um LPDDR-PIM. Como tudo hoje, é necessário um rótulo de IA generativa.

Este parece ser mais um conceito do que o HBM-PIM que está sendo usado nos AMD MI100 em um cluster.

Este LPDDR-PIM tem apenas 102,4 GB/s de largura de banda interna, mas a ideia é que manter a computação no módulo de memória significa menor consumo de energia por não ter que transmitir os dados de volta para a CPU ou xPU.

Aqui está a arquitetura com os bancos PIM e bancos DRAM no módulo.

Aqui está a aparência da análise de desempenho e potência nos possíveis módulos LP5-PIM.

Se HBM-PIM e LPDDR-PIM não bastassem, a Samsung está pensando em colocar computação em módulos CXL no PNM-CXL.

A ideia aqui não é apenas colocar memória em módulos CXL Type-3. Em vez disso, a Samsung propõe colocar computação no módulo CXL. Isso pode ser feito adicionando um elemento de computação ao módulo CXL e usando memória padrão ou usando PIM nos módulos e um controlador CXL mais padrão.

Claro, temos uma demonstração de como isso ajuda a IA generativa no lado GPT.

A Samsung possui um cartão CXL-PNM conceitual de 512 GB com até 1,1 TB/s de largura de banda.

Aqui está a pilha de software CXL-PNM proposta pela Samsung.

Aqui estão as economias de energia e o rendimento esperados para cargas de trabalho LLM em grande escala. O CXL geralmente passa por fios também usados ​​para PCIe, então os custos de energia para transmissão de dados são muito altos. Como resultado, há grandes ganhos ao poder evitar essa transferência de dados.

A Samsung também está focada nas reduções de emissões como resultado do acima exposto.

O Google deu hoje uma grande palestra sobre as emissões de CO2 na computação de IA. Planejamos cobrir isso ainda esta semana no STH.