Ponto de vista: como a IA está mudando a maneira como pensamos sobre a memória

Atualização: 6 de agosto de 2023

Ponto de vista: como a IA está mudando a maneira como pensamos sobre a memóriaA maravilha que é a HBM tem feito uma jornada constante nos últimos anos. Desempenho, eficiência de energia e velocidade melhoraram gradativamente ao longo do tempo. Até recentemente, esse progresso era perfeitamente adequado para dar suporte ao ritmo das mudanças tecnológicas durante grande parte da década de 2010.

Mas agora estamos em um ponto em que as coisas precisam mudar. Aplicativos baseados em inteligência artificial, como mecanismos de recomendação, classificação de imagem e processamento de linguagem natural, estão em toda parte - em telefones, alto-falantes inteligentes, veículos, wearables e residências. E isso é apenas IA. Aprendizado de máquina, realidade virtual, jogos de última geração e outros aplicativos intensivos vieram para ficar.

Todas essas aplicações agora estão colocando demandas sem precedentes na HBM, que simplesmente não podem continuar a melhorar no ritmo que essas novas tecnologias precisam. Esses aplicativos não apenas precisam processar grandes quantidades de dados, mas também precisam fazer isso de maneira mais rápida e melhor, e as melhorias precisam ocorrer rapidamente. Algoritmos exigem altas taxas de acesso a grandes capacidades de dados.

Em sistemas tradicionais, a largura de banda da memória e o consumo de energia limitam, em última análise, o desempenho e os recursos dos aplicativos de IA e ML. Então, o que a indústria precisa fazer a partir daqui para apoiar a próxima geração de tecnologia?

PIM para o resgate

A ideia de usar a tecnologia de processamento em memória (PIM) com a HBM tem sido discutida como uma forma de superar as restrições técnicas por mais de 30 anos.

Ao colocar um mecanismo AI otimizado para DRAM dentro de cada banco de memória (uma subunidade de armazenamento), um HBM-PIM adiciona poder de processamento exatamente onde os dados são armazenados - abrindo caminho para o processamento paralelo, reduzindo a quantidade de viagens que os dados precisam fazer .

Para gerentes de TI, arquitetos de sistema de data center e arquitetos de GPU, esse tipo de arquitetura representa uma grande oportunidade. Por exemplo, os engenheiros de software podem escrever comandos simples para aproveitar a unidade de computação programável do HBM-PIM para melhorar a velocidade de cargas de trabalho repetitivas localizadas.

Mais ainda, o HBM-PIM oferece mais do que o dobro do desempenho do sistema do HBM tradicional, ao mesmo tempo que reduz o uso de energia em mais de 60%. E como um grande bônus extra, o HBM-PIM não precisa de nenhum ajuste de hardware ou software, o que significa que os engenheiros podem integrá-lo perfeitamente aos sistemas existentes.

Apesar desses benefícios óbvios, não tem sido uma arquitetura fácil de construir para o setor. Até recentemente, os fabricantes de chips de trabalho precisavam se esforçar para superar os desafios técnicos alguns anos atrás - e, como resultado, o progresso tem sido lento ao longo dos anos.

Porque? O problema com a tecnologia PIM é que, devido à forma como ela vincula memória e lógica, os engenheiros sempre enfrentaram uma compensação entre a densidade de armazenamento em um processo otimizado para memória e Transistor desempenho em um processo otimizado por lógica.

Como resultado, o desempenho e a capacidade dos dispositivos PIM ficaram baixos em comparação com o obstáculo técnico e o custo da integração. E, portanto, prevaleceu a arquitetura tradicional de von Neumann, que usa unidades de processador e memória separadas para realizar milhões de tarefas complexas de processamento de dados. Mas, frustrantemente, essa abordagem de processamento sequencial move os dados para frente e para trás constantemente, causando gargalos ao lidar com volumes cada vez maiores de dados.

Mas há boas notícias. A proliferação de aplicativos de inteligência artificial e aprendizado de máquina revigorou o investimento e o desenvolvimento da tecnologia PIM - simplesmente porque essas tecnologias vieram para ficar e a memória precisa se adaptar para acomodá-las, e não o contrário.

E faz sentido. A tecnologia PIM é a tecnologia perfeita para lidar com cargas de trabalho de AI e ML, com kernels otimizados que reduzem a movimentação de dados mapeando acessos de dados com um alto grau de localidade espacial e temporal para processamento simultâneo nos bancos (paralelos) de uma memória de alto desempenho dispositivo. Ao trabalhar dessa forma, o PIM aborda o gargalo típico da largura de banda da memória da CPU / GPU, melhorando o desempenho e a capacidade geral dos aplicativos de AI e ML.

Avanços no mercado

Por causa do maior investimento e desenvolvimento da tecnologia PIM, o mercado está agora em 2021 vendo o primeiro HBM-PIM totalmente programável de seu tipo para combinar alto desempenho, processamento de dados paralelo e DRAM, tudo na mesma peça de silício.

Esses novos HBM-PIMs, baseados na especificação HBM2 do padrão JEDEC e aprimorados com a arquitetura PIM, já estão provando ser um enorme sucesso no atendimento às demandas de aplicações de IA - e como resultado, os fabricantes já estão planejando incluir a tecnologia PIM na futura tecnologia HBM3 .

Na linha do tempo de Semicondutores inovação, parece que o mundo finalmente ultrapassou o ponto em que a largura de banda é o principal fator limitante no desempenho de IA e ML. Agora podemos realmente começar a ver essas tecnologias incríveis florescerem.

Richard Walsh trabalha na divisão de memória da Samsung Semicondutores Europa nos últimos 25 anos, abrangendo DRAM, NAND e NOR flash, entre outras tecnologias. Ele é bacharel em Engenharia em Eletrônica, Hardware e Software de Computador pela Universidade de Limerick.

Veja também: As tecnologias que impulsionam o futuro da inteligência artificial