O Microsoft Teams ajuda estudantes e profissionais em todo o mundo a acompanhar reuniões online com legendas ao vivo e transcrição em tempo real geradas por IA — recursos que estão recebendo um impulso das tecnologias de computação NVIDIA AI para treinamento e Servidor de Inferência Triton da NVIDIA para inferência de modelos de reconhecimento de fala.
O Teams possibilita a comunicação em todo o mundo a quase 250 milhões de usuários ativos todos os meses. As conversas em equipes são legendadas e transcritas em 28 idiomas usando os Serviços Cognitivos do Microsoft Azure, um processo que em breve executará inferência de redes neurais intensiva em computação em GPUs NVIDIA.
O recurso de legendas ao vivo ajuda os participantes a acompanhar a conversa em tempo real, enquanto recursos de transcrição contribuem com os participantes a revisitarem insights ou acompanharem reuniões perdidas.
A legenda em tempo real pode ser especialmente útil para participantes surdos ou com dificuldade de audição, ou que são falantes não nativos do idioma usado em uma reunião.
O Teams usa os Serviços Cognitivos para otimizar modelos de reconhecimento de fala usando o software de inferência de código aberto NVIDIA Triton.
O Triton permite que os Serviços Cognitivos ofereçam suporte a modelos de linguagem altamente avançados, fornecendo resultados de fala para texto altamente precisos e personalizados em tempo real, com uma latência muito baixa. A adoção do Triton garante que as GPUs NVIDIA que executam esses modelos de fala-texto sejam usadas em todo o seu potencial, reduzindo o custo, ao oferecer aos clientes maior rendimento utilizando menos recursos computacionais.
A tecnologia de reconhecimento de fala subjacente está disponível como uma API em Serviços Cognitivos. Os desenvolvedores podem usá-la para personalizar e executar suas próprias aplicações para transcrição de chamadas de atendimento ao cliente, controles de casa inteligente ou assistentes de IA para socorristas.
A IA presente em cada palavra
As transcrições e legendas do Teams, geradas pelos Serviços Cognitivos, convertem fala em texto, bem como identificam a pessoa que está falando. O modelo reconhece jargões, nomes e outros contextos de reunião para melhorar a precisão da legenda.
“Modelos de IA como esses são incrivelmente complexos, exigindo dezenas de milhões de parâmetros de redes neurais para fornecer resultados precisos em dezenas de idiomas diferentes”, explica Shalendra Chhabra, gerente principal da PM para Chamadas e Reuniões em Teams e Dispositivos da Microsoft.” Mas quanto maior for o modelo, mais difícil é executar de forma econômica em tempo real.”
O uso de GPUs NVIDIA e software Triton ajuda a Microsoft a alcançar alta precisão com poderosas redes neurais sem sacrificar a baixa latência: a conversão fala-texto ainda é transmitida em tempo real.
Quando a transcrição é ativada, os indivíduos também podem facilmente acompanhar o material perdido depois que uma reunião for concluída.
O diretor da divisão Enterprise da NVIDIA para América Latina, Marcio Aguiar, ressalta que essa tecnologia contribui para o dia de diversos profissionais. “Com a pandemia da Covid-19, muitos trabalhadores ainda estão em home office e participam de reuniões com pessoas de outros países diariamente. Essa inovação permite um maior entendimento do conteúdo abordado na reunião, além, claro, das pessoas com dificuldades auditivas”, finaliza.
Vantagens triplas das características do Triton impulsionam a eficiência
O NVIDIA Triton ajuda a simplificar a implantação do modelo de IA e desbloquear inferência de alto desempenho. Os usuários podem até mesmo desenvolver backends personalizados sob medida para suas aplicações. Alguns dos principais recursos de software que permitem que legendas e recursos de transcrição do Microsoft Teams sejam escalados para um número maior de reuniões e usuários incluem:
- Inferência de streaming: a NVIDIA e os Serviços Cognitivos da Azure trabalharam juntos para personalizar a aplicação de voz para texto com um novo recurso de inferência de streaming com estado que pode acompanhar o contexto da fala anterior para aumentar a precisão da legenda sensível à latência.
- Envio em lotes dinâmico: o tamanho do lote é o número de amostras inseridas que uma rede neural processa simultaneamente. Com o lote dinâmico no Triton, as solicitações de inferência única são automaticamente combinadas para formar um lote, usando melhor os recursos da GPU sem impactar a latência do modelo.
- Execução simultânea do modelo: legendas e transcrições em tempo real exigem a execução de vários modelos de deep learning ao mesmo tempo. O Triton permite que os desenvolvedores façam isso simultaneamente em uma única GPU, mesmo com modelos que usam diferentes frameworks de deep learning.
Comece a usar recursos de fala para texto em suas aplicações e saiba mais sobre como o software de Servidor de Interferência NVIDIA Triton ajuda o Teams a implantar modelos de IA em escala.
Clique aqui e assista à apresentação do CEO da NVIDIA, Jensen Huang, no NVIDIA GTC.
Descubra mais sobre Andrezza Barros
Assine para receber nossas notícias mais recentes por e-mail.