MosaicML Lança Modelos de Linguagem de Código Aberto para IA Generativa

LLM MPT-30B: MosaicML Lança Modelos de Linguagem de Código Aberto para IA Generativa

A inteligência artificial generativa está passando por uma revolução empolgante com o lançamento dos modelos de linguagem MPT-30B pela MosaicML. Essa inovação está transformando a forma como empresas e desenvolvedores abordam a geração automática de texto, permitindo aplicações mais avançadas e eficientes. Neste artigo, exploraremos os detalhes dos modelos MPT-30B, seu desempenho impressionante, os benefícios para os negócios e como os desenvolvedores podem aproveitar essa tecnologia para criar soluções inovadoras.

Imagem representando a importância da mentoria em ciência de dados para alcançar o sucesso profissional

A Revolução dos Modelos de Linguagem MPT-30B

A MosaicML recentemente anunciou o lançamento de sua série MPT (MosaicML Pretrained Transformer), que inclui os avançados modelos MPT-30B Base, Instruct e Chat. Esses modelos representam um avanço significativo em relação ao estado da arte em inteligência artificial generativa. Foram treinados com uma janela de contexto de 8 mil tokens, superando em qualidade o icônico GPT-3. Esses modelos podem ser usados tanto para inferência direta quanto como ponto de partida para a construção de modelos proprietários personalizados. Um dos destaques é que o treinamento do MPT-30B utilizou a potência dos aceleradores H100 da NVIDIA, agora disponíveis para os clientes da MosaicML.

Desempenho Surpreendente e Aplicações Amplicadas

Os modelos MPT da MosaicML têm ganhado reconhecimento por sua qualidade e desempenho. Desde o lançamento dos modelos MPT-7B (Base, Instruct, Chat, StoryWriter) em maio de 2023, eles foram baixados mais de 3,3 milhões de vezes. Agora, com o lançamento dos modelos MPT-30B, a MosaicML oferece modelos maiores e de maior qualidade, desbloqueando uma gama ainda mais ampla de aplicações.

Uma conquista notável é que o MPT-30B superou o GPT-3 em qualidade, mesmo usando cerca de 1/6 do número de parâmetros. Enquanto o GPT-3 possui 175 bilhões de parâmetros, o MPT-30B possui apenas 30 bilhões. Isso não apenas torna o MPT-30B mais acessível para execução em hardware local, mas também reduz significativamente os custos de implantação para inferência. A partir de agora, desenvolvedores e empresas podem criar e implantar modelos de qualidade comparável ao GPT-3 a um custo muito mais acessível.

Além disso, o MPT-30B foi treinado em sequências mais longas, com até 8.000 tokens, tornando-o ideal para aplicações empresariais que envolvem grandes volumes de dados. Sua capacidade de lidar com sequências mais longas o torna uma solução poderosa para tarefas como respostas detalhadas a perguntas, sumarização de textos extensos e muito mais.

Aproveitando a Potência das GPUs H100

Uma das características distintivas do MPT-30B é que ele é o primeiro LLM conhecido treinado em GPUs NVIDIA H100. Isso foi possível graças à plataforma MosaicML, que oferece flexibilidade e confiabilidade excepcionais. A equipe da MosaicML conseguiu transferir com sucesso o treinamento do modelo MPT-30B de um cluster A100 original para um novo cluster H100, resultando em um aumento significativo na eficiência de processamento por GPU. Isso não apenas acelerou o tempo de treinamento, mas também reduziu os custos, tornando a tecnologia de ponta mais acessível para empresas de todos os tamanhos.

Viabilizando Novas Aplicações de IA

O sucesso dos modelos MPT da MosaicML é evidente nas histórias de empresas que já estão utilizando essa tecnologia para impulsionar suas aplicações de IA. A Replit, por exemplo, uma das principais IDEs baseadas na web, foi capaz de construir um novo modelo de geração de código em apenas três dias, combinando seus dados proprietários com a plataforma de treinamento da MosaicML. O modelo personalizado resultante, replit-code-v1-3b, aprimorou significativamente o desempenho do produto GhostWriter em termos de velocidade, custo e qualidade do código.

A Scatter Lab, uma startup de IA inovadora, treinou seu próprio modelo MPT do zero para alimentar um chatbot personalizado que pode realizar conversas envolventes e naturais em inglês e coreano. Isso abriu novas possibilidades para experiências de chat mais avançadas e eficazes para seus 1,5 milhão de usuários.

Até mesmo empresas de grande porte, como a Navan, estão aproveitando os benefícios dos modelos MPT da MosaicML. A Navan está construindo seus próprios LLMs personalizados com base nos modelos de fundação da MosaicML, impulsionando experiências como seu agente de viagens virtual e seu agente de inteligência empresarial conversacional.

Acesso e Implementação Simplificados

A MosaicML torna a adoção dos modelos MPT-30B ainda mais fácil para os desenvolvedores. Os modelos são totalmente de código aberto e podem ser baixados através do HuggingFace Hub. Isso permite que os desenvolvedores ajustem os modelos de acordo com seus dados e necessidades específicas. Além disso, a MosaicML oferece um serviço gerenciado, o MPT-30B-Instruct, que simplifica a implantação do modelo para inferência, economizando tempo e recursos. Esse serviço é uma opção econômica, com preços a partir de $0,005 por 1.000 tokens, tornando-o até 6 vezes mais barato do que soluções comparáveis.

Conclusão

Os modelos de linguagem MPT-30B da MosaicML representam um avanço emocionante na inteligência artificial generativa. Com sua qualidade superior, eficiência de treinamento e custos acessíveis, esses modelos têm o potencial de transformar a forma como abordamos a geração de texto automática. Empresas de todos os setores podem se beneficiar desses modelos para criar soluções inovadoras e melhorar a eficiência de suas aplicações de IA. Com os modelos MPT-30B, a MosaicML está impulsionando uma nova era de aplicações de IA generativa.