Mixtral 8x7B: LLM open source supera o GPT3.5 em diversos benchmarks

Mixtral 8x7B

No dinâmico mundo da inteligência artificial (IA), a inovação constante não é apenas uma aspiração, mas uma necessidade. Neste contexto, o lançamento do “Mixtral 8x7B” pela startup francesa Mistral AI representa um marco significativo. Este modelo de linguagem de última geração, uma mistura esparsa de especialistas (SMoE) com pesos abertos, não apenas desafia, mas potencialmente supera gigantes estabelecidos como o GPT-3.5 da OpenAI e o Llama 2 da Meta em termos de desempenho.

O que torna o Mixtral 8x7B particularmente notável não é apenas sua arquitetura avançada ou sua eficiência impressionante, mas a maneira como foi introduzido ao mundo. A Mistral AI, com uma abordagem distinta e quase hacker, optou por lançar seu modelo de linguagem de ponta de maneira não convencional, através de um link de torrent compartilhado nas redes sociais. Este movimento contrasta fortemente com o alarde típico associado a lançamentos de IA, destacando a filosofia inovadora e desafiadora da Mistral AI.

Adotando uma arquitetura “mixture of experts”, o Mixtral 8x7B integra vários modelos especializados, cada um focado em diferentes tarefas, trazendo uma combinação de profundidade e amplitude de uma rede neural em grande escala com a velocidade e eficiência de custo de um modelo muito menor. Este equilíbrio entre escala e eficiência não é apenas um feito técnico; ele simboliza um novo horizonte na modelagem de IA, onde o poder computacional e a acessibilidade não são mutuamente exclusivos.

Em termos de capacidades, o Mixtral 8x7B impressiona com sua inferência seis vezes mais rápida em comparação com modelos como o Llama 2 70B, graças à sua arquitetura esparsa e a oito diferentes blocos feedforward no Transformer. Isso, junto com seu suporte a múltiplos idiomas e excelente geração de código, reafirma sua posição como um dos modelos mais promissores no panorama atual da IA.

A introdução deste modelo inovador no mercado, juntamente com a recente rodada de financiamento de $415 milhões da Mistral AI, que elevou sua avaliação para cerca de $2 bilhões, sinaliza uma mudança na maré. O Mixtral 8x7B não é apenas um produto de uma empresa em ascensão; é um testemunho do potencial inexplorado e da crescente importância dos modelos de Mistura de Especialistas na paisagem da IA.

Com esta introdução, nos preparamos para mergulhar mais fundo nos aspectos técnicos, capacidades e implicações do Mixtral 8x7B, um modelo que não apenas redefinirá benchmarks, mas também poderá reformular nossa compreensão e interação com a inteligência artificial.

 

Visão Geral do Mixtral 8x7B

O Mixtral 8x7B, desenvolvido pela Mistral AI, é um avanço notável no campo dos modelos de linguagem. Classificado como um modelo SMoE (sparse mixture of experts) de alta qualidade, ele se destaca por sua arquitetura única e pesos abertos, oferecendo uma nova dimensão de eficiência e flexibilidade. Licenciado sob o Apache 2.0, o modelo é uma adição significativa ao conjunto de ferramentas de código aberto disponíveis para desenvolvedores e pesquisadores de IA.

Este modelo representa uma nova geração de modelos de linguagem, construído sobre a ideia de “mistura de especialistas”. Essencialmente, o Mixtral 8x7B emprega múltiplos submodelos especializados, cada um focado em diferentes aspectos de uma tarefa.

Uma rede “router” processa um token de entrada e seleciona apenas alguns especialistas relevantes para essa tarefa, ao invés de utilizar todos os pesos. Isso resulta em um modelo que combina a profundidade e amplitude de uma rede neural em grande escala com a velocidade e eficácia em termos de custo de um modelo muito menor.

O Mixtral 8x7B foi projetado com um total impressionante de 56 bilhões de parâmetros, mas graças ao seu design inovador de mistura de especialistas, ele usa apenas 12 bilhões de parâmetros por token. Esta abordagem permite uma inferência eficiente e rápida, comparável a um modelo padrão de 12B, o que o torna não apenas poderoso em termos de capacidades, mas também altamente eficiente em termos de recursos.

Além disso, a abordagem de lançamento do modelo foi notavelmente distinta. A Mistral AI optou por compartilhar o modelo de maneira não convencional, disponibilizando-o através de um link de torrent em redes sociais, demonstrando uma abordagem inovadora e acessível para o compartilhamento de tecnologia.

Combinando essas características inovadoras, o Mixtral 8x7B não é apenas uma ferramenta poderosa para desenvolvedores e pesquisadores de IA, mas também um exemplo claro da evolução e do potencial dos modelos de linguagem em código aberto.

 

Performance e Eficiência

Um dos aspectos mais impressionantes do Mixtral 8x7B é sua notável eficiência em inferência. O modelo alcança uma velocidade de inferência seis vezes mais rápida em comparação com modelos concorrentes, como o Llama 2 70B. Isso é atribuído à sua arquitetura esparsa e aos oito diferentes blocos feedforward no Transformer. Tal velocidade em inferência não só melhora a performance do modelo em tarefas diversas, mas também representa um avanço significativo na eficiência computacional​​​​.

Performance e Eficiência mistral
Performance e Eficiência mistral

A eficiência do Mixtral 8x7B não se limita apenas à sua velocidade. O modelo foi estruturado para combinar a profundidade e complexidade de uma rede neural de grande escala com a eficácia em termos de custo de um modelo menor.

Esta abordagem torna o Mixtral 8x7B um modelo altamente eficiente, capaz de executar tarefas complexas de IA sem exigir recursos computacionais extensivos. Em termos práticos, isso significa que o Mixtral 8x7B não apenas se destaca em benchmarks padrão, mas também oferece uma solução mais acessível e sustentável para a computação em IA​​.

Além disso, essa eficiência abre novas possibilidades para a aplicação de IA em dispositivos com recursos limitados. Por exemplo, sua capacidade de operar em máquinas sem GPUs dedicadas, incluindo os mais recentes computadores Apple Mac, torna a tecnologia AI mais acessível e versátil.

Esta característica é particularmente significativa, pois democratiza o acesso à tecnologia AI avançada, permitindo que um espectro mais amplo de usuários e organizações aproveite as capacidades do Mixtral 8x7B​​​​.

Em resumo, a performance e eficiência do Mixtral 8x7B não são apenas medidas em termos de sua capacidade de superar outros modelos em benchmarks, mas também em sua habilidade de trazer a tecnologia de IA avançada para uma gama mais ampla de aplicações e usuários.

 

Capacidades Multilinguísticas e de Geração de Código

O Mixtral 8x7B destaca-se não apenas pela sua eficiência, mas também pela sua versatilidade em linguagens e habilidades de geração de código. Este modelo oferece suporte a idiomas como inglês, francês, italiano, alemão e espanhol, proporcionando uma base sólida para aplicações multilíngues. Esta capacidade multilinguística é especialmente valiosa em um contexto globalizado, onde a demanda por soluções de IA que possam operar em diferentes idiomas é crescente​​​​.

Capacidades Multilinguísticas e de Geração de Código
Capacidades Multilinguísticas e de Geração de Código

Além disso, o Mixtral 8x7B demonstra um forte desempenho em geração de código. Isso o torna uma ferramenta indispensável para o desenvolvimento de software e outras aplicações de programação. Seu desempenho nesta área é reforçado por sua capacidade de processar contextos longos, de até 32 mil tokens, o que é crucial para entender e gerar códigos complexos e extensos. Essa habilidade o coloca em uma posição de destaque, especialmente quando comparado a outros modelos no mercado​​​​.

Essas capacidades, combinadas com sua acessibilidade como um modelo de código aberto, abrem novas portas para inovações em diversas áreas, desde a tradução de idiomas até o desenvolvimento avançado de software. O Mixtral 8x7B, portanto, não é apenas um exemplo de avanço tecnológico em IA, mas também uma ferramenta prática e versátil para uma ampla gama de aplicações.

 

Arquitetura Mixture of Experts do Mixtral 8x7B

A arquitetura do Mixtral 8x7B é um exemplo exemplar de inovação em modelos de linguagem, adotando uma abordagem de “mixture of experts” (mistura de especialistas). Esta abordagem envolve a utilização de múltiplos submodelos especializados, cada um responsável por diferentes aspectos de uma tarefa.

Quando um token de entrada é processado, uma rede “router” seleciona apenas alguns desses especialistas relevantes, em vez de utilizar todos os pesos disponíveis. Isso resulta em um modelo que combina a profundidade e complexidade de uma rede neural em grande escala com a velocidade e eficiência de um modelo menor​​​​.

O Mixtral 8x7B foi projetado com um total de 56 bilhões de parâmetros, mas utiliza apenas 12 bilhões de parâmetros por token graças ao seu design inovador. Esta estrutura permite uma inferência eficiente e rápida, tornando-o comparável em performance a um modelo padrão de 12B. Tal design representa um equilíbrio entre poder computacional e eficiência de recursos, um avanço significativo na modelagem de IA que potencializa tanto a profundidade quanto a acessibilidade​​.

Esta arquitetura única não apenas melhora a eficiência do modelo, mas também sua adaptabilidade e precisão em tarefas específicas, tornando o Mixtral 8x7B uma ferramenta versátil e poderosa no campo da inteligência artificial.

 

Benchmarking e Comparação com Outros Modelos

O Mixtral 8x7B destaca-se significativamente em benchmarks, superando ou igualando o desempenho de modelos renomados como o GPT-3.5 e Llama 2 70B. Essas comparações são fundamentais para entender o lugar do Mixtral 8x7B no panorama da IA. O modelo exibe uma notável verdade (73,9% no benchmark TruthfulQA) e menor viés (no benchmark BBQ), além de apresentar mais sentimentos positivos no benchmark BOLD, comparado ao Llama 2​​.

Além disso, o Mixtral 8x7B também se sobressai em termos de performance geral, com uma capacidade de processamento rápido e eficiente, destacando-se principalmente na geração de linguagem em contextos longos e na geração de código​​​​.

Esses resultados ressaltam o sucesso do modelo em oferecer um equilíbrio entre profundidade de conhecimento e eficiência operacional, estabelecendo o Mixtral 8x7B como um concorrente formidável no campo de modelos de linguagem.

 

Segurança e Viés no Mixtral 8x7B

A segurança e a imparcialidade são considerações cruciais em modelos de linguagem, e o Mixtral 8x7B mostra avanços notáveis nessas áreas. O modelo exibe uma maior verdade, alcançando 74% no benchmark TruthfulQA, e apresenta menos viés, conforme avaliado pelo benchmark BBQ.

Estas características indicam uma base sólida em termos de segurança e imparcialidade, embora ajustes e refinamentos adicionais possam melhorar ainda mais esses aspectos​​.

Comparado a modelos como o Llama 2, o Mixtral se destaca por sua maior veracidade e menor tendência a viés, estabelecendo um novo padrão para modelos de linguagem em termos de responsabilidade e confiabilidade​​.

 

Mixtral 8x7B Instruct: Otimização para Instruções Precisas

Além do modelo principal, a Mistral AI também desenvolveu uma variante específica conhecida como Mixtral 8x7B Instruct. Este modelo foi otimizado por meio de ajustes supervisionados e Otimização de Preferência Direta (DPO) para seguir instruções com precisão.

O Mixtral 8x7B Instruct alcança uma pontuação impressionante de 8.30 em MT-Bench, rivalizando com o desempenho do GPT-3.5 e consolidando sua posição como um dos principais modelos de pesos abertos em sua classe​​​​.

Esta variante do Mixtral 8x7B demonstra a flexibilidade do modelo principal e a habilidade da Mistral AI em adaptar sua tecnologia para necessidades específicas, oferecendo uma ferramenta ainda mais direcionada para aplicações que requerem aderência rigorosa às instruções.

 

Impacto no Acesso à Tecnologia de IA

Um aspecto crucial do Mixtral 8x7B é sua contribuição para democratizar o acesso à tecnologia de IA avançada. Sua capacidade de funcionar em dispositivos sem GPUs dedicadas, como os mais recentes computadores Apple Mac, torna a IA mais acessível e prática para um público mais amplo.

Esta característica é particularmente importante, pois permite que uma gama diversificada de usuários e organizações explore as capacidades avançadas do Mixtral 8x7B sem a necessidade de hardware especializado​​​​.

Além disso, a disponibilidade do Mixtral 8x7B como um modelo de código aberto, em contraste com a abordagem fechada de outros modelos como o GPT-3.5 da OpenAI, alinha-se com o compromisso da Mistral AI com um “acesso aberto, responsável e descentralizado à tecnologia”. Este acesso aberto não apenas estimula a inovação e a colaboração, mas também promove uma maior equidade no campo da IA​​.

 

Conclusão

O Mixtral 8x7B, desenvolvido pela Mistral AI, representa um marco significativo no campo da inteligência artificial. Com sua arquitetura inovadora de “mixture of experts”, desempenho notável em benchmarks, e capacidades multilinguísticas e de geração de código, este modelo redefine o que é possível em termos de eficiência e acessibilidade na IA.

Sua abordagem aberta e flexível ao desenvolvimento e distribuição de tecnologia AI não só democratiza o acesso a esta ferramenta poderosa, mas também estimula uma maior inovação e colaboração na comunidade de IA​​​​​​.

Apesar de suas muitas vantagens, o Mixtral 8x7B também traz consigo desafios e preocupações, especialmente no que diz respeito à segurança e ao viés, sublinhando a necessidade contínua de equilibrar inovação e responsabilidade ética na IA​​.

Em resumo, o Mixtral 8x7B não é apenas uma conquista técnica, mas também um catalisador para futuras inovações e debates no mundo da IA.

 

Fontes:

Mistral AI’s Mixtral 8x7B Surpasses GPT-3.5, Shaking Up The AI World – Dataconomy

Mistral Unveils Mixtral 8x7B: A Leading Open SMoE Model (maginative.com)

Mixtral of experts | Mistral AI | Open source models

Sumário

Picture of Janderson de Sales

Janderson de Sales

Sou um Especialista WordPress, com formação em Tecnologia da Informação e Professor de Física pela Universidade Federal de Rondônia. Trabalho com produção de conteúdo para blogs, desenvolvimento e manutenção de sites WordPress, e sou um entusiasta de tecnologias de inteligência artificial. Tenho conhecimento em produção de imagens de alta qualidade em plataformas de IAs generativas de imagens e possuo habilidades em SEO e desenvolvimento web. Estou comprometido em oferecer soluções inovadoras e eficazes para atender às necessidades do mercado digital.