Microsoft Lança Modelos Open-Source Phi-3.5: Avanços em Desenvolvimento de AI Multimodal e Raciocínio

Microsoft acaba de lançar três novos modelos open-source na série Phi-3.5, otimizados para raciocínio, processamento multimodal e análise de imagem e vídeo. Com licenciamento MIT, esses modelos prometem revolucionar o desenvolvimento de AI, superando rivais como GPT-4 e Llama em benchmarks específicos.

Márcio Rocon

Última atualização: 02/09/2024

Microsoft lança modelos Phi-3.5 de código aberto para desenvolvimento avançado de IA

A Microsoft recentemente fez ondas na comunidade de IA ao lançar três novos modelos de IA de código aberto sob sua série Phi-3.5: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct e Phi-3.5-vision-instruct. Esses modelos, licenciados sob o MIT, são projetados para auxiliar desenvolvedores em uma variedade de tarefas, como raciocínio, processamento multilíngue e análise de imagem/vídeo.

Vamos analisar o que faz esses modelos se destacarem.

Phi-3.5-Mini-Instruct: Pequeno, mas poderoso

O modelo Phi-3.5-mini-instruct tem um impacto enorme com seus 3,82 bilhões de parâmetros. Ele é otimizado para tarefas básicas e de raciocínio rápido, especialmente em ambientes onde a memória e os recursos computacionais são limitados. Isso o torna ideal para tarefas como geração de código, resolução de problemas matemáticos e raciocínio baseado em lógica.

Embora seja considerado um modelo “mini”, não se deixe enganar pelo tamanho. O Phi-3.5-mini-instruct supera modelos maiores como o Llama-3.1-8B-instruct e o Mistral-7B-instruct da Meta em benchmarks como o RepoQA, que mede a compreensão de código de contexto longo. Este modelo é todo sobre eficiência sem comprometer o desempenho.

Comparação do modelo Phi-3.5

Modelo	Parâmetros	Uso primário	Duração do treinamento	Hardware de treinamento	Principais características
Phi-3.5-mini-instruct	3,82 bilhões	Raciocínio básico, geração de código	10 dias	512 GPUs H100-80G	Otimizado para ambientes restritos, supera modelos maiores
Phi-3.5-MoE-instruct	41,9 bilhões	Raciocínio complexo, sensível ao contexto	23 dias	512 GPUs H100-80G	Arquitetura MoE para compreensão profunda
Phi-3.5-visão-instruct	4,15 bilhões	Análise de imagem/vídeo, TextVQA	6 dias	256 GPUs A100-80G	Capacidades multimodais com contexto de token de 128K

Para mais detalhes, visite o Blog de IA da Microsoft.

Phi-3.5-MoE-Instruct: O campeão dos pesos pesados

O próximo é o modelo Phi-3.5-MoE-instruct, um peso pesado em termos de parâmetros e capacidades. Ostentando 41,9 bilhões de parâmetros, este modelo utiliza uma arquitetura de mistura de especialistas (MoE). A genialidade do MoE está em sua capacidade de ativar diferentes parâmetros com base na entrada, permitindo que o modelo lide com tarefas de raciocínio mais complexas.

Em vários benchmarks, o Phi-3.5-MoE-instruct supera concorrentes maiores como o Gemini 1.5 Flash do Google. Este modelo é uma potência para aplicativos que exigem compreensão e tomada de decisões profundas e com reconhecimento de contexto. Se seu projeto exige recursos sofisticados de IA, este modelo é a opção ideal.

Phi-3.5-Vision-Instruct: Mestre em Tarefas Multimodais

O modelo Phi-3.5-vision-instruct é a resposta da Microsoft à crescente necessidade de IA que possa processar perfeitamente texto e imagens. Com 4,15 bilhões de parâmetros, este modelo se destaca em tarefas como compreensão de imagens, reconhecimento óptico de caracteres (OCR) e sumarização de vídeo.

O que diferencia o Phi-3.5-vision-instruct é sua capacidade de lidar com tarefas visuais complexas e multiframe, graças ao seu comprimento de contexto de token de 128K. Ele é particularmente forte em tarefas como TextVQA e ScienceQA, tornando-o uma escolha excelente para qualquer pessoa que trabalhe em campos que exijam análise visual de alta qualidade.

Como os modelos Phi-3.5 foram treinados

Todos os três modelos da série Phi-3.5 vêm com pedigrees de treinamento impressionantes. O Phi-3.5-mini-instruct foi treinado em 3,4 trilhões de tokens ao longo de 10 dias usando 512 GPUs H100-80G. O modelo Phi-3.5-MoE-instruct, por outro lado, processou 4,9 trilhões de tokens ao longo de 23 dias. Finalmente, o modelo Phi-3.5-vision-instruct foi treinado em 500 bilhões de tokens ao longo de seis dias.

Esses rigorosos processos de treinamento permitiram que os modelos Phi-3.5 superassem outros modelos de IA líderes, incluindo o GPT-4 da OpenAI, em vários cenários. Isso os torna uma opção altamente competitiva para desenvolvedores que buscam integrar IA de ponta em seus aplicativos.

Reações da comunidade: o que os especialistas estão dizendo?

A comunidade de IA tem falado sobre o lançamento desses modelos, particularmente devido ao seu desempenho em tarefas multilíngues e de visão. Nas mídias sociais, especialistas têm sido rápidos em apontar as implicações práticas desses modelos em aplicações do mundo real.

Por exemplo, Turan Jafarzade PhD comentou no LinkedIn:

“Essas vantagens posicionam o Phi-3.5 SLM (small language model) como um modelo competitivo para aplicações empresariais onde eficiência e escalabilidade são críticas.”

Outro usuário, Danny Penrose, observou:

“Desenvolvimento impressionante! A capacidade de converter Phi-3.5 para a arquitetura Llama sem perda de desempenho abre algumas possibilidades interessantes para otimização de modelos. Como você vê isso impactando a adoção mais ampla desses modelos em aplicações do mundo real?”

Esses sentimentos refletem um interesse crescente em como os modelos Phi-3.5 podem ser aproveitados tanto para fins de pesquisa quanto comerciais.

Perguntas frequentes

1. O que torna os modelos Phi-3.5 da Microsoft diferentes de outros modelos de IA?

Os modelos Phi-3.5 se destacam devido à sua arquitetura eficiente e desempenho em tarefas específicas. Por exemplo, o Phi-3.5-mini-instruct é otimizado para ambientes com recursos computacionais limitados, enquanto o Phi-3.5-MoE-instruct usa uma arquitetura de mistura de especialistas para tarefas de raciocínio profundo.

2. Posso usar esses modelos para projetos comerciais?

Sim, os modelos Phi-3.5 são lançados sob a licença MIT, permitindo uso comercial e não comercial.

3. Como esses modelos se saem em comparação a outros como GPT-4 ou Llama?

Em vários benchmarks, os modelos Phi-3.5 superaram equivalentes maiores como GPT-4 e Llama, particularmente em tarefas como raciocínio, compreensão de código e análise multimodal.

4. Quais são os requisitos de sistema para usar esses modelos?

Dadas suas capacidades avançadas, esses modelos exigem recursos computacionais substanciais, especialmente o modelo Phi-3.5-MoE-instruct, que se beneficia de um alto número de GPUs durante o treinamento e a implantação.

Ao alavancar esses modelos, os desenvolvedores podem expandir os limites do desenvolvimento de IA, lidando com tarefas complexas com eficiência e precisão. Quer você esteja lidando com geração de código, análise de dados visuais ou raciocínio profundo, a série Phi-3.5 oferece uma solução robusta para elevar seus projetos de IA.

Tags: Desenvolvimento de AI, Inovação, Machine Learning, Microsoft, MIT License, Modelos de AI, Multimodal AI, Open-Source, Phi-3.5, Tecnologia