Na Box, passamos muito tempo testando a IA da Box com novos modelos em dados não estruturados para ver no que eles têm um bom desempenho em áreas reais de trabalho do conhecimento. Como vimos nos benchmarks, o GPT-5 oferece um salto significativo na capacidade em relação ao GPT-4.1 em raciocínio, matemática, lógica, codificação e outras áreas de trabalho. Aqui estão alguns exemplos de onde essas melhorias entram em jogo no mundo real: *GPT 5 contextualiza melhor as informações. Ao fazer a extração de dados como o valor final em USD em uma fatura sem etiquetas de moeda, mas com um endereço em Londres, o GPT 5 responde corretamente precisando de uma taxa de conversão de USD para GBP. Em comparação, o GPT 4.1 viu a fatura final e a devolveu, assumindo a moeda (incorretamente). * GPT-5 oferece melhor análise multimodal. Para o arquivamento anual de uma empresa pública, o GPT-5 é solicitado a isolar uma célula em uma tabela de uma imagem que mostra mudanças nos componentes patrimoniais da empresa. O topo da tabela esclarece que todos os valores de ações estão em milhares, e o GPT-5 afirma claramente essa conversão, enquanto o GPT-4.1 não, ficando confuso, pois a tabela diz ações e a legenda diz ações. * O GPT-5 tem melhor desempenho com altos níveis de complexidade de prompt e dados. Ao fazer a extração de dados em um currículo para todas as datas de início de trabalho, nomes de cargos e nomes de empregadores, o GPT-5 foi capaz de extrair todos os dados, enquanto o GPT-4.1 parece ficar sobrecarregado e não extraiu os mesmos campos, dado o tamanho do prompt e a complexidade do documento. * GPT-5 é muito mais claro e explícito em suas respostas. Em um acordo de terceirização com 6 serviços diferentes discutidos explicitamente, quando questionado sobre "os 5 serviços específicos do contrato", o GPT-5 retornará os 5 primeiros e perguntará se foi intencional que o sexto não tenha sido questionado. Em comparação, o GPT-4.1 simplesmente retornou os 5 primeiros sem mais ressalvas, o que pode levar a uma confusão posterior para o usuário. * GPT-5 é melhor na interpretação de dados em campos complexos. Para um gráfico de citometria de fluxo, normalmente usado em imunologia, o GPT-5 identificou corretamente uma alta proporção de células mortas e forneceu causas plausíveis que podem levar à situação, enquanto o GPT-4.1 forneceu um raciocínio mínimo, precisando de mais confirmação para ter suposições de dados brutos. * O GPT-5 é mais capaz de identificar inconsistências no código. Quando solicitado a identificar problemas em um determinado arquivo de código python, embora o GPT-5 e o 4.1 possam identificar erros reais que levam ao mau funcionamento, apenas o GPT-5 foi capaz de inferir problemas mais sutis, como imprimir a variável incorreta quando isso não faria sentido no contexto do programa. Essas melhorias em matemática, raciocínio, lógica e qualidade das respostas em janelas de contexto mais longas são incrivelmente úteis para os usuários finais no trabalho diário, mas aparecerão ainda mais com agentes de IA de execução mais longa, especialmente quando não houver nenhum humano no circuito para verificar as informações em cada etapa. É incrível ver essas melhorias continuarem chegando na última safra de modelos de IA, pois isso levará a agentes de IA capazes de serem usados em áreas de trabalho cada vez mais críticas.
77,98K