DApp Store | Web3 Hub for hendelser og spill

Populære emner

Aaron Levie

administrerende direktør @box - slipp løs kraften i innholdet ditt med AI

Hos Box bruker vi mye tid på å teste Box AI med nye modeller på ustrukturerte data for å se hva de presterer godt på i reelle områder av kunnskapsarbeid. Som vi har sett fra referansene, tilbyr GPT-5 et meningsfullt hopp i kapasitet i forhold til GPT-4.1 innen resonnement, matematikk, logikk, koding og andre arbeidsområder. Her er noen eksempler på hvor disse forbedringene spiller inn i den virkelige verden: *GPT 5 kontekstualiserer informasjon bedre. Når du utfører datautvinning som det endelige USD-beløpet på en faktura uten valutaetiketter, men med adresse i London, svarer GPT 5 riktig og trenger en konverteringskurs fra USD til GBP. Til sammenligning så GPT 4.1 den endelige regningen og returnerte den, forutsatt valutaen (feil). * GPT-5 gir bedre multimodal analyse. For et offentlig selskaps årlige innlevering blir GPT-5 bedt om å isolere en celle i en tabell fra et bilde som viser endringer i selskapets egenkapitalkomponenter. Toppen av tabellen presiserer at alle aksjebeløp er i tusenvis, og GPT-5 sier tydelig denne konverteringen, mens GPT-4.1 ikke gjør det, og blir forvirret gitt at tabellen sier aksjer og legenden sier aksjer. * GPT-5 yter bedre med høye nivåer av prompt og datakompleksitet. Når GPT-5 gjorde datautvinning på en CV for alle jobbstartdatoer, stillingsnavn og arbeidsgivernavn, var GPT-5 i stand til å trekke ut alle data mens GPT-4.1 ser ut til å bli overveldet og ikke trakk ut de samme feltene gitt størrelsen på ledeteksten og kompleksiteten til dokumentet. * GPT-5 er mye tydeligere og mer eksplisitt i svarene sine. I en outsourcingavtale med 6 forskjellige tjenester som eksplisitt er diskutert, vil GPT-5 returnere de første 5 og spørre om det var med vilje at den sjette ikke ble spurt om. Til sammenligning returnerte GPT-4.1 ganske enkelt de første 5 uten ytterligere forbehold, noe som kan føre til nedstrøms forvirring for brukeren. * GPT-5 er bedre på datatolkning i komplekse felt. For et flowcytometridiagram, vanligvis brukt i immunologi, identifiserte GPT-5 korrekt en høy andel døde celler og ga plausible rotårsaker som kan føre til situasjonen, mens GPT-4.1 ga minimal begrunnelse, og trengte ytterligere bekreftelse for å ha noen gjetninger fra rådata. * GPT-5 er bedre i stand til å identifisere inkonsekvenser i kode. Da de ble bedt om å identifisere problemer i en gitt python-kodefil, mens både GPT-5 og 4.1 kan identifisere reelle feil som fører til funksjonsfeil, var det bare GPT-5 som var i stand til å utlede mer subtile problemer, som å skrive ut feil variabel når det ikke ville gi mening i konteksten til programmet. Disse forbedringene i matematikk, resonnement, logikk og kvaliteten på svarene i lengre kontekstvinduer er utrolig nyttige for sluttbrukere i det daglige arbeidet, men de vil dukke opp enda mer med lengre kjørende AI-agenter, spesielt når det ikke er noe menneske i løkken for å verifisere informasjonen på hvert trinn. Det er fantastisk å se at disse forbedringene fortsetter å komme i den siste avlingen av AI-modeller, da dette vil føre til AI-agenter som kan brukes i trinnvis mer oppdragskritiske arbeidsområder.

Kjerne vs. kontekst er et kritisk konsept å tenke gjennom når man finner ut hva folk vil gjenoppbygge seg selv med AI. Bedrifter bringer inn "kjernefunksjoner" som skiller dem. Dette er hva kjerneproduktet eller tjenesten deres er, hvordan de selger til kunder, ting som driver kulturen deres, og så videre. Omvendt outsourcer de "konteksten" som er bordinnsats for å få rett, men tilbyr bare ulemper ved å ta feil. En enkel tommelfingerregel å tenke gjennom er vil en kunde noen gang legge merke til om selskapet gjorde den funksjonen direkte selv eller ikke. Bedriftsprogramvare er nesten alltid "kontekst". Dette er områder som deres CRM- eller HR-systemer, infrastruktur, datahåndtering og så videre. Disse er nødvendige for å drive en virksomhet i stor skala, men sjelden er du fordelaktig i å prøve å rulle din egen. Bare noen få unntak finnes, og det er nesten alltid fordi du trenger en løsning for å betjene "kjernen" din som ingen leverandør tilbyr (som om du trengte tilpasset programvare for en vertikalt integrert forsyningskjede). Uansett hvordan et selskap starter, skiller de til slutt nesten alltid arbeid og verdi mellom kjerne vs. kontekst over tid. Det er den eneste måten de kan holde seg konkurransedyktige og til slutt allokere ressurser til de optimale områdene. Så selv om et selskap *kunne* omskrive bedriftsprogramvaren sin med AI, ville de i utgangspunktet bare ikke gjort det. Versjonsoppdateringer, sikkerhet, regulatoriske funksjoner, feil, SLAer, nødvendige profesjonelle tjenester osv. Som bucco påpeker, er den virkelige risikoen bedre versjoner av disse verktøyene som er AI-først. Det er det du bør passe på fra et disrupsjonssynspunkt.

Mye samtale om hvordan fremtiden for programvare ser ut i bedriften. Slik tror jeg det utspiller seg. For deterministiske arbeidsflyter der kostnadene ved å gjøre noe galt er høye, vil bedrifter ha en tendens til å velge kjerneplattformer for sine vanligste, viktigste og repeterbare funksjoner i organisasjonen. Tenk lønn, ERP, CRM, ITSM, kundestøtte, ECM/dokumenthåndtering og så videre. Dette er områder hvor du vil ha noe gjort på samme måte, hver gang. Hver av disse plattformene må være AI-først av design, noe som betyr at de vil ha brukergrensesnitt som blir innstilt for å samhandle med arbeidsflytene og dataene via AI, og være fullt designet for AI-agenter å operere i plattformene. Over tid kan vi forvente at bruken av disse systemene vil påvirke langt mer til AI-agenter enn til og med mennesker. Setemodellen forblir for brukerne, men forbruk blir modellen for agenter. Noen sittende vil komme seg til slutttilstanden, men andre vil ikke tilpasse seg raskt nok og dø av. Det vil da være en ny avling av selskaper som kun er agenter som er spesialbygd for å automatisere spesifikke typer arbeid (og spesielt for ikke-deterministisk arbeid). Forretningsmodellene deres vil vippe enda mer forbruk. Tenk Claude Code eller Devins (sannsynligvis med et UI-lag for å administrere agentene), men for forskjellige jobbfunksjoner. Vi vil sannsynligvis se hundrevis eller tusenvis av disse dukke opp over tid. Pennetesting, koding, feilfinning, samsvarsgjennomganger, finansanalytikere og så videre. Dette er et stort område hvor startups vil gjøre det ganske bra fordi det har en tendens til å ikke være noen programvareetablerte i disse kategoriene. Vi vil samhandle med disse ulike agentene fra en blanding av programvareplattformene de er knyttet til (som Box AI eller Agentforce), via APIer i andre systemer, og horisontale arbeidsflytsystemer som syr sammen agenter på tvers av plattformer (som ServiceNow, IBM Watsonx, Google Agentspace og så videre). Og selvfølgelig vil brukere ofte konsumere disse agentene via horisontale chat-opplevelser (som ChatGPT, Claude, Perplexity, Grok, Copilot, etc.) via MCP eller andre typer direkte tilkoblinger. Brukere vil vanligvis jobbe i disse horisontale chat-systemene, og trekke inn agenter, data og arbeidsflyter fra de forskjellige Agentic-plattformene etter behov. Når det er relevant, vil de hoppe inn i kjerneplattformene for å fullføre arbeidsflyter, gjennomgå informasjon osv. Det vil også være en lang hale av opplevelser der brukere kan generere mikroapper på farten når de trenger raske applikasjoner eller brukstilfeller automatisert, når det ikke er noen åpenbar programvare å gjøre det med. Dette kan skje direkte i de horisontale chat-systemene, et verktøy som Replit, Lovable eller i automatiseringsverktøy for arbeidsflyt, etc. Jeg forventer at dette er mer for superbrukerne der de trenger lim mellom flere systemer eller der det ennå ikke finnes programvare. Nettet av det er at programvare bare blir viktigere over tid, selv om modalitetene der vi samhandler endres og utvides. I likhet med hvordan vi enkelt hopper mellom telefonene og stasjonære datamaskiner, selv om de lett kan konvergere, vil fremtiden tilby en blanding av måter å samhandle med programvare på.

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til