
Auteur
Mees Konijnendijk
Vandaag willen we bij Bonsai Software graag onze kijk delen op de nieuwste doorbraak in AI: OpenAI heeft hun nieuwste modellen aangekondigd, namelijk de OpenAI o1 en OpenAI o1 mini. Ze hebben niet alleen een nieuw niveau van AI-capaciteit bereikt, maar beginnen ook met een frisse aanpak, alsof de teller opnieuw op nul wordt gezet.
Deze modellen zijn ontwikkeld om complexe problemen te tackelen en nemen net iets meer tijd om een antwoord te formuleren, vergelijkbaar met hoe een mens een moeilijk probleem zou aanpakken. Vooral de OpenAI o1 heeft indrukwekkende resultaten laten zien op het gebied van wiskunde, codering en redeneren. Daarnaast presteert dit model bijna vier keer beter tegen zogeheten “jailbreaks” in vergelijking met GPT-4o.
De impact van dit nieuwe niveau van redeneren zal voelbaar zijn in veel industrieën, van genomica en economie tot cognitiewetenschappen en zelfs kwantumfysica — zo krachtig is het.
De OpenAI o1 mini is speciaal ontworpen voor ontwikkelaars en blinkt uit in het genereren en debuggen van complexe code, terwijl het model 80% goedkoper is dan zijn grote broer, de OpenAI o1.
Laten we nu dieper ingaan op onze analyse, waarin we de modellen op drie belangrijke taken vergelijken en enkele recente benchmarks en beoordelingen van experts bespreken.
Resultaten
We hebben de OpenAI o1 en GPT-4o vergeleken op drie taken:
Redeneringspuzzels
Wiskundige vergelijkingen
Klantsupporttickets classificeren
Uit onze analyses kwamen de volgende resultaten naar voren:
Redeneringspuzzels: Vergeleken met GPT-4o wist OpenAI o1 één puzzel meer correct op te lossen (12/16). Beide modellen hadden moeite met analoge puzzels, maar de o1 presteerde beter bij puzzels die meer rekenwerk vereisten.
Wiskundige vergelijkingen: We testten met de tien moeilijkste SAT-vragen en OpenAI o1 loste er zes goed op, terwijl GPT-4o slechts twee antwoorden correct had. We voegden ook Claude 3.5 Sonnet toe, maar deze presteerde net zo slecht als GPT-4o.
Classificatie: OpenAI o1 had een verbetering van 12% ten opzichte van GPT-4o op 100 testcases. Met een precisie van 83% en een sterkere f1-score is OpenAI o1 de beste keuze voor taken waar nauwkeurigheid belangrijker is dan snelheid.
Belangrijke Observaties
Productie-uitdagingen: Het implementeren van OpenAI o1 voor productietaken is lastig. Het model neemt vaak meer tijd om te “denken” (soms meer dan drie minuten per antwoord), en het is moeilijk te voorspellen hoe lang een output zal duren. Bovendien worden onzichtbare tokens die tijdens het redeneerproces worden gegenereerd, wel in rekening gebracht.
Geen geavanceerde prompting nodig: Dit model lijkt goed te reageren op eenvoudige prompts. Extra "Chain of Thought" (CoT)-voorbeelden of few-shot prompts hebben in sommige gevallen zelfs een negatief effect op de prestaties.
Niet geschikt voor alle toepassingen: Hoewel OpenAI o1 uitblinkt in het oplossen van complexe problemen, mist het enkele standaardfuncties zoals streaming en toolintegratie, die wel beschikbaar zijn in GPT-4o.
Kies je modellen verstandig: Het is belangrijk om te weten welk type taak beter past bij een "redeneringsmodel" versus een "standaardmodel". Voor eenvoudige taken presteert GPT-4o vaak sneller, maar is OpenAI o1 beter in het oplossen van complexe vraagstukken, zij het tegen een hogere prijs.
Conclusie
OpenAI o1 is een doorbraak op het gebied van AI-redenering en biedt een aanzienlijke verbetering voor specifieke, moeilijk op te lossen problemen, vooral op het gebied van wiskunde en complexe redenering. Toch maakt de hoge latentie en de hoge kosten het model minder geschikt voor veel dagelijkse productiebehoeften. Voor de meeste gevallen blijft GPT-4o de beste keuze, terwijl OpenAI o1 meer geschikt is voor uitdagende problemen die geen haast hebben.
Als je overweegt om deze modellen zelf te evalueren voor jouw specifieke use-case, staan wij bij Bonsai Software klaar om je hierbij te ondersteunen. Plan een gesprek met een van onze AI-experts om jouw evaluatie op te zetten.