Terug naar blogs

New in: OpenAI o1 vs GPT-4o

Auteur

Mees Konijnendijk

Vandaag willen we bij Bonsai Software graag onze kijk delen op de nieuwste doorbraak in AI: OpenAI heeft hun nieuwste modellen aangekondigd, namelijk de OpenAI o1 en OpenAI o1 mini. Ze hebben niet alleen een nieuw niveau van AI-capaciteit bereikt, maar beginnen ook met een frisse aanpak, alsof de teller opnieuw op nul wordt gezet.

Deze modellen zijn ontwikkeld om complexe problemen te tackelen en nemen net iets meer tijd om een antwoord te formuleren, vergelijkbaar met hoe een mens een moeilijk probleem zou aanpakken. Vooral de OpenAI o1 heeft indrukwekkende resultaten laten zien op het gebied van wiskunde, codering en redeneren. Daarnaast presteert dit model bijna vier keer beter tegen zogeheten “jailbreaks” in vergelijking met GPT-4o.

De impact van dit nieuwe niveau van redeneren zal voelbaar zijn in veel industrieën, van genomica en economie tot cognitiewetenschappen en zelfs kwantumfysica — zo krachtig is het.

De OpenAI o1 mini is speciaal ontworpen voor ontwikkelaars en blinkt uit in het genereren en debuggen van complexe code, terwijl het model 80% goedkoper is dan zijn grote broer, de OpenAI o1.

Laten we nu dieper ingaan op onze analyse, waarin we de modellen op drie belangrijke taken vergelijken en enkele recente benchmarks en beoordelingen van experts bespreken.

Resultaten

We hebben de OpenAI o1 en GPT-4o vergeleken op drie taken:

Redeneringspuzzels
Wiskundige vergelijkingen
Klantsupporttickets classificeren

Uit onze analyses kwamen de volgende resultaten naar voren:

Redeneringspuzzels: Vergeleken met GPT-4o wist OpenAI o1 één puzzel meer correct op te lossen (12/16). Beide modellen hadden moeite met analoge puzzels, maar de o1 presteerde beter bij puzzels die meer rekenwerk vereisten.
Wiskundige vergelijkingen: We testten met de tien moeilijkste SAT-vragen en OpenAI o1 loste er zes goed op, terwijl GPT-4o slechts twee antwoorden correct had. We voegden ook Claude 3.5 Sonnet toe, maar deze presteerde net zo slecht als GPT-4o.
Classificatie: OpenAI o1 had een verbetering van 12% ten opzichte van GPT-4o op 100 testcases. Met een precisie van 83% en een sterkere f1-score is OpenAI o1 de beste keuze voor taken waar nauwkeurigheid belangrijker is dan snelheid.

Belangrijke Observaties

Productie-uitdagingen: Het implementeren van OpenAI o1 voor productietaken is lastig. Het model neemt vaak meer tijd om te “denken” (soms meer dan drie minuten per antwoord), en het is moeilijk te voorspellen hoe lang een output zal duren. Bovendien worden onzichtbare tokens die tijdens het redeneerproces worden gegenereerd, wel in rekening gebracht.
Geen geavanceerde prompting nodig: Dit model lijkt goed te reageren op eenvoudige prompts. Extra "Chain of Thought" (CoT)-voorbeelden of few-shot prompts hebben in sommige gevallen zelfs een negatief effect op de prestaties.
Niet geschikt voor alle toepassingen: Hoewel OpenAI o1 uitblinkt in het oplossen van complexe problemen, mist het enkele standaardfuncties zoals streaming en toolintegratie, die wel beschikbaar zijn in GPT-4o.
Kies je modellen verstandig: Het is belangrijk om te weten welk type taak beter past bij een "redeneringsmodel" versus een "standaardmodel". Voor eenvoudige taken presteert GPT-4o vaak sneller, maar is OpenAI o1 beter in het oplossen van complexe vraagstukken, zij het tegen een hogere prijs.

Conclusie

OpenAI o1 is een doorbraak op het gebied van AI-redenering en biedt een aanzienlijke verbetering voor specifieke, moeilijk op te lossen problemen, vooral op het gebied van wiskunde en complexe redenering. Toch maakt de hoge latentie en de hoge kosten het model minder geschikt voor veel dagelijkse productiebehoeften. Voor de meeste gevallen blijft GPT-4o de beste keuze, terwijl OpenAI o1 meer geschikt is voor uitdagende problemen die geen haast hebben.

Als je overweegt om deze modellen zelf te evalueren voor jouw specifieke use-case, staan wij bij Bonsai Software klaar om je hierbij te ondersteunen. Plan een gesprek met een van onze AI-experts om jouw evaluatie op te zetten.

Nog niet uitgelezen? Bekijk hier meer blogs ↓

Wat is AI-hallucinatie?

Yeslin Beljaars

2 maart 2025

Wat is AI-hallucinatie?

Yeslin Beljaars

2 maart 2025

Hoe ga je aan de slag met het toepassen van AI? Een 3-level approach voor een succesvolle AI Implementatie

Yeslin Beljaars

21 februari 2025

Hoe ga je aan de slag met het toepassen van AI? Een 3-level approach voor een succesvolle AI Implementatie

Yeslin Beljaars

21 februari 2025

Agentic Workflow of AI Agent: Wanneer kies je wat?

Yeslin Beljaars

10 februari 2025

Agentic Workflow of AI Agent: Wanneer kies je wat?

Yeslin Beljaars

10 februari 2025

Terug naar blogs

Terug naar blogs

New in: OpenAI o1 vs GPT-4o

New in: OpenAI o1 vs GPT-4o

Resultaten

Belangrijke Observaties

Conclusie

Nog niet uitgelezen? Bekijk hier meer blogs ↓

Wat is AI-hallucinatie?

Wat is AI-hallucinatie?

Hoe ga je aan de slag met het toepassen van AI? Een 3-level approach voor een succesvolle AI Implementatie

Hoe ga je aan de slag met het toepassen van AI? Een 3-level approach voor een succesvolle AI Implementatie

Agentic Workflow of AI Agent: Wanneer kies je wat?

Agentic Workflow of AI Agent: Wanneer kies je wat?

Plan een meeting

Plan een meeting

Westblaak 92, Rotterdam

info@bonsaisoftware.nl

Plan een meeting
met Yeslin