Intussen in China

In de VS zijn ze erg beducht voor de snelheid waarmee in China AI modellen van topklasse ontwikkeld worden. Een brede congrescommissie beveelt daarom aan om met een Manhattan-achtig project de race naar AGI aan te gaan. Zie ook dit bericht.

Is de vrees van de Amerikanen voor China terecht als het om AI gaat?

Het rapport met aanbevelingen van de commissie (Congress 2024) verscheen eind november 2024. Om zelf een oordeel te vormen heb ik in diezelfde week nog een casus in vraagvorm voorgelegd aan een van de Chinese AI modellen die aan de poort kloppen. Het gaat om DeepSeek waarvan wordt gezegd dat het zich in benchmarks kan meten met Claude Sonnet, GPT4 en andere geavanceerde modellen.

NB Die benchmarks om de prestaties van AI modellen te testen en met elkaar te vergelijken zijn een verhaal op zichzelf, ik wil me daar nog in verdiepen. Voor nu doe ik het met een vraag uit eigen koker.

Ik was eerlijk gezegd onder de indruk van DeepSeek. Om de gedachten te bepalen staat onze vraag/antwoord conversatie van november verderop in dit bericht.

Naar aanleiding van mijn ervaring met DeepSeek schreef ik twee weken geleden een bericht over redeneermodellen. Het werd opeens bijzonder actueel omdat juist toen OpenAI hun model o1 aankondigde. Ik kon het nog net in het bericht meenemen.

In de afgelopen maand, zeg maar december 2024, is er in het Westen veel gebeurd op het gebied van AI ontwikkeling. Met deze website probeer ik redelijk dicht bij actuele onderwerpen te blijven, maar uit principe is er een zekere vertraging omdat ik wil kunnen nadenken over waar een onderwerp echt om draait – de paden in de AI wereld liggen nogal bezaaid met hypes. En net zo vaak moet ik simpelweg nog studeren om de nieuwe ontwikkeling te kunnen volgen en er verslag over te doen.

OpenAI begon met de aankondiging van model o1 een even ambitieus als kinderlijk aandoend evenement (12 Days of OpenAI), waarbij ze elke dag op ludieke manier een spraakmakende aankondiging wilden doen.

Inhoudelijk is het goed gelukt, en op de laatste dag werd het allernieuwste model aangekondigd, model o3. (o2 is overgeslagen omdat dat al een bestaande merknaam is).

Model o3 scoort -naar eigen zeggen van OpenAI- bijzonder hoog op een hele serie van die benchmarks waar ik het al over had, (veel) beter dan de menselijke gemiddeldes. Hier en daar werd al geconcludeerd dat AGI al bereikt is. Niet door OpenAI overigens, wel in de algemene pers en op social media.

In gesprek met DeepSeek

Het AI model van DeepSeek is via een normale browser op het web beschikbaar. Vooralsnog is het gebruik gratis en zijn de limieten die aan je gebruik worden gesteld hoog genoeg. Wel moet je een gratis account aanmaken en op voorhand goed vinden dat het bedrijf DeepSeek, nog een start-up, je inputs en outputs mag gebruiken. De financier van DeepSeek is High-Flyer Capital Management, een zogenoemd kwantitatief hedgefonds dat beleggingen en investeringen doet op basis van AI gedreven handelsalgoritmes. Het fonds opereert ook vanuit Hongkong en heeft toegang tot de internationale markten.

De servers van DeepSeek staan in Peking. Ga er maar van uit dat de Chinese overheid toegang heeft tot alle inhoud als ze dat willen, dus wees voorzichtig met gevoelige content – maar dat geldt eigenlijk voor al het verkeer met aanbieders van AI modellen.

Ik was benieuwd of er een soort van culturele kloof zou bestaan tussen west en oost, daarom wilde ik een vraag stellen waar vanuit chinees perspectief (in mijn naïeve opvatting daarvan) een behoorlijke kloof te overbruggen zou zijn, maar zonder de ruis van verschillend gekleurde wereldbeelden. Zo kwam ik toch op een wiskundig getint onderwerp, in de context van (westerse) AI historie.

Dit is de vraag zoals ik stelde (inclusief het taalfoutje):

Hierna volgt een fragment uit een oorspronkelijk artikel van Thomas Bayes. Kun je in moderne termen uitleggen wat de vraagstelling is? Niveau van jou antwoord: middelbare school 15 jarigen.

NB De tekst komt uit Bayes 1763.

DeepSeek antwoordt in het Nederlands. Het draait daarbij zijn hand niet om voor het door elkaar begrijpen van de talen in mijn formulering, en ook niet voor het archaïsche Engels. De tekst van Bayes is uit 1763.

Het antwoord blijkt adequaat. DeepSeek is een redeneermodel dat ruimhartig de eigen overwegingen en denkstappen weergeeft, vooralsnog in het Engels. Deze eerste vraag is voor het model tamelijk rechttoe rechtaan. Om lange lappen tekst te vermijden heb ik de conversatie in een afbeelding gezet. Klik er op om het te kunnen lezen. Links staat het antwoord van DeepSeek, in de ballon rechts staan de overwegingen.

Ik heb niks aan te merken op de gedachtegang en het prima geformuleerde antwoord. Maar ik wil het wel moeilijker maken door te vragen naar een berekening.

Mooi! Kun je zelf de vraag beantwoorden die je Bayes in de mond legt?

Er komt een antwoord – in het Engels – dat mogelijk niet correct is, mij is het te doen om de redeneerstappen die ook nu weer door het model als een soort interne monoloog worden verwoord. Ik heb de conversatie in de afbeelding samengevat, door er op te klikken kun je lezen wat er staat.

Het meest ben ik onder de indruk van wat je de responsiviteit van het model zou kunnen noemen. Op een punt dat de redenering naar een antwoord al behoorlijk ver is neemt DeepSeek gas terug en bedenkt het dat het antwoord begrijpelijk moest zijn voor 15-jarigen. Dus wordt deze chain-of-thought verlaten en komt er een andere voor in de plaats. Die heeft dan wel het nadeel dat het een benadering wordt, in plaats van een precies antwoord, maar “I think this is a reasonable estimate for a 15-year-old to understand (…)“. Voor de fijnproevers: het model bedenkt en verwerpt zelf een alternatief om het met betrouwbaarheidsintervallen uit te leggen – dat zou (te) frequentistisch zijn. DeepSeek formuleert het ter toelichting zo: “Bayesian approach seems more aligned with what Bayes is talking about.” Die gedachte is door niemand van te voren ingestoken…

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *