Nu utvecklas AI som kan lyssna och prata samtidigt – precis som människor
Ny AI från OpenAI-grundare kan samtala som människor.
När AI lär sig konsten att avbryta
Det är något fundamentalt mänskligt över att kunna avbryta varandra mitt i en mening. När vi samtalar flyter orden fram och tillbaka, vi bygger på varandras tankar, invänder, fyller i och skapar något tillsammans. Hittills har AI-assistenter fungerat mer som artiga robotar – de väntar tålmodigt tills vi är färdiga, bearbetar allt vi sagt, och levererar sedan sitt svar medan vi lyssnar.
Nu vill Thinking Machines Lab förändra det helt.
Företaget, grundat av tidigare OpenAI-chefen Mira Murati, arbetar med något de kallar interaktionsmodeller. Enligt TechCrunch bygger de system som kan bearbeta indata och generera svar samtidigt – en teknik som kallas "full duplex" inom telekommunikation.
Resultatet blir mer likt ett telefonsamtal än dagens AI-chattar. Deras modell TML-Interaction-Small svarar inom 0,40 sekunder, vilket ligger i paritet med naturliga mänskliga samtal och betydligt snabbare än jämförbara system från OpenAI och Google.
Tekniken bakom genomslaget
Från ett utvecklarperspektiv är detta fascinerande komplicerat. Dagens språkmodeller är designade för sekventiell bearbetning – de måste se hela sammanhanget innan de kan börja generera text. Att bygga system som kan hantera parallell in- och utdata kräver fundamentalt nya arkitekturer.
Tänk på utmaningen: modellen måste samtidigt förstå vad du säger, avgöra när det är lämpligt att svara eller avbryta, och generera relevant text – allt i realtid. Det är som att lösa ett pussel medan någon annan lägger till nya bitar.
Tekniken befinner sig fortfarande i forskningsstadiet. Thinking Machines Lab planerar att först släppa en begränsad forskningsversion under kommande månader, följt av en bredare lansering senare under året.
Varför detta spelar roll
Naturlig samtalsinteraktion har varit AI-forskningens heliga graal sedan Alan Turing formulerade sitt test på 1950-talet. Dagens AI-assistenter är imponerande, men samtalen känns fortfarande konstlade. Vi anpassar oss till deras begränsningar istället för tvärtom.
Tänk på hur mycket mer effektiv kommunikation blir när vi kan avbryta och förtydliga i realtid. "Nej, jag menade inte det, utan..." eller "Vänta, det där är inte rätt riktning..." Sådana naturliga korrigeringar är omöjliga med dagens turbaserade system.
Detta öppnar också för helt nya användningsområden. Realtidsöversättning mellan språk under pågående samtal. AI-mentorer som kan vägleda genom komplexa problemlösningar med naturlig dialog. Tillgänglighetsverktyg som kan assistera personer med kommunikationshinder.
Tekniska utmaningar återstår
Flera hinder måste lösas innan tekniken blir praktisk. Latens är kritisk – även små förseningar gör samtal onaturliga. Modellen måste också lära sig sociala signaler för när det är lämpligt att avbryta eller vänta.
Det finns även etiska frågor. Hur säkerställer vi att AI-system inte blir för aggressiva i sina avbrott? Hur hanterar vi situationer där snabb respons kan leda till felaktiga eller skadliga svar?
Men Muratis meritlista inom AI-utveckling gör Thinking Machines Lab värt att följa noggrant. Som tidigare teknisk chef på OpenAI var hon central i utvecklingen av GPT-4 och ChatGPT.
Vår analys
Detta kan bli nästa stora språng inom människa-dator-interaktion. Medan branschen fokuserar på att göra AI smartare, angriper Thinking Machines Lab hur AI kommunicerar. Det är en klok strategi – ofta är det inte vad tekniken kan göra utan hur vi interagerar med den som avgör framgången.
Tekniskt representerar full duplex-konversation en betydande utmaning som kräver nya modellarkitekturer. Men om Murati och hennes team lyckas, skapar de prejudikat för en helt ny kategori av AI-produkter.
Jag ser detta som början på en övergång från AI-assistenter till AI-samtalspartners. Inom fem år kan naturlig, avbrytbar dialog vara standard snarare än undantag. Det kommer att förändra allt från kundtjänst till utbildning och terapi.