Waar blijft slimme stembediening?

Door: daan-doedens | 23 januari 2021 15:08

Blog

Het klonk allemaal zo mooi. Binnen de kortste keren zouden we onze smartphones amper nog in onze handen houden, want we konden onze stem al het werk laten doen. We zouden door het huis lopen en spraakgestuurd al onze apparaten bedienen, informatie opzoeken en aankopen doen. Nu, een klein decennium verder, is slechts een fractie van die voorspellingen uitgekomen. Waar blijft slimme stembediening?

Handsfree bellen, dat konden de dumbphones van begin deze eeuw ook nog wel, maar verder spraken de eerste aankondigingen van Google Voice zeer tot de verbeelding. Een afspraak maken bij een restaurant, een auto huren zonder menselijk contact, het antwoord op elke Triviant-vraag … Google, met in het kielzog Amazon, Apple en Microsoft, hield ons een worst voor die ons deed watertanden.

Vandaag, een dikke acht jaar later, zijn die voorspellingen slechts deels uitgekomen: je kunt inderdaad het weerbericht, een tussenstand of een jaartal opvragen zonder dat je daarvoor uit je luie stoel hoeft te komen, ook als je telefoon niet binnen handbereik ligt. Je kunt vanuit je bed je lampen en thermostaat aan- of uitzetten. En met de juiste hardware is het prima mogelijk om sloten, gordijnen en andere accessoires met, of zelfs zonder een druk op de knop te bedienen. Maar zijn dit nu de zaken waar we destijds zo naar uitkeken? Of moeten we na al die jaren maar gewoon accepteren dat ons handsfree leven voorlopig toch niet zo handsfree wordt als we ooit hoopten?

Supercomputer

Google-ontwikkelaars leggen maar al te graag de link tussen de zoekmachine van het bedrijf en die uit fictionele werelden, Star Trek in het bijzonder. Het algoritme waarmee die scifi-computer antwoord geeft op welke vraag dan ook, is iets waar ze bij de Big Tech alleen maar van kunnen dromen. Toch is het een belangrijke inspiratiebron, niet alleen van zoekmachines zelf, maar ook van de diensten die er in de loop der jaren omheen zijn gebouwd.

Even terug naar de manier waarop die algoritmes van Google, Amazon, Apple en Microsoft werken. Een gewone gebruiker heeft een eenvoudige vraag. Die vraag wordt gesteld in het zoekvak van de zoekmachine of webwinkel, soms in volzinnen, vaker door middel van steekwoorden. Het algoritme probeert zo goed en kwaad als het kan de verzameling termen om te zetten in een zoekvraag: de persoon wil iets weten, kopen, of zien. Als duidelijk is wat de zoekvraag inhoudt, begint het algoritme een tocht door alle geïndexeerde plekken van het internet, om te kijken of daar een mogelijk antwoord te vinden is. Uit alle kandidaten wordt een lijst samengesteld, gerangschikt op potentieel. De gebruiker krijgt, een fractie van een seconde na zijn zoekactie, een complete lijst met mogelijke plekken waar het antwoord op zijn vraag, of de content, of het product waarnaar hij zocht, wellicht te vinden is.

Best indrukwekkend allemaal, maar het is niet voldoende. Tenminste, niet voor de manier waarop we Voice Search zo graag zouden willen gebruiken. Daarvoor moet er geen lijst met mogelijke pagina’s worden gevonden, maar is verdere interpretatie van de zoekvraag nodig, met als resultaat een eenduidig antwoord. Tot op zekere hoogte zijn zoekmachines hier al toe in staat, denk aan weersvoorspellingen en uitslagen van sportwedstrijden, maar het wordt lastiger wanneer er meer variabelen om de hoek komen kijken. En de heilige graal, een immense verzameling persoonlijke data, is misschien al wel gevonden, maar hoe er in de praktijk gebruik van kan worden gemaakt is - afgezien van persoonlijke advertenties - nog een grote vraag.

Op simpele vragen heeft Google zo het antwoord klaar.

Persoonlijke gegevens

Daarmee is het grootste probleem van stemgestuurd zoeken genoemd. Het weer is voor iedereen op of rond jouw locatie hetzelfde, Ajax wint of verliest in de hele wereld met dezelfde cijfers. Als persoonlijke data geïnterpreteerd moet worden, wordt het ineens een stuk ingewikkelder. Een simpele vraag als: “zal ik vandaag een korte broek aandoen?” kun je simpelweg beantwoorden met een ja of een nee, afhankelijk van de temperatuur en de neerslagkans, maar dan mis je de nuance. Ben je iemand die graag korte broeken draagt, ook als de lente nog niet echt wil ontluiken? Heb je misschien een belangrijke meeting aan het eind van de middag, waar je je echt niet met blote knieën kunt vertonen? Heb je überhaupt nog wel korte broeken in je kast liggen?

Een computer zoals die in Star Trek moet niet alleen de feiten kennen, hij moet ook met externe factoren rekening kunnen houden. En juist daar hebben de grote techbedrijven het behoorlijk lastig mee.

De Google Assistent kan in je agenda kijken, maar het interpreteren van die informatie is nog niet altijd even makkelijk.

Routines

Alle grote stemcommandosystemen hebben een Routines-functie. Daarmee kun je met één simpel commando meerdere taken uitvoeren. Zo kun je ‘s ochtends de wekker laten afgaan, de lichten aanzetten, het weer en het nieuws laten voorlezen, je telefoon uit de stille modus halen, een muziekje laten spelen; allemaal door alleen ‘Goedemorgen’ te zeggen.

Dit zijn voorgeïnstalleerde opdrachten, die, hoewel handig, weinig van doen hebben met kunstmatige intelligentie. De Routines-functie van Google is het meest uitgebreid, maar is zeker niet foutloos: opdrachten als de kleur van het licht aanpassen of je smartphone in Niet Storen-modus zetten worden soms om onverklaarbare reden gereset. Het is een halfslachtige oplossing voor een probleem waarvan we hoopten dat het niet meer zou bestaan.

Vervolgvragen

Een goed voorbeeld daarvan is de vervolgvraag. In intermenselijke communicatie is dat aan de orde van de dag: schakel maar eens in tijdens een voetbal- of wielerwedstrijd, waarbij de commentator van dienst een monoloog houdt over een bepaalde speler of renner. Voor je inschakelde is zijn naam ongetwijfeld gevallen, maar nu wordt minutenlang over hem doorgepraat, zonder dat de naam ook maar een keer genoemd wordt. Uiteindelijk zal je uit de context - nog zo’n concept dat lastig te doorgronden is voor zoekmachines – waarschijnlijk wel kunnen afleiden over wie het gaat, maar voor iemand die het commentaar al vanaf het begin heeft gevolgd, is het al die tijd al zo klaar als een klontje.

Het is lastig te zeggen waar dit gebrek aan herinnering bij zoekmachines precies vandaan komt. Het kan simpelweg een hardwarematige barrière zijn: misschien is er gewoon te veel geheugen nodig om alle voorgaande informatie ook nog eens te onthouden. Spraaksystemen worden er de laatste jaren wel beter in, maar een fatsoenlijk gesprek met je speaker houden, is er nog niet bij.

App-ondersteuning

Het nut van een spraaksysteem valt of staat bij ondersteuning van derde partijen. In principe weerhoudt niets app-ontwikkelaars ervan hun programma’s aan de api van Google of Amazon te knopen. Voor bekende hard- en software als Philips Hue, Tado en Netflix is dat ook geen enkel probleem. Het zijn de iets minder bekende apps waarmee de spraaksystemen niet altijd overweg kunnen. Zo is het nog steeds niet mogelijk om bijvoorbeeld een programma aan te zetten via Ziggo Go met alleen je stem. Spotify heeft bepaalde geo-blokkades, zodat je niet overal ter wereld je account aan je Amazon Alexa-compatibele speaker kan koppelen. Ook het aanpassen van bepaalde instellingen, zoals de stille modus op je telefoon, is voor lang niet alle spraakassistenten (en telefoons) gesneden koek.

Grote bedrijven als Bol.com en Albert Heijn werken samen met Google om de app-besturing via spraak mogelijk te maken. Dat werkt prima, tot op zekere hoogte. Bij Bol.com kun je de dagdeal opzoeken en cadeau-ideeën opdoen, of de status van je bestelling opvragen. In de Appie-app kun je zoeken naar recepten en horen wat er in de aanbieding is. Handig, maar zoals zo vaak gaat het ook hier om voorgeprogrammeerde vragen en antwoorden, zonder dat er al te veel AI bij komt kijken. De ontwikkeling van dit soort technieken lijkt bovendien al een tijdje stil te staan. Misschien zijn wij als Nederlanders toch te veel verknocht aan het scherm van onze telefoons, en het bedienen ervan met onze vingers in plaats van onze stem.

Spotify kun je officieel niet aan een Nederlands Amazon-account koppelen. De omweg: tijdelijk een Amerikaans adres toevoegen.

Activatiewoord

Het wake-word, het activatiewoord waarop de spraakassistent reageert en begint te luisteren, is ook een punt van aandacht. Googles ‘Hé Google’ (of ‘Oké Google’) heeft vaak twee keer nodig om wakker te worden, en heeft veel last van achtergrondgeluid of muziek die uit je slimme speaker komt. Alexa, die naar ‘Alexa’, ‘Amazon’, ‘Echo’ en ‘Computer’ kan luisteren, heeft daar minder last van, hoewel het ‘s ochtends lastig is om de speaker te doen ontwaken. Je kunt zowel Google Assistant, Alexa, Siri als Cortana trainen om alleen te reageren op jouw stem, maar ook dat gaat in de praktijk nog weleens mis: het komt vaak genoeg voor dat een speaker opeens aanslaat tijdens een talkshow of een televisiecommercial voor het apparaat.

Conclusie

Voice Search neemt vooral in de Verenigde Staten een enorme vlucht. Meer dan een derde van de Amerikanen zoekt regelmatig spraakgestuurd, en de verwachting is dat dat percentage de komende jaren snel zal stijgen. Reden genoeg voor bedrijven als Amazon en Google om vol op deze techniek in te zetten. Dat gebeurt dan ook, en ook Apple en Microsoft doen een flinke duit in het zakje. Saaie of repetitieve taken als het licht uitdoen, het nieuws lezen, de wekker zetten of muziek afspelen zijn met een simpel stemcommando een fluitje van een cent.

Maar het is niet allemaal rozengeur. Wil je een slimme assistent écht als een assistent gebruiken, dan moet het systeem meer weten dan alleen je locatie en je agenda-items. Big Tech zit op een enorme berg data, maar tot dusver is het moeilijk gebleken die data ook daadwerkelijk in te zetten als slimme hulp, in plaats van louter als advertentiemechanisme. Hardwarematige problemen met stemherkenning en achtergrondgeluid, verbeteren de gebruikerservaring ook al niet.

Het - voor sommigen - utopische wereldbeeld waarin we vrolijk door het huis lopen en commando’s geven aan al onze slimme apparaten is nog ver weg. Tot die tijd moeten we het doen met wat meer basale opdrachten, voorgeprogrammeerde routines en nu en dan een flinke dosis frustratie.

1 Reactie(s) op: Waar blijft slimme stembediening?

  • Om te reageren moet je ingelogd zijn. Nog geen account? Registreer je dan en praat mee!
  • 26 januari 2021 14:06 Buur
    Vroeger werden deze technieken ontwikkeld voor mensen die een handicap hebben. Bijvoorbeeld mensen die blind zijn, niet kunnen praten, of een motorische stoornis hebben, of een (of meer) van de ledematen missen waardoor zij bepaalde handelingen niet kunnen uitvoeren. Nu worden ze gemaakt voor gedegenereerde luiwammesen die niet eens meer lichtknopje in willen drukken, of niet meer de moeite willen nemen om zelf algemene kennis op te doen. Leuk speelgoed, leuke hobby, wie weet ga ik hier ook wel eens mee klooien icm een RPi en zo, gewoon, voor de lol, omdat het grappig is, maar als je hier een "utopisch wereldbeeld" in ziet, dan hoop ik serieus dat je je prioriteiten toch eens gaat heroverwegen en vervolgens ergens anders gaat leggen.
    Wall-E, we komen er aan!
    Wanneer je een reactie plaatst ga je akoord
    met onze voorwaarden voor reacties.

Wanneer je een reactie plaatst ga je akoord
met onze voorwaarden voor reacties.