Bits&Chips

Zwaaien en praten naar je auto

26 juli 2012 

In de nabije toekomst zijn veel apparaten te bedienen met gebaren en spraakcommando’s. De embedded-industrie kan hier flink aan verdienen, want er is veel zwaardere hardware nodig dan voor muis, toetsenbord of touchscreen.

Sinds de uitvinding van de pc zijn het toetsenbord en later de muis de aangewezen opties om met apparatuur om te gaan. Het afgelopen decennium is daar het aanraakscherm bij gekomen via de PDA en later de smartphone. Maar het arsenaal aan interfaceopties dijt de komende jaren flink uit, is de verwachting. Twee technologieën staan al in de startblokken: spraak en visie.

En dat is gunstig voor de embedded-toeleverketen, zo hield Spansion-CEO John Kispert de verzamelde vakpers onlangs voor op de Global Press Summit. Want deze technologieën vragen om een totaal andere orde van rekenkracht, geheugencapaciteit, dataconnectiviteit en software dan een muis of touchschreen. De maker van embedded geheugens hoort de kassa al rinkelen bij de gedachte aan de grote hoeveelheden bytes die nodig zijn om bijvoorbeeld de digitale ‘woordenboeken’ voor spraakherkenning op te slaan op een embedded apparaat. Het bedrijf rekent erop dat deze technologieën over twee tot drie jaar de massamarkten zullen bereiken en is er daarom nu al hard mee aan de slag. Jeff Bier, oprichter van de de Embedded Vision Alliance-industriegroep, somde op dezelfde bijeenkomst op wie er allemaal een graantje kunnen meepikken van beeldverwerking in het embedded apparaat: makers van processoren, FPGA’s, GPU’s en ASSP’s, leveranciers van geheugens en opslagmedia, fabrikanten van CMos- en CCD-sensoren, systeemontwikkelaars, een hele industrie voor de complexe software die erbij hoort en dan nog een bonte verzameling aan leveranciers van lenzen, infraroodbronnen en dergelijke.

Aanvankelijk was het idee slechts om games met het lichaam aan te sturen, maar de Kinect van Microsoft maakt ook interfaces met gebaren in de lucht mogelijk.

Daar komt nog eens bij dat de interface steeds meer de plek wordt waar de fabrikant zijn producten onderscheidt van de competitie. ‘De gebruikersinterface kan het verschil maken tussen een kleine of grote marktpenetratie’, aldus Krispert. Met andere woorden: bedrijven hebben steeds meer geld over voor de smoel van hun product. Met name in de consumentenarena is de functionaliteit van concurrerende producten wel min of meer gelijk aan het worden.

Medisch dossier

Embedded visie zal zich in een reeks verschillende vormen manifesteren in de gebruikersinterface. De nieuwste versie van Android bevat bijvoorbeeld een feature om de telefoon te ontgrendelen via gezichtsherkenning. Ook de eerste producten die de gebruiker herkennen en de persoonlijke voorkeuren laden, zitten al in de pijplijn. De meest in het oog springende uitvoering is echter de gebaarinterface, waarbij de gebruiker via handbewegingen in de lucht zijn bedoelingen overbrengt aan het apparaat. Sinds de film ‘Minority report’ in 2002 uitkwam, dromen toekomstvoorspellers van een dergelijke computerinterface.

In 2010 zette Microsoft de deur open voor realistische gebaarinterfaces met zijn Kinect-controller voor de XBox-spelcomputer, die zonder kalibratie of training de houding van mensen herkent. Eigenlijk was dit het langverwachte antwoord uit Redmond op Nintendo’s Wii, die het concept van lichaamsbewegingen om spelletjes aan te sturen een paar jaar daarvoor had geïntroduceerd. De Japanse console detecteert echter alleen een batterijgevoed apparaatje dat de gebruiker vasthoudt, terwijl de Kinect de speler volledig in drie dimensies in kaart brengt. En dat voor een prijs binnen het bereik van de consument.

Het apparaat is gebaseerd op een standaard kleurencamera gecombineerd met een infraroodprojector en -camera om dieptes te schatten. De echte doorbraak zit in de algoritmes om de lichaamsdelen en bewegingen te interpreteren. De Kinect is getraind met kennis over hoe lichaamsdelen eruit moeten zien en kan ze zo zonder kalibratie direct herkennen en terugvinden in het beeld.

De potentie van de Kinect voor ‘Minority report’-interfaces werd al snel ingezien. Ook duurde het niet lang voordat hobbyisten hun vingers achter de dataprotocollen van het apparaat kregen. Korte tijd later kwam Microsoft zelf op de markt met een softwareontwikkelkit, waarmee ook de koppeling met de XBox werd losgelaten. Proeven met gebaarinterfaces volgden elkaar rap op, tot aan de operatiekamer aan toe. Ondertussen zijn er ook andere spelers opgestaan - of zijn reeds bestaande spelers bekend geworden. Het Brusselse Softkinetic heeft bijvoorbeeld een soortgelijke 3D-camera op de markt en de Amerikaanse starter Leap Motion zegt aan een goedkoop en compact USB-randapparaatje voor de pc te werken.

Siri maakt spraakherkenning weer populair, maar legt gelijk een van de zwakheden bloot: op dit moment verstaat Apples persoonlijke assistent slechts Engels, Frans, Duits en Japans.

Maar een Hollywood-interface is bedoeld om er goed uit te zien, niet om handig te zijn. Zit de gebruiker er dus echt op te wachten? Kispert rekent erop dat de bedieningen worden ingezet voor toepassingen waar de traditionele bedieningen tekortschieten. In de operatiekamer bijvoorbeeld, waar de chirurg zonder vieze knoppen aan te raken door het medisch dossier van de patiënt kan bladeren. Dit argument geldt ook voor massamarkten, aldus een reclamefilmpje van de Koreaanse mobieltjesfabrikant Pantech. De telefoon opnemen terwijl je deeg staat te kneden? Geen probleem met de gebaarinterface. En de televisie bedienen kan natuurlijk ook best zonder een afstandsbediening die eeuwig kwijt is. Zo’n beetje alle grote tv-fabrikanten hebben op de CES begin dit jaar toestellen getoond die met gebaren te bedienen zijn - met wisselend succes.

Flinke tijdwinst

Ook bij spraak is er een duidelijke katalysator aan te wijzen: de Iphone 4S met Siri-app. Apple, interfacebedrijf bij uitstek, ziet de technologie als strategisch: het bakt zelfs technologie om ruis weg te filteren mee in de Iphone-processor - niet ten behoeve van de telefoongesprekken, maar voor de spraakherkenning.
Maar meer nog dan gebaarinterfaces kent spraaktechnologie een lange voorgeschiedenis. De Apple- en Android-smartphones konden allang spraakcommando’s aan, maar pas toen Apple zijn marketinggewicht achter Siri gooide, ging het vuurtje branden. Je kunt eigenlijk wel stellen dat spraakaansturing aan haar tweede leven is begonnen. Eind jaren negentig beloofde ze namelijk al de gebruikersinterface van de toekomst te zijn. À la Star Trek zouden we de apparatuur om ons heen met spraakcommando’s opdrachten geven, programma’s op de computer zouden we met spraakcommando’s opstarten en documenten zouden we niet meer typen maar dicteren. De technologie was bijna zover. Bijna.

In de praktijk bleek dat ‘bijna’ echter te onbetrouwbaar voor praktische toepassingen. De vele pc-experimenten liepen op teleurstellingen uit. De computer verstond de gesproken tekst vaak niet goed genoeg en introduceerde te veel fouten in de uitgewerkte documenten of in het omzetten naar commando’s. Bovendien drong al snel het besef door dat het in een kantooromgeving bepaald niet praktisch was als iedereen hardop zijn mails ging dicteren. De alternatieve aanpak, waarbij de software getraind werd om vooraf ingesproken commando’s te herkennen, werkte al niet veel beter. Al snel werd de toekomstvisie ook enigszins geridiculiseerd. Wat is bijvoorbeeld de meerwaarde van een koffiezetapparaat dat je met een spraakcommando kunt aanzetten als je nog wel steeds het water, de filter en de koffie er zelf in moet doen, vroegen commentatoren zich af. De spraakgestuurde toekomst was een kort leven beschoren.

Toch bleven technologiebedrijven met het idee spelen en in nichemarkten hadden ze enig succes met het commercialiseren ervan. Telefonische informatiesystemen bijvoorbeeld: de beller moest een waarde inspreken zoals zijn postcode - een beperkte opdracht die de computer redelijk betrouwbaar kan herkennen. De technologie werd steeds beter, zeker bij duidelijk gesproken teksten en goed afgebakende vocabulaires. Spraakherkenningsbedrijven zoals Philips en Nuance - de wereldmarktleider - zagen bijvoorbeeld heil in rapportages voor de medische sector, waar spraakherkenning flinke tijdwinst kan opleveren.

De tijd lijkt er nu dan toch rijp voor. Hoewel de basis sinds de jaren zestig niet wezenlijk is veranderd, zijn de details fijngeschaafd, grote databases voor woordherkenning aangelegd en is de rekenkracht die computers tegen het probleem aan kunnen gooien dramatisch toegenomen. En met succes: Nuance rapporteerde afgelopen jaar een omzet van 1,3 miljard dollar, een toename van achttien procent vergeleken met het jaar ervoor. 527 miljoen hiervan kwam uit de healthcare-sector.

En net als bij gebaarinterfaces wordt er tegenwoordig een noodzaak gezien; de argumenten zijn eigenlijk dezelfde. Een koffiezetapparaat mag dan misschien niet gebaat zijn bij een spraakgestuurd commando, voor het bedienen van een smartphone liggen de zaken anders. En het invoeren van de bestemming voor een navigatiesysteem tijdens het rijden kan met spraak een stuk veiliger.

Spraakherkenning heeft echter twee zwakke punten. Het eerste is dat er voor elke taal een eigen model nodig is en dat een systeem idealiter met alle talen overweg moet kunnen. ‘Er zijn naar schatting 6800 verschillende talen in de wereld, met 38 duizend dialecten’, geeft Kispert ter illustratie - hoewel het overgrote deel ervan irrelevant is. ‘Maar dat kunnen we alleen aan door meer intelligentie te gebruiken.’ Dat betekent krachtigere CPU’s en meer geheugen.

Of een hulplijntje naar de cloud, zoals mobieltjes vandaag de dag doen. Maar dat is gelijk ook het tweede zwakke punt. Als de mobiele dataverbinding een keertje wegvalt, is het ook gedaan met de spraakaansturing. Een hybride oplossing moet hier uitkomst bieden: simpele taken doet het systeem zelf, lastige besteedt het uit aan het datacentrum. Ook de leveranciers van netwerktechnologie profiteren zo van de nieuwe generatie gebruikersinterfaces.

In de nabije toekomst zijn veel apparaten te bedienen met gebaren en spraakcommando’s. De embedded-industrie kan hier flink aan verdienen, want er is veel zwaardere hardware nodig dan voor muis, toetsenbord of touchscreen.

Sinds de uitvinding van de pc zijn het toetsenbord en later de muis de aangewezen opties om met apparatuur om te gaan. Het afgelopen decennium is daar het aanraakscherm bij gekomen via de PDA en later de smartphone. Maar het arsenaal aan interfaceopties dijt de komende jaren flink uit, is de verwachting. Twee technologieën staan al in de startblokken: spraak en visie. En dat is gunstig voor de embedded-toeleverketen, zo hield Spansion-CEO John Kispert de verzamelde vakpers onlangs voor op de Global Press Summit. Want deze technologieën vragen om een totaal andere orde van rekenkracht, geheugencapaciteit, dataconnectiviteit en software dan een muis of touchschreen. De maker van embedded geheugens hoort de kassa al rinkelen bij de gedachte aan de grote hoeveelheden bytes die nodig zijn om bijvoorbeeld de digitale ‘woordenboeken’ voor spraakherkenning op te slaan op een embedded apparaat. Het bedrijf rekent erop dat deze technologieën over twee tot drie jaar de massamarkten zullen bereiken en is er daarom nu al hard mee aan de slag. Jeff Bier, oprichter van de de Embedded Vision Alliance-industriegroep, somde op dezelfde bijeenkomst op wie er allemaal een graantje kunnen meepikken van beeldverwerking in het embedded apparaat: makers van processoren, FPGA’s, GPU’s en ASSP’s, leveranciers van geheugens en opslagmedia, fabrikanten van CMos- en CCD-sensoren, systeemontwikkelaars, een hele industrie voor de complexe software die erbij hoort en dan nog een bonte verzameling aan leveranciers van lenzen, infraroodbronnen en dergelijke.

Aanvankelijk was het idee slechts om games met het lichaam aan te sturen, maar de Kinect van Microsoft maakt ook interfaces met gebaren in de lucht mogelijk.

Daar komt nog eens bij dat de interface steeds meer de plek wordt waar de fabrikant zijn producten onderscheidt van de competitie. ‘De gebruikersinterface kan het verschil maken tussen een kleine of grote marktpenetratie’, aldus Krispert. Met andere woorden: bedrijven hebben steeds meer geld over voor de smoel van hun product. Met name in de consumentenarena is de functionaliteit van concurrerende producten wel min of meer gelijk aan het worden.

Medisch dossier

Embedded visie zal zich in een reeks verschillende vormen manifesteren in de gebruikersinterface. De nieuwste versie van Android bevat bijvoorbeeld een feature om de telefoon te ontgrendelen via gezichtsherkenning. Ook de eerste producten die de gebruiker herkennen en de persoonlijke voorkeuren laden, zitten al in de pijplijn. De meest in het oog springende uitvoering is echter de gebaarinterface, waarbij de gebruiker via handbewegingen in de lucht zijn bedoelingen overbrengt aan het apparaat. Sinds de film ‘Minority report’ in 2002 uitkwam, dromen toekomstvoorspellers van een dergelijke computerinterface. In 2010 zette Microsoft de deur open voor realistische gebaarinterfaces met zijn Kinect-controller voor de XBox-spelcomputer, die zonder kalibratie of training de houding van mensen herkent. Eigenlijk was dit het langverwachte antwoord uit Redmond op Nintendo’s Wii, die het concept van lichaamsbewegingen om spelletjes aan te sturen een paar jaar daarvoor had geïntroduceerd. De Japanse console detecteert echter alleen een batterijgevoed apparaatje dat de gebruiker vasthoudt, terwijl de Kinect de speler volledig in drie dimensies in kaart brengt. En dat voor een prijs binnen het bereik van de consument. Het apparaat is gebaseerd op een standaard kleurencamera gecombineerd met een infraroodprojector en -camera om dieptes te schatten. De echte doorbraak zit in de algoritmes om de lichaamsdelen en bewegingen te interpreteren. De Kinect is getraind met kennis over hoe lichaamsdelen eruit moeten zien en kan ze zo zonder kalibratie direct herkennen en terugvinden in het beeld. De potentie van de Kinect voor ‘Minority report’-interfaces werd al snel ingezien. Ook duurde het niet lang voordat hobbyisten hun vingers achter de dataprotocollen van het apparaat kregen. Korte tijd later kwam Microsoft zelf op de markt met een softwareontwikkelkit, waarmee ook de koppeling met de XBox werd losgelaten. Proeven met gebaarinterfaces volgden elkaar rap op, tot aan de operatiekamer aan toe. Ondertussen zijn er ook andere spelers opgestaan - of zijn reeds bestaande spelers bekend geworden. Het Brusselse Softkinetic heeft bijvoorbeeld een soortgelijke 3D-camera op de markt en de Amerikaanse starter Leap Motion zegt aan een goedkoop en compact USB-randapparaatje voor de pc te werken.

Siri maakt spraakherkenning weer populair, maar legt gelijk een van de zwakheden bloot: op dit moment verstaat Apples persoonlijke assistent slechts Engels, Frans, Duits en Japans.

Maar een Hollywood-interface is bedoeld om er goed uit te zien, niet om handig te zijn. Zit de gebruiker er dus echt op te wachten? Kispert rekent erop dat de bedieningen worden ingezet voor toepassingen waar de traditionele bedieningen tekortschieten. In de operatiekamer bijvoorbeeld, waar de chirurg zonder vieze knoppen aan te raken door het medisch dossier van de patiënt kan bladeren. Dit argument geldt ook voor massamarkten, aldus een reclamefilmpje van de Koreaanse mobieltjesfabrikant Pantech. De telefoon opnemen terwijl je deeg staat te kneden? Geen probleem met de gebaarinterface. En de televisie bedienen kan natuurlijk ook best zonder een afstandsbediening die eeuwig kwijt is. Zo’n beetje alle grote tv-fabrikanten hebben op de CES begin dit jaar toestellen getoond die met gebaren te bedienen zijn - met wisselend succes.

Flinke tijdwinst

Ook bij spraak is er een duidelijke katalysator aan te wijzen: de Iphone 4S met Siri-app. Apple, interfacebedrijf bij uitstek, ziet de technologie als strategisch: het bakt zelfs technologie om ruis weg te filteren mee in de Iphone-processor - niet ten behoeve van de telefoongesprekken, maar voor de spraakherkenning.
Maar meer nog dan gebaarinterfaces kent spraaktechnologie een lange voorgeschiedenis. De Apple- en Android-smartphones konden allang spraakcommando’s aan, maar pas toen Apple zijn marketinggewicht achter Siri gooide, ging het vuurtje branden. Je kunt eigenlijk wel stellen dat spraakaansturing aan haar tweede leven is begonnen. Eind jaren negentig beloofde ze namelijk al de gebruikersinterface van de toekomst te zijn. À la Star Trek zouden we de apparatuur om ons heen met spraakcommando’s opdrachten geven, programma’s op de computer zouden we met spraakcommando’s opstarten en documenten zouden we niet meer typen maar dicteren. De technologie was bijna zover. Bijna. In de praktijk bleek dat ‘bijna’ echter te onbetrouwbaar voor praktische toepassingen. De vele pc-experimenten liepen op teleurstellingen uit. De computer verstond de gesproken tekst vaak niet goed genoeg en introduceerde te veel fouten in de uitgewerkte documenten of in het omzetten naar commando’s. Bovendien drong al snel het besef door dat het in een kantooromgeving bepaald niet praktisch was als iedereen hardop zijn mails ging dicteren. De alternatieve aanpak, waarbij de software getraind werd om vooraf ingesproken commando’s te herkennen, werkte al niet veel beter. Al snel werd de toekomstvisie ook enigszins geridiculiseerd. Wat is bijvoorbeeld de meerwaarde van een koffiezetapparaat dat je met een spraakcommando kunt aanzetten als je nog wel steeds het water, de filter en de koffie er zelf in moet doen, vroegen commentatoren zich af. De spraakgestuurde toekomst was een kort leven beschoren. Toch bleven technologiebedrijven met het idee spelen en in nichemarkten hadden ze enig succes met het commercialiseren ervan. Telefonische informatiesystemen bijvoorbeeld: de beller moest een waarde inspreken zoals zijn postcode - een beperkte opdracht die de computer redelijk betrouwbaar kan herkennen. De technologie werd steeds beter, zeker bij duidelijk gesproken teksten en goed afgebakende vocabulaires. Spraakherkenningsbedrijven zoals Philips en Nuance - de wereldmarktleider - zagen bijvoorbeeld heil in rapportages voor de medische sector, waar spraakherkenning flinke tijdwinst kan opleveren. De tijd lijkt er nu dan toch rijp voor. Hoewel de basis sinds de jaren zestig niet wezenlijk is veranderd, zijn de details fijngeschaafd, grote databases voor woordherkenning aangelegd en is de rekenkracht die computers tegen het probleem aan kunnen gooien dramatisch toegenomen. En met succes: Nuance rapporteerde afgelopen jaar een omzet van 1,3 miljard dollar, een toename van achttien procent vergeleken met het jaar ervoor. 527 miljoen hiervan kwam uit de healthcare-sector. En net als bij gebaarinterfaces wordt er tegenwoordig een noodzaak gezien; de argumenten zijn eigenlijk dezelfde. Een koffiezetapparaat mag dan misschien niet gebaat zijn bij een spraakgestuurd commando, voor het bedienen van een smartphone liggen de zaken anders. En het invoeren van de bestemming voor een navigatiesysteem tijdens het rijden kan met spraak een stuk veiliger. Spraakherkenning heeft echter twee zwakke punten. Het eerste is dat er voor elke taal een eigen model nodig is en dat een systeem idealiter met alle talen overweg moet kunnen. ‘Er zijn naar schatting 6800 verschillende talen in de wereld, met 38 duizend dialecten’, geeft Kispert ter illustratie - hoewel het overgrote deel ervan irrelevant is. ‘Maar dat kunnen we alleen aan door meer intelligentie te gebruiken.’ Dat betekent krachtigere CPU’s en meer geheugen. Of een hulplijntje naar de cloud, zoals mobieltjes vandaag de dag doen. Maar dat is gelijk ook het tweede zwakke punt. Als de mobiele dataverbinding een keertje wegvalt, is het ook gedaan met de spraakaansturing. Een hybride oplossing moet hier uitkomst bieden: simpele taken doet het systeem zelf, lastige besteedt het uit aan het datacentrum. Ook de leveranciers van netwerktechnologie profiteren zo van de nieuwe generatie gebruikersinterfaces.

Wilt u het volledige artikel lezen?

Abonneer direct op onze nieuwsbrief

abonneren

Topbanen in hightech

Senior software engineer

ALSI international

Beuningen

AGENDA

Cooling of electronics

29 mei - 31 mei

Eindhoven

System architect(ing)

17 juni - 21 juni

Eindhoven

Summer school Opto-mechatronics

24 juni - 28 juni

Eindhoven

Bits&Chips Hardware Conference 2013

12 juni

's-Hertogenbosch

Bits&Chips 2013 Embedded Systems

7 november

's-Hertogenbosch

Vul hieronder uw e-mailadres in om u aan te melden voor de digitale nieuwsbrief.


    


Mocht u al geabonneerd zijn en wilt u zich af melden van de nieuwsbrief, klik hier.