Proč byste měli zvážit používání technologie rozpoznávání hlasu

Původně zveřejnil Tomasz Tunguz na LinkedIn: Omezující faktor přijetí hlasu a diktování

Harry Stebbins tento týden zveřejnil podcast s Davidem Beiselem, ve kterém diskutovali o významu hlasu. David říká: „Hlas je nejpřirozenější možné uživatelské rozhraní.“ Myslím, že největší výzvou pro hlas je skepse a cynismus vyvolaný desetiletím nebo dvěma špatných zkušeností. Už to není technologie.

Jeden z mých partnerů nedávno přešel z iPhonu na telefon Essential a byl ohromen přesností hlasového rozhraní, které nabízí Google. Hlas se stal mnohem sofistikovanějším než před několika lety a rychle překonáváme fázi aplikací pro hračky.

Již dříve jsem psal o tom, jak se každý z mých e-mailů diktuje. Tento příspěvek na blogu je diktován a upravován výhradně hlasem. Pokud udělám chybu, mohu říct „vložit středník za diktované“ a počítač vloží; za slovo diktované.

Pokud mě zajímá konverzní cyklus hotovosti, mohu se zastavit uprostřed věty a říci „vyhledejte v Googlu konverzní cyklus hotovosti“. Můj Mac spustí Chrome a zadá dotaz v Googlu. Když skončím, řeknu „zavřít okno“, čímž se zavře Chrome a „přepnout na Typora“, což je název mého oblíbeného textového editoru pro psaní blogů. Pak mohu pokračovat v mluvení a psaní tohoto příspěvku.

Když vyslovím příkaz „publikovat příspěvek na blogu“, počítač spustí shellový skript, který provede čtyři věci. Nejprve program ověří syntaxi nového příspěvku na blogu. Zadruhé, skript mění velikost obrázků, které v tomto příspěvku používám, na optimální velikost a formát pro webové stránky. Zatřetí, Hugo, statický blogový engine, který používám, sestavuje webové stránky. Za čtvrté volá rozhraní příkazového řádku služby Amazon Web Services, aby synchronizoval lokální webovou stránku, kterou jsem právě sestavil, do S3. To se stane za méně než čtyři sekundy, na pozadí, a to vše na základě hlasového příkazu.

Pokud zkoumám nějakou společnost, mohu říci „research Looker“. Počítač otevře v prohlížeči Chrome čtyři karty – RelateIQ, Crunchbase, Mattermark, LinkedIn – a v každé z těchto služeb zadá dotaz, takže až se všechny načtou, budu se v každé z těchto služeb dívat na stránku Looker.

Hlas pomáhá i s maličkostmi. Okna mohu také přesouvat po ploše tak, že řeknu vlevo nahoře, vpravo dole a okna změní velikost. „Přehrát hudbu“ spustí Spotify. „Next song“ mění hudbu. Mohu říci „Gmail“ v mém e-mailu se načte. „Otevřít“ otevře první e-mail. „Odpovědět“ začíná odpověď. „Odeslat do Asany“ přepošle e-mail do Asany a poté tuto zprávu archivuje.

Četl jsem o inženýrovi, který si nakonfiguroval software pro diktování hlasu tak, aby mu umožnil psát kód výhradně mluvením do počítače. Představte si, že zadáváte kód v jazyce C++ tak, že ho vyslovíte. Pro někoho, kdo je rodilým mluvčím jazyka, je to mnohem přirozenější a až třikrát rychlejší než psaní na klávesnici. Navíc už žádné problémy s RSI.

Od neuvěřitelně sofistikovaných aplikací a využití hlasových technologií při interakci s počítači prostě nejsme tak daleko. Jsme svědky toho, že se hlas stává běžným případem použití v domácnosti díky Alexe a Google Home. Nebo v autě nadiktováním textové zprávy, že se zpozdíte, nebo dotazem na navigační pokyny.

Tato známost a spotřebitelské případy použití rozptýlí skepsi uživatelů, která se nashromáždila za léta neuspokojivých zkušeností. Hlas přijde do kanceláře ve velkém a umožní mnohem sofistikovanější a složitější případy použití, než jsme viděli v minulosti, od zadávání dat až po sofistikovanou analýzu.