米国ではスマートスピーカーを保有する家庭が2025年に75%になると予測

「私たちは、アマゾンが成功した理由でもあり、18年間ずっと守ってきた3つの事があります。それは、顧客最優先主義、新しいことを行う、そして、辛抱強くいることです」
「私たちの仕事は、誰もが思いもしない新しいことを作り出し顧客に気にいってもらうことです」
ジェフ・べゾス、アマゾン設立者/CEO

そのアマゾンが行った、私たちの生活を変えるであろう「新しいこと」の1つであり、顧客に気にいってもらっている製品が世界初のスマートスピーカー、アマゾンエコーだ。

アマゾンがアマゾンエコーを世に送り出したのは2014年のこと。その後、日本語化され日本で発売されたのは3年後の2017年だ。今年の1月の会社発表の段階では、世界中でアマゾンエコーは1億台が販売されており大ヒット商品になっている。

アマゾンエコーが発売されたのち、グーグル(親会社はアルファベット NASDAQ:GOOGL)からはグーグルホーム、アップル(NASDAQ: AAPL)はホームポッドとそれぞれが独自のスマートスピーカーを発売している。

出所:Amazon

現在、米国では3割以上の家庭がスマートスピーカーを保有しているという調査がある。2年前に知り合いのアメリカ人から米国では、子どもたちの間の誕生日会のプレゼント品として使われているくらい人気があると聞いたことがある。米国のテレビドラマでは、子どもが母親に質問してわからないと、「アレクサに聞いておいで」という冗談がでるくらい生活の一部になっている。

2025年には米国の75%の家庭がスマートスピーカーを保有するだろうと言われおり、彼らの生活にとって必要なものになっていく見通しだ。

日本では電気製品量販店の店頭で特設コーナーもあるが、発売が3年ほど遅れた日本の保有率はまだ8%程度のようである。

筆者はアマゾンエコーが米国で発売されてすぐ入手し、5年以上その進化をモニターしてきているが、今回はスマートスピーカーが私たちの生活を変える将来の可能性について考えてみたいと思う。

スマートスピーカーとは何か

スマートスピーカーは、わかりやすく言うと、スピーカーに話しかけ質問や依頼をすると、AIアシスタントが音声対話型の対応をしてくれる便利なスピーカーのことだ。

アマゾンエコーには複数のマイクが搭載されており、周囲の雑音に影響されることはない。

スピーカーはWiFiとブルートゥースにつながっており、音声で行う質問や指示はアマゾンのAWS(アマゾンのクラウドサービス)に送られ、瞬時に音声認識処理されて、手元のスピーカーから回答が返ってくる。そのやり取りには遅延は感じられず、ほぼリアルタイムのやり取りだ。 スマートスピーカーが普及し始めたのは、一般家庭で高速WiFiが普及したお陰だ。

アマゾンエコーには、質問や指示に対して音声で回答してくれる案内役が、「アレクサ」と呼ばれるデジタルの女性AIアシスタントが存在する。アレクサは、「起動ワード」と呼ばれるコマンドの「アレクサ」と呼びかけるだけで会話が始まる。

アップルのAIアシスタントであるSiriや、「OK Google」でおなじみのグーグルアシスタントは前から存在する。これらとアマゾンの違いは、AIアシスタントを固定型のスピーカーに搭載し、部屋のどこにいてもアレクサによるサポートを受けられるところだ。

スクリーンを搭載したアマゾンエコーの進化系も発売され人気商品となっている。

出所:Amazon

7ヶ国語と、8種類の方言を話すアレクサ

アレクサは、日本市場で発売するにあたり日本語対応が可能となったが、現時点では英語、フランス語、ドイツ語、イタリア語、ポルトガル語(ブラジル)、スペイン語の7ヶ国の言語に対応している。

英語の世界においても、米国英語だけでなく、英国、インド、カナダ、オーストラリアなどそれぞれの違った英語の方言/アクセントでの対応ができるようになっている。 スペイン語は、スペイン本国だけでなく、メキシコのスペイン語、米国のスペイン語の方言対応可だ。

ちなみに、アレクサという名前は、古代エジプトのアレクサンドリアにあったアレクサンドリア図書館という当時世界最大、かつ最も重要な図書館の名前から来ていると言われている。つまり、アレクサは何でも知っている知識の宝庫ということのようである。

精度が上がってきている言語認識度、キーボードは不要に

私の友人である米ループ・ベンチャースのアナリスト、ジーン・マンスターは定期的にスマートスピーカーのスマート度の進化のチェックを行っている。2017年末に行った調査では、アマゾンエコーは質問の97.87%を理解したが、正確に回答できたのは63.81%だった。

それが今年の8月に発表した調査では99.9%の質問を理解し、その質問の79.8%を正確に回答している。ちなみに、この時点で最も正解率が高いのはグーグルアシスタントの92.9%、アップルのSiriは83.1という結果になっている。

これはあくまで英語の世界の結果であり、日本語でも同じとは限らないが、大切なことは今後これらのスピーカーの回答の正確性はますます向上していくことだろう。

全てのデータが手元のアマゾンエコーの中に入っている訳ではない。音楽を含む、日々増加している膨大な量の情報はすべて、アマゾンのクラウドサービスに収納されており、アマゾンエコーを介しWiFi経由でその情報にアクセスし、クラウド側でリクエストの処理を行い、その回答や返事は瞬時にエコーのスピーカーから聞こえてくるという仕組みとなっている。

そもそも、今までは調べものをしようとすると、パソコンやスマホのキーボードに入力するという作業が必要だった。それを指で入力せず、音声で解決しようという新しい試みがスマートスピーカーの原点だ。

スタンフォード大学の調査(※1)によると、音声入力の方がスマホでのキーボードを使った入力より早く、より正確だという結果が出ている。

この調査では、英語による音声入力はキーボード入力より3倍も速く、入力エラー率も2.9%に対し3.68%。中国語でも音声入力の場合2.8倍速く、エラー率も音声7.51%に対し、20.54%なのだそうだ。

最近では、人と人とのやり取りはラインやメールなどで指を使ってメッセージを送るようになってきたが、もともと人間のコミュニケーションは、「もしもし」に代表される音声を使って行われていた。アマゾンエコーのような音声でのやり取りは人間にとって実は自然なことといえるのではないか。

65,000を超えるスキル

アマゾンエコーを使うにあたり、スマホにアマゾンのアプリをダウンロードして設定を行い、必要な「スキル」と呼ばれる機能をダウンロードする。アマゾンエコーの利便性を高めるこの「スキル」だが、スキルの数は過去1年間で倍に増えており、現在米国では65,000以上を、日本語では3,000程度となっている。

初代エコーは長い筒のスピーカー単体のものであったが、現在は3世代目のエコーとなり、デザインも洗礼されてきた。また、エコーを2台接続することで音声もステレオ対応にもなった。小型のエコードットは価格も手ごろな製品だ。

出所:Amazon

では、次回では、スマートスピーカーでできること、スマートスピーカーがどのように私たちの生活を変えていくのか具体的な例を伴い解説してみたい。

 

(※1)Speech recognition faster at texting _ Stanford News