操作から会話へ



目次


1. 始めに


1.1 概要

本文書の概要

コンピュータは、エリートが脳を拡張する道具として始め、発展してきた。 しかし、今や、万人がスマホという形態でコンピュータを利用するようになった。 そこで、インターフェイスが、ヒトが道具を操作するという関係から、道具と会話するという関係へ、変わるべき時期である。 日本は今、高齢化社会を迎えて、情報格差が課題となっている。 一方で、行政手続き、金融・経済活動、移動、スマートXXなど、あらゆる側面で情報化を進め、効率化することが望まれている。 情報化で高齢者など情報弱者を取り残さないために、まさに今、社会に必要なことを提言する。

筆者は、仮名漢字変換を開発する中で、ヒトが手指と目だけでコンピュータに対するのを、不自然に思った。 人は、手指と目以外にも素晴らしい生体機能を持っている。 そのことを生物史や認知心理学などの知見で示し、そこから自然なインターフェイスを説明する。

また、現在のコンピュータは、特有の抽象概念を利用者に押し付けて、認知負荷をかけている。 筆者は、高齢者のIT利用をボランティアで支援している。 その経験の中で、認知負荷と諸トラブルが、現在のグラフィカル・インターフェイスからくることを検証した。

それらに対し、人が、しゃべりや身体で意図を表現し、機械は、耳と目を持ち人に反応する、そう変われば、だれでも生得の能力で自然にICTとインターネットを利用できるようになる。 そして、実は、その実現のための技術はすでにあり、ただ、ソフトウェアやアプリのデザインを変えさえすればいい。

1.2 想定読者

本文書は、以下の方々を読者として想定し、一般向けではない。

  • これから情報処理を志す若者と、情報処理技術分野で現在活躍しているプロフェッショナル:

    本文書は、今のコンピュータのインターフェイスはおかしいという問題意識に始まっている。 この分野を志す若者と、一線で日々問題解決をしている方々に、ぜひ、一緒に考えていただきたい。

  • 高齢者がITを活用するというテーマに取り組んでいる方々:

    この文書では、ユースケースとしてしばしば高齢者のシナリオを取り上げる。 認知負荷に耐えられない高齢者が、現在のコンピュータ・インターフェイスの犠牲になっている。 その解決が、未来を示すと考えるからである。 そこで、高齢者がITを活用するというテーマに取り組んでいる方々に、読んでいただきたい。

  • 音声アプリに取り組んでいる方々、視線追跡やジェスチャー認識アプリに取り組んでいる方々、ロボット開発に取り組んでいる方々:

    本文書は、従来の、手で操作し目で見るだけのIT機器を問題視する。 そして、音声の活用、ジェスチャー認識や、人型ロボットの利用が望ましいことを主張する。 その点で、音声アプリに取り組んでいる方、視線追跡アプリに取り組んでいる方、 ジェスチャー認識アプリに取り組んでいる方、ロボット開発に取り組んでいる方々のコミュニティを、応援する。

1.3 人と道具の調和のために

道具がヒトの能力と調和したとき、ヒトの能力を拡大する

ヒトは、その能力によって道具を発明し、自分ができることを拡大してきた。 例えば、ヒトは、文字と紙という道具を発明した。 それによって、ヒトは、記憶したり伝達したりする能力を、拡張した。 また、ヒトは、紙という平面の物体に、ペンを操り、三次元の物体の見取り図を表現する。 これは、生身の目では見通せない俯瞰的な視覚である。 最近では、顕微鏡や望遠鏡が、見えるものを広げた。 車が、ヒトの移動距離を変えた。 インターネットが、交信する集団の規模を変えた。 これらすべてヒト能力の拡張である。

紙に文字や図を書くとき、ヒトは、器用な手指を操作する。 高性能な目で指の軌跡を確認し、手指の内部的な感覚とともに、動きに修正をかける。 そういったことを、瞬時に連続的に繰り返し行っている。 ヒトは、その高度な目の機能と手指の器用さによって、道具を使いこなしている。 このように、道具が人の能力と調和したとき、道具は有効なものとなる。 そして、有効な道具は、ヒトの能力を拡大する。 さらに、拡大されたヒトの能力によって、道具は一層高度になる。 道具とヒト能力の相乗効果は、石器時代の昔から、ヒト社会を変えてきた。

ヒトの能力、道具、調和

ロボットを専門とする石黒浩氏は、 「人間は技術によって能力を拡張できる。 遺伝子の進化よりも技術による能力拡張の方がはるかに速い。 ロケットに乗って月に行くことはできるが、遺伝子を改良して月に行けるのはいつの日になるか分からない」 という([rIH])。

コンピュータはヒトの能力と調和していない

しかし、現在のヒトとコンピュータの間の関係はどうか。

  • 例えば、ヒトは、ハサミを難なく使える。 それに対して、コンピュータは、マニュアルを読まないと使えない。 マニュアルに書いてある、人工的な抽象物の建築物の歩き方を習熟してからでないと、何をどうするか見当もつかない。 つまり、コンピュータがもたらす概念体系は、ヒトの頭に素直に自然と入ってくるもので、ない。
  • 例えば、ヒトは、意識せずに歩くことができる。 また、自転車に乗ったり、自動車のハンドルを操作するのに、少し訓練すれば、あとは無意識的に筋肉が動いてくれる。 一方、コンピュータは、少し慣れたあとでも、操作する際、これをやれば何が起きるかと、常に知的な注意と緊張を強いられる。 つまり、ヒトが難なく自然と覚え、吸収できるもので、ない。
  • 例えば、子供から成長するにつれて、ほとんどのヒトは言葉をしゃべり、文字を書くことができるようになる。 これは、社会的教育による。 一方、コンピュータは、情報を流通するツールとしても、誰でも使えるものでない。 つまり、人が社会の教育的環境の中で自然と身に着けられる、ヒト文化の一部では、ない。

現状のコンピュータは、ヒトの日常的な能力で即、使えるものでない。 その意味で、コンピュータはヒトの能力と調和していない。

本文書では、高齢者を例として、ときどき、取り上げる。 高齢者は、情報処理機器に限らず、新たに何かを習得することを嫌う傾向がある。 そういったヒトたちに、この調和していないという問題が、先鋭化する。 例えば、2011年、老テク研究会という組織が、 高齢者が情報機器が使いにくい理由について定量調査した([rRT])。 その理由の上位に、マニュアルのことが並んでいる。 今になっても、状況は変わっていない。

  • 説明書のどこに自分の知りたいことが書いてあるかわからない…151名
  • 説明書を読んでも、英語やカタカナが多く言葉の意味がよくわからない…131名
  • 取り扱い説明書の文字が小さくて読めない…130名
  • 説明書が分厚くてとても読む気になれない…82名

今の高齢者向けスマホは、壮年向けのデバイスと操作インターフェイスを、後で高齢者向けに改造して提供している。 その結果、より複雑になり、マニュアルが厚くなった。 せっかく、タッチで直接操作できて、より直観的な操作インターフェイスになったのに、である。 なぜこうなったか、どう克服できるかを、本文書で見ていく。

コンピュータの違和感

コンピュータは、モノであり、道具である。 しかし、ハサミのような単機能の道具と異なり、抽象的な事柄を扱う。 コンピュータの処理対象は、情報である。 コンピュータの機能は、計算や情報の加工である。 どちらもヒトの抽象物である点が、日常で見る道具とは、異なる。

しかも、コンピュータ、あるいは情報処理は、ほかの抽象物とも異なる点がある。 例えば、建築物の構造、都市の道路、建物の配列は、人の抽象物である。 また経済活動のための貨幣も、人の抽象物である。 しかしこれらは、ヒトの生活や身体と、密接に関連している。 物理や化学は、自然との対象とかかわる。 一方、コンピュータの抽象物は、ヒトの身体や自然と物理的な交渉がない。 純粋に抽象的な、神話や数学や文学などに近い。 頭の中だけにあって、人の身体や生活や自然と関わらない。

コンピュータは、 エリートの知能の拡張のための道具であった(「エリートが知能の拡張を目指した」)。 石器は、ヒトの手の延長だったが、 コンピュータは、ヒトの脳の延長だった。

コンピュータは、人の頭が生み出した道具である。 しかし、すでにいろいろなモノの中に組み込まれ浸透している。 スマホ、自動車、電子レンジ・洗濯機などの家電、などである。 通信を介してコントロールされているものを含めたら、いろいろな社会インフラを支える装置もそうである。 ヒトの能力と調和していない、純粋抽象物が、これほど、どこにでもある存在になってしまっている。

コンピュータは、エリートの知能の拡張のための道具、ということを超えて、応用され、普及した。 いま、スマホの時代になって、コンピュータは、だれでも使う道具である。 情報通信は、災害時の対応、ウィルスに対する医療連携など、 電気や水道並みの人々の生命を維持する手段、ライフラインにもなった。 人が、コンピュータの抽象的な構築物や操作インターフェイスを操作するという関係は、今の典型的な利用者像と利用目的に合っていない。 それが違和感の原因である。

コンピュータの利用者と用途

コンピュータ・ハードウェアは、進歩しづける。 いずれスマホは、ハードの性能を持て余す。 そのハードをどこに活用するかに関し、そのうち新しい領域を見つける。 本書は、その方向の一つを提案する。

操作と会話

ヒトはモノ道具を操作し、ヒトと会話する。 今、操作と会話という、異なる二つの関係性に注目してみる。 それぞれ操作モデル、会話モデルと呼ぶことにする。

コンピュータは、モノ道具の一つとして生まれた。 それは、ヒトが操作するものである限り、ヒトの指示に従うだけの存在である。 ハサミなどは、ヒトが生得的な能力でコントロールできた。 しかし、コンピュータは、複雑な抽象から構成されているため、ヒトの生得的な能力とギャップがある。 そのギャップのため、ヒトが誰でも操作できるものでない。 このギャップの部分は、従来、ユーザー・インターフェイス(UI)と言われてきた。 違和感は、そのヒトがコンピュータを扱うインターフェイスにある。

ヒトが道具を操作するのは単方向の関係である。 こちらの操作から、向こうからの反応を見るまでが、ブラックボックスである。 操作してから結果が返ってきて、その対応がどうなのかの解釈は、不幸なことに、利用者の認知負荷となる。 そこで、逆の関係を隠しもってしまう危険がある。 道具越しに、向こう側に、使っている主体以外のヒト組織が動いているケースがある。 例えば、こちら側のヒトの意図と無関係に、向こう側から来た広告や不要な通知などに、突き動かされる。 使っているヒトが、道具の向こう側の組織や主体に、実はコントロールされかねない。 その場合、向こう側の組織や主体は隠れていて、道具がこちら側のヒトを操作しているかのようである。

一方、ヒト相手の会話ではどうか。 ヒト相手に話をするときは、詳細な指示を出す関係ではない。 意図を伝え、依頼し、反応をみて、さらに会話する。 ヒトの意図レベルで、やり取りをする。 そこに、コンピュータ相手のコマンドをくみ上げるような、抽象的で難解なプロセスはない。 ヒトが、文章を考え、しゃべる、という自然な能力ですむ。

そして、意図を伝えるために、互いの視線を意識したり、指さししたり、表情を見合ったりする。 見て、聞く。 指さしも、表情も、体得的な行為である。 ヒトは、体得的な能力で、身体を使って、会話する。

会話モデルでは、意図を伝えて、その反応が返ってきて、やり取りを続ける。 双方向であることが本質である。 意図から反応までの過程は、操作と同じくブラックボックスであるが、 反応が意図に沿ったものかそうでないかを、ヒトは容易にわかる。 会話は、ヒトが制御しやすい。

従来、ヒトとコンピュータは、ヒトがモノ道具を操作するという関係性だった。 また、エリートの知能の拡張のための道具だった。 そのため、操作する時に認知負荷があっても、エリートには問題なかった。 しかし、そこでは道具がヒトを操作しているとも解釈できることも起きている。 ヒト不在である。 ギャップをなくし、操作される危険を小さくするには、 会話モデルでインターフェイスを設計したほうがよい。

コンピュータが、これまでの道具と異なる、一つの決定的な違いは、ヒトの言葉を受け入れられることである。 複雑な言葉を使うことは、ヒトの特性と考えられる(「言語発生」)。 機械が、言葉を理解できるかのようにふるまうとしたら、それは, それまでの道具に比べて、質的に決定的な変化だ。 機械が、ヒトのパートナーとして、歩み寄ってきている。 この点を、もっと利用することで、会話インターフェイスに近づける。

身体性の回復

ヒト同志は、身体全部を使って、会話する。 同様に、意図レベルでやり取りをする際、ヒトのパートナーたる機械道具は、ヒトの身体を相手にしなければならなくなる。 なぜなら、ヒトの意図は、ヒトの身体で表現されるからである。 ヒトの意図は、キー操作よりも音声発話のほうが適している。 また、注目を示すまなざし、指差し、肯定・否定の首ジェスチャー、手・腕ジェスチャーなども意図を表現する。 これからのコンピュータは、このようなヒトの身体とやり取りをするべきである。 逆に、例えば、ものを運ぶロボットからヒトを見てみる。 運搬ロボットにとって、ヒトがスマホのモニターとタッチから出した指示だけで動いていいのだろうか? 運搬ロボットは、ヒトの歩く通路をヒトと共有する。 ロボットは、ヒトの動きを観察しながら動かないと、ぶつかったり危険をもたらしたりする。 機械道具側から見ても、ヒトの脳だけでなく、カラダを相手にやり取りをするのが自然であり、それで初めて目的を達成できることが多い。

そもそも、機械道具はヒトの環境の一部である。 それと同時に、ヒトの能力の延長でもある。 機械道具は、ヒトと環境の接点に居る。 機械道具がヒトと触れるとき、自然な状態では、ヒトはカラダ全体を使い環境と会話する、ということを忘れてはいけない。

ヒトが、認知負荷の高いコンピュータに合わせるのでなく、コンピュータのほうがヒトに合わせる。 ヒトが意図したことに、コンピュータが答える関係になる。 ヒトの意図を軸にやり取りが回るので、ヒトが道具から操作されるということは起きにくい。 そのとき、コンピュータはヒトと調和する。 コンピュータがヒトと、意図、カラダレベルでやり取りをし、調和すると、何がいいか。 ヒトが歩くように、誰でもストレスなく、コンピュータと付き合える。 ヒトが自転車に乗るように、誰でもストレスなく、コンピュータの力を利用して、自分の力を拡張できる。 コンピュータがもたらす無限の便益を、ヒトが自然に享受できるようになる。

一方、リアルよりバーチャルな体験の可能性を重視する考え方がある。 リアルな身体から解放されることが理想とする。 しかし、コンピュータ・ネットワークのバーチャルな世界に身をゆだねるためにも、 ヒトとコンピュータのインターフェイスには、調和が必要である。

ヒトのパートナー

コンピュータの創設期に、知能の拡大を目標としたことは、適切ではなかったかもしれない。 最初に、脳の道具という異質なブツというとらえ方よりも、ヒトのパートナーだという発想をしたほうがよかったのかもしれない。

ロボットを専門とする石黒浩氏は、 「人間は人間を認識する脳を持っている。人間にとって最も関わりやすいインタフェースは、人間に似たロボットになる」 という([rIH])。 コンピュータは、インターフェイスを軽視して、発展してきた。

鉄腕アトム [https://ja.wikipedia.org/wiki/鉄腕アトム より]

ドラエモン [https://it.wikifur.com/wiki/Doraemon_(personaggio) より]

変化に必要なこと

ヒト同士の会話を、インターフェイスの理想だとする考えは、昔からあった。 人工知能の会話ボットなどである。 すると、もっとハイテクを駆使しないと、会話モデルにできないのか? そうではない。 コンピュータを作る人、アプリを作る人が、すでにある技術をもとに、ちょっと視点を変えてデザインをすればよい。 少なくとも、技術はあって、組み上げ方を変えればよい。

ヒトが現在のコンピュータを操作するときのインターフェイスの歪みを意識し、克服しようとした考えは、以前からあった。 例えば、石井裕のタンジブル・ビッツである([rIY])。 豊かなコンピューター・ネットワーク空間の世界を、モニターとマウス越しでしかインターフェイスしないことに異を唱え、 環境自体をインターフェイスにしようとした。 形のない情報というものを、より実体のあるもので表現しようとした。 環境という物理的な実体で、コンピューター・ネットワーク空間の情報を表現しようとした。 すると、環境を進化させないと、人が現在のコンピュータを扱うインターフェイスの歪みは解決しないのか? いや。 コンピューター・ネットワークの一部であるコンピュータが、豊かな人体能力を尊重するように変わればよい。 環境ごと変わる必要はない。 コンピュータが変われば済む。 豊かなコンピューター・ネットワーク空間より、豊かなヒト能力をまず尊重する。 環境をインターフェイスにするというより、ヒトをインターフェイスにする。

また、坂村健やマーク・ワイザーによるユビキュタス(どこにでもある)・コンピューティングという考えもあった。 Internet Of Things 、モノがインターネットでつながる、ということにつながる考えである。 コンピュータがいずれ、いろんな所に埋め込まれて、それらが協調動作する。 ハイテク家電には、すでに小さなコンピュータが組み込まれている。 それらよりも格段に多く、様々な物に、コンピュータを埋め込む。 そうすることで、ヒトはコンピュータを意識しなくても、いろんなことができる社会が実現すると。 インターフェイスはなくなるべき、という考えもある。 すると、コンピュータがいろんなものに埋め込まれるまで待たなければならないのか? そうではない。 コンピュータに作りこむアプリのデザインを変えればいい。 また、画面付きスマートスピーカーとか、会話AIロボットとか、今、出てきているコンピュータの形態を利用して、 アプリ機能をくみ上げればよい。

音声認識技術は、すでにある。 ブラウザの機能を使えば、だれでも無料で利用できる。 言葉を理解しているかのようにコンピュータを動作させる技術は、深層学習による自然言語処理として、すでにある。 特定の問題解決タスクや、特定の語彙空間への応用の広がりが、まだないだけである。 音声で対話するボイス・ユーザー・インターフェイスのデザインに関しても、またビジュアルとボイスを融合させたデザインに関しても、 経験とノウハウが、まだ少ないだけである。 ハードや新しい技術の進歩や、社会インフラの変化や、そういった変化を待つ必要はない。 IT技術者は、日々、問題解決に取り組んできている。 多くのIT技術者が、インターフェイスの現状はおかしいと、見方を変えればいいのである。 その気になればいいのである。

1.4 本文書の構成

本文書の構成

本文書の前半では、ヒトの身体の情報処理機能を概観し、それと接する機械がどうあるべきかの基礎データにする。 生物史、生物発生学、脳神経学、認知心理学などから、参考になる知見を拾い、概観する。 後半では、従来のコンピュータの問題を分析し、 ヒトの身体に向き合い、意図レベルで、やり取りするようなコンピュータを考えていく。 それは、ハイテクである必要はないことを説明する。



2. ヒト生体の情報処理


2.1 概観

ヒトの生体機能を見ていく理由

コンピュータは、エリートの知能の拡張のための道具である。 ヒトは、コンピュータも、従来の道具を操作するモデルでとらえる。 これらの考え方は、誰でもコンピュータを使う時代に合わない。 ヒトとの会話をモデルにして、インターフェイスをデザインしたほうが良い。 人の意図レベルでやり取りをし、ヒトのカラダの能力を、そのまま受け止め、それに反応する。 そのために、コンピュータは、ヒトの生体の能力と特徴を、尊重しなければならない。 ここでは、まず、ヒトが生物として世界に対処するときの、生体情報処理の特徴を見ていく。

ヒトは8つの感覚器と2つの作用効果器で情報処理している

ポール・ナースによれば([rPN])、 「あらゆる生命には、自分と子孫を永続させるという目的がある。 あらゆる生命の中心には、情報がある。 目的のための行動に、情報は利用される。」

生体は、外の世界と、自分の体の内側の世界と、両方から、情報を絶えず集めて利用している。 内外の環境の状況を把握するものを、受容器官という。 それらに応じて外部に働きかけるものを、効果器官という。 受容器官と効果器官とを連結し統括するのは、脳・神経系である。

受容器官は、特殊感覚と体制感覚とがある。 特殊感覚は、特定の刺激に対して、特定の場所にある器官が反応する。 体性感覚は、身体に分散して存在し、環境への反応を助ける。 一般的に五感と言われるものは、明示的には意識しにくい、平衡感覚と固有感覚を除外したもの、視覚、味覚、嗅覚、聴覚、触覚である。

一方、ヒトの効果器官には、機械系と音響系がある。 機械系は、筋肉や骨格からなる手指や身体の機械的運動系である。モーター系とも。 また、音響系とは、発声器官である。

視聴覚に関する研究は多いが、効果器官に関する研究は多くない。 テレビや従来のコンピュータなど、ヒトが機械から情報を受けるということが関係の中心だったからだろうか。

  • 受容器官
    • 特殊感覚器官
      • 視覚器
      • 味覚器
      • 嗅覚器
      • 平衡・聴覚器(組織的に同居)
    • 体性感覚器官
      • 外部から受容する皮膚感覚
      • 筋、腱、関節内で感知する固有感覚
  • 効果器官
    • 筋肉や骨格からなる手指や身体の機械的運動系
    • 発声器官

情報媒体は、光、振動、科学的・物理的刺激である

視覚は、光という電磁波を感知する。 聴覚は、ヒトを含む陸生動物の場合、空気振動を感知する。 触覚(皮膚感覚)は物理的刺激を感知する。 そして味覚と嗅覚は化学的物質を感知する。 運動系は物理的な効果を持つ。 音声発生は、空気振動を起こす。

ヒトの器官と情報媒体
受容器官特殊感覚視覚
味覚化学的物質
嗅覚化学的物質
平衡・聴覚重力、空気振動
体性感覚皮膚感覚物理的
筋、腱、関節内固有感覚物理的
効果器官機械的運動系物理的
発声空気振動

平衡感覚、体性感覚と、機械的運動系は、密接な関係がある。 味覚と嗅覚は、体内で処理された後、場合によっては機械的運動系で反応することになる。 空気振動を媒体とする聴覚と発声という音響器官は、密接な関係がある。 視覚は、電磁波を感知するという点で、独自であるが、後で見るように、ヒトでは音響器官と絡んでくる (「言語発生」)。

近接感覚と遠隔感覚がある

感覚には、遠くからのことを感知するものと、近いことを感知するものと、どこでも偏在することを感知するものがある。

どんな生物も、例外なく、重力を感じる。 重力は、遠近に関係なく偏在する。 動物は自分の体の傾きを、平衡器官で感知する。

味覚、接触感覚は、近くのものの感覚である。 動物の進化の中で、これらの近接感覚がまずあったと思われる。 味覚は、化学物質を感知する。 接触感覚は、物理的な圧力を感知する。 これらが、食べ物を識別し、仲間と生殖・交信するためにあったと思われる。 また、運動するために、体の状態を感知する体性感覚も必須だった。

一方、生物が行動範囲を広げる際に、より広い環境を感知して、よりうまく生存・生殖したい。 嗅覚は、遠くからの化学物質を感知する。 聴覚は、遠くからの水・空気振動を感知する。 視覚は、遠くからの光電磁波刺激を感知する。 この視覚は、生物の進化、生存競争で、決定的に重要な役割を果たしたらしい (「人は視覚的動物である」)。

ヒトの器官と情報属性
受容器官特殊感覚視覚遠隔
味覚近接
嗅覚遠隔
平衡、聴覚(器官的に同居している)平衡感覚は偏在、聴覚は遠隔
体性感覚皮膚感覚近接
筋、腱、関節内固有感覚近接
効果器官機械的運動系近接
発声遠隔

それぞれの器官の通信容量

人間の全受容器から、感覚神経を経由して、中枢神経系へ伝送される情報量は、10の9乗ビット/秒と言われる。 うち、視覚は、10の6から8乗ビット/秒、聴覚は10の4から6乗/秒、触覚は10の6乗/秒と言われる。 一方、中枢神経系から、運動神経を経由して、効果器へ伝送される情報量は、10の7乗ビット/秒と言われる ([rSO][rFT][n01])。 また、人間の情報獲得の80%は視覚から、ともいわれる([n02])。

ヒトの器官と中枢系との間の通信容量
受容器官1,000,000,000ビット/秒
特殊感覚視覚100,000,000ビット/秒
味覚10,000ビット/秒
嗅覚100,000ビット/秒
聴覚100,000ビット/秒
体性感覚皮膚感覚1,000,000ビット/秒
筋、腱、関節内固有感覚
効果器官10,000,000ビット/秒
機械的運動系
発声

ヒトは環境を認識するのに、圧倒的な割合で、視覚を使っている。 また、環境に対する反応の情報量は、感覚よりも桁違いに小さい。 ヒトという生物は、環境から多くの情報を仕入れて、生存・繁殖に有効なものを選んで反応し、環境に働きかけている。

感覚、知覚、認知の違い

受容器官に刺激が与えら脳に伝えられたもの感覚という。 熱いとか、音が聞こえるとかである。

感覚に、対象の構造や特徴が加えられて、意識されたものが知覚である。 長いとか、強いとか。 感覚はその一部が知覚となる。 意識に上らないことは多い。 あるものは無意識的な反応として行動に現れる。 あるものはエネルギーを節約するために意識を向けられずにフィルターされる。

さらに、知覚が過去の経験や学習に基づいて解釈されたものが、認知である。 犬であるとか、母であるとか。 認知になると、文化や社会の影響が濃厚に出る。 社会の文化によって、虫の鳴き声を、雑音と感じるか、秋の風情と感じるか、が異なってくる。

感覚、知覚、認知

感覚、知覚、認知は、ヒトが環境から情報を仕入れる、階層的な分類である。 感覚神経で刺激を受けてから、中枢神経・脳へ信号が伝わる過程で、階層的な処理が行われることに対応している。 しかし、何が、どう、知覚されないし無視され、何が、どう、認知され無視されるか、部分的にしかわかっていない。 一方、反応に関しては、不随(無意識)的か、随意(意図)的か、の分類がある。 動物的な脳の部分で本能的に反射することと、大脳皮質で意識的に判断して反応することとに対応するのだろうか。 不随意的な効果の積み上げの上に、随意的な効果がある、という階層関係ではない。 環境へ反応するには、素早く対処するのと、ゆっくり反応するのを、使い分けている。


2.2 受容器官

2.2.1 視覚

人は視覚的動物である ー 生物史的な経緯

人の得る情報の80%は視覚からと言われる。 ヒトは視覚的動物である。 ここでは、視覚の優秀さをいくつかの点からみていく。 それが、ヒトが目と手で道具を扱い進化してきたこと、 目と手が近年のコンピュータを操作するインターフェイスの基軸になっている、 を説明する。

光という情報媒体は、遠くまで届き、高速に伝わる、という特徴を持つ。 生物が光を感知できると、遠方まで、敵か味方か、餌を識別できる。 生存に有利である。 光は高速なので、どこに物があっても瞬時に把握できる。 その意味で、ほかの感覚と比べ、距離に左右されない。

視覚が生物進化で決定的な役割を果たしたという物語が、生物史にある。 地球史の中に、カンブリア紀という時代があった。 その時代からいきなり化石が出始めた。 英人生物学者のアンドリュー・パーカー(Andrew Parker、1967~)は、 2003年、「光スイッチ説」を唱えた。 カンブリア紀に登場した三葉虫は、目を進化させた。 その結果、食べ、食べられる、食物連鎖関係で優位に立った。 それが、淘汰圧として、ほかの生物の多様な進化を促した、と([rMK])。 それまでは、化石になるような骨や外殻がない生物しか存在していなかった。 視覚の登場が生存競争・選択淘汰を激烈にし、 そのために骨や外殻を備えた多様な生物が生まれたと。

以下の年表に示すように、目の発生は生物の歴史の中で、高度な生物が繁栄する前に起きた。 発生的にも、眼は中枢神経系(脳)の一部である。 その後、その機能の高度さは、長い生物史を通して築き上げられた。

目の発生

その後、生物の長い歴史の中、視覚は機能的にも進化してきた。 まず、原始的な生物は、明暗識別ができた。 ついで、明暗の方向視、形態視、動きの感知、色認識ができるようになった。 そして、両眼視による遠近を含む探索・位置同定、ができるようになった。

一方で、光あふれた昼間、地表での生存競争を避けた生物があった。 光は、他のものによって遮られる。 また、夜には光がなくなる。 地表を避けた生物は、別の感覚を伸ばす必要があった。 化学物質である臭いは、風や水流に左右されるが、昼夜を問わず、どんな隙間にも入り込む。 中生代の恐竜の全盛期、ヒトの先祖である哺乳類は、恐竜から逃げた。 哺乳類は、夜に活動し、光のないところで嗅覚を発達させて、生き延びた。 魚類、両生類、爬虫類、鳥類は四色視できるが、哺乳類は視覚を二色視に退化させた。 陸上動物だけでなく、海生動物を含めても、視覚器が退化した動物は多いが、 嗅覚器を持たない動物は少ないという([rIN])。

やがて、恐竜がいなくなり、類人猿が森から草原に降りてきた。 そのころ、ヒトの先祖である狭鼻猿類は、それまでの赤・青の二色視でなく、 赤・青・緑の三色視ができるように、視覚を再生させ、優位に立った。 その後、アウストラロピテクスの直立二足歩行へ続く。

このように、生物の進化の中で、視覚の発生は決定的な役割を担った。 ヒトの視覚も、長い生物の進化の末の発展形である。 その特性を踏まえて、かつそれと身体のほかの部分との関係を損なわず、生かしていくべきだ。

一方で、コンピュータやロボットは、ヒトが選別するという環境で、淘汰されて発展していく。 遺伝子の世界で、生物の目が決定的な役割をしたのだから、 ヒトの作る道具たちが目を持つということは、やはり、将来から見て決定的なことになっていたとしてもおかしくない。

ヒトの視覚の高性能の仕組み

ヒトの視覚の高性能の仕組みを見てみる。 光刺激を瞬時に処理するため、ヒトの視覚は、情報圧縮と並列処理を活用している。

まず情報圧縮である。

  • 脊椎動物の視細胞には、錐体(cone)と粁体(rod)という2種類がある。 粁体(rod)は明暗に反応し、錐体は異なる波長の光(色)に反応する。 ヒトでは、網膜に中心窩(fovea)と呼ばれる錐体だけが密集した部位がある。 中心窩での視覚が視野の中心部となる。 人間には錐体が約600万個、 粁体が約1億2000万個存在する。 一方、視細胞の情報を受け取る視神経は、約100万個である。 従って網膜は、光刺激の情報を、約100万割る約1億、 1/100ほどに圧縮して脳に送っていることになる([rST])。
  • 視覚は、光刺激を電気信号へ変換して処理する。 刺激が同じならば、神経内で電気信号が発火されない。 つまり、同じ映像であるかぎり、刺激としての画像情報は消える。 そこで、眼球を不随意に微動させて、注視したときの網膜像を絶えずリフレッシュしている。 そして、網膜像の時間的差分だけを脳へ送るという、 データ圧縮を行っている([rSO])。

ヒトは瞬時に目から多くの情報を把握できるが、いくつかの並列処理を行っている。

  • 視細胞のレベルでは、中心窩に多い錐体は、色や空間的情報処理を分担している。 杆体は明暗情報処理・時間的情報処理を分担している。 そして、注目しているところの注目視と、別に周辺視が、独立に機能している。 歩きながらスマホを見ることができるのもそのためである。 明暗の変化や運動など時間的な変化を伴うものが、周辺視野で感知される。 その後、注意すべきかどうかの判断のために、眼球運動で注目視し、 知覚・認知が行われて、対処が判断される([rFT])。 周辺視野には以下の特徴がある。
    • 周辺視野は、素早く反応する。 物体を、中心視野で観察すると脳が反応するまでに140-190ミリ秒、 周辺視野では80ミリ秒かかる([rSW])。
    • 周辺視野は、詳細認識ではなく、状況の概略を把握するのに使われる。 台所の写真で、写真の周辺部を隠すとどこの写真かわからなくなるが、 中央部を隠してもどこの写真が想像できる([rSW])。
  • さらに、視覚情報は、三つのルートで処理される。まずは大きく二つに分かれる。
    • 一つは、脳へ情報が送られて眼球運動を制御するのに使われる。
    • もう一つは、パターン認知に使うため脳(大脳皮質第1視覚野、視覚前野)へ送られる。 こちらは、網膜上の位置に依存した情報抽出を行ったあと、 位置に依存しない空間・形態情報を抽出する。 まず、線分の方位、長さ、色、動き、両眼視差などの特徴に選択的に反応し、 網膜上の位置に依存した特徴情報を抽出する。 そして、そこから更に二つのルートに分割され、信号が送られる。
      • 空間知覚処理部(側頭連合野)
      • 形態知覚処理部(頭頂連合野)
      そこでは、位置に依存しない、人の顔の認識などパターン処理が行われる。

このように、視細胞から大脳にかけて、階層的な処理が並行して動く ([rSO])。

認知的な省エネ

ヒトの視覚は、認知レベルでも効率化の仕組みを持っている。

以下にルビンの壺という絵がある。これは、図と地の分化という現象を示す。 1つのまとまりのある形として認識される部分を「図」、図の周囲にある背景を「地」と呼ぶ。 この絵は、両側をまとまりととらえるか、中央部をまとまりととらえるかで、全く異なる物体に見える。 ヒトは、複数の解釈が可能な画像でも、必ずある特定の解釈をとり、認知資源の省エネを図る。 そして、いったん解釈を決めた場合、その記憶の影響を受ける。

[https://ja.wikipedia.org/wiki/ルビンの壺 より]

以下にカニッツアの三角形という図がある。 ヒトは、知覚した情報を処理する際、すでに記憶に持っている認知パターン分類で解釈する([rSW])。 素早く対象を理解するための効率化である。

[https://ja.wikipedia.org/wiki/カニッツァの三角形より]

また、ヒトは、実世界の三次元物体を、 すでに記憶している基本的な立体(ジオン)パターンを組み合わせて識別している([rSW])、 という説がある。

また、視覚は、高度な知的処理と相互作用の結果得られる知覚である。 下の図は、同じ画像でも、コンテキストによって、Hだったり、Aだったりに見える。 文脈効果と呼ばれる。

[https://maruhi.heteml.net/chikakuninchi/?page_id=648 より]

眼球の動き

眼球は、直径24mmから25mmの球体である。 それは、眼窩の中で、脂肪に囲まれて、三対六種類の筋肉で支えられている。 そして、上下、左右、視軸回りの回転運動を行う([rFT])。

[https://www.ocular.net/jiten/jiten005.htm より]

目の筋肉は、何種類かの運動によって、形態視、動体視、立体視、位置同定などの機能をはたしている ([rFT][rSO])。

  • 中心視をするために,左右の眼は連動して動く。 二種類の連動運動がある。
    • 一つは、移動する対象を追う運動で、両眼は同じ方向へ運動する(共同運動、conjugate)。 これには滑らかな成分(最高25から30度/秒)と跳躍性の運動成分(ザッカード、300から600度/秒)がある。 視覚は主に空間的情報を感知する。 さらに、対象の動きという時間的な情報も感知する。 雲は風に流される。遠くから見ればその動きは微々たるものである。 しかし、ヒトの目は、雲が連続的に確実に動いていると感知する。
    • もう一方の連動運動は、両眼が逆方向に運動する(幅そう運動、disjunctive, vergence)。 これは、左右のわずかに異なった像を融合して一つの像として知覚し、 立体視のデータを得るためにある。 ヒトは、三次元の世界に住んでいるのである。
  • 一方、眼球は、固視微動といって、注目視野内の微小な不随意の動きを行い、静止した物体の網膜像が消えないようにしている。

ヒトの睡眠には、レム睡眠という、夢を見て、目を激しく動かす時間帯があり、 脳の中を整理しているらしい([rYT])。 ヒトは、頭を整理するために、目を動かす。 そのくらい、ヒトは視覚的動物だということだろう。

視線は速い

ヒトが、随意的に中心視野を動かすのは、一瞬である。 ヒトがあるものに注目するとき、それに対する手足の動作を起こす前に、目はすでにそれを見ている。 手足の関節を動かすよりも、小さな局所的な筋肉の動きで、眼球はすでに反応している。 ヒトの効果器のどれよりも、眼のほうがより早く位置情報を認知している。 ほかの手段のおよそ倍、速いといわれる([rKK])。

これが、コンピュータの時代に、とんでもない誤解を生んでいく。 目は、注目対象を、指よりも早く、捕捉している。 目を使って、対象選択や、位置指定を、コンピュータに指示すればいい、という考えである。 受容器官である目を、本来の機能から引き離し、効果器官として利用しようという考えである。 この考えが、ある時期の視線追跡デバイスメーカーに、支配的であった。 その問題を後述する。

素早く文字を読み取る

ヒトの視覚は、神経の高速並列処理と機敏な眼球筋肉のおかげで、言語認知でも高性能を示す。

注目視野は、20から30ビットを一度に把握できると言われる。 これはアルファベットは5文字、ひらがなは4文字、漢字は2文字に相当する ([rFT])。 英語の場合、一度に、15文字を読み進むという。 先頭の1から7文字で意味を取り、次の8から15文字は周辺視野でみている、あるいは予測しているという ([rSW])。 またヒトは、聞き取りであれば1分間に160語ほどを把握できるが、読み取りは1分間に300語ほど把握できる。 耳で聞き取るためには、音は時系列で並んでいるので、それらを逐次処理しないといけない。 聞き取りが、読み取りよりも遅い主因である。

テキスト消費速度

視覚は空間的に記憶できる

動物は、餌の場所や住処をめぐって行動する。 そのために、周囲の空間と自身を関連付ける認知機能、つまり空間記憶がある([rUT]])。 耳で聞いたことは、時間の中にあって消え去る。 しかし、見えた空間的なものは、繰り返し確認できる。 それが記憶保持を助ける。

例えば、あなたに次のような経験ないだろうか。 色分けした表紙のファイルを見て、どのファイルがどの内容のファイルだったかわかる。 ある事柄が、本の分厚い厚みの中で、どのあたりのページの、どのあたりに書いてあったか、覚えている。 机の上に、いくつも書類が乱雑に積み重なって置かれているが、どこに何があるか思い出すことができる。

このような空間記憶は、連想記憶にも似ている。 キーボード操作に慣れた人は、キーボードを見なくても操作できる。 しかし、キーボードがないところで、キーボードのキー配列を思い出そうとするとできない。 つまり、頭にそのまま記憶しているのではないのである。 しかし、キーボードを見ると、指が覚えていたかのように、すぐに上手にタイプできる。 ここには視覚的な連想記憶が働いている。 記憶は、神経細胞の結合パターンとして保持される。 何度もキーボードを見て触っていると、神経細胞結合の発火の痕跡が残る。 キーボードを見たという刺激だけで、あるキーがこの辺にあったよなという記憶が活性化される。 先行刺激が後続刺激への処理影響を与えることを、認知心理学でプライミング効果という([rCP])。 ある視覚刺激が、長期記憶から別のことを想起させる。 これを、ドナルド・ノイマンは「外部知識」と呼んだ([rDN])。

視覚は構造を把握できる

空間記憶から派生して、視覚は、いくつかの情報を同時に把握できるという能力がある。 そのため、ヒトの抽象的な概念のうち、構造的な情報を認知できる。

例えば、一つの画面に、やることのTODOリストがあるとする。 1個目と2個目を比べて、どっちを先にやるか考えているとき、目は二つの項目を認知し、作業記憶の中において比べている。 例えば、来週の出張の飛行機を予約しているとする。 WEBの画面を見て、日時と出発時刻を入力し、どの会社のどのフライトにするか選択肢がでて、どれにするか検討しているとする。 ヒトの頭の中では、日時と出発時刻とともに、飛行機会社のブランド名も一緒に意識している。

ヒトは視覚的に構造を把握できる。 機械道具と複雑な情報をやり取りする必要があるとき、 視覚のこの性質が、決定的な役割を果たす。 視覚抜きに、機械道具と複雑な情報のやり取りをするのは、難しいのである。 逆に、そのせいで、視覚向けに下手にデザインされた情報は、複雑になってしまうこともある。

二次元と三次元

ヒトは、三次元の住民である。 ヒトが観察する世界は、三次元の立体である。 日常の生活空間は、三次元の豊かさを備えている。 従来のコンピュータ・インターフェイスは、この点を利用していない。

立体視の仕組みには、単眼によるものと両眼視によるものとがある。 単眼視による手がかりとしては以下のものなどがある([rCP])。

  • 物体の重なりから前後を見て取る。
  • 大きさから距離を感じる。
  • 平行線は遠ざかるほど幅が狭くなる。
  • 一定の模様は、遠いほどきめが細かくなる。
  • 遠くの景色ほど、ぼやけたりかすんで見える。

一方、両眼視によって、両眼網膜視差をもとに、脳内で三次元イメージを構築する。 その三次元の世界は、自分の位置を変えれば、同じものでも、刻々と異なって見えてくる。 異なった三次元の外見のものを同一の物体だとみなせるのは、ヒトの抽象化能力のためである。

一方、ヒトは、三次元に現象する物体を、紙という道具の二次元空間に表現したりもする。 三次元のものを相手にするより、二次元のものを相手にするほうが、認知エネルギーは小さい。 そして、紙を持ち歩いたり、別のところで三次元を再現したりする。 見た心象を、二次元空間に表現して、絵、漫画、浮世絵などとして、仲間に感情を伝えたりもする。 ヒトは、認知的に楽な情報を通して、実は高度な精神活動をしている。 現在のコンピュータにおいても、ヒトは、モニターやタッチ画面という二次元空間五指に世界を眺める。 ヒトは二次元を通して高度な精神活動を行うことができる。

二次元表現での認知活動は、ヒトの文化に、素晴らしい成果を上げた。 一方で、ヒトと機械道具との関係をみていくときに、ヒトはそもそも三次元で環境とやり取りをしていることを忘れてはならない。

視覚でしるしを認識できる

ヒトは言語を駆使する。 音響の連鎖が、音響言語として、複雑な概念を伝える。

一方で、ヒトは、視覚的な形状で、ほかの何かを象徴することも行ってきた。 指ジェスチャー、地面に書いた絵、壁画、象形文字、表意文字、アイコン、ピクトグラムなどのしるしである。 視覚的なしるしの表現力は、言葉を組み合わせられる言語に比べて、限られている。 言語は、感覚を指示したり、実在物を指示したり、環境を自在に利用できる。 言語は、構文構成で概念を自在に組み合わせる表現力がある。 しかし、視覚的なしるしは、写実画とかでもなければ、あるいは固有名詞の文字列でなければ、 特定の実在物を指示する力はない。 概念の組み合わせも、空間的配置くらいしかできない。 視覚的なしるしは、表現力が限定され、間接的である。

ヒトが、しるしを扱えることが、社会的な環境の中で、複雑な言語を生み出す要因になった。 一方、しるしは、しるしのままであれば、間接的・限定的で、原始的な機能のままである。 コンピュータのアイコンも間接的・限定的である。 アイコンは、乱用されているが、その限界を忘れずにおこう。

表情認知は特殊

ヒトの視覚は、ヒトの社会性を反映してもいる。 ヒトは、人々の顔の詳細を認知して、識別しあって、社会的な交わりを結んでいる。

ヒトは、他のヒトの表情を認知するために、特殊な処理をしている。 サッチャー錯視と呼ばれる現象がある。 顔のパーツを上下逆さにして貼り付けた写真がある。 顔の写真を上下逆さにしてみると、細部の不自然さに気づかない。 しかし、正常な上下で見ると、不自然さに気づき、不気味さを感じる。 自然な状態では、ヒトは、顔の細部まで認知して、誰それと認知している。 ヒトの表情に反応する特殊な脳部位があることが知られている。

リモート会議で、相手が顔出しをしない場合の欠落感は、これである。 相手の個性と感情が見えない。 表情はヒトにとって特殊である。 どんなコミュニケーションの道具も、表情が見えるということを蔑ろにすべきでない。

[https://ja.wikipedia.org/wiki/サッチャー錯視]より

人の表情には、文化にかかわらず6つの基本感情パターン(怒り・嫌悪・恐怖・喜び・悲しみ・驚き)があるというエクマンの説がある。 六パターンというのは、広く支持されていないが、表情に、感情や情動が表現されることは間違いない。 ベネチアのカーニバルでは、仮面をつけて着飾った人が練り歩く。 その仮面は、美しくもあり、自然でない造作は不気味でもある。 個体の個性が消えているからだろうか。 中国にも、バリ島など太平洋の島々にも、日本にも、仮面をつけるとか、濃厚な化粧をして、演舞することがある。 それらは、個性をなくすというより、ヒトにはない新しい個性を感じさせる。 特定の感情を誇張して、ヒト個性を抽象化している。 これら、いずれにしても、自然な表情認知に対する刺激を、少し変えて、大きな効果をあげる。

ヒト型ロボットは、ヒトの身体と頭部と顔を模倣したデザインをとることがある。 ヒトは、ヒトの表情から、情緒的に深い影響を受ける。 これは、ヒト型ロボットが、ヒトが、普通の武骨なコンピュータの箱とは結べない、 感情的で埋没型のつながりを持ちうることを予感させる。

2.2.2 聴覚

聴覚の能力

ヒト同士の会話では、聴覚と発話という音響的言語が、大きな役割を果たしている。 一方、コンピュータのインターフェイスでは、聴覚および音響的言語を、ほとんど活用しなかった。 ディジタルメディアとしても、音楽ではない、音声コンテンツは、あまり利用されていない。

ヒトの聴覚は、空気の振動を感知する遠隔感覚である。 空気の振動は、距離によって、また障害物があると、減衰しやすい。

ヒトの聴覚受容細胞の数は23,500個(視細胞は1億以上)、聴神経は3万本(視神経は100万本)である ([rHK])。

視覚がおおむね空間情報を処理するのに対し、聴覚はおおむね時間的情報を処理する。 会話の話し声、赤ちゃんの泣き声、音楽のリズムやメロディ、風の音、雨の音、雷鳴、鳥の鳴き声、虫の鳴き声、カエルの鳴き声など、 すべて時間的な流れの中に存在する。

聴覚は、空間的情報も知覚する。 精度は視覚より低いが、両耳により、距離と方向を感知する音源定位ができる。 雷鳴があれば、遠いか近いか、気になる。 足音だけが聞こえれば、どこから聞こえるのか、突き止めずにはいられない。 車を運転中に、サイレンの音が聞こえる。どちらの方向からを確かめるために、よく聞こうとする。

聴覚は、視覚に引きずられもする([脚注03])。

聴覚は発話と連動する

聴覚に障害のある人は、発話障害を伴うことが多い。 情報は、言葉を聞く聴覚器官から、発話するための調音器官へ流れる。 人は、自分の音声を聞きながら発話する([rSO])。 目から得た情報に基づいて手指が動くように、聞いた音に基づき発話する。 ヒトの聴覚は、音から危険を察したり気配を感じたりもする。 が、発話と一体となって音響言語を駆使する会話の場面が、 主な活躍場所に見える。

聴覚認知は構造保持が苦手

視覚は、空間記憶ができ(「空間的に記憶できる」)る。 また、構造の把握ができる(「構造を把握できる」)。 一方、聴覚は、それらが苦手である。

音響的な言語情報は、時系列情報である。 そして、音声は消え去る。 短期記憶に入っても、再確認できないし、しばらくたつと消える。 そのため、ヒトは、聴覚からは、少ない量しか情報を把握できない。 複数の情報を安定的に保持できない。 そのため、聴覚は、フォームや手順といった複数の情報からなる構造の把握が苦手である。 したがって、ヒトがコンピュータを操作するインターフェイスとして、音響的情報のやり取りだけでは無理である (「視聴覚を融合すべき」)。

2.2.3 嗅覚

ヒトは嗅覚を退化させた

嗅覚は、揮発性ないし水溶性の化学物質を感知する。 味覚は、同じ化学物質でも接触感覚である。 嗅覚は、触覚という物理的な刺激に比べて、分子の組み合わせレベルの感覚である。 そのため、嗅覚が発達すれば識別できる種類は膨大になる。 しかし、ヒトは、嗅覚よりも、視覚というより遠方まで感知する感覚を優先した。

ヒトの嗅覚受容体数(種類数)は396個あり、その組み合わせで数十万種類のにおいを感知できる。 遺伝子レベルで見ると、哺乳類の嗅覚に関係する遺伝子は大きなファミリーをなしているそうである。 動物にとって環境探知の重要な手段であることが示されている。 また、匂い情報は、大脳の感情や記憶をつかさどる部分に流れ、内分泌で即座に反応できるようになっている。 嗅覚が素早い反応によって生存するために重要な機能を果たしていた時代の名残である。 その由来によって、匂いは長期記憶を呼び覚ます([rTK])。

従来のコンピュータは、手と目の関係しかなかった。 一方、アロマセラピーなど匂いでヒトの神経、身体に作用するという術がある。 将来、状況に応じて、匂い成分を配給する機械というのも、ありうる。

2.2.4 体性感覚

内外を感知する

体性感覚器は、外部を感知する触覚などと、内部の固有の情報を感知するものに、大別される。 ヒトに限らず、生物の生存にとって必須な基本的感覚である。

  • 外部を感知するものは皮膚感覚である。 ヒトの場合、皮膚は1.8平方メートルもあり、皮膚感覚の受容器は散在している。 皮膚表面には触覚があり、皮膚の深部には圧力を感じる圧覚がある。 その他、温覚、冷覚、痛覚の受容器がある ([rIN])。
  • 一方、筋、腱、関節などに、自分の状態を感知する固有受容器がある。 筋がどれだけ伸びているか、どれだけの力で引っ張られているか、角度はどうか、を感知している。 これは姿勢を制御したり体を動かすためにある ([rIN])。

これらは、ヒトがコンピューターを操作するときには、表立っては活躍していない。 しかし、実は、黒子として手指を操作する支えとして、またセンサーとして、機能している。 コンピュータの操作インターフェイスは、この身体性に対し無関心できた。 しかし、もっと機械とのやり取りに活躍できる能力を秘めている。

指先は鋭い

皮膚感覚受容器は10の7乗個あり、神経は10の6乗個ある。 指先には1平方ミリメートル当たりに1個の神経線維が大脳に接続しているという。 2点を弁別する能力は、背中では7センチメートル、手のひらでは1センチメールであるのに対し、指先は2ミリメートルである ([rMS])。

このような手指の神経の細かさが、ヒトが箸やハサミを上手に扱う基礎となっている。 大脳皮質の中で、手指を感じ、また動かす部分は、大きな部分を占めている(「手は第2の脳」)。


2.3 効果器官

2.3.1 手、骨、筋

手と脳の進化の相乗効果 ー 生物史的な経緯

手、骨、筋という効果器官は、内部状態を感知しつつ、機械動作する。 手には優れた皮膚感覚がある。 一方で、視覚は、手の動き周辺を観察するのに、強力な機能を備えている。

手の重要な役割は、人類史から見ると理解できる([rCL])。

320万年ほど前、ルーシーと呼ばれる化石により、類人猿が二足歩行を始めた。 骨盤の形から二足歩行していたことが分かったが、脳の大きさはチンパンジーと変わらなかった。 二足歩行のメリットは、四足歩行に比べて25%のエネルギーで移動できることだった。 その後、240万年ほど前に、ホモ・ハピルスが登場した。 ホモ・ハピルスは、肉を骨からそぎ落とす鋭利な石器を作り利用していた。 ホモ・ハピルスの脳は、ルーシーの倍(だが、ホモ・サピエンスの半分)に大きくなっていた。 道具を作るには、目と手を正確に連動させる必要がある。 それが脳に刺激となり、脳の発達を促した。 一方、大きな脳はたくさんのエネルギーを必要とする。 たくさん食べる必要があり、狩猟してとった肉を食べた。 肉をたくさん得るには、より高度な道具が必要となる。 こうして、手と脳の進化の相乗効果の連鎖が始まった。

脳はますます大きくなり、手指はますます器用になり、道具はますます精緻になった。 200万年前ごろ、ホモ・ハピルスは、ホモ・エレクトスへ進化した。 脳の大きさは、ホモ・ハピルスの1.5倍となった。 ホモ・エレクトスは、槍を使い、火で食物を消化しやすいように変えられた。 ホモ・エレクトスは、100人くらいの集団で暮らしていたとされる。 170万年前頃に、ホモ・エレクトスはアフリカを出て、別々の地域に進出し、五種類のヒト属に分化したらしい。 その後35万年前ほど、ホモ・サピエンスと同じくらいの脳を持つ、ネアンデルタール人が現れた。 頭蓋骨の底には、発声に必要な神経の束を通す穴があり、多様な発声ができたと想定されている。 また、ネアンデルタール人は、音楽、宗教、言語を持っていた。 その後、19万5000年前に、ホモ・サピエンスが登場した。 ホモ・サピエンスは、7から5万年前に、アフリカから出て世界中へ広がった。

手の発達

[http://user.keio.ac.jp/~rhotta/hellog/lib/brain_capacity_of_primates.pngより]

以上のように、手によってこそ脳が大きくなった、と言われる。 あとで「手は第2の脳」に示すように、 体性感覚および運動制御の中で、手指に関する脳機能は、確かに、大きな部分を占めている。 ほかの説もある([脚注04])。

手指は器用

ヒトの手は、器用である。 ヒトの指は、神経が行き届いていた(「指先は鋭い」)。 その上で、ヒトの手には5本の指があり、指は3つの関節で動く。 そして、親指は、ほかの指と独立して動き、ほかの指と対面して動作し、物をつかんだりできる。 この対面動作できることが、ヒトの手指の特徴である。

[rYH2]によると、手指ができる運動は、以下のように分類できる。

  • 握る(grip)
  • つまむ(pinch): 指先(tip)、指腹(pulp)、側面(lateral)、ひっかけ(hook)、指間はさみ(finger)
  • ねじる(twist)
  • 押す(push)
  • すくう(scoop)

これらの組み合わせで、日常生活を送っている。 ボールペンを使って字を書いたり、 ものをつまんで食べたり、箸を使ったり、ハサミで紙を切ったり、ハンマーでたたいたり、 卵を割ったり、リンゴの皮を包丁でむいたり、 タオルを畳んだり、 本の1ページをつまんでめくったり、 コップに水を入れたり、湯呑で飲んだり、汁をよそったり、お椀を持ったり、リンゴの皮をむいたり、 包丁で大根を切ったり、ワインの栓を抜いたり、便の蓋をねじり取ったり、蛇口をひねったりなど。

これら動作の種類の豊かさに比べ、 ヒトが現在のコンピュータを操作する際には、「押す」(クリック、キータイプ、タップ、スワイプなど)しか使っていない。

指さし行動

指は、赤ちゃんが言語が使えるまでの間にでも利用できる、基本的なコミュニケーション手段である。 幼児は、まだ言葉になっていない喃語をしゃべる時期は、一人指さしが見られ、一語文をしゃべり始める時期には、他者を意識した伝達的指さしを行うという ([rMS2])。 一人指差しでは、自分の興味ある対象を、自分以外の対象について意識している。 伝達的指さしでは、対象と他者と自己の3者の関係が認知されている。 また、他者と興味を共有するという社会的な関係を持てていることを示す。

指は、ヒトにとって、社会的なコミュニケーションの手段である。 従来の無骨なコンピュータは、ヒトのこのような身体機能を考慮してこなかった。 コンピュータは、赤ちゃんでも操る基本的な身体機能とは、無関係な方向で発展してきた。

身体と視覚が手指の器用さを支えている

手は、体幹が支えて身体がある姿勢をとって、肩や腕が支えることで、はじめて器用に動く。 指は、腕・肘・手首が動き、手首が支えることで、はじめて器用に動く。 体性感覚と機械的効果器が、手指の器用さを支えている。 まさに、手指の器用さは、全身運動の結果である。

手指は、視覚に障がいがある方を除き、多くの場合、目に助けられてこそ機能する。 例えば、ドアノブの位置を目にしながら、そこをつかんでひねりドアを開く。 例えば、左手に持った茶碗の位置を、目で感知しながら、右手の箸を動かして、茶碗のごはんを摘まみ上げる。 例えば、机の上に置いた紙を左手で押さえて、その四角い方向を目で確認したうえで、右手のはさみで紙の一片を切り取る。 例えば、キーボードがあってキートップの文字マークを見て、手指は動く。 このように、手指は視覚と一緒に働くことで、様々な機能を果たす。

ドアノブをつかむとき、ドアを開けるという意図は明確である。 キートップの文字マーAを見て、手指がキーをたたくとき、Aを入力するという意図に曖昧さはない。 音声だとbaなのかpaなのかわかりにくいこともあるが、 手指の動作は、目でキートップを確認しているため、コンピュータに対して、曖昧さはない。 現在のコンピュータインターフェイスは、手指と目に依存している。 ヒトの構築した人工的な構築物の中を動き回るとき、その手指の動作に曖昧性はない。 この点は、音声入力の曖昧さをなくそうとするとき、重要な示唆を与える (「音声アプリも支持と制約を利用すればよい」)。

手指は移動距離に束縛される

手指は器用だが、欠点もある。 手指は、機械動作なので、移動距離の束縛を受ける。 手を動かし、マウスで、別の場所のターゲットに移すという運動負荷に関し、 その移動時間は、移動距離が大きいほど大きく、対象の大きさが大きいほど小さくなる。 これをフィッツの法則という。

例えば、受信箱のメールのTriage、メールをざっと眺めて丁寧に読みたいメール以外は即削除する作業がある。 スマホでなら、指先のちょっとした動作ですむので、素早くできる。 しかし、デスクトップであると、画面が大きく、手から離れているので、マウスごしにGUI対象をポチポチするする必要がある。 読む場所を設定する画面上の位置と、削除ボタンは離れているので、いちいちマウスポインターを移動する手間がある。 そのため、メールのTriageは、デスクトップPCであるとスマホより時間がかかる。 手指だけに頼ると、このように距離の束縛を受ける。

ヒトはカラダ全体を使い環境と会話する

手指は器用である。 ヒトの特徴である。 しかし、ヒトが、環境に対して何か効果を引き起こすとき、器用な手指だけを使っているのではない。 ヒトは、カラダ全体を使い環境と会話する。

ヒトが、馬に乗る。 ヒトは、声の調子や、手によるスキンシップで、馬を安心させようとする。 馬に乗るときは、あぶみの上で全身の筋骨でバランスをとる。 鞍の上の体重移動や、脚からの馬の腹部への刺激・圧力で、意思を伝える。 手綱を腕で引いて、進行方向を伝える。 馬の足並みに合わせて、身体を上下し、馬のスピードに同調する。 このとき、ヒトは、いろいろなカラダ機能を使って、馬と対話している。

庭師が、高木の剪定をする。 梯子にのぼり、自分の体の重心を感じながら、梯子の適当な位置に安定姿勢をとる。 剪定ばさみを取り出し、バランスを取りながら、手腕を伸ばす。 枝葉を切る。 手を伸ばして、切られた枝葉を地面へ払い落す。 この時、庭師は、この木と、地球の重力と、カラダ全体で対話している。

2.3.2 発声

発声器官の進化 ー 生物史的な経緯

ヒトの音声産出は、横隔膜・肺という呼吸器官から空気を吐き出し、咽頭・声帯で音源を作り、 舌・咽頭・口唇で音に変化を与える、と3つの器官要素によって生産される ([rKH2])。

[https://band-knowledge.com/vocal-14/より]

脊椎動物が陸に上がって肺呼吸をするに伴い、空気の振動を起こす能力が、生殖や警告などに利用されて進化したようである。 一方、舌は、食べ物を飲み込むときに、精緻に、素早く動くように進化していた。 咽頭を含む声道は、食べ物の摂取・嚥下を、不随意的に担う。 それとともに、ヒトでは随意的に、話し言葉を発声する役割を持つように進化した。

ヒトは、320万年前に直立歩行を始めた。 そして、火を使うことで、やわらかい食事をとるようになった。 そして、頭の重量のバランスをとるため頭の前後径が短くなった。 柔らかい食事による顎の縮小とあいまって、脳が前にせり出した。 その結果、舌は、前後に圧縮されて上下に厚みを持ち、丸い形状になった ([rFJ])。 一方、類人猿で、咽頭の位置は下がり始めた。 そして、ヒトに至って、喉に大きな空間をつくり、多様な共鳴を生み出せるようになった。 ヒトの声道は、口腔と咽頭腔という二つの共鳴腔がほぼ垂直に結合していて、それぞれ独立に変形させることができる。 二共鳴管構造である。 ヒトの舌は、丸みがかっていて、形状変化で多様な音調整が可能である。 また、ヒトは、発話の際、1秒間に5〜6回、口を開閉できる ([rKH3])。 また、ヒトは、一回息を吐くという瞬間で、多くの異なる音を発声するために 声道形状を連続的に素早く変形させることができる ([rNT])。

ネアンデルタール人の舌骨は、ヒトと同様の形態をしていたことから、 ネアンデルタール人もヒトと同様の発話が可能だったとされる。 そして、その後にホモ・サピエンスが生まれている。 ヒトへの進化に、この社会的な道具である音響言語が、決定的な役割を果たしたのかもしれない。

発声言語の登場

ヒトはおしゃべり

あとで「手は第2の脳」に示すように、 体性感覚および運動制御の中で、発声器官周辺に対応する脳機能は、大きな部分を占めている。 また、音響言語を専門に処理する部分も、大脳の大きな部分を占めている。

ヒトの脳は、後で「脳の可塑性」で見るように、 後天的に形成される部分が大きい。 ヒトは成長に伴って、言語を習得し、多様な音声生産ができるようになる。 この音声生産の可塑性ないし学習という点も、特徴的である ([rKH2])とされる。 ヒトの発声能力の背景に、後天的に神経を形成できるという、神経系の進化があった。

言語はそもそも社会活動である。 ヒトは、手で道具を作ることで、脳を大きくした。 同じように、ヒトの社会活動とその言語活動も、脳の成長と相乗効果を持っていたかもしれない。

音響的言語は、子供が文字を操れるようになる以前に使いこなすという意味で、視覚的言語より基本的な表現である。 ところが、音響的言語は、ヒトがコンピュータを操作するインターフェイスとして、ようやく使い始められたばかりである。 まだ、広範囲なアプリで活用されていない。 音声認識技術が発達した今、このより基本的な表現を活用するのは当然である。 ヒトの生得能力の点からも、音響的言語を機械道具がわかることは、認知負荷を小さくする。

発声のテキスト生産速度は指の5倍

ヒトの言語表現のスピードは、経験的におおよそ、 しゃべりなら160語/分、手書きは30語/分、タイプなら40語/分である。 しゃべりは、社会的な環境で育った健常者ならば誰でもできる。 一方、手書きは教育が必要であり、キータイプなら機器操作に慣れが必要である。 音声での言語表現は、習熟の必要がないばかりか、指よりも5倍速い。

テキスト生産速度

キータイプよりも音声生産のほうが速い。 これは、音声生産のメリットに関し、誤解を招きやすい。 キータイプは視覚の支援があって曖昧性がない。 一方、音声は、同音語があったりすることもあり、曖昧性がある。 認識エラーは起きる。 いろいろな制約を利用することで曖昧性を減らす工夫はできる (「音声アプリも支持と制約を利用すればよい」)。 しかし、音声生産のメリットはその速さよりも、考えたスピードで素早くコミュニケートできる点、記録できる点にある (「音声で文章を構成できる」)。

声には表情がある

声は、感情を表す。 声には、表情がある。 犬や馬は、ヒトの声の表情を読むという([[rSK])。 ヒト同士ならば、言うまでもない。 意図や情緒を伝え合うのに、声音(こわね)が表現の一部を担っている。

家畜やほかのヒトは、ヒトの環境の一部である。 ヒトは環境とやり取りするのに、感情を込める。 将来、ヒトと環境を仲介する機械道具も、ヒトの感情を理解してほしい。

2.3.3 視線

視線が社会と個体意識を作った

目は視覚器官として,ヒトではよく発達した。 眼は、効果器官ではない。 しかし、その見る作用は、ある重要な役割を果たすので、効果器官の中で、ここで特に取り上げる。

他個体の心を推察することを、ひいては自己意識を持つことを、心理学や脳科学で、「心の理論」を持っていると言う。 例えば、視覚は、表情の認知によって、ほかの個体を特殊に認知・識別する(「表情認知は特殊」)ものだった。 一般に、視線が、社会的な行動の学習や進化に重要な役割があるという仮説がある([rSK])。 まず赤ちゃんが母を認知することを始まりとして、個体同志は互いに相手を認める。 それは、他個体が何を見ているかを認知することにつながる。 他個体が、何に注目しているかを認知することは、他個体がなにか心のような主体性を持っていることを想像していることである。 そして、互いに、あることに一緒に注目をすることを認知する。 これが、個体間のつながり、社会の始まりである。 社会が認識され、他個体が認知されたら、その中にいる存在も想像できる。 これが自己意識である。 そして、社会の認知、自己の認知があって、個体間の会話が生まれる。 言語が生まれる。

このように、視線は、ヒトの成長の中で、大きな役割を果たしているとみられる。 しかし、コンピュータは、赤ちゃんが学ぶ社会性、自己意識とは、無関係な方向で発展してきた。 これからのコンピュータならば、ヒトの視線を踏まえるのは当然ではないか。


2.4 脳・神経系

脳の構成要素

脳は、大脳、小脳、脳幹からなる。

[https://atamanavi.jp/169/より]

脳の構成
大脳 大脳は、高度な機能をこなす。大脳には、皮質、辺縁系、基底核がある。
皮質 大脳皮質は司令塔である。前頭葉(前頭前野、運動関連領域)、頭頂葉、後頭葉、側頭葉がある。
前頭前野 前頭前野は、ほかの皮質部位と接続してし、他からの情報を得ては指示する関係を持つ。 前頭前野は、一時作業記憶を持ちその上に認知機能を持つ。 視覚から得た、空間・形態・色情報を処理する。 また、前頭前野は、他人の心を理解する。 辺縁系という爬虫類以来の本能的情動の仕組みを、コントロールしている。
運動関連領域 運動関連領域は、脊髄に指示を送る。 外部刺激に応じて、手を伸ばし把握したり、両手を協力させるなど、運動を準備し企画構成する。 また、記憶を踏まえて運動する機能を持つ。
頭頂葉 頭頂葉は、運動に関連する高度機能を受け持つ。 身体部位ごとの局在性がある部分から、複数の部位にまたがる高次な連合を担う部分へ、階層的につながっている。 姿勢や自己身体を認識したり、手を能動的に動かして探索したり、手で操作する道具を手の延長としてイメージする。
後頭葉 後頭葉は、視覚情報の中枢である。
側頭葉 側頭葉は、形態情報を認識したり、聴覚情報を処理する。 ここでは、表情など特定の視覚刺激に選択的に反応したり、海馬・偏桃体の記憶と照合したりする。 聴覚系は、前頭葉とともに何がを認知し、頭頂葉とともにどこがを認知する。
辺縁系 辺縁系は古い脳であり、哺乳類では皮質のほうが徐々に大きくなり、これが覆われるようになった。 辺縁系は、意欲や情動・本能行動の中心的司令塔である。 辺縁系には、海馬、偏桃体、帯状回などがある。
偏桃体 偏桃体は、外部刺激に対し、皮質での処理を待たずに、瞬間的な反応・行動を起こす。
海馬 海馬は、記憶と空間認識に関与する。
帯状回 帯状回は、他者の心を想像する能力にかかわるらしい。これを「心の理論」という。
基底核 大脳基底核は、(特に内発的な)随意運動の制御、認知・情動の制御、学習の強化を担っている。 皮質の各部(運動領域、連合領域、辺縁系)と接続し、また脳幹と接続し、それらの機能を調整している。
小脳 小脳は、脊髄に伝わってきた体性感覚と視覚から、身体の姿勢を制御したり、外発的な運動を指令・学習する。 運動を調整する。 例えば、足の動かし方を意識せずに歩いたりできる。 例えば、首が回転したときに、反射的に眼球が逆回転し、視界のブレをなくす。 これらは小脳のおかげである。 運動のパターンを学習する。 自転車を乗れるようになるのは、小脳のおかげである。
脳幹

脳幹は、脊髄からシグナルを伝達して、基本的な体内機能と反射を指令する。 爬虫類脳とも呼ばれ、生命維持・繁殖に必須な機能を果たす。 例えば、呼吸や心臓の拍動など不随意・自律的な機能をこなす。 脳幹は、中脳、間脳を含む。 間脳には、嗅覚以外の感覚を大脳皮質へ中継する視床、 体温、心拍などの本能、情動を調節する自律神経をつかさどる視床下部、 ホルモンを分泌する松果体・脳下垂体がある。

視床に入った感覚刺激は、大脳辺縁系の偏桃体へと直接流れて即座に生体反応(と情動)を起こすルートと、 大脳皮質に流れて遅れて詳細な処理が行われるルートと、に別れる。後者が、前者を見ているのが感情らしい([rCP])。

小脳は所作の匠

大脳の皮質には神経細胞が140億あるが、小脳には1000億個ある ([rMA])。 重量から見ると、大脳は85%、小脳は10.5%で、大脳に次いで大きな比重を占める。 ヒトの脳の主役は大脳皮質ではあるが、小脳はこっそり大きな機能を果たしている。

小脳は、末梢感覚器や大脳皮質からの入力を受けて、運動を学習する ([rHN])。 鋏を扱うときの動作、箸を扱うときの動作、自転車に乗った時のバランス動作、歩く動作、大工の技、庭師の技、調理師の技、などに、 実は大量の知能が、詰まっている([n09])。

コンピュータが、ヒトのリアルな身体を含めてやり取りをするとき、 この小脳の知能を考慮し、利用するべきである。

手は第2の脳である

大脳皮質には、体性感覚野と運動野において、機能が特定の場所に関連付けられる。 ペンフィールド地図というものであらわされている。 運動野を見ると、発声関係と、手指の部分が大きいことに気づく。 発声関係は、言語機能と関係して大きな部分を占めるのは理解しやすい。 一方、手は第2の脳といわれるほど、大きな運動知能を持っている。 大脳皮質は、ほかの脳・神経部位を制御・指令する部位として、哺乳類になって発達した部分である。 それ以前は、脊髄や小脳レベルで反応することで、足りていた。 また、哺乳類の中でも、人は特に大脳皮質が発達した。 ヒトの大脳皮質の、感覚と運動に局所的な部分のかなりが、手指と発生器官周りに対応する。 そのことは、手指と発声が、ヒト知能の本質的な部分であることを示唆する。

[https://www.akira3132.info/cerebral_cortex.htmlより]

従来、人がコンピュータを操作するときに、手指に頼って来たのは、その性能と知能の割合から見て、納得できる。

しかし、ここで、発声の性能と知能が、ヒトと機械道具の関係の中で、利用されていないのは、奇妙に見える。 ヒトと機械道具の関係で音響系を利用することは、ヒトの生体・認知能力をより生かす。

人は総合する動物

感覚野と運動野という機能局在な部分を除くと、大脳皮質の約2/3にも相当する広い領域が、連合野と呼ばれる。 連合野は、高次な脳機能を具現化している皮質領域である。 感覚情報の高度な統合による認知、複数の感覚の総合、感覚と運動の統合、過去の経験(記憶)と関連、随意運動、 情動行動、言語機能、精神機能、作業記憶(ワーキングメモリー)などを担う([rKW]) などをつかさどっているという。 つまり、個々の感覚・運動機能よりも、それらを統合した部分が、ヒトのヒトたる部分である。 そこが、ヒトの特徴である。

これは、ヒトと道具の関係に、重要な示唆を与える。 現在、ヒトがコンピュータを操作するインターフェイスは、手で操作し、目で知覚するのが、主である。 これを、情報科学では、モノ・モダルという。 しかし、このような特定の手段だけに頼るやり取りは、むしろ、ヒトの生体機能に反している異常なことである。 ヒトは、本来、複数の受容器官で諸感覚を総合して環境をとらえ、複数の効果器官で総合的に環境に反応している。 マルチ・モダルが本来の自然なのである。

短期記憶は4個まで

認知心理学の知見では、ヒトが一度に記憶できるのは4個までで、 長期記憶からあるカテゴリーで想起できるのは3個までだそうである([rSW])。 つまり、マジカルナンバー・セブンというのは嘘である。 チンパンジーは、4個の数字までは95%の正確さで覚えられるが、5個で65%まで落ちるそうである。 また、ヒトは、選択肢が3つか4つまでの場合に限り、選ぶことができるそうである。

現在のコンピュータのインターフェイス・デザインは、この事実を少しも考慮していない。 5個それ以上の選択肢が、テレビのリモコンしかり、ヒトが機械を操作するグラフィカル・インターフェイスに、意味不明なしるしとともに、あふれかえっている。 コンピュータの創設当初、エリートの知能の拡張という位置づけであったことが、ここにも災いしている。 通常の工業製品ならば、工業デザインとかでユーザ視点が持ち込まれている。 歴史も長いので、それが導入された段階で、社会への浸透とビジネスに貢献し、実績を上げた。 ところが、コンピュータは、エリートが使えればいいので、ユーザ視点はじゅうしされなかった。 そして、短時間に発展したので、そういうユーザ視点のデザインを消化するという段階を、十分には、踏まなかった。 今、例えば、Windowsにせよスマホのアプリにせよ、メニューやツールバーやタブに、項目が4個以内のものはまず見つけられない。 そして、そのままアジャイルとか継続リリースとかいう流れが起きたので、ユーザ視点はますます後でやることと位置付けられることとなった。

これは、現在のグラフィカル・インターフェイスの複雑さの問題として、本文書の後半で詳しく述べる。

脳の可塑性

ヒトの遺伝情報であるヒトゲノムは約30億個の塩基で構成される。 一つの塩基はATGCの4種類の分子のいずれかで、それらを識別するには00、01、10、11の4種類の区別ができればよいので、2ビットの情報をもつといえる。 したがって、ヒトゲノムは2x30憶=60億ビットの情報量を持つ。 一方、新皮質の神経細胞は、ラフに100億個で、仮に、神経細胞当たりシナプスの結合数を平均1000個とし、結合の持つ情報を抑制と興奮の2値(1ビット)とすると、 脳の持つ情報量は、約10兆ビット(100億 X 1000 = 10兆 ビット)となる。 ヒトが、生まれる際に受け継いだ情報量、60億ビット、よりも、ヒトが成人になって活用する情報量、10兆ビット、のほうが、1600倍大きい。 つまり、脳の配線の大部分は、遺伝ではなく、生後決定される([rSO])と。 ほかの高等動物でも、似たような計算はできるので、これをこのままヒトの大脳の可塑性の特徴データとみなすことはできない。 が、ヒトの知能は、後天的な学習によるほうが大きいという印象を残すデータにはなる。

ヒトの脳には、生物的な進化結果よりも、生まれた後の個体の環境との相互作用、主に社会的な効果が、断然影響力を持つらしい。 ヒト集団は、月へも行く技術の進歩からして、生物の遺伝子の論理を超えて、歩み始めているのかもしれない。 ヒトが今後どのような未来を持つことになるのか、想像できない([n10])。

人は時分割でマルチタスクできる

ヒトは、歩きながら、ものを考えることができる。 ヒトは、考えながら、文字をタイプすることはできる。 ヒトは、一見、考えるという音響的言語活動と、文をタイプするという指の機械的・視覚的・空間的な言語活動を、 うまく同時にこなせる。 [rCW]は、認知活動と脳の資源の関係の以下のようなモデルをが提唱した。

  • 知覚・認知のための資源と、反応の選択と実行の資源とは、独立である。 例えば、パイロットは飛行機の込み具合を認識しながら、同時に適切な対応をとる。
  • 音響的作業と視覚的作業とは、それぞれの作業を複数やるよりは、2つの異なる種類の作業をより効率的に時分割できる。 例えば、何か文章を考えているときに他人とおしゃべりはできない。 しかし、車の運転手は、声で指示を受けて、ハンドル操作ができる。
  • 周辺視野と注目視野とは、異なる資源を使う。例えば歩きスマホができる。
  • 空間的過程と、音響的過程とは、効率的に時分割できる。 例えば、運転中、ハンドル操作以外の手操作は運転を中断させるが、声で機器操作するのはより楽である。 耳で捕まえた議論のキーワード(音響的言語活動)を、記録する(空間的言語活動)ことができる。

ところが、最近の研究では、ヒトが一度にできるのは一つだけである([rSW])とわかったという。 ヒトは、素早く切り替え、時分割しているのだが、それが二つの作業を同時にこなしているように見えるらしい。 すると、自動車の運転をしながら、着信した電話で会話をするのは、実は注意力を散漫にしている。 音楽を聴きながら、勉強したり、仕事をしているのは、実は、作業効率を下げている。 そういうことである。

[rYT]では、言語活動に、視覚的言語活動と、音響的言語活動とがあるという。 音声言語と文字言語といってもよい。 頭で、数を数えながら(音響的言語活動)、しゃべること(音響的言語活動)はできない。 しかし、頭で数字カードで数字が増えていくのをイメージしながら(視覚的言語活動)、しゃべること(音響的言語活動)はできる。 つまり、ヒトは、視覚的言語活動と、音響的言語活動とは、効率的に時分割で操れる。

何か文章を考えているときに他人とおしゃべりはできない。 どちらも、音響的言語活動である。 ヒトは、こういうときに時分割を効率的にはできない。 音声によるテキスト生産を利用するとき、この点を気に留めておく必要がある (「音声で文章を構成できる」)。



3. 言語


ヒト言語の前に

ヒトの特徴について、振り返る。

ヒトの脳は大きい。 純粋な大きさでいえば、クジラのほうがヒトよりも脳は重い。 クジラは、神経細胞の数も1億を超え、人と大差ない。 が、脳の重さに体重を加味したある指標だと、ヒトの脳の大きさはほかの動物を引き離す。 どんな要因が、ヒトの脳を大きくしたのか?

400万年前の初期人類のアウストラロピテクスは、直立二足歩行を始めた。 そして、ホモ・エレクトスで、直立姿勢が完成した。 手が自由になったことが、手先の器用さを促した。 すでに霊長類は、ほかの動物に比べて、手先が器用であった。 ヒトでは、親指がほかの指と対面するようになって、上手にものをつかめた。 次第に、ヒトはを手指で複雑な作業ができるようになった。 手先の器用さと、道具の利用と、脳の発達に、相乗作用があったということは、 「手と脳の進化の相乗効果」で見た。

一方、霊長類では、社会的関係が強く、複雑である([rCP])。 それが、脳の発達を促したという説がある。 社会脳仮説といわれる。 社会関係があったために、毛づくろいなどの会話が発達した。 またほかの個体の道具使用を模倣できた。 そして、他個体の心を推察することができた(「視線が社会と個体意識を作った」)。 他個体の心を推察することを、心理学や脳科学で、「心の理論」を持っていると言う。

類人猿でも、他個体の視線や指さしによって、他個体の注意している対象へ注意を向けるという、共同注意行動がみられるという。 また、類人猿でも、他個体の表情に対し、脳のヒトと同様な脳の場所が局所的に興奮するという。 他人を意識する心の理論は、自己意識の源でもある([n07])。

サルやヒトには、ミラーニューロンというものがあることが知られている。 ある道具を使うとき、身体の一部とみなして興奮する神経細胞がある。 他個体が、目の前でその道具を使うとき、自分が操作しているのでないにもかかわらず、その一部が神経が興奮するという。 つまり、他個体の行動を観察しているときに、自分の行動神経回路を適用して模擬している。 他個体が、当個体の神経に組み込まれている。 霊長類にはそれくらい社会性が根ざしている。

言語発生の前に

手と道具ということと、社会脳という二つの話は、直立二足歩行を共通要因として、つながる。 直立二足歩行が、ヒトの社会性の一層の強化を招いた([rYH])。 直立すると、腰周りを細める必要がある。 産道が狭まった。 そのため、子供は小さい早い時期に出産したほうが有利だった。 子供は、ほかの動物よりも、未熟な状態でうまれることになった。 未熟な子供には、周りで守る仲間が必要だった。 子育てのために、大人の社会が必要であった。

他方で、「発声器官の進化」でみたように、ヒトは、発声器官を進化させていた。 そして、上記のような発達した社会脳のもとに、音響言語での会話が発達した。 逆に、会話が、さらに社会脳を大きくしたことも想像できる。 社会と会話と脳の成長の相乗作用があった。

さらに、ホモ・エレクトスの時代に、火を使い始めたことも、脳の進化を促進した([rYH])。 火を使った調理によって、消化が楽になった。 そのおかげで、小さな歯と短い腸で足りるようになった。 そして、得たエネルギーを脳に使うことができた。

言語発生

言語の発生については、諸説ある。

マイケル・コーバリスは、身振り・手振りで表現することが、言語のもとになったと唱えた ([rMC])。 赤ちゃんでも、表情、まなざし、指さしなどで会話する。 これらは、空間的な情報伝達手段である。 ヒトの場合、40万年前ほどのころ、複雑な発生器官を持つにいたり、音声言語を使いだした。 ヒトが会話をする際、身振り・目振り、手振りという、空間的な表現で弁別してきた意味を、 生物の進化で体得した器官を活用することで、次第に音響的に表現することを獲得したのかもしれない。

養老孟司によると、言語には時間的言語(音声)と空間的言語(文字)とがある([rYT])。 視覚は光という電磁波を感知し、聴覚は空気振動を感知し、感覚器官としては独立に進化した。 視覚は空間の中に時間と無関係にあり、音は時間の中に空間と無関係にある。 ヒトは、それら異なるものを連合し統一した。 それが、ヒトにおける言語の発生ということだと。 ヒトの言語は、視聴覚が一体なのである([n06])。

歴史家は、ヒトの言語特徴を指摘する。 ハラリ([rYH])によると、ネアンデルタール人やデニソワ人でなくホモサピエンスだけが生き残ったのは、 架空のことを語る柔軟な言語のせいだという。 7万年前から3万年前にかけて、ネアンデルタール人が滅びる一方で、ヒトは、アフリカ大陸を出て、 中東、ヨーロッパ、アジア、オーストラリアに広まった。 ヒトは、そのころ、船、ランプ、弓矢、針などを発明した。 宗教、交易、社会的階層も生まれた。 この時期のヒトの変化を「認知革命」と呼んだ。

どんな動物も、なにがしかの言語を持って、仲間と会話する。 例えば、ハチはダンスというジェスチャーで、餌の場所を会話する。 多くの動物は、フェロモンという匂いの化学物質で、生殖のための会話をする。 ある魚は、電気で会話するという。 ある動物は、体表の色で異性にアピールする。 カラスやシジュウカラは、鳴き声の種類や組み合わせで、仲間と会話する。 ある動物たちは、体臭を残すことで、縄張りを他個体に伝える。 これらは、生存・生殖に密着した会話である。 一方、サルは、声を、他個体を欺くためにさえ使うこともあり、 類人猿は、社会的な関係に影響を与えることを意識して、言語を使い始めていた。

サルからさらに進化して、 ハラリによれば、ヒトは、認知革命によって、実在しない架空の事物について語る柔軟な言語を持ったという。

動物の世界では、社会的集団は、安定した関係を保つには、 個体数150(ダンパー数)が限界だという([rSW])。 ホモ・サピエンスが生存競争に勝ったのは、ネアンデルタール人に比べて、多産だったからという説もある。 多産で、より大きな集団で暮らした。 ホモ・サピエンスがほかのヒト族と異なったのは、ダンパー数を越えて集団形成したからかもしれない。 多産で、より大きな集団で暮らし、社会的関係の中で、言葉でコミュニケーションして、協力し合って暮らした。 ヒトは、さらに都市などを建設したりもする。 これを、ハラリは、ヒトは認知革命によって、架空の物語、つまり伝説、神話、宗教など、 彼の言葉でいうと虚構を共有できる能力があったからこそだという。

言語の効果

言語の効果は明確である。 ヒトは、動物的に知覚に反応する以上に、抽象的な概念、シンボルを思念する力を持っていた。 ヒトは、言語によって、概念を組み合わせ、無限の種類の意味を表現し、理解することができるようになった。 言語は、実在するあるいは抽象的な何かを指示し、構文構造を持って、組み立てる。 構文構造は、再帰的なので、実質、文の種類は無限である。 感覚から離れた複雑な概念をも表現できることが、ヒトの世界を広げた。



4. 文字


文字の発明

その後、およそ5000年前のシュメール文明に、ヒトが文字を使った初めての痕跡が残っている([rCL])。 ヒトは、器用な手指と、それを導く高度な視覚があって、文字を操れるようになった。 文字によって、ヒトは、時間と空間を超えて、言語を通して、様々な情報を伝達できるようになった。

文字の登場

文字は、人が生物として強みを持っていた、目と手で操作する。 そして、文字という空間言語表現を得ることで、人の歩みが、一層、加速された。 一方で、文字の登場時期は、ヒトの進化史から見ると、かなり遅い、最近のことである。 ヒトは、ほとんどの時期を、音響言語で過ごしてきた。 ヒトにとって、音響言語のほうが、自然でなじみのある表現である。

文字の効果

それ以来、ヒトの会話は、生活圏内の人との会話による日常的なものと、時空を超えた書き物によるものと、2種類のものに分かれた。 文字によって、ダンパー数よりはるかに多数のヒトに、会話し共有する道が開けた。 音声は、近場の人にしか伝わらない。 しかし、文字によって、時空を超えて伝達されるということは、個体や生活空間の枠を超えることである。 集団としての文化形成、集団としての教育、集団としての思考の深化、に役立った。 構成個体数が多くなれば、その相乗作用によって、いわばネットワーク効果が生まれる。 現代でインターネットで起きた変化に類似の爆発的な社会的な変化が、当時、文字によってもたらされたのだろう。

さらに文字は、時間的な次元でも効果をもたらした。 書き物によるテキストの消化では、文字を認識するためにもっぱら目を使う。 ヒトは、言語に文字という視覚的な要素を合わせた。 それによって、ヒトは、文字として、外部に永続的に記憶として保持することができるようになった。 時間とともに流れ去る音声言語と異なる点である。 紙切れに書いたメモである。 知識を記録した本である。 そして、世界中の人に共有されるインターネットである。 外部的な永続性の意義は大きい。

外部に視覚的に文構造を保持できるため、言語表現も様変わりした。 省略がしやすくなった。 文字を記す紙が広まる前、 ゴータマ・ブッタの弟子が生きた時代、師の教えを受け継ぐには、口伝しか方法がなかった。 口伝の記録は、同じことの繰り返しが多い。 音声表現は、韻を踏んだものだと、覚えやすいという。 また、教えを伝えるには、言い間違えが起きないように、詳細を何度も繰り返した、ともいう。 しかし、紙の上の文字が利用できるようになると、韻律は関係なくなった。 また、前に書いたことは省略できるようになった。 目で、即座に先行する文章を確認できるからである。

ヒトは、視覚的に一度に多くの言葉を認知することができる。 しかも、永続的な記録は、目で何度も確認できるため、記憶しやすい。 さらに、省略もできるため、記憶効率もいい。 そして、永続的な記録言語は何度も見直して、思考を深めることができる。 視覚的な文字によって、個人は、望めばいくらでも知識や思考を深められるようになった。

コンピュータが生まれた後も、文字コードという技術のため、文字は即ディジタル処理できるものだった。 文字のディジタル表現があるために、テキストのコピーや通信や、計算処理は容易だった。 文字がなければ、プログラムという概念もありえなかった。



5. コンピュータ


5.1 コンピュータという道具

コンピュータの恩恵

ヒトは、動物的に知覚に反応する以上に、抽象的な概念・シンボルを思念する力を持った。 ヒトは、言語によって、概念を組み合わせ、無限の種類の意味を表現し、理解することができるようになった。 ヒトは、文字によって、時と空間を超えて、意味を共有できるようになった。

言語や文字によって伝達されるものを情報という。 ヒトは、コンピュータによって、情報を記憶し、組み合わせて計算する道具を得た。 コンピュータは、疲れ知らずに、どれほどでも、仕事をこなせる。

コンピュータによって、情報のディジタル化が起きた。 それによって、ヒトは、紙の記録の物理的な劣化から解放された。 さらに、情報のディジタル化によって、コピー、更新、加工が楽になった。 情報に対する検索やソートやチェックといった計算機能が、難なく利用できるようになった。

コンピュータをネットワークでつなぐインターネットが生まれた。 このインターネットによって、ほぼ誰でも情報を発信し誰の発信内容もアクセスできるようになった。 文字によってはじめられた外部の知識が、ほぼ誰でも生産し、共有し、消費する、巨大な情報倉庫になった。 ヒトは、誰とでも即座につながり、いつでもどこでも巨大な情報倉庫に自由にアクセスできる。

コンピュータとディジタルデータとインターネットは、ヒトが生み出したほかの抽象物を融合して、さらに発展した。 例えば、スマホの地図アプリを見てみよう。 地図は、ヒトの空間認知の抽象である。 地図アプリの中の情報は、紙の地図と異なり、本屋へ出かけて買ってくる必要はない。 紙の地図と異なり、スマホをポケットに入れておけば、かさばるものをカバンに入れて持ち歩く必要はない。 紙の地図と異なり、探したい場所は、ズームインとズームアウトの組み合わせで、一瞬で見つかる。 メモを付加することができる。 スマホは、自分がいる場所をGPSで感知しているので、いまここから、目的までの道案内をしてくれる。 GPSも、ヒトの作った抽象物である。 近くのレストランをすぐに探せる。 そこで人々が感じたことを読み、書気残す。 口コミは、ヒト社会の生産物である。 近くの道路の混雑具合をすぐに調べられる。 道路、自動車も、ヒトの抽象物である。 ヒトは、こんな素晴らしい道具を、だれで手にするようになった。

昔、エリートが知能の拡張を目指した

これから、ヒトと現在のコンピュータのインターフェイスの問題を探る前に、その歴史を振り返っておく。

コンピュータは、第2次世界大戦で、ミサイルの弾道計算などに利用され、成功をおさめた。 そして、ヴァネバー・ブッシュが、1945年に、 「私たちが考えるように」(As We May Think)という論文([rVB2] )を公開した。 それは、機械や安くて大量に生産できるハードの進歩を踏まえて、 それらが人の物理的な力を拡張したのだが、 ヒトの精神は拡張していない、と指摘する。 そして、これからの科学者は、蓄積された知識を活用する作業に向かうべきだと唱えた。 それは、以降のコンピュータ研究者の先人たちにインスピレーションを与え続けたという。 その論文には、こうできる、ああできる、という様々な未来ストーリーが描かれている。 その中に、情報の関連性をたどれる、現在のハイパーリンクのアイデアさえ、書かれている。

「https://ja.wikipedia.org/wiki/ヴァネヴァー・ブッシュ」より

つまり、コンピュータは、その創成期には、『知能の拡張』が目標だった。 単純だが膨大な弾道軌跡計算を代わりにやってくれた道具の延長である。 頭脳労働を助けてくれる、知能を拡張する道具という発想である。 現にその論文の終わりの部分には、現在、BMI(脳機械インターフェイス)と呼ばれる技術を理想とした記述がある。 ここで、コンピュータの主な利用者は、科学者や研究者という、 インテリないし『エリート』だった。

ブッシュの影響を受け、その後、いくつかの重要な概念が生まれた。 それまでは、コンピュータとのやりとりは、一括してデータを与え、一括して結果を受け取るやり方だった。 リックライダーという人は、1960年に、ディスプレィごしに対話式にやり取りすることを提唱した。

「https://ja.wikipedia.org/wiki/J・C・R・リックライダー」より

エンゲルハートという人は、1962年、「Augmenting the Human Intellect: A conceptual framework」という論文を発表した。 そして、1968年に学会で、マウス、ワードプロセサ、COPY&PASTE、ハーパーリンク、リアルタイムな共同作業、画面分割、ビデオ会議などを デモし([rDE])、参加者をびっくりさせた。

「https://ja.wikipedia.org/wiki/ダグラス・エンゲルバート」より

その後、回路の集積度が高まり、ハードが小型化していった。 そこで、アラン・ケイが、1970年代にパーソナルコンピュータの概念を発明した。 ここに、コンピュータのグラフィカル・ユーザー・インターフェイス(GUI)と呼ばれるものが、ほぼ完成する。

この時、アラン・ケイは、子供でも誰でも使えるコンピュータを狙っていた。 つまり、コンピュータの歴史の中で、初めて、想定利用者層の転換という画期的なことをやった。 しかし、それまでの経緯から必然的に、そのインターフェイスに盛り込まれたものは、エリートの知能を拡張する枠組みに基づいていた。 パソコンは、あくまでも情報を処理する道具であった。

「https://ja.wikipedia.org/wiki/アラン・ケイ」より

コンピュータがさらに小型化される流れを踏まえ、ユビキュタス・コンピューティングというビジョンや、 タンジブルビッツという新しい考えも生まれた。 しかし、エリートの知能拡張のための道具としての概念立てということに対し、エリートたちに批判的な思考は起きなかった。 頭脳労働を助けてくれる素晴らしい道具を手にし、いろいろなことをやることに夢中になっていたのである。 ファイル、ウィンドウ、アイコン、メニュー、ツールバー、カーソルなど、コンピュータ特有の抽象的な概念とそれを実装するコードが、どんどん積み上げられていった。 そこに、ヒトが持つ意図とかヒトの身体性とかは、関心外だった。

そして、1990年代に、スマートフォーンが生まれた。 利用者層は、エリートでなく、人である。 用途は、情報の流通である。 もはや、エリートの知能拡張という発想のインターフェイスでは、限界があるのは明らかである。

多くのIT技術者は、このエリートの知能拡張という発想の枠内で、問題解決をしてきた。 IT技術の受益者である消費者とともに、過去の発想の犠牲者だった。 しかし、IT技術者も、受益者も、遅かれ早かれ、その限界に気づく。

コンピュータの操作概念は抽象的である

認知心理学によると([rCP])、ピアノ、蛇、時計、ハサミなどの具体的なものの単語は、 正義、能力、自我などの抽象的な単語よりも、記憶として保持しやすいという。 具体的なものは、実世界の中で、目で見て、耳で聞き、日常の活動で触れる。 それらは、視覚、聴覚、触覚、体性感覚、脳・神経系という身体全体を使って、やり取りをする対象である。 一方、抽象的なものは、ヒトの頭の中でのみ存在するものである。 それを扱うのは大脳皮質である。

コンピュータという道具を使って行うことは、ハサミのような具体性がない。 操作の意味が抽象的である。 また、いくつかの抽象的なステップをたどる。 そして、操作の結果は、電子的な変化に過ぎず、具体的に見えない。

ドナルド・ノーマンは、行為は七段階の手順を踏むと分析した([rDN])。 「(1) ゴールがまずある。(2) 実行しようという意図が起きる。(3) 行為系列へ展開する。(4)行為系列を実行する。」 => 外界を操作し、結果が返る =>「(5) 外界の状態を知覚する。(6) 知覚したものを解釈する。 (7) 解釈を評価する。」 => (1)へ戻る。

コンピュータを操作する場合に当てはめてみる。 行為系列へ展開する(3)がコンピュータ寄りで、ヒトの日常の概念より抽象的である。 また、結果も抽象的なので、(6)の結果の解釈の段階も、抽象的である。

例えば、スマホの通知が鳴ったり鳴らなかったり、変えようとする。 ゴール (1)、意図 (2)は明確である。 鳴ったか鳴らないか、解釈評価 (7)も明確である。 一方、どうすれば鳴ったり鳴らなかったりを変更できるのかの(3),(4)は、コンピュータの概念を理解していないと難しい。 また、どういう設定になっていればどうなるかを確認する(5),(6)も、コンピュータの概念を理解していないと難しい。

例えば、高齢者は、面倒がって、スマホの画面をロックしないでおくことが多い。 ロックするには、設定アプリを起動して、画面や安全関係のメニューを開いては閉じることを繰り返すことで探し、 指紋とか顔認証とかパスコードとかパターンとかいう表現の意味を理解し、 しかるべき設定変更をしなければならまい。 やりたいのは、ほかの誰も開けないようにすることである。 そのために理解し、やらなければいけない、中間的なことが多い。

また、例えば、高齢者は、設定の類はうまくできない。 それでもいじっているうちに、お休みモードやマナーモードになってしまうことがある。 すると、戻せなくなって、LINEの音が出なくなった、とかいうトラブルにはまる。 設定を戻すには、設定アイコンをたたいてと、概念構造に潜る、いくつかの中間ステップが必要となる。

また、例えば、頻繁に見たいWEBページへのショートカットをスマホの画面に置きたい。 それをやるには、いくつかのステップを経て、やっとできる。

こういう抽象的な過程は、どんなインターフェイスをかぶせても、ヒトには記憶しにくい。 高齢者には、発見し、習熟するのも難しく、認知負荷が高い。 これらは、そもそも余計なステップである。 (1)、(2)、(7)だけで、他はないことが、望ましい。

理想的な道具とは誰でもすぐに目的達成できること

このような抽象概念を抱えていて、現在のコンピュータは、理想的な道具なのであろうか?

ドナルド・ノーマンは、スニーカーのマジックテープを、 技術の進歩のお手本とした([rDN])。 ヒトは、靴の紐を結ぶという習慣に慣れていた。 マジックテープがでてから、それは一瞬の簡単なことに変わった。 障がい者、子供も、マジックテープの恩恵を受けた。 また、自動運転は、別のお手本である。 車の運転は、手段である。 目的は、ある場所へ移動することである。 自動運転は、苦痛なく、目的達成を果たしてくれる。

目的とは何か。 ドリルを買う人は、ドリルが欲しいのではなく、穴が欲しい。 PC が欲しいのは、PC自体が欲しいのではなく、きれいな文章が欲しいから。 またきれいなグラフを見たいから。 スマホが欲しいのは、いつでもどこでも情報を検索したいから。 スケジュールを、いつでも参照したいから。

道具は、認知負荷なく、最終目標を、すぐに、達成できることが、理想である。 コンピュータの操作は、目的達成のための中間の手順をユーザに強いる。 中間的な手順は、コンピュータ特有の抽象的概念である。 コンピュータは、道具として操作するのに認知負荷があり、理想ではない。

目的と手段

5.2 操作インターフェイス

目と手指での操作

ヒトは、環境から情報を獲得するときは、中でも、特に、視覚を使っている(「人は視覚的動物」)。 ヒトがコンピュータを操作するときも、情報の獲得はもっぱらモニターを目で見ることで行う。 一方、コンピュータを相手に情報を生産し反応するときも、ほぼ手指で行っている(「手指は器用」)。 テキストをディジタル的に生産するときも、コンピュータに指示(コマンド)するときも、手指を使う。 位置指定・対象選択も、手指で行う。 手は器用である。目と親和性が高い。 ヒトは、手で操作し、目でモニターする、ということに慣れてきた。 ヒトがコンピュータを操作するときも、その延長上にいる。

ヒトにとって、進化上、目と手指が格別に優秀な器官だった。 しかし、ヒトは、自然な状態では、そもそも、いろんな器官を総合して環境とやり取りをしている (「人は総合する動物」)。 文字を扱うよりも、ずっと長い間、音響的言語で生きてきた (文字の発明)。 目だけで環境を知覚し、手指だけで反応するというのは、むしろ特殊な状況ともいえる。 その特殊な状況で、抽象的な概念体系に向かっている。 コンピュータは、エリートが知能を拡張するための道具として開発されてきた。 エリートたちは、目と手指だけのインターフェイスで、抽象的な概念体系を操作することを、問題視しなかった。

石井裕は、マウスとモニターだけで、人がコンピューター・ネットワーク空間に触れないのは、 情けないと言った([rIY])。 しかし、それは道具が未熟ということに過ぎない。 そういった道具を使うヒトの能力の面から見ると、 目と手指だけでコンピューター・ネットワーク空間という概念体系とやり取りすることが、情けない。

人の能力の一部しか生かしていない

グラフィカル・インターフェイス(業界では、Graphical User Interfaceの略で、GUIと表記される)は、 目と手指の特定機能に頼る。 ヒトの身体能力を十分に生かしていない。

ヒト生体の情報処理をみてきたので、そこから、何点か拾ってみる。

  • ヒトの大脳皮質の2/3は、諸情報を総合する連合野である ([人は総合する動物])。 ヒトは感覚や運動を特定の部分に頼って生活してはおらず、総合して環境に対処している。 しかし、現在のコンピュータ道具相手には、目と手指だけを使う。 それは、不自然に限定されたものである。
  • ヒトは、視聴覚を融合して言語を用いて考える(「言語の発生」)。 しかし、コンピュータを操作しているとき、もっぱら視覚的言語だけを操り、音響器官は遊んでいてもったいない。
  • 手指は、ヒトの体によって器用さを得て([身体と視覚が手指の器用さを支えている])、 多様な器用さを発揮できる([手指は器用])。 しかし、手の一部の機能、たたく、しか利用していない。 コンピュータを操作するとき、箸を操り、鋏を操る手の多彩な能力は、どこへ消えたか?
  • 手は、機械動作するため、遅い([距離の制約])。 言語生産(「発声のテキスト生産速度は指の5倍」)とか、 注目を示したり(「視線は速い」)とかの動作に比べて、遅い。 目と手指以外の生体機能をもっと生かせないだろうか?
  • ヒトは三次元の住民である(「二次元と三次元」)。 しかし、二次元の光る画面をにらんで、コンピュータを操作する。 二次元を経由するのは、効率的で、そこで高度な認知作業はできる。 が、リアルな世界の三次元の豊かさを生かしていない。
  • ヒトの小脳([小脳は所作の匠])とはかかわらない。 例えば、歩いているときに、地図をみたくなった。 歩きながら、手でスマホを持ち、眼はスマホにくぎ付けになる。 歩いたり転ばないようにバランスをとる知能と、コンピュータを操作する知性は、 何の関わりもなく動いている。
  • 視覚は、遠隔感覚である。 一方、手指の機械動作系は、近接作用器官である。 ヒトが道具を利用するとき、目と手を使う。 手の届く範囲で、目を使う。 遠くを見る目は利用されていない。

ヒトは、環境情報を総合して感受し、反応し行動する。 ヒトは、視聴覚を融合して言語を扱い、見て聞いて、話して、社会的活動を行う。 ヒトの手指は、カラダに支えられて、握る、つまみ、ねじり、押し、すくうという多彩な動作を器用にできる。 ヒトの目は注目するのに手より早く、口は指より5倍速い。 ヒトは、三次元の住民である。 ヒトは、生物進化の結果、大脳皮質を発展させたが、それ以前のもっと動物的で基本的なカラダ動作の知能も優れている。 今のコンピュータインターフェイスは、これらのヒトの生態能力の利点のどれも生かしていない。

制約が少ないと設計は難しい

人々の日常は、物理的な制約、社会文化的な制約などに、取り囲まれている。 ドナルド・ノーマンによると、日常生活の道具は、物理的な制約、論理的な制約、社会・文化的な制約、意味的な制約などによって、 操作できることが絞り込まれている([rDN])。

制約
種類 日常の道具 コンピュータ
物理的 例えば、あるプラグはその形状にあったコンセントにしか差し込めない。
大きな突起は小さな穴に差し込めない。
鍵は鍵穴に上下逆さに入れると回らない、などである。
×
社会的文化的 ネジは時計回りに回すと締り、逆回しにすると緩む。
車の右側のサイドランプを点灯すると右へ曲がると言う印になる。
時計の1時と2時の間の時間は、2時と3時の間の時間と同じ長さである、などである。
×
論理的 棒を右に倒せば対面した相手からは左に倒すことになる。
電灯は点灯しているか消灯しているかのいずれかである。
飛行機の到着時間は、出発時間のあとである、などである。
意味的 りんごは歩かない。
オートバイに乗る時に前方は決まっている、などである。

コンピュータのインターフェイスでは、これらのうち、意味的・論理的な制約くらいしか、利用できない。 コンピュータの抽象概念は、物理的な制約からは、遊離している。 また、歴史的に形成された社会文化的な制約というものに由来することも、見当たらない。 コンピュータのインターフェイスをデザインするのは、水道の蛇口やドアのノブのデザインとは、かなり異なる。

コンピュータは、計算という目に見えない抽象的なレベルで動く。 抽象的な操作によって、抽象的な結果を返す。 どういう操作オプションを提供し、どういう結果提示をすればよいか、抽象的な枠しかない。 こういった利用できる制約が少ないところでデザインするのは、非常に難しい。 それらをデザインするのは、職人技である。 コンピュータ・インターフェイスは、ほぼ、抽象的な世界、コンピューターを作っている人の頭の世界(コマンド用語)の中で、 組み上げられた概念体系である。

5.3 操作インターフェイスの問題

アイコンは非力だ

現在、グラフィカル・インターフェイス(GUI)が主流である。 グラフィカル・インターフェイスには、物理的に見える側面がある。 それらは、わかりやすい。 操作は、マウスやタッチで行う。 マウスは、動かすとカーソルが動き、操作と結果の対応が明確である。 マウスカーソルを対象の上でクリックすると、対象が選択され、それも操作と結果が明確である。 タッチも、対象選択の結果、アプリが起動したり、画面が変わったり、明確である。

グラフィカル・インターフェイスの表示は、メニューとともにアイコンを多用する。 アイコンは、視覚的なしるしである。 ところが、「しるしを認識できる」でみたように、視覚的なしるしは間接的で表示能力に限界がある。 水道の蛇口やドアのノブには、何ができるかを示す支持機能が、ある。 一方、グラフィカル・インターフェイスのアイコンは、支持機能が弱い。 グラフィカル・インターフェイスでは、そういうアイコンを操作する。

当初は、デスクトップ・メタファーと言って、デスクにあるペン、文書、ファイルキャビネットなどを、アイコンで図示するという発想があった。 しかし、機能が、豊かになり、拡大するにつれ、物理的なものから離れた抽象を表現しなければならなくなった。

インスタグラムを意味する絵って何だろう? ダウンロードや、送信を意味する絵ってなんだろう? そういうしるしを設計するが、設計者によってバラバラである。 具体的な対象を示す非言語イメージは、記憶に残りやすいという([rCP])。 しかし、具体を離れたイメージは、意味を想像しにくいし、記憶しにくい。 例えば、高齢者がスマホを使うとき、高齢者は「?」からHELPを連想できない。 三点リーダーをタップすると画面に掲載できなかった「コマンド」が出てくるとは想像できない。 プラスマークや三角マークをタップすると、何やら展開して新しい詳しい情報が登場してくるとは、想像できない。

現在のスマホのホーム画面のアイコンのテキストラベルが、もしも、なかったとしよう。 使えるだろうか? アプリのアイコンは、ラベルで説明を追加していなければ、利用するのは無理である。 アイコンというしるしは、何ができるかを示す表現手段としては非力である。 言葉という手段を併記して初めて意味が通じるしるしとは、何だろう? アイコンの多用は、設計する側、利用する側、双方に無駄が多い。

絵文字のあいまいさ

内部の抽象を押し付けてくる

うまくアイコン経由でアプリを起動できたとする。 内部の機能を見てみよう。 以下の場合は、わかりやすい。

  • スプレッドシート、地図アプリ、ワードプロセッサ、電卓アプリなどは、 何かをする対象が明確な意味を備えている。 そういうアプリは、できることもわかりやすい。 やったことが目に見えて返ってくる。
  • ショートメッセージ、ニュースアプリなど、利用者の意図が明確で単純なアプリも、わかりやすい。 例えば、高齢者が初めてスマホを使い始めた時、他に何もできなくても、電話アプリは使える。 昔の黒電話、ガラケーの電話アプリ、で、概念モデルがしっかりとあるからである。 数字パッドを打つと、ツーツーと音が鳴り、相手が出る、ないし「つながりませんでした」とくる。 操作も知っているし、結果もすぐに出て、明確である。

しかし、そういう利点を持たないアプリ、提供機能自体が抽象的なものも多い。 ユーザはやりたいことがあってそれをやってほしいだけである。 しかし、実際のアプリは、ユーザ視点から遊離して、作り手の都合でくみ上げた概念を押し付けてくる。 以下、高齢者がスマホやPCを使う上で、はまった問題ケースから、例示する。

  • 例えば、文書作成で、利用者がやりたいのは、きれいな文書を作ることである。 そのファイルを、上書き保存や、名前を付けて保存、というのは、なにか? 保存する場所に、マイドキュメント、デスクトップ、OneDrive とか出てくるが、どういうことか? 利用者にとっては、名前とか保存方法や保存場所などは、どうでもいい。 後で、作った文書が取り出せさえすればよい。 後で印刷できれば良い。 そこでは、ファイル・フォルダー体系など、コンピュータの諸概念を、ヒトに押し付けている。 目的以外の抽象概念を、そのままヒトに見せている。 操作が抽象的な場合、その結果も抽象的である。 そして、抽象的な操作と抽象的な結果の対応関係は、なおさら抽象的である。
  • 例えば、高齢者がスマホを使うとき、「アップデート」の意味はわからない。 通知が来ても、わけがわからないので、無視する。 そのうちに、Versionが古くなって、ほかのソフトと整合しなくなり、動作不良を起こす。 高齢者にとっては、それならもうスマホの買い替え時かとなってしまう。 アップデートとは、コンピュータ特有の抽象概念にすぎないのに、ヒトがそれを理解することを当然視している。
  • また、コンピュータは、ヒトが、IDとパスワードを記憶していることを当然視している。 生身のヒト世界では、記憶は薄れ、控えは紛失するものである。 そういう生身のヒトの特質を無視し、コンピュータの都合を押し付けている。
  • スマホを使っていると、「・・・が足りない」とくる。 アプリの立ち上げすぎというのはまずない。 オペレーティングシステムが、そういう時は背景のアプリを殺しているので。 たいていは、詐欺メッセージである。 一方、写真とかの記憶領域が足りない場合は、正当な警告である。 スマホのストレージの利用状況を確認すべきである。 しかし、資源が足りないとは一体どういうことなのか? メモリとストレージとは、どういうことなのか? これらコンピュータに特有の抽象概念を、理解しておけと?
  • スマホの電波の状況表示として、扇形と三角形と二種類の表示がある。 これは、一体、何? WIfiが使えるときは、4GよりWifiを使ったほうが経済的である。 しかし、これは利用者が意識すべきことなのだろうか?
  • いつも使うWEBページがある。 それをスマホの画面に置きたい。 ショートカットを、ホーム画面に置く、とはどういうこと? ただ、すぐにみられるようにしたいだけ。 インターネット、URL、WEBページ、ホーム画面などの意味を理解しないと、欲しい情報がすぐに見られない。

石井裕は、「いまのパソコンのユーザー・インターフェイスは抽象化しすぎである」と言った([rIY])。 彼は、そこから、情報という見えない存在を、環境の具体的なものを通して表現する、というタンジブルビッツという考えに至った。 しかし、そういった抽象的な存在は、見たいものだろうか?  抽象的な内部概念は、隠して見えないほうがよい。

ヒトがドリルを買うとき、欲しいのは、ドリルではなく、穴である。 ドリルはHOWであり、穴が望ましい結果のWHATである。 ヒトは、HOWよりもWHATに価値を置く。 HOWには興味がない。 それと同じことが、コンピュータの操作の中間にある抽象概念と、コンピュータを使う目的にある。 抽象概念はHOWである。目的がWHATである。

メニューは掃きだめだ

「短期記憶は4個まで」でみたように、項目が3個か4個までであれば、 それを記憶したり選択するのは、負荷が小さい。 ところが、今のグラフィカル・インターフェイスのメニューは、機能を増やして詰め込む、いい掃きだめになっている。 ある一つのメニューの項目が、一画面に収まらないことも、珍しくない。 しかも、メニューの用語は、多くの場合、ユーザ視点の選択肢というよりは、作り手の都合に基づく用語である。 コンピュータ内部の抽象的な用語である。 利用者が、日常で使わない言葉である。 メニュー、つまりあるアプリでできることに関して、デザイナーは利用者に必要なことだけに絞り込むことに、多くの場合、失敗している。

さらに、利用者がやりたいこと以上に、見つけてほしい広告的なメニュー項目だったりする。 アプリのインターフェイスが、利用者を操作しようとさえしている。

メニューは、簡単に項目数が増える。 メニューは、別メニューを項目として持つこともある。 こうして、ヒトがやりたいことを実行するのに、広くて深い探索空間を相手にすることになる。 理想は、狭く(4個以内)て浅い選択肢のみであってほしいのに。 使いやすさの逆である。

例えば、高齢者向けのスマホは、購入時すでにたくさんのアイコンやタイルが掲載されている。 これらはメニューではないが、選択肢を提供する役割を同じくする。 電話と連絡先は使える。カメラと写真も使える。 それ以外のアプリは、何なんでしょう?  高齢者にとって、にぎやかな選択肢は、必要な機能を探すときに、便利にするどころか、逆に障害になっている。 情報処理機器でいろんな便宜を享受できるべきところ、過剰サービス(?)が、かえって逆に、 シニアのスマホ活用やインターネット活用の阻害要因になっている。 ヒトのための道具なのに、本末転倒である。

複雑怪奇なインターフェイス

グラフィカル・インターフェイス(GUI)は、ヒトの概念的な構築物である。 時間を経て発展するうちに、有機物と同様に、どんどん複雑になる。

スマホが登場したとき、当然、グラフィカル・インターフェイスが応用された。 広い画面のインターフェイスが、小さい画面のものへと変化し、マウスはタッチという直接操作へ変わった。 しかし、グラフィカル・インターフェイスをもとに、その進化を重ねたため、複雑さはそのまま、ないし、より増した。 対応関係が複雑怪奇となった。

タップは、ボタンを押す日常的な動作と近いので、選択の意味と対応づく。 ページや地図のスクロールやスワイプは、直感的にわかる。 地図を大きくしたり小さくしたりするするピンチも、直感的に使える。 が、そういう直感的な対応ができることばかりではない。

しかし、意味と対応づかないジェスチャーも多い。 例えば、電話が来た時に、受けるのを右スワイプでやらせるのがある。 スワイプに一体どういう直感的な意味があるのか?  長押しで、アプリのメニューが出てくる。 長押しにどういう意味があるのか? 左右スライドで設定のON/OFFを切り替える。 スライドにどういう意味があるのか?

しかも、ジェスチャーと意味対応が複雑に絡み合う。 慣れない人が慣れるのは至難である。

  • 一つの操作で、複数の意味がある。 例えば、タップは、アプリの選択+起動であり、項目のタップは選択+メニューの起動でもあり、 入力フィールドの選択でもあり、などなど。 機能の数がスイッチの数を超えている状態である。
  • 一つの意味なのに、その操作は複数ある。 例えば、スマホでアプリを削除するのはアプリアイコンを長押ししてから行う。 しかし、写真ギャラリーで写真を削除するには、タップして行う。

操作される危険もある

ヒトが道具を操作するのは一方向の関係である。 そこで、こちらの操作から、向こうからの反応を見るまでは、ブラックボックスである。 そこに、逆の関係が入り込む。 利用者が道具に操作されていると解釈もできる現象が、すでに現実に、どこにでも、起きてしまっている。

以下のような経験がないだろうか。 スマホを操作している。 何気ない操作がトリガーになって、画面いっぱいに広告らしき枠が出てくる。 了解ボタンがあるので、消せない。 この場合、ボタンを押すしかなくなる。 スマホのそのアプリないしページに、それを使っているヒトが操作されたのである。

スマホをONにする。 ホーム画面に並んでいるアイコンのそばに、赤い小さな丸と数字が出てくる。 何かの通知なので、そのアプリを叩いて開く。 しかし、赤い数字は消えない。 気になってイライラする。 スマホのそのアプリが、それを使っているヒトの心を邪魔をしただけでなく、 何か理解できないことを指示し要求したのである。 スマホアプリは、通知を出し放題である。 利用者は、それらのほとんどを望んでいないのにである。



6. 操作から会話へ


6.1 会話モデル

操作から会話へ

コンピュータは、道具の一つである。 ヒトは、道具を操作する。 対象を目で把握し、道具を手で操作し、結果を目でモニターする。 しかし、コンピュータは、操作される道具として、具体性がなく、抽象的である。 そのため、人側に、認知負荷がかかる。 コンピュータが、エリートの知能拡張の道具という役割ならば、それでもかまわない。 エリートは、すぐに使いこなせる。 しかし、コンピュータは、万人が使うものになった。 そこでは、コンピュータは、ヒトとの関係で、モノ道具を操作するという関係性ではなく、 会話の相棒という関係性になったほうがよい。

ヒトが道具を操作するという一方向の関係であると、 道具とヒトが調和していなくても看過される。 例えば、スマホに通知が無秩序に飛び込んでくる。 高齢者であると、通知のマークを消すやり方がわからず、イライラする。 そもそも、道具のほうが勝手にヒトに何かをプッシュするというのは、ヒトの意図に反することである。 ヒトがコンピュータを操作するインターフェイスは、そういう意図を無視した情報の流れを増長している。 広告ビジネスモデルは、機械がヒトを操作することを許容している。 高齢者であると、広告が画面を占有すると、先に進めなくなって、アプリの利用をやめてしまう。 操作モデルは、逆説的に、機械がヒトを操作することを増長し、意図の遂行を邪魔する。

操作ではなく、ヒト相手の会話をモデルとしてみた場合、コンピュータの道具としての要件が変わってくる。

  1. ヒトは、身体のしぐさの一つとして、音声で言語表現する。 それは、日常的な用語で、意図を表現する。 ヒトと会話するとき、意図レベルでやり取りをする。 ヒトの脳だけで構築された抽象的なコンピュータ特有の中間概念は、そこに介在しない。 ヒトが、電気ドリルを買うとき、欲しいのは穴であり、電気ドリルではない。 コンピュータの内部の抽象的な概念を隠して、ヒトの意図した目的の水準でやり取りする。
  2. 人が意図をコンピュータとやり取りするとき、その関係は、ヒトが手と目だけで操作する一方的な関係でない。 ヒトは連合野で考え、行動する。 環境に対し、五感を総合して、反応する。 ヒトは、環境を認知し反応するために、精緻な全身能力を進化させてきた。 機械・道具のほうも、ヒトの生得的な身体能力を尊重すべきである。 ヒトの能力をあるがままに引き出し、ヒトの発する身体からの言語を受け止め、反応する。 ヒトの身体に反応するとは、機械側がヒトの口振り(発話)、目振り(注目)、身振り・手振り(ジェスチャー)、 表情を、受け止め、やり取りすることである。 コンピュータ側が、ヒトの身体性を含めてやりとりするものへと設計されるべきである。 これは、ヒトの生得的な身体能力を、あるがまま、インターフェイスにすることである。

コンピュータの関係性と利用者と用途

それでは、コンピュータは、もっとハイテクでないといけないか? そうではない、すでに技術はある。

音声インターフェイスの普及が鍵である。 口振りに反応するとは、機械側がヒトの音声を認識することである。 ヒトの音声言語は、日常的なレベルで意図を表現する。 意図表現は、一見、曖昧に見える。 音声認識で、アプリが組めるのか? 組み方を変えればいいのである。 すでにある技術を、ちょっと視点を変えて、デザインをすればよい。

さらに、身振り、目ぶり、手振りに反応するとは? ヒトの身振り、目ぶり、手振りは、発話とともに日常的な意図を表現する。 意図は、コンピュータに構築された抽象的な概念階層とは無縁である。  それを捕捉するには、コンピュータに目と耳をつければよい。 PCもスマホも、カメラとマイクをすでに備えている。 モニター付きスマートスピーカーもある。 目と耳を持つ、サービスロボットあるいは会話ロボットも、出始めた。 このように目と耳を持つハードは、すでにある。 また、掃除ロボットに目をつけて、ヒトがあっちを掃除してと指示することは、今でも簡単に実現できる。 あとはアプリのデザインである。

6.2 音声による意図表現

意図レベルのやりとり

ヒトがコンピュータを手と目で操作するという関係でなく、コンピュータと会話するという関係では、 音声が重要な役割を果たす。 コンピュータは、すでに、ヒトに歩み寄り、音のままの言葉を理解し始めている。 従来の道具とは、質的に異なる性質である。 この質的な変化は、ヒトと道具の関係性に不可逆的な変化をもたらすと期待する。

音声言語は日常生活空間で使われるため、意図を自然に表現する。 話し言葉で、一見、曖昧と見える部分は、話す相手や周囲の状況などのコンテキストで、実は明確である。 ヒトの意図は、周りのコンテキストがあれば、言語音声に曖昧性なく自然に表現されている。 コンピュータという道具は、それを利用し、聞くべきだ。 グラフィカル・インターフェイス(GUI)で、やりたいことを満たすアプリを選ぶのは、視覚的なしるし経由である。 間接的で、意図を伝達するにしては、上等ではない。 絵を見て、何を意味するのか想起して、アプリの機能を想起する、窮屈な認知過程が必要となる。 一方、音声だと、意図を、日常語彙で、直接、表現できる。 音声で意図を伝え、それに加えて質問などによるやり取りを利用して、意図解釈ができる。

音声ならば、意図がすでに包含されているので、道具のほうで何ができるかを示すための設計というのが不要である。 音声認識で意図を受け取れば、ドナルド・ノーマンの行為7段階説で、行為系列への展開という部分がなくせる。 また、結果も意図のレベルに合わせれば、結果の解釈という中間段階も消せる。 それらがグラフィカル・インターフェイスでは、コンピュータの抽象概念を利用者に押し付けているステップだった。 そこを隠す。 ヒトは意図を表現し、結果を評価する。 そうあるべきだ。

音声のみのアプリの諸限界

コンピュータが、ヒトの身体の動作である口振りに反応しようというのが、音声認識である。 スマート・スピーカーが出て、音声だけでやり取りするアプリが試されている。 スマホの音声アシスタントもある。 いずれも、当初、音声のみのインターフェイスを目指していた。

音声をベースにしてアプリを組む場合、それ特有の工夫が必要となる。以下などである。

  • 音は消え、視覚のように再認できないので、解釈した意図を反復し確認をとる。
  • 音を聞き取って理解した、あるいは聞こえたが解釈できなかった、などという、フィードバックを返す。
  • 現在、何をしゃべってほしいのか、プロンプトを出し、反応を促す。

音声だけでアプリを組もうとすると、利用シナリオが非常に簡単なものに限定される。 例えば、天気予報を聞いたり、メモしたり、店舗の営業時間を聞いたり、アプリを起動したり、音楽を鳴らしたり、などである。 音声のみのやり取りでアプリを組もうとしても、以下の欠陥がある。 そのため、複雑なアプリ構築ができない。

  • モードの制御がやりにくい。

    音声のみだと、音声をコンピュータに聞かせている状態なのか、そうでないのかの区別ができない。 また、コマンドなのかテキストなのかの区別ができない。 音声のみでは、これらの制御がやりにくい。 「OK Google」とか、「Hey Siri」とか言って、音声をコンピュータに聞き取らせるのを始めるは、不格好である。 音声をコンピュータに聞き取らせるのは、マイクの絵をたたいて始めるほうが自然である。 コンピュータが聞き取ったよというフィードバックも、視覚的な反応もあったほうが、ヒトはすぐ理解できる。 また、聞き取ったことに対し、音声で返すしか手段がないとすると、扱う情報によっては、アプリも作りにくい。

  • 音声のみでは、そもそも空間的な位置指定ができない。

    ヒトは、指差しや、マウスやで、空間の位置指定を容易に行うことができる。 しかし、それを音声でやるとなると、あいまいな指示か、かなり冗長な指示しか表現できない。

  • ボリューム調整など、アナログ量の制御が苦手である。

    アナログ量は、空間的な概念である。 指つまみで簡単に指定できるボリューム量などは、音声言語で制御するのは難しい。 位置指定と同様、空間的な情報は空間的な手段で扱ったほうが良い。

  • 構造的な情報を扱うのが困難。

    視覚は複数個の並列処理ができ、構造を記憶できる(「空間的に記憶できる」「構造を把握できる」)。 一方、聴覚は逐次情報を対象とし、 一度にたくさんことを相手にすることは苦手である([聴覚認知は構造保持が苦手])。 構造は複数の要素と関係性からなる。 構造的な情報を扱うのは、音声+聴覚は苦手である。

    例えば、フライトを予約したい。 日時を指定する、人数を指定する。出発場所と到着場所を指定する。 その上で、値段込みの選択オプションを検索したい。 それら関連した情報をコンピュータに指定する過程で、ある時点までに何の指定を済ませたか、何がまだなのか、 を意識していないと、情報の指定がやりにくい。 すでに指定したものは、画面上で、目に見えておいてほしい。

  • 多数からの選択が困難。

    上記と同じ理由で、2、3個以上の選択肢がある場合、視覚的な補助なしに選択を行うことは困難である。

  • 同音語で困難。

    例えば、音声による言語表現では、コンピュータのほうに、キーボードのような選択・修正UIが完備されていない。 そのため、人名入力や地名入力など同音語が多く、表記を選ぶ必要があるケースでは、コンピュータが音声だけで同音語を識別するのは難しい。

  • 情報の性質によっては困難。

    例えば、商品の色合いや形状を示す必要があるとき、音声で行うのは無理である。 扱う情報によっては、必然的に視覚的なプレゼンをしないといけない場合がある。

こうして、音声のみでコンピュータを操作しようとしても、まず無理である。

視聴覚を融合する

そもそも、人は「連合野」で行動する。 ヒトが環境に対するとき、複数の感覚と効果器を総合して、認知し反応する。 とりわけ、人の言語は「言語の発生」にみたように、発生からして視聴覚が融合している。 上に挙げた諸点からして、音声のみのインターフェイスは、初めから無理であった。 音声は意図を表現する。 その水準でアプリを組もうとしたら、実は、指によるコントロール・空間指示と、視覚による構造把握と、併用せざるを得ない。 視聴覚融合は、必然である。 それで、一歩、自然なインターフェイスに近づく。

視聴覚融合は、通信でも必要である。 道具としてのコンピュータは、特にスマホによって、ヒトとヒトとの間の通信ツールとしても重要なツールとなった。 「表情認知は特殊」でみたように、 生身のヒトの表情は、社会的な活動で、重要な役割を果たしている。 電話が生まれたとき、そのリモート機能が、全世界を席巻し、その後何十年も基本インフラとなった。 が、実は、電話には視覚交信が欠如している。 それに対し、ビデオ通話が広まってきた。 視覚と一体となった交信が、広まる。

音声アプリも支持と制約を利用すればよい

音声でのやり取りは、意図レベルでのやり取りである。 それは、ヒトの身体レベルのやり取りである。 ヒト同士の会話に近い。 すると、高度なテクノロジーを使わないとできないのでは? そうではない。

ドナルド・ノーマンによれば([rDN])、 日常的な道具は、以下の3つを利用しているため、無数に道具があって使い方を丁寧に教わらなくても、ヒトは使えると。

  • アフォーダンス: 支持、何ができるかを示す。はさみの穴は指を入れる場所を示し、指を入れることを支持(アフォード)している。
  • 制約: 選択肢を制限する。穴の大きさは、1本指を入れるという制約を課している。
  • 概念モデル: ハサミは、二つの刃が交わって紙などを切るという仕組みが目に見えているため、 何をする道具なのかというハサミの概念モデルは、ヒトにとっては容易に理解できる。

はさみの支持、制約、概念モデル

コンピュータのグラフィカル・インターフェイス(GUI)では、見えているものが支持であり制約となる。 キーを下に押し下げること自体は、何のための動作か曖昧である。 しかし、Aと刻印されたキーを押し下げることは、Aの言語表現として、曖昧性がない。 そして、ヒトは、キーボードを見るとキーAがどこにあるかをすぐに思い出すので、素早くキーボードを操作できる。 また、グラフィッカル・インターフェイスでは、メニューや画面遷移というコンテキストがある。 そのために、ある対象をクリックして選択することの意味には、曖昧性がない。 そのように、視覚情報やコンテキストによって制約されて、手指動作の曖昧性がなくなる。 そのような曖昧でない動作を前提に、アプリが編み上げられる。 アプリが組みやすいのである。

グラフィカルユーザーインターフェイスの支持、制約、概念モデル

音声によるインターフェイスは、音声だけを考慮しては駄目である。 グラフィカル・インターフェイスと同様に、 メニュー(ただし4個までね)や画面遷移や問い返しという、視覚やコンテキストによる支持と制約を活用すればよい。 これらの制約を利用すれば、曖昧性をなくすことができ、アプリの構成要素にできる。 視覚やコンテキストによる支持と制約を利用するというデザインをとれば、音声による意図レベルの表現に曖昧性はない。 視覚が得意なことは視覚に任せる。 手指が得意なことは、手指に任せる。 音声が得意なことは音声に任せる。

音声アプリの支持、制約、概念モデル

音声アプリは、現在、特定のタスクに特化した専門的なアプリと、汎用でおしゃべりに相手的なものと、二分されることがある。 特定のタスクに特化したものは実用的で、汎用のものはハイテク、というニュアンスで語られる。 しかし、支持と制約を利用するという考えは、特定のタスクに特化した機能で、アプリをくみ上げるということである。 グラフィカル・インターフェイスがアプリの基礎になったのと同じことを、 音声アプリでは、タスク特化のアプリの作り方をむしろ基本線ととらええることで、攻めることができる。 複雑なアプリも、このようなデザインの考え方で、実現できる。 汎用のおしゃべりは、生身のヒトか、未来のドラえもんに、任せておけばよい。

今のコンピュータが晒している、抽象的なコンピュータ内部概念群は、意図レベルでやりとりすれば隠せる。 無駄に複雑な概念のモデルとは離れられる。 意図レベルの概念は、わかりやすい。

音声アプリで広範囲の制約が利用できる

音声アプリの組み方で、有利になる点もある。 1回限りの操作に比べて、やり取りが続く会話では、ヒトに、次に何が起きるかという期待と予測が生じる。 音楽は、過去の記憶と未来の予測との相互作用で、今が決まる。 同じように、音声アプリも、ヒトの時間を使える。 これが、アプリを組むときに、利用できる制約に追加される。 操作にない要素である。

さらに、別の利点もある。 音声に限らず、視線や身体ジェスチャーというヒトの意図表現こみでやり取りをすれば、 アプリの構成要素や、やり取りの流れの予測だけでなく、もっと広範囲のリアルな状況を、 制約として利用できる。

意図を示す表情、視線、声音、ジェスチャーは、もちろん、利用できる。 また、ヒトのいる3D空間内位置は、制約として利用できる。 例えば、それによって、「あっち」の意味が確定する。 また、「寒い」の意味は、リビングの空調のせいなのか、職場の空調のあるフロアーの設定なのか、が確定する。 時間も、制約として利用できる。 「消して」は、夜、就寝時刻より後なら、室内灯のオフの意味である。 「あと10分で雨が降ります。洗濯物をしまいましたか?」という警告は、現在の自宅の位置とその土地の降雨予報と、 朝から晴天だっかどうかによるが、出すタイミングを決める。 ヒトの行動記録もまた制約になる。 「さっきのオーダーをシャンセルして」は、過去1時間くらい以内に商品注文を入れていたら、直近のそれである。

音声で文章を構成できる

ヒトは、考えながらしゃべるのは難しい。 そのため、音声認識は使えないという考えがある。 しかし、一瞬考えて、それをしゃべる、それを繰り返す、という時分割なら、うまくできる(「人は時分割でマルチタスクできる」)。 そもそも、ヒトにとって言語は、視覚的でありかつ音響的である。

「発声のテキスト生産速度は指の5倍」なため、 音声を使うと、文書を作成する時間が短くできるという誤解がある。 しかし、文章を考えるのには、熟考が必要なので、実は、音声表現は、文書作成の時間を短くしない。 しかし、音声表現は、アイデアを素早く完全な形で記録することができる。 たとえ誤認識でノイズが多くても、文であるため、後で編集するときに、想起しやすい。 その結果、音声でスケッチした後の文書作成はやりやすい。 音声言語表現は、頭の中にある整理されていないモヤモヤした概念を、忘れないうちに、目に見える形で取り出して、 編集可能な形にし、考えを発展させられるようにするための手段である[rNY]。 音声で素早く、視覚的なテキストとして保存してしまえば、それは外部の記憶となる。 外部の記憶として何回でも再認できるので、じっくり校正する素材となる。 そうやって、文章を練ることができる。

このように、ヒトは、考えてしゃべるという時分割処理を上手にでき、 素早く音声表現を記録して、後で校正するというやり方で、効率的に文書生産ができる。

視聴覚融合のユースケース

以下、音声と視覚を融合したインターフェイスによって、どう変わるかを、いくつか例示する。 インフラの進歩を前提とするものは、前提事項のところに記す。が、 ほとんど、デザイン次第で、今でも実現可能なシナリオである。

  • 料理レシピ:

    Before: 台所で、レシピを見ながら、調理をしている。 調理を始めた。 次の手順や、火の時間を確認したい。 もう手は濡れている。 現在のレシピアプリは、画面で手順を示すだけである。 そのため、全部覚えきれない。 何度も見たいが、手が濡れてできない。 結局、手を拭いては、スマホかタブレットを見て、を繰り返す。 モニターは汚れる。 調理動作のタイミングを失して、投げやりになって適当に調理することになったりもする。 また、スマートスピーカーに、レシピを読みあげさせる。 だが、テキストに書いてあることを、読み上げるだけで、全部覚えられないのは、同じである。

    After: レシピアプリは、会話型にデザインされている。 濡れた手を使わずに、「あれやったけど、次は何?」に対して、 「次は、これこれです」と教えてもらう。 モニターで、手順の全体図とやったこととやっていないこと(構造情報)を、確認する。

    注: 手順という時間のある構造情報は、視聴覚でやり取りしたほうがいい。 最初から視聴覚前提で、会話フローを設計すれば、今でも作れる。

  • スマホのラウンチャー:

    Before: 買ってきたスマホに電源を入れると、たくさんアイコンが並んでいる。 そのうち、電話、カメラ、LINEは、すぐわかる。 それ以外、アイコンを見ても、何を意味するのか分からない。 使わないので、調べもしない。

    After: 最初、マイクと、いくつかのタイルがあるだけで、画面にアプリのアイコンはない。 マイクをたたいて、やりたいことをしゃべる。 問い直しが何度か来るが、答えたり、指で選んだりして、会話し、用が済む。

    注: あいまいなアイコンぬきで、音声で直接意図を伝える。 スマホのビジネスモデルを変える必要があるが、技術的には可能なので、 こういうローエンド型イノベーションが今出てきても不思議ではない。 現在のスマホは使いにくいという見方ができれば実現する。

  • スマホの画面ロック:

    Before: 生体認証、指紋、顔、コード、パターンとか、何言っているのかわからない。 危険だといわれているが、面倒だし、やり方がわからないので、スマホの画面をロックしないでおく。 ある日、スマホを公衆トイレに置き忘れた。 警察に届けたが、落とし物として見つかることはなかった。 連絡先とか、銀行のアプリとか、いろいろ入っていた。 中の情報とともに、裏のマーケットに流れたかもしれない。

    After: 「画面ロックしたい」としゃべる。 音声ガイドとともに、どういう選択ができるかが表示される。 選んだり、答えていくと、画面ロックの設定ができていた。

    注: メニューやツールバーという抽象概念の森ぬきで、意図を直接処理する。 これもプラットフォームの開示API次第だが、デザイン次第で実現できる。

  • フライト予約:

    Before: 航空会社のページを検索し、あれこれのボタンやメニューの中から、予約メニューをようやく探し出し、クリックする。 予約情報を予約フォームに埋める。 中でも、都市名とかの固有名詞をキーボードから入力するときは、手間がかかる。

    After: 「飛行機の予約をしたい」としゃべる。 「いつですか?」、「どこからどこへですか?」。 選択肢が多かったり、足りない情報があれば、コンピュータ側が問い返えして、意図を詳細化していく。 今答えてほしい情報は、画面に表示されるので、何をすればいいかわかる。 選択肢が3,4個に限定できるものなら、ボタンが表示されるので、選択も楽である。 すでに利用者から聞き取ったと、まだ足りない情報は、画面に表示されるので、 利用者が今どこまでやったかがわかり、これから何をしないといけないかがわかる。

    注: 複数項目からなる構造情報は、視聴覚でやり取りする。

  • スマホの設定:

    Before: (壮年の場合)音が出なくなった。 設定アプリを起動し、画面のメニューから音声関係を探す。 ためしに、あるボタンを叩いてみる。 違った。 別のをたたいてみる。 またメニューがある。 これからなと思い、たたく。 これだ。 (高齢者の場合)音が出なくなった。 どうしていいかわからない。 どこをどう変更すればいいか、怖くてどのボタンも押せない。 前にもやった気がするが覚えていない。

    After: 「音がでなくなった、戻して」としゃべる。 診断プログラムが起動され、適当に、設定を変更してくれる。 それで済む。

  • スマホ通知のコントロール:

    Before: ピコピコと通知が来て件数が出てきたり、気になってうるさい。 が、消し方がわからない。

    After: 「通知消して」としゃべり、用をたす。

  • 予約登録業務:

    Before: 会員制のコミュニティで、サービス予約管理をする。帳 サービスの利用者は一日当たり40名前後。1ヶ月分で約千名分のデータ。 1ヶ月単位で、紙に書かれた予約帳のデータをオンラインにする。 WEBのフォームを開き、ポチポチとサービスの種類、日時などのメニューを選び、人名を入力する。 特に人名という固有名詞は、入力に時間がかかる。 作業に慣れても、ほぼ終日かかる。

    After: コンピュータに、会員名簿の辞書を仕込む。 日付、サービス項目の選択や人名、すべて音声で指定する。 誤認識によるやり直しも含め、1時間で済む。

    注: 日本語のように表意文字言語だと同音語が多い。人名、地名などの固有名詞の入力は手間がかかる。 それは、音声でも同じである。 ただ、メンバーが限定できるなら、その制約を利用して、辞書登録で曖昧性をなくせる。 あとは、ポチポチと指でやる手間よりも、音声のほうが素早く入力できることを利用できる。

  • テレビの視聴者参加番組:

    前提事項: テレビがスマート化して、カメラとマイクを持つ。 ないし、スマホと連携する。

    Before: テレビの視聴者参加番組が、質問を視聴者に投げかけた。 3択である。その選択肢が表示される。 画面の案内で、色付きボタンを押せばよいとわかる。 テレビのリモコンとその上のボタンで回答を送信する。

    After: テレビが耳を持つ、ないし、スマホが番組と連動する。 視聴者は、「1番」と話しかけるだけ。 たくさんボタンが乗ったリモコンは、もういらない。

  • バス時刻表:

    Before: バスの停留所に向かう時、バスの時刻表を見たい。 「バスの時刻表」と話しかける。 音声アシスタントは、時刻表アプリかサイトの候補を返してくる。 お気に入りのWebアプリは決まっているから、それを選ぶ。 停留所名をポチポチと検索入力し、 行き先をポチポチと検索入力し、 時刻帯を指定し、 それで、やおら、バス運行時刻表をみられる。

    After: 「バスの時刻表」と話しかける。 最初に使ったときに、このアプリ・サイトを今後も使いますかと、聞いてくれた。 2回目以降は、以前使ったアプリ・サイトを覚えてくれているので、そこが直接開かれる。 現在位置は、GPSで、どの停留所に近いのかは、わかる。 出発停留所は自動的にデフォルト設定される。 現在の時刻で、アプリ・サイトの時間ごとのページも、デフォルトで設定されている。 行先は、問い返しで指定した。 それら制約を利用しているので、アプリサイトは、開くと同時に、望んでいたバス運行時刻表のページを出した。

    注: 位置や時間を制約として利用できる。 グラフィカル・インターフェイスのアプリでも、こういうリアルな諸々の制約を利用できるはずだが、 利用者の意図に沿うという発想でなく、利用者が指定・操作するという発想のためか、そういうアプリはあまり見ない。 デザインの考え方を変えるだけで、快適なアプリになる一例である。

  • 買い物リスト:

    Before: 買い物するものをメモする。 「大根を買う」と話しかける。 現在のスマホの音声アシスタントだと、近場のスーパーから選ばせようと、地図アプリへ誘導しようとする。 しかし、いつも野菜を買う店は決まっている。 どこにあるのかもわかっている。 スーパー・マーケット店舗への誘導(広告ビジネス)は、今はいらない。 今は、メモしたいだけである。 メモアプリを起動して、そちらで用を足した。 その後、夕食の調理の時間が近づいた。 買い物リストには、食材が何件かたまっている。 近場のスーパーに出かけて買い物をした。

    After: 「大根を買う」と話しかける。 普段、近所の店舗に出かけていく、という行動パターンでなく、宅配してもらう。 その行動履歴をアプリは知っているので、「メモしますか?」と問い返して、「はい」と答える。 メモできた。 その後、夕食の調理の時間が近づいた。 買い物リストには、食材が何件かたまっている。 近場のスーパーは宅配サービスをしている。 買い物リストの画面を開いて、「宅配して」としゃべる。 店と、項目の値段と外見と、表示されるので確認し、「注文」する。

    注: 音声ベースの買い物リストアプリがあって、ローカルな地域ビジネスが宅配ビジネスをやっていて、 アプリとビジネスがタイアップすれば実現できる。

  • 高齢者の移動補助:

    前提事項: 現在、高齢者は、ちょっとした買い物や、通院・薬局への移動など、移動の手段に困っている。 高齢のため、自動車を運転しなくなっているためである。 仮に、一人乗り電気自動車で、自動運転機能がついたものが、安価に普及したとする。 また、そういう乗り物が、交通インフラのセンサー群と連携していて、安全で混んでいない通り道をえらんでくれたりするとする。

    Before: 一人乗り自動車に、行き先を設定したりする制御パネルが、今のパソコンやスマホみたいで、 高齢者には操作が難しく、結局、利用できない。

    After: 制御パネルに乗っているアプリも、視聴覚融合で、意図レベルのやりとりができるようにデザインされている。 高齢者でも、難なく、安全に、移動ができる。

    注: いわゆるスマートモビリティは、視聴覚融合のインターフェイスへの変化なしでは、進まないだろう。

6.3 ジェスチャーによる意図表現

注目は重要な制約

音声以外に、ヒトが意図を表現するときに重要な役割を果たすものがある。 視線と身振り、手振り、表情である。

ヒトは、視線で注目する。 ヒトは、指さしで、注目対象を示したりする。 このような注目行動は、社会的な知能の基礎となった(「視線が社会と個体意識を作った」)。 注目行動は、会話の中で、意図を解釈するときの重要な制約となる。 コンピュータが、ヒトと会話するとき、この制約を利用しない手はない。

視線は操作手段ではない

ヒトの視線は速い([視線は速い])。 このために、視線をパソコンの位置指定手段として使おうという発想があった。 これなら、手指が動かせないハンディを持っていても、目を動かせられるヒトはいる。 そういうヒトのための表現手段となる。 また、健常者でも、指とマウスは指の機械的速度と距離に制約される(「手指は距離に束縛される」)が、 視線は素早いので距離に束縛されない。 そこで、画面の位置選択などに、利用されたことがある。 また、まばたき検出が、操作手段として、ゲームのミサイル発射の指示として利用されたこともあった。

しかし、ヒトの目は受容器官として進化したものである。 それを無理に操作手段として使うと、以下の不具合が出る。

  • 受容器官としての動き以外の動きを期待するのは、ヒトに不自然な動作を強いることになる。 眼は、微動もあり、複雑な動きをする(「眼球の動き」)。 ある時間、視線が、ある範囲に、とどまったことで、対象を見たと判定するしかない。 操作手段として使うことは、そういうルールを強制することになる。 不自然な動作は、疲労に導くし、慣れるまで学習を要する。
  • 目だけを操作手段とすると、位置指定や選択という視線を使った意識的な操作なのか、単に探索しているための目の移動なのか、 状態の区別を機械に伝えるのが難しい。 メドーサは、見たものを石に変えてしまう。 注目して確認したくても、どれも石に変わってしまっている。 それと似たことが起きる。 目で対象を探しているつもりが、目にしたものが選択されてしまっている。 そこで、探索と選択・位置指定を区別しようとしたら、探索ボタンないし選択ボタンを1秒眺めてから探し、などど面倒なことになる。 ペンアプリで、ストロークを書く動きなのか、対象を選択する動きなのか、いちいち設定するように。 したがって、少なくとも目だけを使った操作インターフェイスは、難しい。

目に、効果器としての役割を求めるのでなく、進化してきた受容器のまま生かすべきである。 視線は、空間的な注目箇所を示す。 そこで、目に「見て選ぶ」役割を負わせるのでなく、「見たな」をそのまま利用する。 視線は、会話において「まなざし」として、情緒的な情報を伝えることもする。 動物でさえ、まなざしで意思を伝える。 機械は、まなざしをヒトの意図を示すヒントとして利用すればいい。 それだけで、ヒトの意図への反応が自然になる。

視線のユースケース

以下、視線を利用すると、どう変わるかを、いくつか例示する。 以下の全部の前提として、

  • ヒトが何に注目しているかを検出するため、装置にカメラ機能を付加する必要がある。 そのカメラは、人がどこにいて何を見ているかを検出できる程度の精度が必要である。
  • また、ヒトの検出、姿勢、視線の概略を検出するコンピュータ・ヴィジョンプログラムが要る。
今ある技術で実現できそうなことである。

  • たくさんのリモコン:

    前提事項: 室内に、PCがあり目と耳を持っているとする。 あるいは、室内にコミュニケーションロボットがいるとする。 いずれかが、スマートホームのコントローラーになっていて、ヒトのジェスチャー、音声をモニターしているとする。

    Before: 部屋にいくつか電化製品がある。 そのリモコンが、複数、散らかっている。 あるリモコンに関し、「あれ、どこ置いた?」がよくある。

    After: その時、ヒトがエアコンを見ながら、「つけて」といったら、エアコンをつけるという意図である。 部屋の明かりをつけるという意図ではない。

    注: ヒトは、まなざしで、相手を選ぶ。 視線は、意図の強い制約である。 また、三次元空間内部の物理的配置も、制約になる。

  • 広告の無害化:

    前提事項: スマホがそのカメラで、ヒトの視線をモニターしているとする。

    Before: スマホでニュース記事を読んでいる。 画面上部のテキストを読みつつ、スクロールするため画面下部の画面に触れる。 たまたま指が触れたところに、広告枠が表示されていた。 画面が切り替わり広告が表示されて、びっくりする。おいおい。

    After: スマホでニュース記事を読んでいる。 画面上部のテキストを読みつつ、スクロールするため画面下部の画面に触れる。 たまたま指が触れたところに、広告枠が表示されていたが、広告を見ていないので、スクロールした。 広告を見ながら触れていた場合は、広告を開く。

  • たくさんの候補からの選択:

    前提事項: スマホのアプリで、テレビのモニターを使ったビデオ会議ができるとする。

    Before: TVの画面に連絡先の人物の写真がいくつか表示されている。 リモコンの方向キーを使って、左右へスクロールして、相手を探す。 相手を選択したら、確認画面が出て、Enterで確認する。 ビデを会議を起動するかという画面が出てきて、Enterで確認する。

    After: 視線がきょろきょろと動いているとき、画面の端を見れば、その方向へ画面はスクロールする。 視線がある連絡先に注目したら、この連絡先を選択するかと音声と画面で聞いてくる。 「うん」という首のジェスチャーによって、確認をし、ビデオ電話を起動する。

  • ビデオ会議での人選択:

    前提事項: ビデオ会議アプリが、視線をモニターしているとする。

    Before: ビデオ会議中、特定の人に連絡をしたくなった。 チャット機能を使い、その人を選択し、タイプする。

    After: こちらのPCには、大勢の人が映る表示画面枠と、それぞれの人が映る画面枠が、表示されている。 特定の人が映っている枠を見て、しゃべる。 音声は、その人へのみつながる。

  • 指示相手装置の選択:

    前提事項: 家のかでっは、それぞれ、目と耳を持つ。 ないし、目と耳をもつコミュニケーションロボットを介して、連携している。

    Before: お掃除ロボットのところへ行って、ボタンでオンにし、掃除を始めさせる。

    After: お掃除ロボットを見ながら「掃除して」としゃべる。

このように、視線、まなざしは、機械がヒトに対するとき、ヒトの意図を示す重要な手がかりである。

ジェスチャーは意図を示す

表情、身振り、手振りは、重要な会話手段である。 指さし(「指さし行動」)と視線は、注目対象を他者と共有するという機能がある。 表情は、感情を伝える(「表情認知は特殊」)。 声の調子からも、感情が伝わる(「声には表情がある」)。 感情は、ヒトから意図を読み取るときに、手がかりととなる。 ヒト画像から、表情やジェスチャーを読み取るのは、すでに実現できている。 音声による言語表現と総合して、意図を読み取るのは、技術的に可能である。

コンピュータが、目と耳を持ち、ヒトと視聴覚でやり取りする。 さらに、ヒトの身体を包むリアルな世界で、やり取りをする。 コンピュータにとって、ヒトは大脳皮質の抽象物の中で概念をこねくり回す主では、なくなる。 小脳、脊髄を含む脳神経系と身体を持った主となる。 ヒトとリアルな世界を一緒にとらえると、アプリが利用できる制約が増える。

深層学習で観測情報の組み合わせも楽に処理できる

複数の情報を複合して、ヒトの意図を判定するのは、ルールをプログラムするのでは複雑すぎる。 現在、深層学習技術があり、データ(観察)と結論(ヒトの意図)を学習させることができる。 この深層学習の技術は、実数のベクトルを入力とする。 この技術は、実は、複数の情報を総合する課題に、とても適している。 ある入力をある長さのベクトルにし、あとはベクトルをつなげて、入力にすればよいから。

ジェスチャーのユースケース

以下、ジェスチャーを利用すると、どう変わるかを、いくつか例示する。

  • ヒトの行動に応じたオンオフ:

    前提事項: スマホのセンサーか、室内カメラで、ヒトの身体動作をモニターしているとする。

    Before: スマホは、ヒトが起きて、活動を始めているのに、目覚ましアラームを鳴らし、うるさい。 また、夜、ヒトが、もう少し起きていようと思いつつ横になった。部屋の明かりをつけっぱなしで、寝てしまった。

    After: 起床後は、目覚ましアラームをオフにする。 夜間、人が就寝し、しばらくしたら室内灯、テレビ等を消す。

    注: 機械がヒトから指で指示を受けるだけの関係から、ヒトの身体を含む状況とやり取りする関係になると、 それで可能になることは、多くある。 また、利用できる制約も、多く増える。 なお、今、スマートホームで想定されているのは、家電をスマホでリモートから操作できるなどである。 しかし、いまのスマホのユーザー・インターフェイスでのままであれば、テレビのリモコンにたくさん機能ボタンが載っているのと大差ない。 操作モデルのままのテレビのリモコンがもう1個増えてうれしいだろうか? スマートホームは、視聴覚融合のインターフェイスへの変化なしでは、進まない。 そして、意図レベルでのやり取りになれば、ヒト身体とのやり取りにならざるを得ない。

  • 歩きスマホ禁止:

    Before: 向こうから来る人が、歩きスマホをしていて、危ない。

    After: スマホが、人の歩きを感知して、歩いている最中は利用できないようにする。

  • 掃除ロボットへの位置変更:

    前提事項: 掃除ロボットに目と耳をつける。

    Before: 現在の掃除ロボットは、ヒトがどこにいようとお構いなしに、動き回る。 そのため、掃除をする間は、部屋を不在にしないといけない。

    After: ロボットが、ヒトの足元に来て、うるさければ、 あっちを掃除してと、指差しで、指示する。

    注: 実三次元世界という物理的な存在は、意図の解釈を助ける制約となる。 例えば、ヒトが台所にいて、居間を指して「あっち」と指さしたら、居間エリアである。 コンピュータが、このように、ヒトのジェスチャーを見るように変われば、ヒトはコンピュータと、実三次元世界で豊かな会話ができる。 コンピュータは、二次元のモニターでなく、三次元の実世界の中で、ヒトの身体まるごととやり取りをできるようになる。

  • エアコンの風向き変更:

    前提: 部屋にスマートホームのハブがあって、ヒトのジェスチャーをモニターしている。 ないし、エアコンなど各家電がそれrぞれロボットみたいに、目と耳を持つ。

    Before: エアコンの風がもろ当たり寒い。 エアコンのリモコンを探して取り上げ、天井へ風を送るようにした。

    After: エアコンを見ながら、人差し指を突き出しながら、手で上へ上へと指示を送る。

    注: 人差し指は、注目対象を他人に示すときに用いられる。 まなざしは、対象を選択することに使われる。 人差し指は、機械相手に注目対象を示し、選択することに使える。 人差し指がさしていることが、機械からみれば意図解釈の要素となる。 このように、視聴覚を融合すると、風向きの指示、音量調整など、音声のみでは難しいアナログ量のコントロールに利用できる。

  • 追随あかりドローン:

    Before: 夕方庭作業をしている。 暗い。 庭にあかりを設置するか考える。

    After: あかりドローンをオンして、庭に出る。 この相棒は、ヒトの動きに応じて、手元、足元を照らすように位置を自動調整してくれる。

    注: ドローンはよくカメラを備えている。 カメラで写したものに対して反応する機能はアプリ次第で、簡単である。

  • 見守りロボット:

    前提事項: 居間に、目と耳を持つコンピュータ(コミュニケーションロボット)がいる。

    Before: 高齢者が、単身で、生活をしている。 スマホなどの機器、インターネットは利用できない。 遠隔の家族は、心配である。

    After: ヒトの動きを感知し、毎日、話しかけ反応を記録する。 遠隔の家族は、その記録をモニターしているので、心配がない。 コミュニケーション・ロボットはモニターも備えている、ないしテレビのモニターと連動するので、親戚や友人とビデオ通話にも利用できる。 そのため、高齢者の孤独も解消される。

    注: 手と目の関係でなく、意図レベルでやり取りする関係になることは、とりわけ情報弱者を助ける。 目と耳を持つコンピュータ(コミュニケーションロボット)であれば、赤ちゃんの見守りにも使える。

  • 見守りロボット装着モニター:

    前提: スマートウォッチか、リストバンド型の、健康モニターが普及しているとする。

    Before: 高齢者が、単身で、生活をしている。 スマホなどの機器、インターネットは利用できない。 遠隔の家族は、心配である。

    After: 心拍、血圧等、体調モニターできる。 転倒事故を検出できる。 行動、しゃべりから、認知機能評価もできる。

    注: 地域の医療サービスのネットワークがあれば、それに連結することで、 健康・医療サービスの最適化ができる。 医療サービスのネットワークは、情報をつなぐだけなので、いまでもやろうと思えば構築でき、技術はある。 それを実行する勢いだけである。

  • 行政サービス、金融サービスの認証:

    前提事項: 日本は遅れているので、時間がかかると思うが、 エストニアの行政サービス向けの仮想アシスタントのようなものが、本格的に機能したとする。 ただこれは、まだ音声アシスタントらしい。 目も持ち、ジェスチャーも含めてヒトと会話し、スムーズな意図疎通ができるような、コミュニケーションロボットが、例えばリビングのテレビモニターを利用して、アシストするとする。

    Before: 高齢者は、行政手続きのため、マイナンバーカードを持参して、役所に行く。 お金をおろすため、銀行に行く。 オンラインショッピングはやったことがない。 移動がつらい。

    After: 自宅のGPS情報、生活空間で得られる生体情報(声、顔、指紋)などを使い、 二要素認証以上に安全な個人認証ができる。 見守りロボットが、音声でアシスタントし、ジェスチャーも読んでくれるので、 行政手続き、オンラインバンキング、オンラインショッピングも、一人でやれた。

    現在のグラフィカル・インターフェイスで、行政手続きをやろうとしても、メニューの森になってしまい、誰でもやれるものではなくなる。 行政手続きをはじめ構造的な情報を扱うので、音声のみでなく、視聴覚融合インターフェイスが必要となる。 専用の対話フローを組み、モニター画面での視覚的提示前提で、アプリは作れる。 個人の認証も、目と耳を持つロボットならば、利用できる情報は多くなり、安全性を保証するのは、技術的に難しくないのでは。 肯定・否定のジェスチャも理解してくれる、優しいアシスタントなら、役所に出かけて窓口の人とやり取りするのと 同等のことができる。

  • 備品管理:

    前提事項: 商品には電子タグが付いて、常時、追跡できるような社会インフラができたとする。 商品の宅配、ドローンとかで、社会インフラになったとする。

    Before: 家庭には常備品がある。 人が管理するので、備品が切れそうになっても気が付かない。

    After: 備品を買って家に持ち込むと、コンピュータが認識、記録してくれる。 利用パターンを覚え、備品のストックが切れそうになる前に知らせてくれる。 同じ商品を注文するかという問いかけに「はい」と応じる。 数日後、ドローンで配達された。

  • 買い物難民の救済:

    前提事項: 高齢者はリアルでは外出しにくい。 バーチャルなツールは、現実をリッチにするというよりも、リアルでは実行しにくいことをサポートするときに、大変、助かる。 バーチャルな、買い物アプリができたとする。 商品の宅配も、ドローンとかで社会インフラになったとする。 テレビのモニターを利用したコミュニケーションロボットが居間にいるとする。

    Before: 高齢者が、自動車を運転できなくなった。 500メートル以内にスーパー・マーケットがない。 買い物ができない。

    After: リビングのTVモニタをオンにして、買い物アプリを呼び出す。 店舗の仮想ツアーができる。 歩くと画面が進む。 見たいものの方向へかがむと、画面がズームする。 買いたいものを映し、「これ買う」を繰り返す。 ある店では、高齢者に優しい料理メニューを出している。 そのメニューを映し見て(寿司屋のタブレット画面のようなもの)、夕飯に食べたいものを注文する。 しばらく後で、ドローンが買ったものを届けてくれた。



7. 終わりに


7.1 ヒトとコンピュータとの関係を見直す

ヒトとコンピュータとの関係を見直す

ヒトは、道具を操作し、自分の能力を拡張してきた。 言語を生み出し、文字を生み出した。 そして、コンピュータを生み出した。

このコンピュータは、エリートの知能の拡張のための道具だった。 コンピュータを利用するには、コンピュータ特有の抽象的な構築物を扱う必要がある。 そのようなヒトとコンピュータの間の関係は、問題視されてこなかった。 しかし、今は、エリートだけでなく、万人がコンピュータを使う時代になった。 知能を拡張する、情報を処理するためだけでなく、情報を流通させ共有する道具となった。 どこにでもありふれ、ヒトの生命にかかわるライフラインにも、なりつつある。

こういう利用のされ方の変化に伴い、ヒトとコンピュータとの関係は、見直しが必要である。

ヒトは、何かをしたいためにコンピュータを使う。 何をしたいかは意図である。 それを実現するために、コンピュータ特有の抽象概念を扱う。 一方、ヒトには、生得的、または、訓練や社会的教育によって、自然と身に着く事柄がある。 コンピュータの抽象性は、そのヒトの日常の能力とは、調和しない、難解なものである ([n08])。 できれば、難解な概念には潜らずに、意図を伝えたら、あとはコンピュータがやってくれたほうが良い。 ヒトとコンピュータとの関係は、従来のヒトがものを操作する関係でなく、意図レベルで会話してやり取りする関係のほうがよい。 意図レベルであれば、コンピュータの抽象を隠して、ヒトの生来の能力でやり取りができる。

ヒトが道具を操作するとき、その関係は、一方向である。 指示をして結果を得るまではブラックボックスである。 そこで、逆方法に操作される危険がある。 一方、ヒトと会話するかのように、意図レベルでのやり取りであれば、 意図から外れた作為があれば、ヒトはすぐ気づく。 機械に操作される危険は小さい。

意図レベルでやり取りをするには、従来のコマンドやグラフィカルな抽象的インターフェイスよりは、 音声でのやり取りが向いている。 ただ音声だけでは難しいこともあるので、視聴覚を融合したインターフェイスが必要である。

ヒトの目と手は極めて優秀である。 ヒトが道具を扱うとき、目でモニターし、手で操作することが多い。 従来のコンピュータの操作は、また手と目が主だった。 しかし、これは、我々の普段の生活からすると、きわめて例外的な限定された関係である。 意図レベルのやり取りの関係では、音声だけでなく、身体レベルの相互作用が自然となる。 ヒトは、まなざしや、指さし、手のジェスチャーなど身体で意図を表現するからである。 また、ヒトの身体全体を考慮しなければ、機械道具がヒトの意図を満たすことはできない ([n11])。 目と耳を持つコンピュータが、ヒトの発話や身体動作を認識して対応できれば、 ヒトは目と手だけで操作する必要はなくなる。

7.2 デザインを変える

デザインを変える

このような、意図レベルの会話関係、視聴覚融合、身体全体を考慮する関係を実現するには、 ハイテクが必要か? ことによっては、たしかに、新しい社会的インフラの発達や新しい技術が必要だったりする。 しかし、多くの便利なユースケースは、今ある技術で実現できる。

スマホ、モニター付きスマートスピーカー、サービスロボット、会話ロボットあるいはAIロボットと呼ばれるロボットなどは、目と耳を持つ。 ヒトと機械が会話をするための、ハードパーツそろっている。 また、コンピュータは、ヒトの声を聴き、言葉を理解始めた。 それらは、ヒトのしゃべりとジェスチャーを認識する能力がある。

問題は、システムやアプリをデザインするときの、考え方である。 デザインの考え方を変えるだけで、快適なアプリになる。 今すぐに、変化を起こせる。 エリートが知能を拡大するために使う道具、目と手での道具操作インターフェイス、という過去からの延長は、やめよう。 万人が使うにしては、難解な抽象によるストレスが大きい。 多くのIT技術者が、インターフェイスの現状はおかしいと、気づきであろう。 音声と視覚を融合したデザインを、最初から目指すべきである。 コンピュータに、ヒトの目振り、身振り、手振りなども感知させ、リアルな時間・空間の制約も利用する。 それらで表現された意図は、制約やコンテキストがあれば、アプリを組むに足る、曖昧性のないパーツになる。 視聴覚アプリは、様々な制約を利用して曖昧性を取り除き、組み上げればよい。

エリートの知能の拡張道具という位置づけの時代、コンピュータは武骨な箱だった。 一方、ヒトの会話をするパートナーという位置づけならば、コンピュータはヒト型ロボットの形態が理想だろう。 ヒトは、ヒトの表情にたいし、特殊な認知をし、情動的にも強く反応する。 表情を持つヒト型ロボットならば、ヒトと、従来になく埋没的な深い関係を持ちうる。 「2001年宇宙の旅」に出てくるHAL9000は、姿がない。 動きもしない。 部屋に鎮座しているのだろう。 一方、「スターウォーズ」に出てくる、R2-D2やC-3POは、人の形をしている。 ヒトのそばについて動いてくれる。 HAL9000は不気味だが、R2-D2やC-3POには親しみを感じる。

HAL9000 [https://ja.wikipedia.org/wiki/HAL_9000 より]

R2-D2 [https://ja.wikipedia.org/wiki/R2-D2 より]
C-3PO [https://starwars.fandom.com/ja/wiki/C-3PO より]

7.3 未来

メタバースとドラえもん

頭部にディスプレィを装着し、現実にコンピューター・ネットワーク世界を重ね合わせたり、 仮想的な世界にいるかのような臨場感を持たせる技術がある。 コンピューター・ネットワーク空間で得られるリッチな世界を、自分の身体と一体化したかのように感じさせる。 あたかも、ヒトの身体を、仮想的な世界に取り込む。 これからのヒトの体験空間は、リアルからよりバーチャルへ移るだろうという考えがある。

仮想空間のメリットはある。 コンピューター・ネットワーク上に構築した仮想空間というものは、現実ではできないことを可能にする ことで、なにかの課題を解決するときに、効果がある。 例えば、高齢者の買い物難民の解決とか、孤独の解消とか。 人の脳は可塑性があるので、そういう技術にヒトが慣れたら、どんなことが起きるか、想像できない。 可能性は大きいと思う。

一方、現実の世界とその中の生身のヒト身体は、コンピュータとの関係上でまだ未開拓のことが多いという意味で、またリッチな世界である。 ヒトの身体と脳神経は、生物の長い長い進化の結果である。 そこを生かすことは、十分開拓されていない。 ヒトとコンピュータの関係に身体性を発揮させること、そしてヒトとコンピュータが調和した関係になること、が望ましい。 ヒトの身体を仮想的な世界に取り込無より、そっちのほうが優先度が高いと思う。

意図レベルで、生世界で、ヒトと会話をし、生活する存在は、ドラえもんである。 ドラえもんが誰にとってもパートナーになったら、どんなことが起きるかわからない。 人は社会的動物で、生まれて以降の社会的教育で、脳内のいろんな神経をつなぐ。 実世界のパートナーであるので、大脳皮質だけのパートナーではなく、脊髄や小脳レベルでも付き合うことになる。 そこのパートナーがドラえもんだ。 ワクワクしないだろうか?

人体を拡張する

ヒトの脳・神経は、環境とのやり取りで、生物として、受容・効果器官との協同作業のために進化した。 そのしくみは、未知なことが多い。 一方、脳に機械・道具を、直接、接続することで、道具を自在に操ることが、昔から夢見られてきた。 脳に、直接機械・道具を接続したり、脳の信号を直接解読しようとする技術を、 BMI、ブレーン・マシン・インターフェイスという。

一方、ヒトは、生得の知能よりは、生まれた後で学習して得る知能のほうが、圧倒的に大きい。 手に第6の指というのを装着し、腕の筋肉の動きでコントロールするように、少し訓練すると、 自分の体の一部であるかのような感覚で、動かせるという。 道具を体や頭の一部であるかのように巧みに操るという体験を、ヒトは多数すでにしている。 ヒトは、自転車のハンドルを難なく、無意識的に操舵できる。 あたかも、手の一部であるかのように。 ヒトは、車をバックさせるとき、車の幅をなんとなく感じながら、駐車スペースにバックしていれる。 また、ヒトは、社会的教育によって、言葉と文字を操れる。 言葉は、ヒトの意識そのものであるかのようである。 人と調和した道具は、ヒトの身体とも、脳神経系とも、一体化してくる。 そして、ヒトの生得的な能力が、道具で拡張される。 大脳の可塑性([脳の可塑性])や、小脳の学習能力のおかげである。

脳に直接、道具を接続するのが、ヒトの進歩の近道になるかわからない。 脳は身体とともに進化してきた。 身体から切り離して機械とつなげるよりは、 むしろ、ヒトの身体と協調するという方向が現実的かもしれないと思う。



脚注




参考文献


出典