北陸先端科学技術大学院大学 人間情報処理領域

音情報処理分野 赤木・鵜木研究室

English


現在の研究内容

メンバー一覧からご覧になれます。(OB・OG含む)

研究概要

研究の目的

“音(音声)を聴くとはどういうことであろうか”という問いに答え、また、これを基にして音(音声)に関する新たな研究方向を見つけ出すためには、次に示すような目的を持った研究が必要である。 音を通して、外界のどのような情報が、聴覚末梢系でどのように処理され、脳内に符号化されるのか、また、なぜこのような方略をとっているのかを、工学、生理学、心理学にまたがった分野での総合的な研究から探求する

取り組むテーマ

(a) 生理データ、心理データに忠実な聴覚機構のモデル化

生理学的データに忠実なモデルの構築を行なう。たとえば、音分析に関係ある聴覚末梢系、特徴抽出に関係する蝸牛神経核、方向定位に関係する上オリーブ核などの生理データに一致した出力を生む機能モデルを構築する。また、最近の脳機能計測結果も視野に入れたモデル化を試みる。
さらに、心理学的データに対しても忠実なモデルの構築を行なう。心理学的データは、聴覚系および脳全体を一つのブラックボックスと見た場合の入出力関係を示しており、これをモデル化することにより、脳内での特徴抽出、符号化の一端を明らかにする。
モデル化とは、動物の耳、人間の耳の一部と機能的に同じように動くものを作ることであり、知見に忠実なモデル化によって各部位の働きの確認、モデルからの新たな知見の提案が可能となる。さらに、工学的に有用なモデルであれば、音信号処理、音声認識・合成などへの応用も可能となる。

(b) 音による外界の認知(ASA:聴覚情景解析)

音による外界の認知は、動物にとって最も基本的な営みである。この機能の一つであるカクテルパーティ効果についてのモデル化を試みる。
かつて聖徳太子は同時に10人の訴えを聞きそれを処理した、と言われている。我々一般人がこれを真似しようとしてもうまくはいかないだろうが、10人の中の一人の話す内容に注目して聞き取ることは、我々にとってもさして難しいことではない。このように、二つ以上のメッセージが混在していても一方を選択的に聴取可能であるような聴覚上の効果を「カクテルパーティ効果」と呼んでいる。カクテルパーティ効果が生じる原因としては、音の到来方向の違い、音源の特徴の違い、また音声の場合には言語的知識、経験などが関係していると見られている。
そこで、(a)で示した生理データ、心理データに忠実な聴覚機構のモデルの上で、次のような項目についてそれぞれ検討し、カクテルパーティ効果の実現をはかる。
  • 音源方向・距離の推定
  • 音源の分離
  • 聞こえない音の知覚的補間
  • 位相変化、振幅変化に含まれる時間情報の知覚
  • 言語的知識を扱うためのtop-down(AI的手法)とbottom-up(信号処理)の融合

(c) 音声に含まれる情報の解明と制御

音声がどのように脳内で符号化されるのかについて検討を行なう。
音声には、何を話しているかを伝える言語情報と、それ以外に個人性、感情などを伝えるパラ言語情報が含まれている。我々はこれらを音声から巧みに抽出し、人とのコミュニケーションに役立てている。またこれとは別に、視覚から得る情報も用いており、これらが統合されて人とコミュニケーションを行なっている。
そこで、言語情報を得るための音韻/音節/単語/文知覚機構のモデル化、また、パラ言語情報を得るための各種特徴(たとえば基本周波数、発話タイミングなど)の知覚についてのモデル化、さらに、視覚情報と聴覚情報の融合・競合のモデルの構築をテーマとして研究を行なう必要がある。
これらの結果から、音声認識・合成、音声対話に有用な知見が得られるであろう。
このような研究を行うためには、
  1. 心理物理実験による知見の獲得:どのような情報が処理され符号化されているのかを心理物理実験を通して明らかにする。
  2. 計算機による生理学的知見、心理学的知見のモデル化:知見と同じ結果を生み出す知見に忠実な機能モデルを構築し、そのモデルによって各部位の働きの確認、あるいは、モデルからの提案を行なう。また、工学的に有用な場合はこれを応用する。
ことが必要である。すなわち、このような研究を行うためには、工学、心理学、生理学にまたがった分野での総合的な研究が必要なのである。

3domain

詳細は赤木正人教授研究紹介 のページをご覧ください。