------------------------------------------------------------------------- 第22回AI-Challenge研究会プログラム ------------------------------------------------------------------------- 10月14日(金) 13:00 - 13:10 挨拶 奥乃博(京大) 13:10 - 16:10 (招待講演 50分, 一般講演 30分) 1. [招待講演]信号処理から見たロボット聴覚:「音源の方向検出について」 金田 豊(東京電機大) 2. 「SIMO-ICAを用いた音響テレプレゼンスのためのブラインド音情景分解」   高谷智哉,猿渡洋,鹿野清宏(NAIST) 3. 「多音源に対する周波数領域ブラインド音源分離」 澤田 宏,向井 良,荒木 章子,牧野 昭二(NTT CS研) 4. 「SIMO-ICAとバイナリマスク処理を組み合わせた2段型リアルタイム ブラインド音源分離」 森 康充, 高谷 智哉, 猿渡 洋, 鹿野 清宏 (奈良先端大・情報), 稗方 孝之, 森田 孝司((株)神戸製鋼所) 5. 「適応雑音推定処理を備えた空間的サブトラクションアレーによる実環境下 でのハンズフリー音声認識」 木内千絵,高谷智哉,猿渡洋,鹿野清宏(NAIST) 16:00 - 16:20 休憩 16:20 - 19:10 (招待講演 50分, 一般講演 30分) 1. [招待講演]脳型情報処理から見たロボット聴覚:「脳とからだをもった耳」 辻野広司((株)ホンダ・リサーチ・インスティチュート・ジャパン) 2. 「パーソナルロボットPaPeRoにおける近接話者方向推定と2マイク音声強調」 佐藤 幹, 杉山昭彦, 大中慎一(NEC) 3. 「コミュニケーションロボット・DAGANE」 原直, 西野隆典, 伊藤克亘, 宮島千代美, 武田一哉(名古屋大) 4. 「ハフ変換を用いた音源音のクラスタリングとロボット用聴覚への応用」 鈴木薫, 古賀敏之, 廣川潤子, 小川秀樹, 松日楽信人 ((株)東芝 研究開発センター ヒューマンセントリックラボラトリー) 5. 「人間共生ロボット"EMIEW"の聴覚機能」 戸上真人, 天野明雄, 新庄広, 鴨志田亮太(日立・中研), 玉本淳一, 柄川索(日立・機械研) 10月15日(土) 9:30 - 11:50 (招待講演 50分, 一般講演 30分) 1. [招待講演]認知神経科学から見たロボット聴覚 :「聴知覚のダイナミクス」 柏野牧夫 (日本電信電話株式会社 NTT コミュニケーション科学基礎研究所) 2. 「対話音声における韻律と声質の特徴を利用したパラ言語情報の抽出の検討」 石井カルロス寿憲, 石黒 浩, 萩田紀博(ATR 知能ロボティクス研究所) 3. 「大規模マイクロホンアレイによる室内移動音源の追跡と方向推定」 中臺 一博(HRI), 中島 弘文(NOE), 山田 健太郎(HRI), 長谷川 雄二(HRI), 中村 孝広(HRI), 辻野 広司(HRI) 4. 「ヒューマノイドロボットHRP-2におけるロバスト音声インターフェース」 原功, 浅野太, 麻生英樹, 緒方淳, 比留川博久, 金広文男(産総研), 山本潔(筑波大大学院) 11:50 - 12:50 昼食 12:50 - 14:20 (一般講演 30分) 1. 「ロボット頭部に設置したマイクロホンによる環境変動に頑健な音源定位」 久保俊明, 持木南生也, 小川哲司, 小林哲則(早稲田大) 2. 「384ch 壁面・天井スピーカーアレイによる複数音焦点形成」 石井最澄 佐々木洋子, (東京理科大学, 産総研), 大友佑紀 (東京理科大学), 加賀美 聡 (産総研, JST, 東京理科大学), 溝口 博 (東京理科大学,産総研) 高野 太刀雄(産総研) 3. 「ミッシングフィーチャー理論を適用した同時発話認識システムの同時 発話文による評価」 山本俊一(京大), Jean-Marc Valin(Sherbrooke大), 中臺一博, 中野 幹生, 辻野 広司(HRI), 駒谷 和範, 尾形 哲也, 奥乃 博(京大) -------------------------------------------------------------------------               プログラム詳細 ========================================================================= 10月14日(金) ------------------------------------------------------------------------- 13:00 - 13:10 挨拶 人工知能学会AIチャレンジ研究会主査 奥乃博 (京都大学) 13:10 - 14:00 [招待講演]信号処理から見たロボット聴覚:「音源の方向検出について」 金田 豊(東京電機大) ロボット聴覚の開発において, 対話相手の音声や環境音の方向を検出・把握 することは重要である。本講演では, 音源方向検出の問題概説, 最近の技術 動向などについて述べ, 筆者らが検討中の, 反射音耐性のある方向検出技術 の考え方を紹介する。 14:00 - 14:30 「SIMO-ICAを用いた音響テレプレゼンスのためのブラインド音情景分解」  高谷智哉,猿渡洋,鹿野清宏(NAIST)  本研究では,ヒューマノイドのマイクロホンで観測された混合バイノーラ ル信号のブラインド分解問題を扱う.本稿では,Single-Input Multiple-Output (SIMO) モデルに基づく独立成分分析(SIMO-ICA)を用い た新しいブラインド信号分解アルゴリズムを提案する.SIMO-ICAは複数の ICA 部と単一のFidelity Controllerによって構成され,ICAは全体の分離 システムにおける忠実制御のもと並列に動作する.SIMO-ICAは観測信号を 音源ごとのモノラル信号に分離するのではなく,ヒューマノイドロボット に搭載されたマイクロホン位置における独立な音源からの信号群に分離す る.従って,SIMO-ICAの出力信号は各音源の空間情報を維持することが可 能であり,これにより音情景の分解が実現される.SIMO-ICAの魅力的な特 徴として音声認識だけでなく,ヒューマノイドロボットに基づく音響テレ プレゼンス技術に応用可能な点である.実験結果より,SIMO-ICAの出力信 号の空間特性は従来手法における出力信号より優れていることが確認され た. 14:30 - 15:00  「多音源に対する周波数領域ブラインド音源分離」 澤田 宏,向井 良,荒木 章子,牧野 昭二(NTT CS研) 複数の音が混ざり合った観測信号を目的の音に分離する音源分離技術につ いて,音源の方向や無音区間などの種々の事前情報を必要としない,いわ ゆるブラインド処理に関する研究が盛んに行われている.我々は,観測信 号を短時間フーリエ変換して周波数領域で分離を行う手法について研究を 行っている.主要な成果としては,ばらばらに分解された各音源の周波数 成分を,音源の位置情報に基づき,音源毎にグループ化する効率的な手法 を開発したことである.結果,無数の背景雑音の中での主要2音源の分離 や,3次元に配置された6音源の分離を達成した. 15:00 - 15:30 「SIMO-ICAとバイナリマスク処理を組み合わせた2段型リアルタイム ブラインド音源分離」 森 康充, 高谷 智哉, 猿渡 洋, 鹿野 清宏 (奈良先端大・情報), 稗方 孝之, 森田 孝司((株)神戸製鋼所) ハンズフリー音声認識の実現を目標として,ブラインド音源分離(BSS)技 術を用いることが考えられているが,従来のBSS技術は,実時間動作可能 ではあるが分離性能がそれほど良くない手法と,分離性能は高いが実時間 動作には不向きな手法の2つに大きく分類出来る.しかし,ハンズフリー 音声処理システムの実現のためには,分離性能が良くなおかつ実時間動作 可能なBSS手法が求められる.そこで本稿では,前段にマルチチャネルの 分離信号が得られるsingle-input multiple-output(SIMO)モデルに基づく ICA(SIMO-ICA)を用い,その後段にバイナリマスク処理と呼ばれる簡便な 信号処理技術を組み合わせた,リアルタイムBSSアルゴリズムを提案する. また,提案法の有効性を示し,ダミーヘッドを用いて収録した実環境音声 データを用いた分離実験を行いその評価を報告する. 15:30 - 16:00 「適応雑音推定処理を備えた空間的サブトラクションアレーによる実環境下 でのハンズフリー音声認識」 木内千絵,高谷智哉,猿渡洋,鹿野清宏(NAIST) 高精度なハンズフリー音声認識の実現を目標として,空間的サブトラクショ ンアレー(SSA)が提案されている.SSAは,実験室において高精度な音声認 識が可能であることが確認されている.本研究では,実環境においても SSAで高精度な音声認識が可能となるように,雑音推定部に適応雑音推定 処理を備えた新しいSSAを提案している.提案法は,適応雑音推定処理と して適応フィルタを適用することで雑音推定性能を向上させ,全体の認識 精度も向上させている.従来提案されていたSSAとの比較によりその有効 性を検証し,提案法が従来のSSA より高精度な音声認識が可能であること が確認された. 16:00 - 16:20 休憩 16:20 - 17:10 [招待講演]脳型情報処理から見たロボット聴覚:「脳とからだをもった耳」 辻野広司((株)ホンダ・リサーチ・インスティチュート・ジャパン) 複雑な行動を伴い移動可能なロボットハードウェア及びロボット制御技術 の進展により, ロボットにはより知的な機能が期待されている。従来行わ れていたロボット知能は, 限定された入出力情報を前提にしたものであり, ある程度記号化することで知的な機能を実現していた。一方, 現在求めら れている知能は, 高度化したハードウェアに適した, 多次元入出力・オン ライン処理を前提としたものであり, 明確にシンボライズして機能実現で きる対象が相対的に少ない。このような背景下で, ロボットの聴覚処理に おいては, 通常計算機の音声情報処理を載せ変えたものではなく, ロボッ トハードウェアとその多次元性・オンライン性・システム性を考慮した全 く新しい学問領域としての「ロボット聴覚」研究の展開が求められている。 脳型情報処理は生物で行われている中枢情報処理をヒントにした新しい情 報処理技術の構築を目指した領域である。現在の聴覚情報処理が, かつて は生物の信号処理からヒントを得たように, 生物の情報処理として現在注 目されている身体性・多次元性・オンライン性・システム性などは, 「ロ ボット聴覚」の進展に貢献できる可能性が高い。本報告では, 脳科学から 得られつつある新しい知見を参照しながら, 「ロボット聴覚」を考察する。 17:10 - 17:40 「パーソナルロボットPaPeRoにおける近接話者方向推定と2マイク音声強調」 佐藤 幹, 杉山昭彦, 大中慎一(NEC) パーソナルロボットPaPeRoの音声インターフェースに用いられる信号処理 技術について報告する。家庭環境において音声認識を成功させるには, 家 庭内雑音に対する対策が必須となる。これらの対策には, 音源方向検出, ノイズキャンセラなどの信号処理技術が効果的である。音源方向検出は, 話しかけているユーザの方向検出に使われる。検出方向にロボットを向け ることにより, 音声入力マイクの高感度方向をユーザと一致させることが 可能となる。ノイズキャンセラは, 音声入力マイクと雑音入力用マイクの 2つのマイクを使い, 周囲で発生する雑音による妨害を軽減する。音声入 力マイクの高感度方向以外の方向で発生する雑音を抑圧することにより, ユーザの音声を強調することが可能となる。これらの技術について, 家庭 環境において発生する問題やその解決策を中心に紹介し, 実際にロボット 環境で評価した結果を報告する。 17:40 - 18:10 「コミュニケーションロボット・DAGANE」 原直, 西野隆典, 伊藤克亘, 宮島千代美, 武田一哉(名古屋大) 6月9日から19日まで愛・地球博において, 開催されたNEDO プロトタイプ・ ロボット展に参加した DAGANE を紹介する。DAGANE は, 3ヶ国語で同時に 3人と会話し, 動作もまじえてコミュニケーションするロボットである。 18:10 - 18:40 「ハフ変換を用いた音源音のクラスタリングとロボット用聴覚への応用」 鈴木薫, 古賀敏之, 廣川潤子, 小川秀樹, 松日楽信人 ((株)東芝 研究開発センター ヒューマンセントリックラボラトリー) 家庭内で稼動するロボットのため, 雑音環境下で非限定方向からの目的音 声を個別に定位し認識することのできる全方位聴覚を実現する。周波数と 位相差の関係に着目し, 音源の数と方向の推定を周波数−位相差空間にお ける直線検出問題に帰着させてハフ変換により解く。検出された直線を複 数のマイク対について対応付けて音源候補の空間定位を行い, 適応アレイ 処理によって音源音を分離して認識する。 18:40 - 19:10 「人間共生ロボット"EMIEW"の聴覚機能」 戸上真人, 天野明雄, 新庄広, 鴨志田亮太(日立・中研), 玉本淳一, 柄川索(日立・機械研) 人の暮らしを助けるロボットとして,我々が開発を進めている人間共生ロ ボット"EMIEW"の聴覚機能について報告する。"EMIEW"は首周りに6つ,頭部 に2つのマイクを持っており,全方位の音源定位機能が可能である。また目 的とする音だけを高精度に抽出する妨害音抑圧機能を持っており, 高騒音 環境で,1m程度離れた位置からでも人と対話できる遠隔音声認識機能を 持っている。 ------------------------------------------------------------------------- 10月15日(土) ------------------------------------------------------------------------- 9:30 - 10:20 [招待講演]認知神経科学から見たロボット聴覚 :「聴知覚のダイナミクス」 柏野牧夫 (NTTコミュニケーション科学基礎研究所, JST下條潜在脳機能 プロジェクト) 人間の聴知覚は, それまでに入力された音響信号の履歴に応じて時々刻々 と変化する。極端な場合, 同一の音響信号を持続的に聞いているだけでも, 対象の知覚的属性は劇的に変化する。また, 対象の知覚的属性だけでなく, それが定位されるべき時間的, 空間的枠組みも変化する。筆者らは, この ような聴知覚のダイナミクスを, 心理物理学, 神経生理学, 脳活動計測, 数理モデル等の手法を統合することによって分析し, 聴知覚の形成過程や, その神経メカニズムの解明を図っている。聴知覚のダイナミクスは, 音響 信号と知覚との乖離, すなわち錯覚をもたらす処理のエラーのように思わ れるかも知れない。しかし実は, 環境や処理ハードウェアに由来する種々 の制約の中で適切な知覚を実現するための巧妙な戦略とみることができる。 このような知見は, 人間の聴覚系とは別の目的, 環境, ハードウェアの制 約をもつ各種ロボットの聴覚系を設計する上で, 直接利用はできないにせ よ, 参考になることもあるかも知れない。 10:20 - 10:50 「対話音声における韻律と声質の特徴を利用したパラ言語情報の抽出の検討」 石井カルロス寿憲, 石黒 浩, 萩田紀博(ATR ロボティクス研究所) 人とロボットの音声対話質の向上を目標とし, 韻律特徴と声質特徴を利用 して音声に含まれるパラ言語情報(発話行為, 態度, 感情など)の抽出を 検討した。異なったパラ言語情報を伝達した, さまざまな発話様式で発声 された発話「え」および「へ」を分析した結果, 韻律特徴は(肯定, 聞返 し, フィラー)などの機能的な発話行為を識別するのに有効であり, 声質 特徴は(驚き, 嫌悪, 疑い, 感心)など, 感情・態度的なものを認識する ことに有効と示した。 10:50 - 11:20 「大規模マイクロホンアレイによる室内移動音源の追跡と方向推定」 中臺 一博(HRI), 中島 弘文(NOE), 山田 健太郎(HRI), 長谷川 雄二(HRI), 中村 孝広(HRI), 辻野 広司(HRI) 音源の指向性を考慮した拡張ビームフォーミング法を利用して, 音源の定 位だけでなく, 指向特性を推定する方法を提案する。音源の指向特性推定 により, 指向特性のパワーピークを検出して, 音源方向推定が可能になっ たり, 実際の人間の声の指向特性を予めDBとして蓄えておけば, TV やラ ジオなどスピーカから出力された声と区別したりといった応用が期待でき る。実際に 64ch のマイクロホンアレイを室内に設置し, 音源定位, およ び指向特性推定に関して, 提案手法の有効性を報告する。 11:30 - 11:50 「ヒューマノイドロボットHRP-2におけるロバスト音声インターフェース」 原功, 浅野太, 麻生英樹, 緒方淳, 比留川博久, 金広文男(産総研), 山本潔(筑波大大学院) 我々は, 実環境下において安全・安定に動作し, 人間と自然なコミュニケー ションが可能なヒューマノイドロボット実現のために, マイクロフォンア レイシステムと高視野カメラを用いたロバスト音声インターフェースシス テムの開発を進めてきた。このシステムでは, 音響情報と視覚情報と統合 することによる発話区間の検出, 適応ビームフォーマを用いた音源分離お よび音声認識のおけるモデル適応の3つのロバスト化技術を融合すること で実現している。本稿では, ヒューマノイドHRP-2に搭載したロバスト音 声インターフェースの実装およびそれを用いたロボット制御システムにつ いて述べる。 11:50 - 12:50 昼食 12:50 - 13:20 「ロボット頭部に設置したマイクロホンによる環境変動に頑健な音源定位」 久保俊明, 持木南生也, 小川哲司, 小林哲則(早稲田大) 我々はロボット頭部に設置した4系統指向性マイクロホンを用いて, マイ ク間のスペクトル強度比を利用した統計的パターン認識手法に基づく音 源定位手法を提案してきた. このような方法においては, 学習環境と実 際の動作環境との差異が問題となる. この問題に対してHLDAを利用する ことで, 環境の変動にロバストな音源定位手法を提案する. 13:20 - 13:50 「384ch 壁面・天井スピーカーアレイによる複数音焦点形成」 石井最澄 佐々木洋子, (東京理科大学, 産総研), 大友佑紀 (東京理科大学), 加賀美 聡 (産総研, JST, 東京理科大学), 溝口 博 (東京理科大学,産総研) スピーカを壁および天井の2面に配置した384ch壁面配置型スピーカアレ イを構築し,3次元空間の任意の位置に複数のボール状音焦点を形成する ことが可能となった.本システムは,これまでの2軸/3軸アレイの問題点 であったサイドローブを抑制できることをシミュレーションから示し, 実際の音場測定との比較,検証を行った.実測結果から約15dBのS/N比を 獲得できることを確認した. 13:50 - 14:20 「ミッシングフィーチャ理論を適用した同時発話認識システムの同時 発話文による評価」 山本俊一(京大), Jean-Marc Valin(Sherbrooke大), 中臺一博, 中野 幹生, 辻野 広司(HRI), 駒谷 和範, 尾形 哲也, 奥乃 博(京大) 実環境で人間が聞く音は大抵混合音であるので,人間と同じ生活環境で 活動するヒューマノイドロボットは混合音を認識する必要がある.本研 究の目的は,混合音を認識することができるヒューマノイドロボットを 実現することで,これまでにヒューマノイドSIG2 に設置されたマイクロ フォンアレイによる音源分離とミッシングフィーチャマスク自動生成に よる音声認識を統合した複数同時発話認識システムを開発した.その結 果,孤立単語の三話者同時発話の分離音声を通常の音声認識した場合と 比較して,本システムによる単語正解率が向上した.しかし,実世界で のヒューマンロボットコミュニケーションを想定した場合,孤立単語だ けでなく連続音声を認識できる必要がある.本稿では,本システムの音 声認識部にマルチバンド版Julius を採用し,認識処理の高速化と連続音 声認識に対応し,三話者同時文発話認識による評価を行った.