慶應理工の言語と声の世界 | 慶應義塾大学理工学部

米国留学で音声学へ転向し、多彩な人との出会いの中で研究を深める

中学で英語に触れ、言語による違いに興味を持つようになって、言語学の道へ進んだ杉山さん。
修士課程から米国へ留学し、「意味論」について学んだものの、やがて興味は「音声学」へ移っていく。
音声を物理的な側面から分析し、対象を客観的に捉える点に惹かれたという。
帰国後、母校である慶應義塾大学へ。
語学教師として教鞭をとる傍ら、恵まれた環境の中、研究への取り組みをいっそう深めている。

Profile

杉山　由希子 / Yukiko Sugiyama

外国語・総合教育教室

愛知県出身。専門は言語学、音声学。主に日本語を題材にして音声分析や知覚実験を行い、音声コミュニケーションの仕組みについて研究している。慶應義塾大学文学部英米文学科卒業。ニューヨーク州立大学バッファロー校（University at Buffalo，The State University ofNew York）言語学部修士課程を経て、2008年博士課程修了、博士（言語学）。2009 年慶應義塾大学理工学部外国語・総合教育教室専任講師、同大学言語文化研究所兼担所員、2016 年同大学准教授。2017 年ベストレクチャー賞受賞。

→ 研究紹介
→ インタビュー

研究紹介

今回登場するのは、

音声学の分野で、「話す」「聞く」しくみの解明に挑む杉山由希子准教授です。

人間が話したり、聞いたりするしくみを解き明かしたい

何が単語の認知を特徴づけているのかを探る

人は話すとき、同じことばであっても、物理的にまったく同じ音声を発することはできない。では、なぜ私たちはそれを聞き取り、意味を理解し、意思の疎通を図ることができるのだろうか。あるいは、「橋」と「端」のように、同じ発音の単語の意味を汲み取ることができるのだろうか。杉山由希子准教授は、話し手の音声、聞き手の聴覚の両面を調べることで、音声を話したり、聞いたりするプロセスやそのしくみの解明に取り組んでいる。

「音声学」とは？

杉山さんの専門は、「音声学」と呼ばれる学問分野だ。音声学は大きく分けて、人がしゃべった言葉の音波を調べる「音響音声学」、人間が言葉をしゃべる際に口の中で音を整える調音について研究する「調音音声学」、そして聞く側について調べる「聴覚音声学」の３つの分野からなる（図1）。「音声学は、言語学の一分野と捉えられることもありますが、音波を調べるためには音声の周波数や時間の長さなど、物理的な特徴を調べなければなりません。また、調音であれば口腔や声帯のはたらき、聴覚であれば人間の知覚のしくみも関係してくることから、工学や医学、認知心理学など、幅広い知識が必要になります。文理両方の要素を併せ持つ学問分野なのです」と杉山さんは説明する。その音声学をベースに、杉山さんは２つのアプローチで研究を進めている。１つは、音声が物理的にどのような特徴を持っているかを調べること、もう１つはそれを人がどのように聞いているかを、実際に聞き取りの実験を行って調べるという方法だ。こうした双方向のアプローチにより、日本語が持つ特徴を明らかにしたいという。

図1　音声学
音声学は、大きく分けて図のように3 つの分野に分けられる。

単語を区別している特徴を探る

「対象にしているのは、東京方言、いわゆる標準語です。複数の東京方言話者から音声を録音して集め、まずは音声の周波数や長さなど、物理的な特徴を調べます。たとえば東京方言の場合、『雨』は『あ』の音が高く、『め』が下がりますが、『飴』では『め』を高く発音します。このように、音声の周波数成分に由来する音の高低（ピッチ）が単語を意味づけています」
しかし、「橋」と「端」ではどうだろうか。あるいは「鳥」と「トリ（最後）」では？
「どちらも同じ低高のパターンで発音するため、単語からだけでは区別がつきません。ところが、『橋を歩く』と『端を歩く』では、『はし』の後ろにつく助詞の『を』のピッチが前者は低く、後者は高いまま発音されます。このように、人が何を手がかりにして単語を理解しているのか、その特徴を探るのです」。
実際に、音声に含まれる周波数成分を分析して可視化したスペクトログラム、いわゆる「声紋」を見ると、音の高低を聞き分ける際の手がかりになる基本周波数（基底となる周波数成分）の上がり下がりが見てとれる。日本語では、このように音のピッチで単語を区別する、ピッチアクセントを頼りに意味を汲み取っていると考えられる（図２）。
「音声の高い低いで単語を区別するという点では、日本語はトーン言語に分類される北京語に似ています。一方で、日本語のピッチの持つ役割は、英語のストレスアクセント（強勢）に近いものでもあります」。
そうしたことから、日本語のピッチアクセントには、音の高低だけでなく、英語に代表されるストレス言語と同様に、音の強さや長さも関係しているのではないかと言われることもある。
「単語の区別をピッチアクセントだけに頼っていたのでは、さまざまな状況下でのコミュニケーションにおけるロバストネス（頑健性）を担保しきれないように思います。実際に、英語のストレスアクセントには、強さ、長さ、ピッチといった複数の要素が含まれます。しかし、日本語の場合は長さが変わると意味も変わってしまう。では、何を使っているのか、とても気になるところです」。
そこで、杉山さんは、声帯の震えを伴わないささやき声や、音声の周波数成分の中から基本周波数などを人工的に取り除いた、ピッチが聞き取れないはずの加工された音声を使って、それでも単語を聞き取ることができるかどうかの実験をしている。
「実験の結果、自然な音声では正答率が95％を超えますが、基本周波数とその倍音を除去した合成音声でも正答率は65％近くにのぼり、偶然に当たるレベルを超えています。このことから、日本語のピッチアクセントにも基本周波数以外に、単語を区別する何らかの音響特徴があると考えられます」。
今後は、ではなぜ基本周波数が存在しなくても声の高低が聞き取れるのか、その手がかりとなっている音響特徴を同定してゆきたいという。

図2　声の高さと意味の違い
図の黒い部分はスペクトログラム（いわゆる声紋）で、縦軸は周波数（Hz）である。色の濃い部分は、エネルギー量が多いことを示しており、青い線と赤い線は声の高さ（Hz）を示している。

機械による音声認識や音声合成に貢献したい

ところで、こうした研究は、学術的、あるいは社会的にどう役立つのだろうか。
「１つは、日本語が他言語と比較してどのような特徴を持っているのか、音声学の側面から類型化できればと考えています。
もう１つ、現在、機械による音声の認識・合成の活用が始まっていますが、この精度を上げるために、どのような要素に着目すれば、単語の認識率がより高くなるのか、あるいは人間らしい声を再現できるのか、といったことにも役立てられるでしょう」と杉山さん。
たとえば、人工内耳や補聴器による「聞こえ」は、人間の耳の性能に比べるとまだまだ劣る。ピッチが感じ取りにくかったり、ダイナミックレンジが狭かったり、耳障りな音が聞こえたりして、より人間の耳に近い聞こえが求められているのだ。その際に、単語を理解する上で役立つ特徴を強調できれば、よりよい聞こえに貢献できるだろう。
「ただ、音の認知は個人差が大きく、まだまだ解明されていないことがたくさんあります。カクテルパーティ効果といって、うるさい場所でも自分の名前だとパッと聞き取れたり、同じ音を提示しても、人によって音の高さが違って聞こえたり、解明されていない謎はたくさんあります。
そうした謎に迫るため、工学系の研究者と組むことによって、音声の物理的特徴をより詳細に探る必要があると思っています」。
そのために、杉山さんは信号処理を学ぼうと、学生と肩を並べて授業を聴講し、ときには学生からも教わるという。真理の追究のため、杉山さんの挑戦は続く。

（取材・構成　田井中麻都佳）

インタビュー

杉山由希子准教授に聞く

中学で英語の面白さに触れたのが、
言語学を志した原点

どのような幼少期を過ごされたのですか？

生まれは愛知県、両親と弟の４人家族で育ちました。幼い頃から、わが道を行く早熟な子どもで、「幼稚園は暇つぶしに通っている」と発言して、周囲を驚かせたこともあります（笑）。皆でお遊戯をしたり、運動会の練習をしたりするなどの集団行動が苦手でした。本番になればちゃんとやるのに、なんでわざわざ練習するんだろうと思っていました。
性格は母に似ている部分もありますが、大半は父親譲りです。父は工学系出身で電機メーカーに勤めていたので、仕事の面でも父の要素を受け継いでいます。

集団行動ができなくて、ご苦労されたのでしょうか？

中学から中高一貫の私立校に通い、自由な校風に救われました。もっとも、合唱大会や文化祭の準備など、集団で取り組むイベントにはなんとなく抵抗があり、サボることばかり考えていました（笑）。中学で英語の面白さに触れたのが、言語学を志した原点です。さらに、教科書に一部が掲載されていた鈴木孝夫先生の著書、『ことばと文化』に感化され、言語による違いに興味を持つようになりました。
例えば、日本語には人が「歩く」「走る」といった動作の様態を説明する語彙はそれほど多くはありませんが、英語にはrun（走る）だけでなく、scurry(ちょこちょこ走る)、scuttle(慌てて走る)、trot(小走りで歩く)など、さまざまな言葉があります。三段跳びのHop Step Jumpも、日本語だと「跳ぶ、跳ぶ、跳ぶ」としか表現のしようがありません。その代わり、日本語は擬態語や擬音語がとても多い。このように、言語によって表現の仕方が異なることで、世の中の見え方も違っているのかもしれないというのが、最初に抱いた興味です。
そこで、より深く言語について学びたいと思い、慶應義塾大学へ進学しました。慶應大学には、言語学科はありませんが、一般教養科目に言語学があり、言語学関係の授業が豊富なところも魅力でした。曽祖父の出身校だったことも慶應を選んだ理由の１つです。結局、教養科目として履修した言語学の先生の勧めで、2年生から英米文学科に進学しました。
また、三田キャンパスにある言語文化研究所の先生方の授業を受けることができるのも、慶應ならではでした。言語学分野にはさまざまな教授陣がいらして、実のある学生生活を送ることができました。

では、学生時代は勉強に集中されていたのですね。

入学してすぐ、KESS（慶應義塾大学英語会）に入りました。仲の良い友人はできたのですが、サークル全体の雰囲気になじめず１年で辞めてしまいました。その後、インカレの国際交流組織に所属して、海外から来た学生とともに代々木のオリンピックセンターで合宿をしたり、私自身もフィリピンやノルウェーなどに行ったりして、他国の文化やコミュニケーションを身をもって経験しました。

気持ちの整理をして米国の大学に留学する

最初から、研究者の道に進もうと思われていたのですか？

まったくそうではありませんでした。4年で卒業後、就職するものだとばかり思っていたのですが、いざ、3年の終わりになるとどうしてもそういう気持ちになれず、かといって、言語学の研究者になって、自分に何ができるだろうと悩みました。そこで指導教授に相談したところ、「僕だって最初は自分が立派な研究者になれると思って進学したわけではないよ。興味があれば、続けてみたら」と言われて、心の整理がつきました。結局、母の反対を押し切ってというか、諦めてもらって、卒業した年の９月に米国のニューヨーク州立大学バッファロー校に留学しました。
アメリカの大学に進学したのは、日本に言語学を系統的に学べる大学がほとんどなかったことに加え、慶應で言語学の授業を取った時に、先生方の多くがアメリカの大学院のご出身だったという理由です。また、バッファローの大学には私が教えを乞いたい研究者がいらっしゃいました。ところが、最初は言語学の中の「意味論」について学んでいたものの、しだいに現在の研究テーマである「音声学」へ興味が移ってゆきました。話者の意識が介在し、場合によっては主観と客観の区別が難しい意味論とは異なり、物理的な観察対象がある音声学の明確さに惹かれました。
例えば、世界じゅうの言語を見てみると、子音の場合は、有声子音よりも無声子音が優勢であることがわかります。有声子音というのは「ｚ」や「ｖ」のように声帯を震わせて発音する子音で、無声子音というのは「s」や「f」のように声帯の震えを伴わずに発音する子音です。ちなみに、有声と無声の違いは、喉に手を当ててこれらの音を発音すると、有声子音の場合は喉が震えるのに対し、無声子音の場合は喉が震えないことで分かります。有声子音は、喉で空気の流れが阻害されるので、子音らしい摩擦を生じさせるのが難しい。そうした物理的な要因が、言語の成り立ちに大きく関わっていることを知り、学生時代には無味乾燥に思えていた音声学の魅力に気づきました。
留学を通じて、さまざまな出会いもありました。国費で留学しているアフリカ・トーゴ出身の学生の質素な生活ぶりを見て、日本の恵まれた環境を実感したり、サウジアラビアの学生から母国の言語統制について聞かされ、国や文化の多様性を肌身で感じたりもしました。
もう１つ興味深かったのが、バッファロー訛です。言葉は聞き取れるのですが、これまで習った英語の発音とは違う……。どういうわけか、それが、聞き覚えのある名古屋弁に似ていると直感しました（笑）。母音が標準米語の音からずれていて、特にæの音が、地元の人の発音は「エ」に近いのが原因ですが、合理的には説明できません（苦笑）。最初に聞いたときは、懐かしいというよりも、ちょっと恥ずかしいような気持ちになりましたね（笑）。
結局、途中で音声学に研究の軸足を移したこともあり、バッファローでの研究生活は9年に及びました。指導教授の1人が数学出身の方だったこともあり、自分の興味が数理や工学に関わる分野にシフトし、学ばなくてはいけないことが多く、長く時間がかかりました。日本に戻ってきたのは、2008年のことです。

慶應義塾大学理工学部の教員に
なったことも幸運だった

早稲田大学の非常勤講師を経て、2009年から慶應義塾大学に着任されました。

理工学部の英語の教員として採用されたことは、研究を進めるうえで、とてもよかったと思っています。理工学部は、学生と教職員の距離が近く、学生へのフォローが手厚いのも特徴です。私自身、学生に混じって応用数学の授業を受けたり、学生から音波の分析に欠かせないフーリエ解析などについて教えてもらったりできるのも、学部内のそうした雰囲気があるからこそです。
それから、慶應に戻ってきて感慨深かったのは、学部の頃に聞いていたNHKラジオ・ロシア語講座の講師をなさっていた金田一真澄先生や、渡米前に留学のご相談をさせていただいた小原京子先生と一緒に仕事をする機会が得られたこと。こうしたご縁に恵まれたことに感謝しています。慶應大学には、総合大学として幅広い分野の専門家が在籍されていて、異分野の先生方と交流できる点も大きな特長と言えます。
もう１つ、3〜４年ほど前から、言語文化研究所の川原繁人先生が主催している、「マイボイス」という、自動音声読み上げのためのソフトの使い方を紹介するワークショップのお手伝いをしています。声を事前に録音しておく必要はありますが、このソフトを使うと、病気などで声を失ったり、しゃべれなくなったりしても、自分の声で周囲とコミュニケーションをとることができます。
普段、声について意識することはあまりないかもしれません。しかし、実は声というのは、その人のアイデンティティを示す非常に重要な要素です。文の読み上げも、自分の声と他人の声では、印象がまるで違います。私自身、この活動を通じてそのことを再認識しました。より多くの方にマイボイスの存在を知っていただき、活用していただければと思っています。

休日の過ごし方は？

トレイルランニングや登山などでリフレッシュしています。トレイルランニングというのは、簡単に言うと、山を走る競技のこと。よく行くのは高尾や丹沢の山などで、あらかじめ地図でルートをいくつか考えておいて、早朝から山に出かけます。１人じゃ危ないと、家族によく叱られますが…（笑）。仲間と一緒に出かける時は美味しいジェラート屋さんに立ち寄ったり、秘境にあるおそば屋さんをゴールにしたりして、のんびりと山を楽しみます。最近はちょっと故障気味であまり出られませんが、年に3〜4回はトレイルランニングやマラソンの大会にも出ています。景色のいいところを走ると、とてもいい気分転換になります。

どうもありがとうございました。

◎ちょっと一言◎

学生さんから
●「音声」に興味を持ち、杉山先生の授業を受講しました。やさしいけれど指導には熱心で、ときには学生に先生役を任せるなど、講義にもさまざまな工夫があり、先生ご自身も学生と一緒に楽しんでいらっしゃるようです。先生にご紹介いただいた「マイボイス」の編集作業もお手伝いしていますが、医師や作業療法士の方との共同作業を通じて、世界が広がります。