
はてなキーワード:音声学とは
はい、「さ」と「ざ」は発音の際の調音点(舌の位置など)や調音方法(息の出し方など)がほぼ同じで、唯一の違いは「濁音か清音か」です。
具体的には:
どちらも「歯茎摩擦音(または破擦音)」で、口の中での発音の場所と方法が同じです。このため、「さ」と「ざ」は音声学的に非常に近い音とされます。
ただし、は行だけは他と少し違っていて、「は」と「ば・ぱ」は調音点が異なる場合があります(例:現代標準語では「は」は声門摩擦音に近いですが、「ば・ぱ」は両唇音です)。このため、は行の清音と濁音/半濁音は、音的にやや距離があります。
耳で聞いていて、あまり近いと実感できないのですが。
それは自然な感覚です。声帯の振動だけの違いであっても、音の印象や響きには大きな差が出るため、聞いたときには「近い音」と感じにくいことがあります。
有声音(濁音)のほうが重く響く:たとえば「か」と「が」では、「が」のほうが濁って強い印象を与えます。
日本語では清音と濁音に明確な区別がある:意味の違いも生じるため、「音が違う」と強く意識されやすいです。
注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。
DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。
それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。
最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス。
それの学習元に、エロゲーのテキスト音声データが使われているのではないかという話。
まずは性能がかなり高くて楽しいのでみんな遊んでみてください。(そして知ってる声優がいないか探してみてください。)
現時点では何のフィルターもなく、どのような卑語や卑猥なセリフも発話させられる。
ただ、ある特定の雰囲気のパターンのみなぜか音声合成させると吐息のようなものになり、入力文章からかけ離れてしまう。
それは「ちゅぱちゅぱれろれろ」だ。
他にも、例えば「んじゅぷんくっちゅぱ……じゅ……れちゅはぁ……」や「ちゅぷぷっ、んちゅぅ……ちゅくくっ、むちゅぅ……ぢゅるっ、ちゅちゅぅっ」等を試してみてほしい。
ひらがなですべて書かれているので、発音は明確にはっきりしているはずだが、それでもなぜか発音できず吐息のようなものとなる。
一方で、並びはそのままのまま「ふゅととっ、んびゅぅ……こゅねねっ、むびゅぅ……ぞゅけっ、たゅたゅぅっ」や「にゅべべっ、おにゅぅ……にゅけけっ、めにゅぅ……づゅれっ、にゅにゅぅっ。」等は、きちんと文字通り発音される。
さらに、単純に全てカタカナにして、「チュパチュパレロレロ」にしてもきちんと発音される。またちょっと並び替えて「ぱちゅぱちゅろれろれ」は発音される。その他、適当な意味をなさない「ちゅかちゅほぱれもふい」等のランダムな文字列にしても発音される。
他にも、私が試してみた限りでは、上述の謎の雰囲気のテキスト群以外の文章はほぼ正確に文字通りに発音される。
以上のことから、学習データには「ちゅぱちゅぱれろれろ」やその他の上記例のような特定雰囲気のセリフに対して、「その文字の通常の発音通りでないような音声」が対応しているようなデータが使われていることが推測される。
(念の為に書いておくと、音声合成の学習にあたっては、音声とその音声が何を喋っているかというテキストのペアを、大量に学習させる。)
余談であるが、カタカナの「チュパチュパレロレロ」は発音できるがひらがなの「ちゅぱちゅぱれろれろ」は発音できないという事実からは、古くからの音声合成での「日本語文章→音素列(簡単に言えば読みのカナ列)→音声」という流れの単純な音声合成だけでなく、元の日本語からの情報も音声合成に入力していること推測できる。
元の日本語テキストに対して、その音素列に加えて、大規模言語モデルのエンコーダーモデル、いわゆるテキスト埋め込みも音声合成のテキストエンコーダ部分へ注入するというのは、近年の感情豊かな音声合成界隈での一つのトレンドである。
音声合成にあたりAIが「発音の仕方」だけじゃなくて「セリフの意味」も理解する、というわけである。
例えば「ちゅぱちゅぱれろれろ」も、単独では正常な発話ができないが、「はてなは、匿名性を活かした自由な表現が可能となる場として、ちゅぱちゅぱれろれろ、はてな匿名ダイアリーをご利用いただきたいと考えております。」等に文中に紛れ込ませると正常に発話ができること、また文章全体の示す感情によって途中の声音のテンション等が変わること等も、これらの帰結である。
さて、我々は「れろれろれろ……ちゅぱっ、ちゅぶっ……んちゅ、れろっ……ぺろ、ぺろっ……んちゅぅ」のようなテキストが文字通りの発音と対応しない、そのような状況を知っているはずである。そう、エロゲーだ。
エロゲーにはチュパ音という文化がある。これはヒロインが主人公にフェラチオをするシーンで、ヒロインの声優がそのおしゃぶりシーンを汁音たっぷりに演技をするものである。
そこでは、「あぁむ、じゅぶ……じゅぽじゅぽ……ちゅるっ、ちゅ、ちゅっ、ちゅぅぅぅぅ……んっ、んっ、んんっーー!」のようなテキストに対して、そのテキストの通常の文字通りの発音からはかけ離れた、しゃぶりまくり水音出しまくり啜りまくりの演技が音声として与えられる。
よって上記挙動から、DMMボイスの学習元の少なくとも一部には、エロゲーから抽出したデータが使われているのではないかと推測することができる。
界隈では有名な事実だが、エロゲー(R18に限らずノベルゲー一般)からは、1本だいたい(ものによるが)20時間程度の音声とテキストの両方を(多少の知識があれば)大量に抽出することができ、音声合成や音声認識等の音声に関するAIの研究においては非常に貴重なデータとなっている。
よって、大量の「テキストと音声のペア」が必要な音声合成では、特に表に出ないアングラなところで、ひっそりと学習に使われることが多々ある。また特定の声優の声を出そうという意図はなくても、いわゆる音声AIの事前学習モデルとして、すなわち日本語の発音の仕方をAIが学ぶときに必要な大量の音声データとして、そのようなデータを使うことは、一般的とまでは言わないにしても、あることである。
ましてやDMMである。エロゲープレイヤーならば、近年の衰退しつつあるノベルゲー文化はかなりの部分をFANZAに依存していることをすでに知っているだろう(いつもお世話になっております)。
以上のような理由から私はエロゲーが少なくとも学習データに含まれているのではないかと推測したが、そもそものきっかけは、それより前に、単純にいろんなキャラで音声合成させて遊んでいたら、
少なくとも私の耳には「あれこの人あの声優じゃん?」というキャラが何人かいたからである。
久世凛さん(くん?)の人はたぶん声優として有名なあの人だし、ノエラちゃんとか多分一般でも最近いろいろ有名なんじゃなかろうか?(元エロゲー声優出身でそれから表に出てきて大成功していることで有名)
月城 美蘭ちゃんのキャラは某シリーズの某キャラがめっちゃ好きです。
他にも声優に詳しい方だったら、誰の声か分かるキャラが数人はいるのではなかろうか。
さらに実験を重ねていると、エロゲーが学習に使用されていると推測されるもう一つの事象を発見した。
それは「おちんちん」という単語を含んだセリフを音声合成させると、不自然に「おちんちん」の1番目の「ん」がきれて「おちっちん」のように音声合成されるという現象である。
(実際は「おちっちん」ほど極端ではないが、明確に2番目の「ん」の音が通常の発音よりもかなり弱く、不自然に途切れた印象の発音になっている。「おちんつん」等にして比較するとより違いが明確になる。)
このことから、「おちんちん」という単語がそのまま発話されないデータが学習元に多いのではないかと推測できる。
エロゲープレイヤーならば知っているだろうが、大半の商業エロゲーでは規制から「おちんちん」という文字は「おち○ちん」と伏せ字になり音声ではピー音が入る。
このような音声の内部の音声データは、伏せ字部分が抜けて発音されていることが多い(ピー音がそのまま入っているものもある)。
このことも、エロゲーの音声データがDMMボイスの学習元として使われているという推測を支持している。
追記。ブコメ等で、「膣」がなぜか「ナカ」と発音されるという現象の報告が多くあった。また試すと「ナツ」と発話されることも多い。これについて、私よりも音声学に詳しいであろう増田の観察があったのでリンクを貼っておく:anond:20241105060042
端的に言うと、データセットに「膣内に出して……!」等のセリフで「ナカに出して!」と発音されていることが多いことから、本来の読みである「チツ」と「ナカ」との混乱がテキストエンコーダ部分で起きた結果の現象だと推測される。
引用になるが「膣はあけぼの。膣は夜。膣は夕暮れ。膣はつとめて。」を音声合成させてみるのを試してみるとよいだろう。
DMMボイスに対して学習元等の問い合わせをしている人たちが数人はいるようで、開発者サイドのそれに対するリプライの文章から抜粋する。
https://x.com/1230yuji/status/1852914053326483685
「音声学習データは音声データの大量購入、機械合成、収録で取得しています。具体的な情報は企業秘密にあたるため開示できません。」
ここで「音声データの大量購入」という箇所がひっかかる。そう、界隈にいれば知っている人が多いだろうが、音声とテキストのペアのデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。
さらにまた、DMMボイスはアニメ調のキャラクターの音声合成が売りである。そのようなデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。
つまり、ここでの大量購入はエロゲーの大量購入を指しているのではないかと推測することができる。(もしくは、少し前に触れた、すでに公開されているそのような音声データセットから流用したか)。
追記となるが、DMMボイスの利用規約自体が少しおかしいのではという議論を提起している動画があったので紹介しておく:https://www.youtube.com/watch?v=tkBGBVjOIZk
(以前ここで第8条1(1)について書いたいたが、この文言自体は利用規約で一般的なもののようだ、申し訳ない)
音声AIについて昨年5月あたりから品質が大いに向上したことで、AIカバーや声優音声の無断学習等の文脈で、様々な議論が発生している。最近では有名な声優たちがNOMORE無断生成AIというスローガンで大々的に活動している。
これは、声優たちが、自分たちの声が無断でAI学習に使用され、その上で収益化をされていることに対して反対して展開している運動だ。
(この運動に対する是非等の意見は私は持たない、最初に述べた通り私はどちらかというとAI推進過激派である。)
また、このような運動がおこる背景として、(イラストでかなりバトルが発生しているが、)AI学習における「声の権利」との法的な取り扱いが現状の法律だと不明瞭な点から、法律とくに著作権に訴えることでは現状の使われ方に対して法的措置を取りにくいところにある。
このようなAIと音声の権利については最近の柿沼弁護士の記事が参考になるので詳しくはそちらを読んでほしい。
https://storialaw.jp/blog/11344
私自身は法律の専門家でもなんでもないので法的なあれこれについて述べることはできないが、理解している範囲で述べる(間違ってたらすみません)。
音声AIの法的議論では「パブリシティ権」という概念が重要になる。これはざっくり言うと、有名女優の肖像を勝手に商品の宣伝に使ったりすると、その女優が得られたであろう広告収入が奪われたことになるのでダメ、という感じのものである。
このパブリシティ権は現在の日本の法律の文面では明文化されておらず、どこまでがパブリシティ権にあたるのかということについて、特に音声については、未だ判例がなくはっきり分からない。
しかし有名人の氏名についてはパブリシティ権は認められているので、もしDMMボイスが、「あの人気声優○○さんの声で音声合成できる!」としてこのサービスを提供していたら、正式に契約を結んでいた場合に得られたであろう声優の利益のことを考慮すると、声優の許諾がない場合ほぼ確実にダメだと思われる(判例待ちなので断言はたぶんできない)。
だがDMMボイスは、学習元の20人分の声優が誰かや、またその声優からの許諾を得て20人分の声優を使っているかを、うまい具合に言及を避けている。
声優好きな人は声のみからその声優が誰であるかを判定することができる人も多いので、そのような場合に、声優名を伏せていたとしてもパブリシティ権の侵害にあたるかは、おそらくかなりグレーで判例待ち事案である。
そのような意味で、このDMMボイスは(もし裁判等や運動が起これば)音声AIと声の権利に対する法的な解像度を上げ議論を起こすのに貢献する事例になるであろうことは間違いない。
何度か述べている通り、私はAI推進過激派寄りの人間であり、NOMORE無断生成AI等の、最近の声優たちやアンチ生成AIの人達による運動に対しては、事態を注視しているだけの中立的(むしろ逆にガンガン生成AI使っていこうぜという)立場である。
また今回のDMMボイスの公開や今後のサービス展開に対しても、ことさらそれが悪いことだとか、そのようなものは避けるべきだとか、については思っておらず、むしろ「いつか来るだろうなあと思っていたものを大きい企業がようやく出してきたかあ、これで法律や声の権利についての議論や判例が進むかもな」といった程度の感想である。
(そしてDMMボイスのような技術が可能なこと、また実際にそれを学習させてみて個人で楽しむことは、私自身一年前くらいからずっとしており、そこから音声AI界隈をウォッチしていた。)
しかし、最近の声優サイドの運動や時流を見ると、せめて生成できる20人分の声優の許諾を取っているかについて言及しないままでは、アンチ生成AIサイドの批判の格好の的になるだけなのではないかと感じている。
技術的なことになるが、最近の音声AIでは、実在する声優の声から学習させて、しかし音声合成する際には非実在の人物による声音の音声合成が可能である(例えば声優二人の中間の声等)。
それが権利的や法的や倫理的にどうか等は置いておいて、DMMボイスは少なくともそのような措置を取るのがよかったのではないかと個人的には感じている。
(ただ、私の耳が悪いだけで、ホントは「この人の声だ!」と思ったキャラクターは実は全然そうじゃなかった可能性もある。しかしこの「「誰が喋っているかが明確に100%には断言できない」ところが音声AIと声の権利の議論の難しいところである。)
公平のため、最後に「ちゅぱちゅぱれろれろ」が発音できない現象について、エロゲーがDMMボイスの学習に直接使われたという以外に他のありうる可能性をいくつか書いておく。
また端的にありえるのは、他の「ちゅぱちゅぱれろれろ」が発音できないような音声AIをそのまま流用している可能性である。一つ「ちゅぱちゅぱれろれろ」が正常に発話できない音声合成AIライブラリを知っているが、それはデモ動画に私の好きなエロゲーのセリフが堂々と出ていたことから、それの学習元にエロゲーが入っていることはほぼ確実である。
また他に、DMMボイス自体を開発する際にはエロゲーデータは使っておらず許諾を得た声優のみから学習させるが、その学習元となった事前学習モデルにはエロゲーデータが入っていた、という可能性である。前に少し触れた通り、現在の生成AIには学習に大量のデータが必要であり、まず音声AIが発音の仕方を学ぶために、無から正常に発話できるようになるまでには大量のデータが必要である。そのような学習は非常にお金と時間がかかるため、生成AIでは「まず大規模なデータで学習させて事前学習モデルを作る」「次に、その事前学習モデルに対して、話させたい話者のデータで少量追加学習する」というアプローチが取られる場合がほとんどである。このPermalink |記事への反応(17) | 07:53
メモを取っているので一冊にかける時間が長い。とはいえ、世界史の教科書では一行で終わっていた出来事の細部を知るのは面白い。
東アジア史が中心。
価値観が現代とは変わってしまっている点が多数あり、今読むときついと感じる箇所も。
旧約聖書を読み始める。
旧約聖書を読了。学生時代に新約聖書を通読したから一応全部読んだことになる。
生物の標本にまつわる本を読みだす。やはり生物学は面白い。ネタが尽きない。
ジョジョを読み終えた。それにしてもハルタコミックスばっかりだ。
十三機兵防衛圏については友人に薦められたからクリア後のノリで買った。
今年はたくさんいけた。行かない月もあった気がするが、それはそれ、そのときの気分に従った。
「シン・ウルトラマン」★★
「プラットフォーム」★
「12モンキーズ」★★★
(長くなったのでブコメ)
デタラメはやめろ。
抑揚がどうのと言いながら、挙げられている数値がメチャクチャ。
一般向けの(たとえば普通の英語学習者向けの)英語音声学の入門書がいろいろあるから、本屋ででものぞいて見ろよ。Amazon でもすぐ見つかる。
起きたらとんでもないことになってて慌てが鬼なって精神的寿命がマッハなので、内容的にはここに全部含まれてると思うのでここだけ言及。
寝てる間についてた言及やブコメ見てたら「えっこれ系の単語ってこんな数あんの……マジで……」ってなって、流石に輸入上の事故とかじゃすまない上に何より言及されたようにスマートじゃなくてこんなたくさんの例外突っ込まれたら頭ばかになっちゃうので所感書いとく。でもマジで素人で音声/音韻方面の専門じゃないんでその辺は頼むわ。
新規に作られた言葉にまでこの現象が起こるようだと、もうこれ誤用とかじゃなくて新しいルールとして音韻論内(学問じゃなくて言語機能の方)に成立してるなーと普通に思う。
それが成立した経緯に、「似た発音の単語をたくさん輸入してしまって、ほとんどの人にはそれぞれどっちが正しいのかわからなくなってしまった」という歴史的事情と、音声学的な発音しづらさが相まって、「促音+有声破裂音+母音」の音素列に対して、「有声破裂音は無声化しても良い」っていうルールがもう出来ちゃってるなぁーって自分も普通に思った。
更に輪をかけて、functional loadの観点から言うと(音声上のある要素がどの程度その単語の識別に関わっているのかという概念)、「バックでもバッグでも通じるのでどっちでいい」みたいなブコメいくつかついてたけど、少しでもかじった身としては「よくねえわ!!!そんな単純だったら誰も苦労しねえわ!!!」ってなるけど、でも今回については確かにこれが寄与してるなーと思う。
functional loadの影響で消えたものだと最近だと半世紀くらい前に英語の短母音・長母音の区別が長さから音質(舌の位置)に変化した有名な話とか。どこの国でも国語教育に関わる奴ってのは頭がお堅いもんで、教科書には短母音と長母音というセクションがあるんだけど、生徒はみんな「はああああああ???いや、長いとか短いとかじゃなくて、別の音じゃん、それ」ってなるらしい。Pinkerが書いてた。Pinkerは研究自体自体の方はあまり評価されないけど(個人的にはかなりあの方面は正しいと思うけど)、こういう日常的な話書いてくれるから引き出すのに便利だ。流石にこのくだりどこにあったか増田で言及するために探すのは面倒なんで勘弁して。
あと日本語だと「おばさん」と「おばあさん」みたいなのはかなりの部分イントネーションで区別してるのも有名で、それぞれ逆のイントネーションで発音して自分でどう聞こえるとかもやってみると面白いよ。アワレにもこれを専門外の人が読んでたら向け。
ミッドガルでもミットガルでもエアリスが死ぬゲームの話してるのは分かるし、他の単語についても言われてみたら明らかだわなぁーってなった。
た歴史的経緯(英語の単音節語で似た単語死ぬほどあるよね……ブコメにあったけどpodとpotとか)、どっちでも通じるという光と闇の力が合わさり最強に見え、音韻論内で頭がおかしくなって区別が死んだのかもしれんね。
ただ、無声化「しなければならない」ではなくて「してもしなくてもよい」である以上、音韻規則のレベルにはまだなってなくて過渡期かな、と感じる。あと十年、下手したら今の子供がどういう規則を身につけて成長するのか凄く楽しみ。
ミッドガル/ミットガル以外に言われて一番あーって思ったのはドッヂボールとドッチボール。破擦音にまで拡大してる上に、「ドッチ」って日本人が認識するような輸入された単語は多分ないと思うので(日本語話者の形態論が外来語と和語と漢語についてかなりの程度区別を保ってるのは様々な例でよく知られているという逃げ口を使うので「どっち」は原因に考慮しない)、もうこれ輸入の失敗とかじゃねえなってなったので、現状の日本語としては普通に言及先の増田の方が正しいと思う。またメスガキに負けた。
とりあえず濁音の点について、この点は出ねぇよってなる理由はいろいろあるけど主要っぽく見えるのはこんな感じです。よしなに。単語を輸入されただけで輸入した言語に致命的な影響出たのはそれこそNorman Conquestとかがあるし、輸入上の間違いの例を知ってるからといって誘惑に負けて無理に現在の言語機能から切り離そうとするとヤクザが教壇に足乗っけて追ってくる。
※追記
この現象が起こりやすい単語と滅多に起こらない単語を追ったら少し楽しそうだと思ったけど、デバックにはバックが含まれてたり、ドラックにはラックが含まれてたり(rackとluck)、それぞれどういう原因で誤用の率が変動するのか考えるのむっちゃキツそうって思う。個人差と方言差の問題まである。いずれにしてもとりあえず、ありとあらゆる要因のせいで区別が消滅しかかっているのだろうね。
「一般的には音声学的特性から促音+有声閉鎖音の末尾の閉鎖音は無声化しやすい」でいいじゃんよ。
他の人がググって、例あるべやって言ってるとおり、あなたが見たことないって言ってる例は山ほどあるだろうし。
(Web上のテキスト検索の結果だから、必ずしも使用者がその語句の音韻構造をどう認識してるか正確に反映できてるかはおいといて)
新しい単語でも「ハイブリッド→ハイブリット」「グリッド→グリット」、「ミッドガル→ミットガル」とか造語でもふつうに起きてる。
少なくとも日本語においてはそういう制約が働いてると思うけどなー。
うへえーガチの人来たやべえ
見たけど、破裂音が2語連続する場合に前の音が内破音になる例しか何故か乗ってない。でもこれはむしろマイナーな例で、英語の音声学の教科書なら絶対に語末で内破音になる例の方が先に乗ってる。
あと何故か知らんけど日本語版Wikipediaには記載がある。
音声学から音韻論に繋げる時に、英語から入った人間(自分とか)には、
破裂音の例使って、語頭のaspiration出る異音、普通の異音、語末内破音の異音を並べて音素の概念を導入するのがほぼお決まりなくらいで、
語末の破裂音はマイナーとか方言とかではなくてイギリス英語でもアメリカ英語でもそれぞれの標準語でほぼ内破音になります。
この辺はどっから音声学入ったかによる気がするものの、とりあえず英語にはそういうルールが間違いなくあって、英語音声学の教科書なら100%stop/plosiveで絶対最初に出てくるのは伝えておきたい。
追記:
貼って頂いたURLでもここから始まるあたりに記載がありました:
InAmerican English, a stop in syllable-final positionis typically realizedas an unreleased stop;
アメリカ英語では、という但し書きがあるものの、いや普通にBBCの発音をモデルにした音声学の教科書でsyllable-finalのunreleased stopの話出てる……?となり結構謎。
他の増田が有名な話を書いてるけどこれは実は間違い。確かに日本語には「促音+濁音」で終わる単語は少ない、だから清音になるという説(※1)。
だけど、これには簡単に物凄い数の反例が出る。
「エッグ」のこと「エック」って言う?
「ゴッド」のこと「ゴット」って言う?
「マッドサイエンティスト」のこと「マットサイエンティスト」って言う?
こんな間違いする人1度も見たことないよね。
実のところ、この現象が起こるのって「ベッド」と「バッグ」だけなんだ。他にあるとしても、ごく一部の単語に集中する。「ビッグ→ビック」も、ビックカメラがbic cameraって社名にしたから。
実はこれは単に明治期の単語の輸入と誤用の問題なんだ。音声学的な説明は一応最後に書いとくね。
なんで「ベッド」と「バッグ」でだけこんなことが起きるのさ、ってのは、明治期の日本がドイツからかなりの単語を輸入してたのに由来する。
「ベット」はドイツ語なんだ。他の増田が書いてるこっちが当たり。「バック」は少しめんどくさいけどこれもドイツ語のせい。
ドイツ語が残ってるのは結構広範に渡って残ってる現象で、化学で"oxide"(英語読みならオクサイド)を日本で「オキシド」って呼ぶのも、化学をドイツから輸入した名残りだったりする。(※2)
どっかの予備校講師はクメンヒドロペルオキシドという名前に文句つけるのやめたのかな。hydro-もper-も英語読みならハイドロとパーだけど、ドイツ語だとヒドロとペルで良い(※3)。
話が少し逸れたけど、英語の"bed"はドイツ語では"Bett"。これがそれぞれ違う時期に輸入されたので、「寝台」をbedと呼んでもBettと呼んでもよくなった。でもそんな経緯を知らない現代の我々は混乱する。
荷物入れの「バッグ」を「バック」って言う話は少し面倒くさい。"bag"と"back"は英語だけど、"Rucksack"(リュックサック)がドイツ語。このせいで、「体のbackに背負うbagをRucksackと呼ぶ」という物凄いキメラみたいな構図が発生する。ここからリュックサックに限らず、荷物入れ(bag)を、backに背負わないものでさえ全部backと呼んでしまうようになってしまったのではないか、と思われている。Rucksackという単語が輸入されてなかったらこの混同は起きなかっただろう。
ただ、これだと、「でもやっぱ、ベットよりベッドの方が、こう、言いづらくね!?」っていうモヤモヤ晴れないよね。音声学の方から引用しとく。
話を凄く簡単にしちゃうけど、まず、日本語のtとdの音は、音の強さ・大きさが、他の言語のtやdと比べると平均から見てかなり弱いんだ。
これだけなら問題は起こらないんだけど、厄介なのは「ベッド」の「ッ」、促音と呼ばれているもの。これは実のところ「後ろの子音を長く発音する」という記号なの。いきなり聞くとえー?って思うかもしれないけど、これは実際波形取ると分かるんでそういうものだと取り敢えずわかって欲しい。(※4)
子音を長く発音するにはその分息がいっぱい必要。「ベッド」と言おうとするとき、「ベッ」の瞬間、貴方の口の中には次の「ド(do)」を出すのに必要な空気がいっぱいいっぱい溜まってるの。
だけど、さっきも言ったけど、日本語のdの音って弱いの。すっげえ弱いの。みこすり半で出ちゃうくらい弱い。そんな弱さに見合わないくらいの大量の空気を放出しながらデカエアに負けないでdの音を維持するのはすっげえキツいの。
それに比べるとtって音はdよりはまだ強いから楽だ。dの無声音なんだけど、とりあえずもう今パンパンにお口の中で溜まってる空気そのまんまぶちまけたら出ちゃうような音。気の強い音は空気に弱い。
「ベッ」の時点でパンッパンに空気が溜まってるから、本当は「ト」ってtの音を思いっきりぶちまけて出したくてたまんないのに、「ド」っていうふにゃふにゃした放出で我慢しないといけないの。すごく、すっごくつらい思いをすることになるの。
これが「ベッド」が「ベット」より言いづらい理由だったりする。
でも「ゴッド」を「ゴット」って言う奴はいないように、これは言いづらいけどきちんと普通に発音できるもの。
結局、「ベッド→ベット」「バッグ→バック」の例って、他にあるとしても似た音の単語の輸入や誤用に起因するものであって、構図が日本語に稀とかそういう問題ではないんだよね。
「ドラック」の誤用のルートは自分知らんけど、いずれにしても「バック」とかわざと書いてる人は間違いが慣用化したのを使ってるだけで、脳の中で変な処理は起きてないと思っていいよ。
(※1 本当は促音+有声破裂音+母音とか書きたいよね。ここでいう清音も本当は無性破裂音+母音と書いた方が正確に近い)
(※2 なんで「オクシド」じゃないの?って思ったら鋭い。現代日本語は外来語に後続する母音のない子音が含まれないときuを挟むのが普通だけど、iを使っていた時期があった。これはインクのことをインキって呼んだりするあたりに今にも名残がある。)
(※3ドイツ語のrの発音が変わって[x]になったので今は正しくないけど当時は正しかった。)
(※4 後ろに子音が無い場合は1モーラ分のglottal stopが発生する。息を呑むような音だと思ったら良いよ。実は促音はすごいめんどいので流石に割愛。)
※追記
なんかとんでもないことになっててビビってて、到底手が回らないものの、とりあえず一番重要で言及しないと思ったこのあたりだけ:
>(この増田は否定してるけど)トラバへの回答で出てる『語末有声子音が強制的に無声化されるのはドイツ語の方のルール』を脳内にインストールした(してしまった)人の影響はあると思うけどどうなんだろ?
これについては似たようなことを言及してる方がいたので所感を下に書いておいた。言及先含めて興味があれば。私がいない間にたくさんの反例(反反例?)を見つけてくれた皆様、ありがとうございました。普通に有難いです。
「ベッド」と「ベット」等を混用する現象については書いた通りに思われますが、それだけではもう済まないですね。しかしながら、純粋に音声学的に解決出来る問題でもないように思います(以下追記したURL)
https://anond.hatelabo.jp/20190720173216
これは専門っぽい方を相手に言及したので、普通の人でも読めるように簡単に纏めると、
「歴史的な誤用の重なりや、似たような外来語の氾濫、音声学上の発音のしづらさ、ぶっちゃけどっちでも何を指してるのか通じるやんという多数の要因が相まって、現代人の脳内で促音+破裂音の組の処理自体に対して変化が起きつつある」という所感です。
現代はまだ「有声破裂音を無声化してもしなくてもいいし、無声破裂音を有声化してもしなくてもいいし、しかも適用される確率について単語によって非常に差がある、おまけに個人差や方言差やシチュエーションでの差も高い」という過渡期にあるようです。
しかしながら上のURLで書いたように音韻規則化されつつある事は(音韻規則というのは音の文法だと思ってもらえれば良いです)、頂いたデータ等から最早疑いようがないように思います。
これが最終的にどういう形に落ち着くかについては、マジで数十年待って何世代か先でどのように変化するのかを見て確かめるしかないでしょう。結果に関係なく楽しみです(そしてこういう変化は結構誰の予想も裏切る形に終わったりするから面白いのです)。ブコメや言及等頂いた皆様、ありがとうございます。
Permalink |記事への反応(12) | 03:59
ちょっと話はズレるけど、授業で英語を話しやすいのはどっちのクラスか。
いやどっちも笑うなよ、という話ではあるが、どちらかというとAではないだろうか。日本人ならジャパニーズアクセントは(話したくなくても)話せるし、むしろ発音が苦手な人はその方が話しやすい。まあそれでいいから、とにかく英語を話すようにしよう!ジャパニーズアクセントも悪くないよ!というのは、今の学校英語教育の方向性でもある。
話を戻すと、「英語の授業で発音が良いとネタにされる風潮」は確かによくない。よくないが、そう意見した同じ口であなたはジャパニーズアクセントを笑っていないだろうか?
この話で一番問題なのは、ちゃんと英語を話したい生徒がその絶好の機会であるはずの授業中に話せないという点だ。これはよくない。しかし、英語を話せないことの、何がよくないんだろうか?
C.発音が上達しないこと
増田やブコメで問題にしていたように見受けられたのはCの方だが、平均的な日本人にとってより深刻な問題なのは、明らかにDだ。つまり、英語の授業で発音が「良い」かどうかを気にしすぎる視線が、そもそもの弊害なのだ。私には基本的に増田やブコメには同意する気持ちがある一方で、それぞれの意見に見え隠れするネイティブアクセント信仰のようなものには、やはり引っかかるものを感じる。そこじゃないんだよ、と思う。
もちろん、英語を話すことと発音は切り離せない。わかる。ネイティブの発音ができればネイティブが話す英語のリスニングも上達するし、あとスペルも覚えやすくなる。わかる。しかし、インドやシンガポール、フィリピンの英語を考えれば、日本人が英語を話すために必要なのは「良い発音」ではないことも明白だろう。英語を「話す」能力を身に付けるために、発音を強調しすぎるのは、本末転倒だ。
ちなみに私は高校で英語を教えているが、生徒の発音をネイティブアクセントにするのは非常に難しいと思う。それに比べて、生徒に(ジャパニーズアクセントでも)英語を話させることは、まだ可能だ。「この授業は英語を話す授業です」ということにして、ちゃんとステップを用意すれば(大変だけど)、生徒は英語を話す。少なくともそういう授業を受けている生徒の間では、「良い発音」がネタになっている様子はない。もしかすると、「誰もが英語を喋らざるを得ない時間」が少ない授業では、「良い発音」はネタにされているのかも知れない。授業中に生徒が英語を話す必要がない場合、例外的なアクセントの英語は「おもしろい」のかも知れない。
ただ難しいのは、誰もが英語を話す状況だと、例外的なアクセントが「おもしろ」くはなくても、「わかりにくい」場合がある。つまり、「良い発音」が「わかりにくい」と、やっぱり生徒はジャパニーズアクセントになる。コミュニケーション上の要請というやつだし、アジア諸国の英語がネイティブアクセントでない理由に相当する何かだろう。かくいう私自身も、職場でジャパニーズアクセントの同僚と英語で話すときは、英語の発音をカタカナ語に近づけることがよくある。恥ずかしさとか、下手に出る的な心情がそうさせる。逆に相手がネイティブアクセントだとリミッターを外して喋るが、こういうリミッターは、コミュニケーションの内容をも規定する。英語の力量に差がある生徒同士で喋るときなど、彼らは極めてシンプルな英語を話している。
まあそういうわけで、私は、日本人が本当に英語を話せるようになるためには、こうした傾向はある程度はしょうがないと思っている。それよりも大切なことがあると思ってやっている。
蛇足を続けると、(矛盾するようだが)私はネイティブアクセントの練習は、英語を英語圏で使いたいなら、必須と言っていいほど大切だと思う。だから、学校でちゃんと教えた方がいいという多くのブコメの指摘には頷く一方で、実感として発音指導は難しいんだよなあとも思う。
まず何より、発音には、スポーツや歌、楽器の練習に似ているところがあって、生徒の適性によって教育効果にものすごく差が出る。私は音声学とかが好きで自分でもアメリカ南西部のアクセントを意識して練習したりもしていたので、教員になりたての頃は生徒にその手法を叩き込んでやろうとフォニックスとか口の形のトレーニングとかをよくやっていた。が、一斉指導ではなかなかどうして生徒の発音はよくならない。もちろん自分の指導力不足によるところが大きいのだが、そうして躍起になっていつも発音にフォーカスしてやっていると、それこそ生徒に英語を話させることが疎かになってしまって、いつの間にか「正しい英語」を押し付けるような授業になってしまっていた……と今になると思う。
おそらく、「発音が良いとネタにされる」ことに嫌悪感を抱く気持ちは、「正しい英語」を追求する「正しさ」を否定された気持ちに近いのだと思うが、日本人の英語に「正しい英語」など、そもそもない。極論だとは思うが、私はむしろ、日本人が喋る英語は、日本人にとってはすべて「正しい」のだと考えている。(ただし、英語圏にはそれぞれに「正しい英語」がある。その人の望む場所における「正しさ」はあると考えた方がよい。)
話が散逸してしまった。まあ言いたいこととしては、少数の事例を除いて、日本人の英語は、今までもこれからも、多かれ少なかれ、良くも悪くも、ジャパニーズアクセントなのだろうから、それを前提として英語を話せるようになることの方が大切だ、というようなことです。
日本人は、発音がよくならないから終わっているのではなくて、英語を話したいのに話せないことの方が終わっていると思うんで、それをなんとかしていこうと思っています。
英単語のカタカナ化の仕方に文句を言う増田がたまに見られる。ついこの間も、「imageは『イミジ』が正しい」みたいなことを書いている人がいた。
しかしカタカナ化というのは、音が近ければ良いというものではないんだよ。
言語には意味のある音の区別と、意味のない音の区別がある。例えば日本語なら、「難波」の「ん」と「あんな」の「ん」は違う音だけど、日本人にとってはどちらも同じ「ん」だ。音声学上は区別されるが、音韻論上は区別されないともいう。
タイトルの「ワラ」に関しても、確かにwaterは「ワラ」のように聞こえる。単純に「一番それっぽく聞こえるカタカナ表記」ということなら「ワラ」が正解かもしれない。でも英語では、このラ行のように聞こえる、waterのtの音と、普通にタ行に聞こえるt、例えばtalkなどのtは、同じ音なんだ。それなりに乖離があるので、英語ネイティブの人でも聞き較べてもらえば違いはわかるだろうけど、普段話しているときは意識しないし、同じ音だとして扱っている。日本人にとっては全然違う音でも、ネイティブにとっては同じ音だということ。
そしてもっと重要なことは、waterのtをtalkのtで発音しても問題ないけど、talkのtをwaterのtで発音することは許されないということ。どちらもtの音と言っても、片方が本来であり、もう片方は一応同じと扱われている、変化した音ということになる。そして「本来の」tは、間違いなくラ行よりはタ行に近いのだ。
次に、外国語をカタカナで表現する際は、まず問題になるのが、カタカナの表現力が限られているということ。
英語では途方も無い数の音が表現されるが、カタカナは所詮50音である。文字通り数える程しかない。
とはいえ、この数える程の文字数で、工夫して、できるだけ本来の言語の表現力が失われないようにしなければならない。そうでないと、その言語から大量のカタカナ語が入った際に、だんだん同音異義語が増えて区別がつかなくなってきてしまう。だから、英語で区別がない音は、カタカナで表現する際も、できるだけ区別しないようにする必要がある。本当に必要な区別をしたいときに被ってしまうと困るからだ。
したがって、waterのtもtalkのtも区別せず、両方タ行で表すべき、ということになる。
あとはだいたい同じような話なんだけど、ついでなので、waterの他の音についても。
現在概ね採用されてるカタカナ化には、だいたい共通した法則があって、例えば、長母音は長音記号を使って表すこと、がある。このようにすることで、短母音と長母音でカタカナでも10種類の母音を表現できることになり、かぶりが少なくなる。「ワラ」と短く聴こえても、water /wɔ́ːtər/ の最初の母音は長母音だから、長音記号を使う。また、この母音は、ア段ではなくオ段として表現することも習慣で決まっている。wall も「ウォール」とオ段で書かれるが、これも同じ母音である。
ちなみに、この /ɔ/ の音がオではなくむしろアに聴こえるという人も多い。「ワラ」に近いというのはそのためだろうと思う。しかし、これがア段ではなくオ段に当てられているのは妥当なんだ。なぜかというと、英語には他にもアのように聴こえる母音がたくさんあって、cat /kæt/ の /æ/ もそうだし、car /kɑːr/ の /ɑ/ も間違いなくアに聴こえるし、あと曖昧母音 /ə/ の直後に/r/ が続いた場合も間違いなくアに聴こえる。これらは実際カタカナではア段が割り当てられていて、これにさらに /ɔ/ まで加えるとなるとア段で表す音が多すぎてちょっと被りが心配ですねという話になる。一方、オ段で表す母音は /ɔ/ の他にはcold /koʊld/ とかの /o/ くらいである。
このように、現在のカタカナ表記にはそれなりの合理性がある。こっちの方が聞こえ方が近いから、とか安易な理由で覆すべきではない。
〜 追記 〜
ブコメ数にビビっております。こんなにもらったことなかったので。
いろんなカタカナ語の指摘とかがあるのですが、はっきり言ってカタカナ語のルールは一貫してないと私も思います。その中には、比較的合理的なものもあれば、ブコメで上がっている「ディティール」のようにわけわかんないのもあります。「ウォーター」はかなり合理的だと思ったので、ウォーターで書きました。あと、「イミッジ」も合理的だと思います。「イミッジ」を批判してるみたいに読めるなあと思ったので一応書いておきます。
あと、せっかくなので宣伝させてください。日本語文法を英語で解説するサイトをやっています。最近更新が滞っておりますが・・・。↓
https://nihongotopics.wordpress.com
Permalink |記事への反応(13) | 04:04