
はてなキーワード:形態素とは
2022年に、Yahoo!知恵袋に投稿されたこのような質問がある。
肉じゃがの"肉" というのは、豚肉や牛肉などの食肉のことですよね。
では、肉じゃがの"じゃが"っていうのは、じゃがいものことですよね。
となると、肉じゃがのじゃがっていうのは、肉のことになると思うのですが違いますか?
補足
皆様回答ありがとうございます!
すみません、豚肉・牛肉の地域性の違いはどちらでもよいですし、じゃがいもも当然含まれることは知っています。
聞きたいのは、じゃがいもも入っているので、肉じゃがのじゃがはじゃがいもの次は肉ですかと、という意味です。
わかりにくく申し訳ありません。
普通に考えるならば、この質問は全く破綻している。「肉じゃがの"肉" というのは、豚肉や牛肉などの食肉のことですよね」「では、肉じゃがの"じゃが"っていうのは、じゃがいものことですよね」という部分までは容易に文意を追うことができるものの、3行目の「となると、肉じゃがのじゃがっていうのは、肉のことになると思うのですが違いますか?」は理解不能である。肉じゃがの「じゃが」はじゃがいものことだからだ。当然、この質問に寄せられた回答の多くはそういう文意のものであった。しかし、この質問にはベストアンサーがついている。
多分それは、もともとは肉じゃがではなかったからだと思います。
(肉じゃがが逆だった)
これもまた意味がわからない。「肉じゃがが逆だった」とはどういう意味なのだろうか。去年の暮にはてな匿名ダイアリーにおいて若干耳目を集め、それに対する解説記事も話題となった。少し古めの話題ではあるが、先程某生まれたばかりの掲示板においてこの話題のスレが立っており、私も色々考えてみたかったためこのエントリを書いている。
第一に考える必要があるのは、「じゃがいも」の「じゃが」がクランベリー型形態素であることだ。「ブラックベリー」が明らかに黒いベリー、「長芋」が長い芋を意味することとは異なり、「クランベリー」の「クラン」、「じゃがいも」の「じゃが」は単体では意味を持たない。もちろん語源的にはクランベリーのクランは花が鶴(crane)に似ていることに由来していたり、じゃがいものじゃがはジャカルタの日本語における旧名であるジャガタラに由来していたりするわけだが、どちらにせよものすごく一般的な知識というわけではない。質問者は、おそらく「じゃがいも」の「じゃが」が単体で何らかの意味を持っていると考えている。もうひとつ考えたいのは、「肉じゃが」を「(牛/豚)肉」と「じゃが(いも)」の合成語と考える場合、両者の切り出し位置が異なるということだ。なぜ「肉じゃが」は「肉いも」ではないのだろうか。こう考えよう。質問者は肉じゃがが肉とじゃがいもから作られる料理であることを知っている。しかし、「じゃがいも」の「じゃが」が何を意味するのかは知らない。質問者は「肉じゃが」から、「じゃが」がじゃがいもを使った煮っころがしを意味する言葉であると異分析し、「じゃがいも」はじゃがに使う芋であるからそのように呼ぶのであると考えた。
肉じゃがの"肉" というのは、豚肉や牛肉などの食肉のことですよね。
肉じゃがというのは肉を使ったじゃが(じゃがいもと何らかの具材を煮込んだ料理)のことです。
肉じゃがの肉というのは食肉を表します。じゃがいもの煮込みなんだからじゃがと呼ぶんでしょう。
しかし、たとえば鶏肉のじゃがは鶏じゃが、豚肉のじゃがは豚じゃがであるのと同様、肉じゃがを「肉じゃが」たらしめているのは肉の要素です。
次にこの部分を考える。
「肉じゃが」は「じゃが」なわけだからじゃがいもが入っているのは当然です。しかし、「じゃが」を「肉じゃが」たらしめているもの、「肉じゃがのじゃが」=「肉じゃがというじゃが」において、じゃがいもの次に重要なのは、「肉」ではないですか?
では、なぜこの回答がベストアンサーになったのか考える。
多分それは、もともとは肉じゃがではなかったからだと思います。
(肉じゃがが逆だった)
私の理解によれば、質問者は「[じゃが] は [肉] だったと勘違い」しているわけではない。しかし、回答者は質問者が有していたと思われる、「肉じゃがを『(牛/豚)肉』と『じゃが(いも)』の合成語と考える場合、両者の切り出し位置が異なる」という疑問点には答えていた。おそらく、ベストアンサーの回答者は質問の文意を以下のように理解した。
肉じゃがの「肉」は「牛肉」や「豚肉」の略称である。また、「じゃが」は「じゃがいも」の略称である。「牛」や「豚」が「肉」を修飾しているのと同様に、「いも」が「じゃが」を修飾していると考えられるのではないか。
これに対して、ベストアンサーは以下のように回答した。
多分それは、もともとは肉じゃがではなかったからだと思います。
この解釈は補足部分(聞きたいのは、じゃがいもも入っているので、肉じゃがのじゃがはじゃがいもの次は肉ですかと、という意味です。)を適切に説明することができないためおそらくは誤りであるが、質問者は自らの疑問の骨子が部分的に解決したと考えたため、同人物にベストアンサーを与えたものと推察する。
日本語の複合語の省略において省略前の形態素のうち1モーラ分しか残らない事例|ColorlessGreen Ideas
https://id.fnshr.info/2015/03/29/one-mora-abbreviation/
https://yanakaan.hatenablog.com/entry/2017/11/13/094019
「アメフット」考──ことばをどんな風に短縮しますか|山本英治AKA ほなね爺|note
https://note.com/yama_eigh3/n/n2212b2b5eee9
「アメフット」考: trivialities & realities
http://trivial.way-nifty.com/trivialities/2018/05/post-d8df.html
こういった厄介事を乗り越えてなんとか文章全体の形態素が把握できても、文章の論理構造が現在とは異なっているから難儀する
「結論が先じゃないから回りくどい」的な次元じゃなくて、現代語訳を見てもなお意味がつかめず
解説まで読んだところで「こういうことを言うのにこうやって文章を展開していくのか…」とかろうじて納得するので精いっぱい
ネット見てると言いたいことはあるのだろうことは分かるけど何が言いたいのかどうしても分からないって感じの文章に出会うことがあるが、自分にとって古文は終始そんな感じ。
今日置昌一の「ことばの事典」などという和歌や川柳がふんだんに引用されている事典を頭から読んでいるのだが、数千収録されているうちの7割以上は詩情が全く掴めない
受験業界では古文は暗記すれば読めるとかいうが、古語辞典でも首っ引きでも理解できない私も一種のディスレクシアでいいんじゃないか
今更だけど
すると、日本語ラップを聞いても、「こいつのリリックええやん」となりにくい。
結果、普及しにくい。
同じ「パプリカ」と言う単語でも、英語の方が拍(リズムの構成要素)が少ない。
日英訳を比較してみると、多くの場合で日本語の拍数が多いと思う。
(その分日本語は語の省略が多いが)
また、日英のラップの形態素数/単語数を比較してみてもいい。全体としては、日本語の方が少ないはず。
すると、日本語は、ラップのリリックで自然に表現できる情報が減る(語を詰め込む,と言う手段もあるにはあるけど)。
海外ではラップ系の音楽は,アレンジ等に加えてリリックに魅力を感じて鑑賞する人が多い。
仕事柄ネットでの調べ物が多くGoogleを多用するのだが、同僚をみているとどうも要領が悪い。気になったキーワードくらいさっと調べられるようになりたいものである。
ただ自分が口出しをすると「うっせーおっさんだな」と言われるのがオチなのでここに書きとめることにする。ブラウザはChromeを例にするが他のブラウザでも同様の操作はできるはずである。
そもそも画面に検索対象が出ているのに、検索窓に自分で入力する人がいる。「そっちの方が早いから」が理由だが、絶対そんなことはないのでせめてコピペくらい覚えてほしい。
コピペにしても右クリックで「コピー」「ペースト」ってやる人がいる。「そっちの方が早い」と言い張るのだから諦めているが、ショートカット「Ctrl-C」「Ctrl-V」(Macの人はCtrlをCommandに置き換えてほしい)の方が早いと思う。あと、マウスをクリック&ドラッグしてずるずるとテキストを引っ張る人がいるが、最近はある程度の日本語の形態素を解釈するので、ダブルクリックからドラッグした方が単語単位で選択できてよい。
URL欄でGoogle検索できるようにしておく(これがChromeのデフォルトのはず)。なぜかBingとかYahooを頑なに使っている人がいるけど素直にGoogleでいい。
「Ctrl-L」を押すと検索窓にフォーカスが移ってURLが全選択になる。なので、本文中に検索したいキーワードがあったら選択して、「Ctrl-C/Ctrl-L/Ctrl-V/Enter」のコンボで一発で検索ができる
今閲覧しているページはそのままにしたいこともあるだろう。そういう時は新規タブを開く「Ctrl-T」を使う。新規タブは検索窓に最初からフォーカスがあるので、「Ctrl-C/Ctrl-T/Ctrl-V/Enter」のコンボで新規タブでの検索ができる。同様のことをする拡張機能などもあるのだが、他人の環境だと使えなかったりするからここでは紹介しない。
タブを活用するなら、タブ移動コマンドや「うっかり閉じてしまったタブを復元(Ctrl-Shift-T)」なども覚えておくと便利であるが、あまり大量のショートカットを一度に覚えるとかえって効率が落ちてしまうのでここでは深追いしない。
単語を1つずつ調べている人がいるが、わからない単語が多すぎるなら素直に「右クリック+T」で全文翻訳してしまった方が早い。ざっくり文意をつかんだら原文に戻す。そうすれば検索しなくてもだいたい読めるはず。
翻訳機能を使うのが恥ずかしい、あるいは、ほとんど辞書なしで読めるがわからない単語が稀にある程度なら
https://chrome.google.com/webstore/detail/mouse-dictionary/dnclbikcihnpjohihfcmmldgkjnebgnj
この拡張機能が便利なはずだ。マウスオーバーするだけで辞書が引けるスグレモノである。なぜ「はずだ」と書いたかというと、いちいちON/OFFをしなければいけないし、たまに調べるくらいなら前述のショートカットで十分間に合うので、インストールしたのはいいもののほとんど使っていないからである。
検索ワードもある程度コツがあるのだが別に紹介したい。「ググれカス」というのは簡単だが、文章にして説明すると案外面倒なものである。
| 時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
|---|---|---|---|---|
| 00 | 56 | 11385 | 203.3 | 79.5 |
| 01 | 61 | 4651 | 76.2 | 43 |
| 02 | 28 | 3477 | 124.2 | 56.5 |
| 03 | 29 | 4545 | 156.7 | 36 |
| 04 | 17 | 6071 | 357.1 | 64 |
| 05 | 15 | 5744 | 382.9 | 128 |
| 06 | 30 | 4886 | 162.9 | 65.5 |
| 07 | 37 | 4608 | 124.5 | 52 |
| 08 | 62 | 6410 | 103.4 | 40.5 |
| 09 | 73 | 5633 | 77.2 | 42 |
| 10 | 70 | 6563 | 93.8 | 52 |
| 11 | 101 | 7925 | 78.5 | 35 |
| 12 | 106 | 10117 | 95.4 | 42 |
| 13 | 140 | 9610 | 68.6 | 33 |
| 14 | 137 | 7565 | 55.2 | 35 |
| 15 | 114 | 6666 | 58.5 | 32.5 |
| 16 | 121 | 13028 | 107.7 | 39 |
| 17 | 88 | 12250 | 139.2 | 42 |
| 18 | 140 | 11417 | 81.6 | 34 |
| 19 | 160 | 15344 | 95.9 | 26.5 |
| 20 | 116 | 12046 | 103.8 | 33.5 |
| 21 | 153 | 8659 | 56.6 | 31 |
| 22 | 163 | 13310 | 81.7 | 35 |
| 23 | 61 | 7475 | 122.5 | 51 |
| 1日 | 2078 | 199385 | 96.0 | 37 |
人(198),自分(132),女性(82), 今(79),増田(76),差別(71), 女(71),人間(71), 話(70),仕事(68), 男(66),男性(60), 感じ(57),相手(55),社会(54),問題(53), 同じ(51),日本(51), ー(50),必要(49),気持ち(49),意味(49), 前(46), あと(45),普通(44),関係(43), 親(42),時間(41),会社(40), こんな(40),子供(40), 好き(39), 気(38), 目(36),低能(35),山口(35),言葉(34),被害(34),存在(34),今日(34),結婚(33),生活(32),友達(31), 他(30),最近(30), 手(29),主義(29),https(28), 行動(28),メンバー(28),安倍(28), 男女(28),発言(28), 一緒(27), 頭(27), 心(26),時代(26), 家(26), 専用(25),意見(25),自身(25),理由(25),人生(25),車両(25),おっさん(24),状態(24),ネット(24),先生(23), 金(23),現実(23), 周り(23),場合(22), 結果(22),世界(22),責任(22), 娘(22),自己(22), 別(21),最初(21),他人(21),自体(21),ダメ(21), い(21), 全部(21), 大変(21),レベル(21),可能(20), ~(20),アニメ(20),女子(20), 昔(20),否定(20),馬鹿(20),理解(20),個人(20),自民党(19), 嫌(19), 逆(19), 一番(19),http(19)
増田(76),日本(51),山口(35),安倍(28),自民党(19), 日(18),東京(14),キモ(14),TOKIO(14),自衛隊(12),アメリカ(8),達也(8),加計(7),民主党(7),カス(6),平成(6),公明党(6),昭和(6),福島(6),JK(5),共産党(5),韓国(5),羽生(5), スキ(5), 柳瀬(5),中国(5), 晋(5),大阪(5),マック(5), ぇ(5), 敬之(4),愛媛(4),faq(4),チャイルド(4),麻生(4),京都(4),テレビ朝日(4),NHK(4), qa(4), ニセ(4),iPhone(3), 所(3),gt(3),CPU(3),太郎(3),bot(3), 悟(3),フジテレビ(3), 出口(3), 健(3)
↑MeCab ✕NAIST辞書 (2011年に更新が止まっている。)
↓MeCab ✕mecab-ipadic-NEologd辞書 (固有名詞、新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)
人(184),自分(125), 今(75), 話(68), 男(66), 女(66),仕事(66),増田(66),人間(63),女性(62), 感じ(55),相手(51),問題(51),必要(49),気持ち(48), あと(47),意味(45),差別(44), 前(44),日本(43), 気(40),子供(39),普通(39),男性(38), 目(37), 親(37),関係(36),低能(35), 好き(35),社会(35),今日(34),会社(32), ー(32),言葉(32),友達(31),存在(31),結婚(31),最近(30), 手(30), 他(30),https(29), 頭(28),時間(27), 心(27),理由(25),意見(25),現実(25),人生(25),おっさん(24), 別(24),被害者(23),状態(23), 周り(23), しない(23), じゃなくて(23),発言(22), 家(22),場合(22), 金(22),女性専用車両(22), 行動(22),最初(21),理解(21),他人(21), 結果(21), A(21), 全部(21), 娘(21),レベル(21),世界(21),自体(20),馬鹿(20),先生(20), 男女(20),勝手(20), 昔(20),生活(20),アニメ(20), 嫌(20),ダメ(20),否定(20), 逆(19),www(19),批判(19), 顔(19), 大変(19), 一番(19), 誰か(19),男性差別(19),職場(19),女の子(19), 一緒(19), 結局(18),話題(18),http://(18),時代(18),記事(18), 無理(18),自身(17),山口(17)
増田(66),日本(43), じゃなくて(23),被害者(23),女性専用車両(22), 娘(20),男性差別(19),山口(17),安倍(15),TOKIO(15),可能性(14),安倍総理(14), なんだろう(14), いない(13),自民党(12),自衛隊(12),主義者(12),スマホ(12), A(11),山口メンバー(11),生活保護(11),hatena(11),カス(11),元増田(11),差別主義(10),いいんじゃない(10), 一緒に(10),Twitter(10),男女平等(9),女子高生(9), 1人(9), 2人(8),PC(8),ブログ(8), s(8), 上の(8),JK(8),社交辞令(8),わからん(8), B(8), …。(7),リアル(7),犯罪者(7),ツイッター(7),一方的(7),ニセ科学(7),劣等感(7),コミュ障(7),キモ(7),私たち(7),ジャニーズ(7),キモい(7),ネット右翼(7),まんこ(6),ブコメ(6),2018年(6),普通に(6),東京(6),20代(6),山口達也(6),昭和(6), 何度(6),社会人(6),???(6),公明党(6),発言権(6),アメリカ(6),毒親(6),加計学園(6),100%(6),個人的(6),パワハラ(6),基本的(6), 最終的(6), 笑(5), かな(5),加害者(5), 1年(5), にも(5),共産党(5), なのか(5),GW(5), 悪いこと(5),外国人(5),非モテ(5),いいね(5),強制わいせつ(5),自己責任(5),脳内(5),安倍自民党(5),低所得(5),キチガイ(5), 人として(5), ー(5),フェミ(5),マジで(5),イケメン(5),想像力(5),ニート(5),婚活(5)
例えば「女性」と「専用」と「車両」に分割されていたのが「女性専用車両」で1語と数えられている。辞書のデータソースとしてはてなキーワードを使ったと書いてあるからよりはてな向きかもしれない。
「いいんじゃない」が固有名詞扱いされているが、これは多分はてなキーワードをソースにした弊害ではないだろうか。はてなキーワードを見ると「いいんじゃない」というジャニーズタレントの楽曲があるという。「リアル」もはてなキーワードで三菱のテレビブランドとして説明されているせいで固有名詞扱いなのかもしれない。
一長一短があるな。
| 時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
|---|---|---|---|---|
| 00 | 81 | 8461 | 104.5 | 39 |
| 01 | 30 | 9896 | 329.9 | 52.5 |
| 02 | 25 | 2601 | 104.0 | 70 |
| 03 | 20 | 4251 | 212.6 | 80.5 |
| 04 | 15 | 1012 | 67.5 | 25 |
| 05 | 2 | 2165 | 1082.5 | 1082.5 |
| 06 | 11 | 935 | 85.0 | 72 |
| 07 | 13 | 1887 | 145.2 | 93 |
| 08 | 38 | 3371 | 88.7 | 46 |
| 09 | 40 | 5422 | 135.6 | 55 |
| 10 | 66 | 9987 | 151.3 | 75 |
| 11 | 121 | 10709 | 88.5 | 45 |
| 12 | 102 | 8464 | 83.0 | 44 |
| 13 | 131 | 11529 | 88.0 | 44 |
| 14 | 104 | 9360 | 90.0 | 38.5 |
| 15 | 138 | 10370 | 75.1 | 42 |
| 16 | 189 | 13307 | 70.4 | 49 |
| 17 | 213 | 17541 | 82.4 | 49 |
| 18 | 118 | 8102 | 68.7 | 36 |
| 19 | 152 | 10983 | 72.3 | 31.5 |
| 20 | 63 | 4839 | 76.8 | 35 |
| 21 | 109 | 14993 | 137.6 | 62 |
| 22 | 136 | 11821 | 86.9 | 45.5 |
| 23 | 110 | 11771 | 107.0 | 46 |
| 1日 | 2027 | 193777 | 95.6 | 44 |
人(179),女性(155),自分(147), 男(108), 女(103),男性(102),社会(99), 話(97), 今(94),増田(73), 前(64),仕事(61),意味(59),相手(56),問題(55),人間(54), 同じ(52), ー(51),関係(51), 男女(49),必要(48), 好き(48), あと(47), 気(47),子供(44), 感じ(43),https(43),理由(41),日本(41),世界(40),結婚(39),時間(38), こんな(37),普通(35),進出(35), 手(35),理解(34),最近(33),低能(33),場合(32),責任(32), 他(32),気持ち(31),個人(31),会社(31), 逆(31),山口(30), 目(30),時代(30), 頭(29), 昔(29),友達(29), com(29), 金(28),先生(28), 一緒(28),価値(28),メンバー(28), 無理(28),存在(27), 一番(27), 猫(27),www(26),ネット(26),被害(26),言葉(26),家族(26), 親(26),状態(25),http(25),ゴミ(24),セックス(24),自体(24),雇用(24), 会見(23),ダメ(23), 結果(23), ~(23), 娘(23),アニメ(23),通報(22),クズ(22),最初(22),企業(22),人生(22), 確か(22), 全部(22), 嫌(21),説明(21),可能(21), 家(21), 原因(21),今日(21),差別(21),主義(21),現実(20), 周り(20), 家庭(20), 全体(20),発言(20)
増田(73),日本(41),山口(30),韓国(15),TOKIO(14),東京(12), 日(12),安倍(11),アメリカ(11),キモ(10),中国(10),達也(10),自衛隊(10), detail(8),JK(8),平成(7), 金(7), article(7),マック(6), jsfiddle(6),イラ(5),北朝鮮(5),Twitter(5), どん(5),pdf(5),松岡(5),昭和(4), default(4),VTuber(4), 韓(4),自民党(4),サンクス(4),セブン(4),jpg(4), ツイ(4), 米(4), images(3),明治(3), files(3),太郎(3),大正(3),大阪(3),朝鮮(3), ワイ(3),Vtuber(3),BC(3), 中(3), sthya(3),バーガー(3),SNS(3)
↑MeCab ✕NAIST辞書 (2011年に更新が止まっている。)
↓MeCab ✕mecab-ipadic-NEologd辞書 (固有名詞、新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)
人(165),自分(141),女性(138), 男(105), 話(98), 女(95),男性(95), 今(86),社会(76), 前(62),仕事(61),相手(56),増田(55),意味(54), 気(50),問題(49),必要(48),人間(48),関係(47), あと(46), 好き(46),https(44),子供(43), 感じ(42),理由(41),結婚(38),日本(37), 手(35),進出(35),理解(34),低能(33), 目(33), ー(33), 男女(33),最近(33),世界(32),場合(32), 他(31),普通(30),気持ち(30), 頭(29),会社(29), 逆(29),時間(28),先生(28),友達(28), 無理(28), 昔(27), しない(27),存在(26), .com(26),言葉(26),www(25), 金(25), 一番(25), しよう(25), 猫(24),自体(24),http://(24),状態(23),セックス(23), 一緒(23), じゃなくて(23),ゴミ(23), 親(23), 娘(22),雇用(22),クズ(22),ダメ(22),通報(22), 確か(22), 全部(22),責任(22), 嫌(22),アニメ(22),最初(22), 結果(21),人生(21),今日(21),メンバー(21),説明(21), 全く(21), 原因(21), 別(21),ネット(20),女子高生(20), 周り(20),価値(20), 一人(19),時代(19),おっさん(19), 結局(19),大人(19), 当たり前(19),幸せ(19),場所(19), 家(19),記事(19),現実(19),議論(18)
増田(55),日本(37), じゃなくて(23),女子高生(20), 娘(20),TOKIO(17),被害者(16),JK(16),元増田(16),山口(15),可能性(15), なんだろう(13),韓国(13),リアル(13),社会的(12), いない(12),フェミ(12),男女平等(11),アスペ(11),女性専用車両(10), なのか(10),Twitter(10),専業主婦(10), detail(9),アメリカ(9),謝罪会見(9),山口達也(9),暴力装置(9),自衛隊(9),キモ(9),産む機械(9),経済力(9),スマホ(9),アファーマティブアクション(8), 具体的(8),トラバ(8),東京(8), s(8), 最終的(8),いいね(8),分からん(8),わからん(8),個人的(8),である(7), 何度(7),マジレス(7),いいんじゃない(7),安倍(7),twitter(7),SNS(7),性犯罪(7),中国(7),100円(7),芸能界(7),ツイート(7), どんだけ(7), article(7),私たち(7),まんこ(7), 4人(7),家族主義(7),価値観(6),加害者(6), 金(6),livedoor(6),基本的(6),2018年(6),クリエイター(6),GW(6), jsfiddle(6),NG(6),平成(6),ツイッター(6),???(6),介護士(6),お酒(6), 一緒に(6),婚活(6), …。(5),1000円(5),普通に(5),生物学(5),北朝鮮(5),いつまでも(5), 笑(5),生理休暇(5),アプリ(5),外国人(5),エロい(5),20代(5),アルコール依存症(5),ロリ(5),山口メンバー(5), 男なら(5),マジで(5),LINE(5),ニート(5), org(5),ムスリム(5),マック(5)
| 時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
|---|---|---|---|---|
| 00 | 79 | 9658 | 122.3 | 33 |
| 01 | 53 | 4692 | 88.5 | 40 |
| 02 | 44 | 3292 | 74.8 | 43.5 |
| 03 | 13 | 3863 | 297.2 | 121 |
| 04 | 8 | 2747 | 343.4 | 85 |
| 05 | 15 | 2423 | 161.5 | 58 |
| 06 | 19 | 3601 | 189.5 | 76 |
| 07 | 14 | 1496 | 106.9 | 52.5 |
| 08 | 40 | 2844 | 71.1 | 40.5 |
| 09 | 54 | 3439 | 63.7 | 36 |
| 10 | 100 | 11225 | 112.3 | 54 |
| 11 | 90 | 11656 | 129.5 | 31 |
| 12 | 77 | 7414 | 96.3 | 48 |
| 13 | 84 | 9407 | 112.0 | 42.5 |
| 14 | 122 | 6919 | 56.7 | 36 |
| 15 | 95 | 8498 | 89.5 | 41 |
| 16 | 77 | 9611 | 124.8 | 44 |
| 17 | 102 | 13434 | 131.7 | 50 |
| 18 | 116 | 10997 | 94.8 | 56.5 |
| 19 | 89 | 9362 | 105.2 | 58 |
| 20 | 86 | 9615 | 111.8 | 74.5 |
| 21 | 131 | 10112 | 77.2 | 31 |
| 22 | 98 | 7627 | 77.8 | 35.5 |
| 23 | 102 | 15118 | 148.2 | 55 |
| 1日 | 1708 | 179050 | 104.8 | 44 |
人(162),自分(132), 今(82), 話(72),仕事(71), ー(70),増田(60),時間(59),人間(57), 前(56),https(50),日本(50), 女(47), 好き(45),必要(45), 男(44),問題(44),女性(43), 感じ(42),関係(41), 気(40), こんな(39),最近(38), 手(37),ネット(36), 同じ(36),社会(35),意味(35), ~(33),理由(33),男性(32), com(31),普通(31),会社(31), 頭(30), 目(30), あと(29),気持ち(29),相手(29),子供(29),今日(29),理解(28),http(28),生活(28),漫画(27), 他(27),企業(26),www(25),レベル(25), 無理(25),絶対(25),安倍(24), 結局(24),政治(24),時代(24),世界(23), 家(23),他人(22),就職(21), 顔(21), 状況(21),技術(21), 嫌(21), 一番(21), 結果(21),情報(20), 周り(20),韓国(20), 金(20),可能(20),個人(20),勉強(20),状態(20),感覚(19),場合(19),警察(19),ストレス(19),エロ(18),差別(18), 昔(18),自体(18), 程度(18),ゲーム(18), 世の中(18),人生(18),経験(17), 親(17),anond(17), 国(17),責任(17),言葉(17),行為(17),学校(17),作品(17),馬鹿(17),ほとんど(17),山口(17),メンバー(17),存在(17),努力(17)
増田(60),日本(50),安倍(24),韓国(20),山口(17), 日(12),キモ(11),東京(10),日野自動車(9), FaHNI(9), trucks(9), release(9), sugawara(9), racing(9), team(9), dakar(9), beiDW(9), KkJk(9), racereports(9),アメリカ(8),北朝鮮(7),twitter(7),LINE(6), 韓(6), detail(6), 金(6),中国(6),伊集院(6),自民党(6),平成(6),自衛隊(5),大阪(5), 中(5),コス(5), real(5), 米(5),米国(5), bayern(5), munich(4), 敬之(4), 光(4),下高井戸(4),達也(4), report(4),match(4),朝鮮(4),太郎(4), megalodon(4), どん(4),東大(4)
↑MeCab ✕NAIST辞書 (2011年に更新が止まっている。)
↓MeCab ✕mecab-ipadic-NEologd辞書 (固有名詞、新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)
人(143),自分(128), 今(79), 話(74),仕事(68),増田(53),人間(47), 前(47), 女(46),時間(46), 気(46), 男(45), 好き(45),日本(44),必要(44),https(44), 感じ(42),問題(42), ー(40),女性(40), 手(38),最近(38),関係(33),理由(33),気持ち(30),会社(29),相手(29),子供(29),普通(29),意味(29), 目(29), あと(28),今日(28),http://(27), しない(27), 頭(27),理解(26), 他(26),男性(26),絶対(25),ネット(25),レベル(25), 無理(25), .com(24), 結局(24), 嫌(22),他人(22), 状況(21), 一番(21), 結果(20), 顔(20), しよう(20),www(20), 周り(20),勉強(20), 家(20),時代(19),場合(19),ストレス(19),感覚(19),状態(19), 世の中(18),人生(18), 昔(18),バカ(18), ただ(18),就職(18),努力(17),言葉(17),名前(17),韓国(17),企業(17), 金(17), 程度(17),anond(17),馬鹿(17),自体(17),話題(17),毎日(17),勝手(17),意見(17),社会(16),.jp(16), 全部(16),作品(16),記事(16),co.jp(16),警察(16),最初(16),世界(15),ゲーム(15),政治(15), 夫(15),経験(15),可能性(15), 内容(15),漫画(15), 出て(15),行為(15), 別(15)
増田(53),日本(44),韓国(17),可能性(15),わからん(14), じゃなくて(13),twitter(13),youtube(13),マジで(12),安倍総理(12),まんこ(10), v(10),安倍(10), 何度(9),キモ(9), team(9), beiDW(9), dakar(9), trucks(9), KkJk(9),漫画家(9), release(9), racing(9), 3w(9),耐久性(9),日野自動車(9), FaHNI(9),24g(9), racereports(9),山口メンバー(9),アプリ(9),hino(9),基本的(9), sugawara(9),午後ティー(8),人間関係(8),スマホ(8),リアル(8),???(8),LINE(8),発達障害(8), いない(8), かもしれん(7),コミュ力(7),分からん(7), detail(7),北朝鮮(7),アメリカ(7),SNS(7),いいんじゃない(7), 最終的(7), なのか(7), E(6), なんだろう(6),オナ禁(6), アレ(6),中国(6),自民党(6),登場人物(6),Twitter(6), 2歳(6),ある意味(6), お客さん(6),就活(6),女子高生(6), 1人(6),大企業(6),元増田(6),唐揚げ(6),IT(6),JK(6),ファブリーズ(6),ダンバイン(6), にも(5),自衛隊(5), 具体的(5),副流煙(5), 金(5),AV(5),米国(5),社会的(5),体育会系(5),ツイート(5),ぶっちゃけ(5), 涙(5),イケメン(5),ヤバい(5), 一人(5),フェミ(5),ブコメ(5),技術力(5),10年(5),OK(5),夫婦(5),コスパ(5),カレー(5),ツイッター(5), …。(5),ネット上(5),go(4)
まず、大前提として、
原語の発音には、「意味のある区別」と「意味のない区別」があり、前者のみを区別し、後者は無視するのが音韻論。基本的に、ある言語のネイティブスピーカーはその言語において「意味のある区別」だけを直感的に感じ取ることができ、「意味のない区別」は意識しないと気づくことができない。
例えば、前回書いた増田( https://anond.hatelabo.jp/20171223040416 )で、「難波」と「あんな」の「ん」は違う音だけど、日本人(日本語のネイティブスピーカー)はその違いを無視すると書いた。ブコメを見ると違いがわからないという声があったので、ここで解説すると、「ナンバ」のように、直後にバ行またはパ行の音が続く場合は、「ん」は「唇を閉じて息を閉鎖し、その息を鼻の穴から出す」音になる。英語であればmに相当する。直後にナ行、タ行またはダ行が続く場合は、「下を上顎にぴったりつけて息を閉鎖し、その息を鼻の穴から出す」音になる。英語であればnに相当する。
英語であれば、これも前回の増田から持ってくると、water の t と、talk の t は日本人には全然違う音のように聞こえる。でも、英語のネイティブスピーカーにとっては同じ音。
よく、英語のネイティブスピーカーにとっては違う音なのに日本人には同じに聞こえる発音が取りざたされるけど、逆もあるということ。ある言語のネイティブスピーカーであるということは、その言語にとって「意味のない区別」はしないように訓練されているということを意味すると同時に、「意味のある区別」はするように訓練されているということ。 r と l の区別が難しいのは前者の例だし、 water の t とtalk の t が違う音に聞こえるのは後者の例。
同じことは日本語を学んでいる外国人にも言えて、例えば、「難波」の「ん」と「あんな」の「ん」は韓国人にとっては「違う音」なので、韓国人が別の単語を持ってきて「この『ん』はどっちですか?」なんて質問すると、日本人は「は? 『ん』は『ん』でしょ?」となる。韓国語なら「オッパンカンナムスタイル」の「カ」と「ネガチェイチャラガ」の「ガ」は濁音と清音だから違う音だけど、韓国語にはこの区別はないから韓国人は「同じ音」と思っている。
英語のカタカナ化では、「英語において区別のある音は区別し、区別のない音は区別しない」というルールが概ね採られていると思う。いわば、英語のカタカナ化とは、「英語の音韻論をカタカナだけでシミュレーションする」試みと言える。
以下、いくつか一般的だと感じるルールをリストしてみようと思う。なお、発音記号は、New Oxford American Dictionary に基づいている。
アメリカ英語には短母音と長母音の音韻上の区別はないので、ある音を長めに発音しても短めに発音しても同じように理解される。カタカナ語はこの事実を利用して、長音記号で区別することで、合計10種類の母音を区別できるようにしている。なお、10種類でも英語の音韻論を完全に再現するには足りない。実際に長音になりやすい音に優先的に長音記号が割り当てられているようだけど、全てではないように見える。
例 /ə/:sun, bus, an
例 /æ/ : cat,pat, bad
実際これらの音は「ア」に聞こえるという人がほとんどだと思う。cat は「キャット」なので「イャ段」説があるにはあるのだけど、/k/ の舌の形が日本語の「ヤ」の子音に近い為に /k/ の時だけ採用されたのかなと想像している。ちなみに英語には他に「キャ」のように聞こえる音はないので特に問題ない。/æ/は一貫してイャ段にすればいいのにと思わないでもない。
「エ」に聞こえることもある音。とは言え多くの場合「イ」に近く、また「エ」に聞こえる音は他にもあるので妥当。
例:look, good, foot
間違いなくウに聞こえる。
例 /wə/ :Quebec, sequence, quench
例:lot, pot, knot
「『ア』に聞こえる」という人がかなり多いと感じているのだけど、アには割り当てが他にあるので、オに寄せられたのではないかと想像している。
例:mail,male, eight
「エイ」段で書かれる事も多いが、日本語の音韻上「エー」と「エイ」の区別はない。
例:water,talk, ball
形態素とは、「意味の最小単位」。単語の中には複数の形態素からなるものがあって、例えば「文章」なら、「文」と「章」にはそれぞれ意味があり、それが集まって、「文章」という単語ができていると理解できる。英語でも、American という単語は、America と、an が合成されてできている。このそれぞれのパーツを「形態素」という。
カタカナ語は、どうも単語単位でなく形態素単位でやっているように見えることが多い。例えば、today は /təˈdeɪ/ だから、上のルールに従えば「タデイ」になるはずだけど、実際には「トゥデイ」になっている。また、consequence / ˈkɑnsɪkwəns/ も、上のルールに従えば「コンシケンス」だけど、実際には「コンシーケンス」になっていると思う。
しかし、これらは例外なのかといえば、形態素単位でカタカナ化していると考えると説明がつく。today は to-dayに分割できる。そして、to は 「トゥ」。(なお、これは「トゥー」になるはずなので、こっちは例外。too との衝突を避けたものと思う。)day は「デイ」なので、合わせて「トゥデイ」になる。consequence も con /kɑn/ は「コン」、sequence /ˈsikwəns/ は「シーケンス」なので、合わせて「コンシーケンス」。
「カタカナ語はアメリカ英語の音韻論をベースにしているのではなく、単にイギリス英語を聞こえたまま書いただけのものではないか」という指摘が前回の増田であった。
確かに、apple,girl など、イギリス英語「聞こえたまま」になっているように見える単語は多数あるが、すべての単語を調べたわけではないから確定的なことは言えないが、これらの単語は、アメリカ英語音韻論説でも同じ程度にうまく説明できる。それに、water, there など、イギリス英語聞こえ方説よりもアメリカ英語音韻論説の方がうまく説明できる例もある。(イギリス英語聞こえ方説をとれば、それぞれ、「ウォータ」、「ゼー」となるはず。)
実際にカタカナ語の多くがアメリカ英語から取られたのかそれともイギリス英語から取られたのかは個人的に知らないのでなんとも言えないのだけれども、カタカナ語とアメリカ英語の間にある程度の法則性が見られるという前提で、その法則を書いてみようと思った次第。
論文にしたければ、というか、論文にせずともを、以下のことはわかってもらうために必要:
特に説明するまでもない事実だと思うが、はてなブックマーカーには特定の話題に特定の同様のコメントをしがちなアカウントからなるクラスタが複数存在する。はてサ、ニセ科学批判クラスタ、・・・(モヒカン?)
とすると、ある程度のブックマークが集まったページのブックマークコメントを形態素分解し、同じようなページに同じようなコメントを付けるようなアカウントをあらかじめクラスタリングして、各ページについてその各クラスタのブックマーカーによるコメント頻度や各クラスタごとのコメント傾向を表してくれると、ブックマークされたページがどういうものかあらかじめわかりやすい。Deep Learningならもっとうまくやれるのかもしれない。実装してくれないかな。最近暇がないから、無駄なページを読みたくないんだよ。
xevraやmidas、blueboyのようなブックマーカーをoutlierとしてクラスタリング除外する機能も実装している必要がある。無論、midas閣下とxevra先生については独立して鑑賞したいのだが、それはお気に入りを使えばいい話である。
今更だが、はてブでhttp://www.atmarkit.co.jp/fjava/column/andoh/andoh53.html が人気だったのでまとめてみた。(末尾Eは英語)
まずはその記事にあった、16あるけど購読するべき15の開発者ブログ一覧(一部追加あり)
で、偏ってるんじゃないのとか、あれないよね、みたいなのとか、その時のhttp://reader.livedoor.com/ranking/hot.html とかから集めた、14しかないけど購読するべき15の開発者ブログ
あと、企業ブログじゃないけど、http://reader.livedoor.com/ranking/subscribers.html から、これも購読するべき15の開発者ブログ
さらに、http://gihyo.jp/dev/serial/01/alpha-geek にある、もっと購読するべき15の開発者ブログ
まだまだ、http://geekdb.jp/ とか、http://jibun.atmarkit.co.jp/lcom01/rensai/comrade01/comrade01.html とか、http://bizmakoto.jp/bizid/kw/newgenchronicle.html とか、http://web-engineer.buyuden.net/buyuden/ とか、これでも購読するべき30の開発者ブログ
あとは個人色強め、社会派、学者派、ビジネス派もある、これは好きにすべき15の非開発者ブログ
これ無いとかこれ違うとかあったらよろしく