前置きサイバーエージェントAI Lab リサーチサイエンティストの原口です。 普段はビジュアルデザインインフォマティクス(ビジュアルデザインの情報学的解析)に関する研究を行っております。 今回は「文字デザイン」「文字科学」分野の研究の一端をお話しできればと思います。 なお、今回の読者ターゲットは「文字デザイン」「文字科学」の研究ってどんなことやっているの?そもそも研究って何?という人向けです。技術的な細かい話などはやらないので、その辺りが気になる人は、この研究がどこかの学会で発表された際に、ツッコミに来ていただけると幸いです。 ※この研究成果はサイバーエージェントの「コンピュータビジョン&AIゼミ」で行われた研究の成果です。サイバーエージェント ゼミ制度については以下をご参照ください。 はじめに早速ですが これって、「ン」と「ソ」どっちだと思いますか?それはなぜですか? 文字を初めて

以前は「吊るす」の「吊」という字は「とむらう」とも読めたはずだが、今の辞書には載っていない。実際に「とむらう」と読めることが確認できる辞書が見たい。 (資料1)配架中の資料『大漢和辞典』(諸橋 轍次/著 大修館書店 813.2/モ/2 資料ID:0012311999)で「吊」を調べる。 P811…「吊」 テウ 弔の俗字。 俗字として「弔」はあったが、「吊」を「とむらう」と読めることは確認できなかった。 (資料2)「俗字」とは何かを検索。大修館書店が情報提供する漢字文化資料館より、 ーーーーーーーーーーーーーーーーーーーーー以下、引用 始まりーーーーーーーーーーーーーーーーーーーーー 主に世間一般で用いられてきたとされる異体字のことを「俗字」と言います。 つまり、俗字とは、その字体が用いられる場面によって異体字を分類した場合のカテゴリーだといえます。 ーーーーーーーーーーーーーーーーーーーー

楷書の「龍」という形は殷墟甲骨文に見られる文字を継承したもので、「竜」という形は早くとも漢代以降に作られたものだが、「竜」が「龍」より古くから存在するというトンデモが存在する。 「竜」が「龍」より古いというトンデモには全く根拠がないが、ほとんどの人は漢字の歴史について無知なのと、このトンデモが本当なら意外なので(逆に)、一定数の人が信じているようである。 実際には、「竜」が「龍」より古いなどということは無い。これは「最終的には「龍」も「竜」も同じ甲骨文字に由来するのだからどちらかが古いと言うことはできない」というような表現的問題ではなく(それも一理あるかもしれないが、ここではどちらかが古いという表現を受け入れよう)、「竜」が「龍」より古いというトンデモが描いている歴史が決定的に間違っているという意味である。 この記事で「竜」「龍」の歴史を再確認することで、トンデモの歯止めになれば幸いである

まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション


先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6,2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

印刷する メールで送る テキストHTML電子書籍PDF ダウンロード テキスト電子書籍PDF クリップした記事をMyページから読むことができます中国では、2023年8月1日に強制力のある国家標準規格「GB 18030-2022」(信息技術中文編碼字符集)が施行される。中国で「強制」という言葉が出ると「また締め付けが強化される」と反射的に考えてしまうかもしれないが、これは文字コードの標準規格を新たに導入するという話だ。珍しい名字などに使われ、既存の文字コードに未登録の漢字に対応しようというものになる。中国の面積は日本の国土の約25倍で、約14億人の人口を擁している。一部の地域限定で使われている漢字や、少数民族の固有名詞でのみ用いられている漢字もある。文字コードに含まれない漢字を使っている人は約6000万人もいるそうだ。例えば、山東省青島市郊外にシュイユー村という地元ではまあまあ

2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

手書きDX事業を展開するエスパリアール合同会社(本社:東京都渋谷区 代表社員:濵田純哉)は、AI手書き「手書きくん」を9月15日より法人向けサービスとしてリリース致します。 ■手書きくんとは? 写真で撮った手書き文字をAI学習させ、あなたの文字で代筆し、送付まで行うAI手書き営業マンです。 「手書きくん」は筆跡、筆圧、文字の大きさを学習し人間と同水準の手紙を作成可能です。(下記、参考動画) ■「手書きくん」のサービスの流れ ■自分の文字に自信が無い人でも安心 「手書きくん」はペン字師範の文字を学習済みなので、ペン字師範の文字で代筆可能です。 ■新しい手紙DX体験 ご利用シーン例 M&A仲介業者:新規営業のDMをペン字プロの文字で代筆し、お手紙をお届け。不動産業界:お電話がつながらなかったお客様にお手紙を担当者の直筆でお届けすることでアポイントを獲得。 自治体:担当者の直筆文字を学習さ

「カラスの漢字“烏”が“鳥”より一画少ないのは体が黒く目がどこにあるかわからないから」という説があります。以下のように、現在販売されている漢和辞典にも掲載されています。 象形。からすの形にかたどる。からすはからだが黒く、目がどこにあるかわからないので、「鳥」の字の目にあたる部分の一画を省いた。借りて、感嘆詞、また、疑問詞に用いる。 ――『角川 新字源』改訂新版、角川書店2017年、p824 烏は鳥の目玉を表す部分である「-」を省いた形。 ――『漢字源』改訂第六版、学研2019年、p1152 しかし、この説は誤りです。 この説は金文の研究が盛んになるより以前に提唱されましたが、清代に金石学(金文研究)が発達したおかげで誤りであることがわかりました。すなわち、古文字学(古代の漢字を研究する学問分野)の世界では100年以上前に否定された説です。 漢和辞典に掲載されているいわゆる「漢字の成り立ち」

ゆる言語学ラジオ#4の内容を訂正しようと思ったけども、その前に「部首」の誤解を解きたいと思いました~もうこの単語を学問の場で使わないでください~ この記事のモチベーション最近以下の動画が話題(のよう)だ。正確にはこの動画の投稿集団が話題で、この動画はその中では比較的地味な方である。 悶・聞・関、部首が「門」なのはどれ? #4 https://www.youtube.com/watch?v=v2vY-H1FAHM ただ、しかし、この動画で語られることは、漢字に関する誤解に満ちている。正直、どこから突っ込んでいいのやらという感じで、語られる結論が間違っているとかではなく、おそらく話し手たちが根本的に漢字・漢語と文字学(それは知識だけでなく研究伝統・研究史や方法論・考え方を含む)を誤解している。コメント欄も含めて目を覆いたくなる。 例えば、架空の人物が「“人”という字は人と人とが支え合ってるよう


先日Twitterで親が子供にYouTube見せるのをやめさせたというツイートがバズっていた。 小3の息子もYouTubeが好きだが、そこまでスマホやタブレットにかぶり付いているわけではないので、我が家では禁止しない予定。 ただ1つ気になるのが、息子が好きなゲーム実況者だ。 お父さんも見てよといわれその実況を見たが、ゲームに表示される台詞を読み上げる時に簡単な漢字を読み間違えたり、慣用句の使い方や言葉そのもの自体が間違えていたりと、いい大人の割に国語力が低めだった。 子供が沢山見ているんだから、その辺りは少し気をつけてほしいなと思いました。 追記ゲームの世界で使われる難しい用語や漢字ではなく、例えば「求める」といった小中学生でも読めるような漢字です。 ブコメで無料で好きにやっているんだからとやかくいうなという指摘がありましたが、全くその通りです。でも有名な人は影響力があるので、ほんのちょ

1月16日~2月24日、東京国立博物館で特別展『顔真卿ー王羲之を超えた名筆』が開催されている。中国唐の書家、顔真卿(がんしんけい)の「祭姪文稿(さいてつぶんこう)」をはじめ、王羲之、欧陽詢、懐素、空海らの作品が一堂に会する展示会だ。日本ではそれほど大きな話題にはなっていないが、この展示会については当初、中国だけでなく、台湾からも批判と怒りの声が噴出した。中国と台湾では、大手マスコミをはじめ各メディアが大きく取り上げ、SNSでは賛否の声で炎上状態となっている。なぜ、これほど話題となっているのか。(日中福祉プランニング代表 王青) 日本での「祭姪文稿」展示に対し SNSにあふれる批判と怒りの声 「ショックだ!なぜ日本へ?理解できず、死にそう…」 「悲しい!涙をこらえられない…」 「見られないのが悔しい極み」 「事の重大さは、知っているのか?」 「台湾政府は十分な議論をしないまま、国宝を海外へ持

MS-DOS 2.0のソースコードが公開された 9月末にMS-DOS 2.0のソースコード(https://github.com/Microsoft/MS-DOS/tree/master/v2.0)が公開された。ここでは、ソースコードを見ながら、Windowsのパス区切り文字が、なぜ「\」(英語表示では逆スラッシュ)になったのかを考えてみる。 ただ、MS-DOSは8086のアセンブラで記述されているため、コードを説明するのではなく、必要な定義部分などを使って解説することにする。 まずは簡単にMS-DOSという名称について説明しておく。IBMがIBMPC用のOSとしてマイクロソフトに開発を依頼したため、IBMPC用のものはPC-DOSという名称であり、MS-DOSはIBM以外のメーカー用に使われた。この時点では、PC-DOSとMS-DOSはほぼ同一のものとしてよい。ここでは、すべてMS-

2018年6月2日に東京・下北沢の書店「本屋B&B」で「[京極夏彦×装丁夜話]京極夏彦の版面」というイベントが開催された。このイベントを企画したのは、装丁家の折原カズヒロさんと坂野公一さん。今回は、坂野さんがこれまでに何冊もの装丁を手掛けた作家京極夏彦さんを呼んで、版面(はんめん、はんづら)づくりの詳細を語ってもらった。 今回はその後編である。 前編はこちら http://jbpress.ismedia.jp/articles/-/53511 ルビを振る基準のマニュアルを作成 版面をパッと見たときに、ルビの存在はかなり大きなウェイトを占めていることがわかります。傍点よりも存在感があるわけで。難読漢字には比較的画数の多い漢字が多いです。画数の多い漢字の横にルビがあるかないかは、大きな問題になります。 さらに、ルビには位置の問題があります。肩付き、中付き、3字ルビ(1文字の漢字に3文字のルビが

アルファベット編 まずアルファベットのキー配列について説明しましょう。パソコンのアルファベットのキー配列は、タイプライターという機械が元になっています。英文タイプライターを作ったのは、アメリカのChristopher Latham Sholesという人で、1870年の時点ではABC順を少し改良したキー配列だったと考えられます。前半のABCDEFGHIJKLMを左から右に、後半のNOPQRSTUVWXYZを右から左に並べて、そこからAEIOUYの母音を上の段に取りだしたのが、このキー配列です。この時点のタイプライターは、大文字と数字と4種類の記号が打てるものでした。キーの数は38個でした(図1参照)。 図1: 1870年9月時点のキー配列(推定) Sholesの後ろ盾だったJames Densmoreは、このタイプライターを、シカゴのEdward Payson Porterが経営する電信学校

OculusGo発売以来、切望されていた内蔵ブラウザの日本語変換が実現している。OculusGoではリモコンでポイントすることでキーボードによる文字入力が可能だが、日本語変換はサポートされていない。だが、「OculusGo ブラウザ 日本語変換ブックマークレット」を使うと、ブラウザで表示されているローマ字文字列をその場で日本語に変換してくれる。 OculusGo ブックマークレット 開発したのは9ballsyndromeさん。このブックマークレットは6月3日に公開されている。Amazon Prime Videoなどで目的のタイトルを探そうとしても日本語入力ができないためできなかったり、SNSにローマ字や英語で投稿していたOculusGoユーザーには朗報だ。 検索フィールドの中の文字列全体が変換対象となり、既に日本語が入力されている場合には上書きされる。一部だけを変換したい場合に

UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

「カラス侵入禁止」。そう書いた紙をつるしたら、本当に来なくなった――。岩手県大槌町にある東大の研究施設は春になると、カラスに「警告文」を出す。研究者が放つ奇策だ。今年で3年目、東大が連勝している。 4月中旬の午後、大槌湾に面した「東京大学大気海洋研究所国際沿岸海洋研究センター」の1階で、佐藤克文教授(動物行動学)がパイプや窓枠に紙をつるしていた。パイプ周りの断熱材はむしられてボロボロだ。「カラスが巣作りで持っていきました」。佐藤教授は苦笑いする。 センターは世界的な海洋研究の拠点として1973年に前身がオープンした。だが、震災の津波は3階建ての最上階まで到達した。その後、3階だけ仮修復したが、1、2階はがれきの撤去後、物置になった。 佐藤教授によると、カラスの被害が目立ち始めたのは15年春。むき出しになった1階天井のパイプの断熱材がむしり取られ、羽根やフンが落ちるようになった。 津波で周囲


リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く