Movatterモバイル変換

sst id:sst

linguisticsに関するsstのブックマーク (65)

トップ┃NINJAL-LWP for BCCWJ
■NINJAL-LWP for BCCWJ とは NINJAL-LWP for BCCWJ（以下、NLB）は、国立国語研究所（以下、国語研）が構築した『現代日本語書き言葉均衡コーパス』（Balanced Corpus of Comtemporary WrittenJapanese: BCCWJ）を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日本語学習者用基本動詞用法ハンドブックの作成」（リーダー：プラシャント・パルデシ）、「日本語レキシコンの文法的・意味的・形態的特性」（リーダー：影山太郎）、「述語構造の意味範疇の普遍性と多様性」（リーダー：プラシャント・パルデシ）による研究成果の一部です。国語研からはBCCWJ用のオンラインコンコーダンサとして中納言と少納言が公開されていますが、NLBはコンコーダンサとは異なるレキ
sst2012/06/16
linguistics
リンク
テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり〜langstatの研究日誌〜
エンジニアパパと5歳の娘で2025年に作ったもの去年も書いた娘とのものづくりについて、2025年版も書いてみることにしました inajob.hatena blog.jp 1年分の写真を見て思ったのは、今年は娘が一人で作ったものがかなり多くなっており成長を感じます。今回はこの1年を通して、エンジニアの私と5歳の娘が一緒に作った…
sst2012/05/05
linguistics
リンク
コンテンツを要約する画期的なiOSアプリ、16歳が開発
sst2012/01/03
technology
html
linguistics
リンク
社内セミナーで形態素解析について話しました
持ち回りの社内セミナーが自分の番になったので、形態素解析についてまとめてみて、発表しました。係り受け解析入門に引き続き、自然言語処理チュートリアルシリーズ第２弾になります。結構ボリュームがあって、力作になってます。今回の狙いは３つくらいありました。ひとつは自分自身昔の文献などを読んだことがなかったので読んでみたこと。見ると、昔は多くの論文を企業の人が書いていて驚きます。初期の文献で引用したものはほとんどが企業系研究者の方の論文です。日本語入力の文脈で研究されていたからなのかな、という気がします。もうひとつは現在の問題点と問題意識をまとめる。書いたとおり、アプリケーションに対して最適なことをすべき、という思いがあります。それは単にアプリケーションごとに形態素解析器を作るべき、ということではないです。そもそも形態素解析というソリューションは適切ですか？という問いかけです。実際に弊社では、
sst2011/11/12
facebook
marketing
linguistics
リンク
姓名・苗字・名前一覧 - 漢字検索
入力した漢字を含む名字や名前の一覧検索が行える無料オンライン漢和辞書です。本字典のエントリー更新は頻繁に行っているため、今日検索結果に現れなかったものが明日以降に出る場合もあります。また、現在まだ登録されていない(検索結果に出てこない)漢字や読み方があれば、ご指摘(登録)いただけると非常に助かります。
sst2011/07/26
search
linguistics
リンク
単語重要度入門〜テキストをダイエットさせよう〜
Le document contient une série de numéros et de dates, tous associés à l'année 2011. Les références à 'pixiv' suggèrent un lien avec une plateforme de partage d'illustrations. Aucun contexte ou contenu détaillé n'est fourni, ce qui limite l'interprétation.
sst2011/06/06
linguistics
presentation
programming
リンク
しゃべるのがあんまり得意でない人って思考回路が最適化されている - ひらめき箱
しゃべるのが苦手な人って、別のとこで凄い能力を持ってる人が多いなぁって思っていて、そのことについてつぶやいたものをちょっとまとめてみました。しゃべるのがあんま得意ではない人って、独自の思考回路を進化させまくっている人が多い。自分の思考に最適化された構造をしているから、物を憶えるのが凄い得意だったり、一人の作業が凄く早かったり質が高かったりする。つまり「自分語」で脳が動いてるので、それを公用語に翻訳するのに時間がかかる http://twitter.com/#!/fta7/status/15939525465341952 独自の思考回路を進化させてきた人にとって重要なのは「コミュニケーション能力」というよりも、その回路の独自性を更に磨き上げていきながら、そこから生産されるものをどう「言葉」に変換するか、あるいは言葉以外の何かに変換するか、ってところなんだとおもう。つまりプロトコルをどうする
sst2010/12/19
sociology
linguistics
リンク
地球上の様々な言語を一枚の絵で比較してみたインフォグラフィック - SEO Japan｜アイオイクスのSEO・CV改善・Webサイト集客情報ブログ
無料で資料をダウンロードSEO コンサルティングサービスのご案内専門のコンサルタントが貴社サイトのご要望・課題整理から施策の立案を行い、検索エンジンからの流入数向上を支援いたします。無料ダウンロードする　＞＞新作のインフォグラフィックをご紹介。今回は、ITではないですがグローバルな話題を。地球上で話されている言語に着目し、色々比較統計してみました。毎月、世界で2つの言語が消滅しているって知っていましたか？ —SEO Japan 日本程、日本語しか使われていない国も珍しいと思いますが、世界に目を向けると英語はもちろん、中国語、フランス語をはじめとして多数の言葉が使われています。そんな世界の言語事情を一枚のインフォグラフィックにまとめてみました。改めて世界の広さを（そして日本の小ささも？）感じます。Enjoy! （画像をクリックすると大き目のサイズの画像が表示されます）しかしこれを見
sst2010/11/03
informatics
linguistics
design
リンク
「漢字テスト」
漢字テスト漢字の読み方を「ひらがな」で、送りがな含めて入力してください。例　「轟く」→「とどろく」 Copyright(C)2006 GAMEDESIGN
sst2009/08/14
game
flash
linguistics
リンク
こんちにはみさなんおんげきですか？：ぁゃιぃ(*ﾟーﾟ)NEWS 2nd
http://pc11.2ch.net/test/read.cgi/prog/1238112399/ 652 名前：仕様書無しさん[sage] 投稿日：2009/05/08(金) 03:37:19 こんちにはみさなんおんげきですか？　わしたはげんきです。このぶんょしうはいりぎすのケブンッリジだがいくのけゅきんうのけっかにんんげはたごんをにしんきするときにそのさしいょとさいごのもさじえあいてっればじばんゅんはめくちちゃゃでもちんゃとよめるというけゅきんうにもづいとてわざともじのじんばゅんをいかれえてあまりす。どでうす？　ちんゃとよゃちめうでしょ？
sst2009/05/08
ケアレスミスは根性でなくせ、という人に見せたい
linguistics
cognitive
リンク
日本語 WordNet (wn-ja)
日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、
sst2009/03/26
library
linguistics
リンク
Webサイトの構成・文書作成のコツは「パラレリズム」：日経ビジネスオンライン
3月17日現在、一冊の本の入稿を終えて、この原稿を書いているところです。この編集作業をしていた時、Webサイトや社内文書でも、似たような間違いを犯しているのでは？　と感じるポイントに気付いたのです。それは、単純なようで見落としがちなことでした。「配慮」も最後までできていないならバツ原稿執筆を依頼した著者さんから、シンクタンクや政府などの調査結果を掲載してほしいとデータを受け取りました。例えば、小売業の市場シェアに関するデータで、原稿に合わせる形で7種類あったのですが、そのうち2種類だけに調査した年月日が書かれていたのです。そこで「あのー、残りの5種類も年月日をもらえないですかね？」とお願いしました。「パラレリズム」が最後まで守られていなかったからです。パラレリズムというのは、「並列」という意味。テクニカルライティングなどでは、よく知られている手法で、内容的に並列するパラグラフや章で
sst2009/03/23
読み手は、物事が並列してあるのを見ると、そこには同じ種類のものが同じ形で並んでいるだろうという「メンタルモデル」を作って予測します。それによって、後続する情報の理解が早まります。
design
writing
linguistics
marketing
psychology
technique
リンク
「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary
数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。（アドレナリンの放出音）数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier forJapanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日本語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。も
sst2008/11/25
perl
linguistics
program
library
リンク
かんぴょう - 漢字と表記
各メニューの御案内表記いろいろ日本語に書き方の統一基準はない！？お手持ちの国語辞典の巻末あたりに載っていると思いますが、内閣告示・訓令の形で出されている「常用漢字表」は強制力のない目安的存在であり、「法令、公用文書、新聞、雑誌、放送など、一般の社会生活において」と適用範囲を示しているものの「科学、技術、芸術その他の専門分野や個々人」は対象外とされています。内閣告示「送り仮名の付け方」についても、適用範囲は常用漢字表と同じであり、常用漢字表にある訓読みのことしか書かれていません。常用漢字（1945文字）以外の「表外字」については、読み方や送り仮名のつけ方のよりどころ、目安さえもないのです。そこで数種類の用字用例辞典を比較してみました。（ただし、平成22年11月30日内閣告示の新しい常用漢字表には未対応です。旧常用漢字表のままで相済みません）その他当サイトは速記もできないのに日本速
sst2008/07/03
本語の書き方（表記）に関すること /各社表記比較や常用漢字表＋、略語など
linguistics
リンク
日本語形態素解析 - Japanese Morphological Analyzer
Visited: 5294 アルゴリズムによる日本語形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。正しく解析するには、人間が持っている知識、すなわち日本語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています
sst2008/05/27
writing
tool
linguistics
リンク
onomatopedia.net - このウェブサイトは販売用です！ - onomatopedia リソースおよび情報
This webpage was generated by thedomain owner using SedoDomain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor doesit constitute or implyits association, endorsement or recommendation.
sst2008/02/28
linguistics
blog
リンク
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab +ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
sst2008/02/08
全てクライアントサイドで解析を行う/辞書を使っていません
javascript
linguistics
library
リンク
誤字ェネレータを作った (polog)
誤字ェネレータは、入力された文章に含まれている漢字を誤字に置換するアプリです。dreamhost上のRailsで動いてます。 glitchmonkeyとかその辺の技術が僕は結構好きで、glitchというかcorruptingと言うか、そう言ったノイズ系のフィルタを日本語の文章にかけるのはどうしたらいいのか考えてました。一つの解は多分カットアップなんですが、それはもうきょうじんでやっていて結構いい感じなので、別のアプローチを考えてたんです。で、誤字かな、と。誤字って大抵見た目の似てる漢字を書いてしまうものなので、そういった感じの事を裏側ではやっています。ぶっちゃけこれ僕の初めての割とまともな趣味webアプリなので、嬉しくって動画とか撮っちゃってます。使い方結構シンプルですがとりあえずこれを見て頂くと言う事で。見ると分かると思うのですが、日本語の文章なんてぱっと思いつかねえよって方の
sst2008/01/07
library
ruby
writing
linguistics
tool
リンク
サービス終了のお知らせ
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
sst2007/12/28
writing
design
linguistics
リンク
漢字を類似度検索可能にする (polog)
アイデアとしては単純で、画像情報に落としたあとで全漢字pairに対して全pixelの一致数をカウントするだけ。これの時にはリアルに全漢字でやろうとしてたんだけど、2万字=>4億ペアなので断念した。常用漢字1945文字を対象とする。 ActiveRecordやら何やら使いたかったけど、普通にやると結構面倒だったのでrailsでプロジェクト作ってscript/runnerした。ファイル rakedb:migrateでcreate_table :chars do |t| t.column :char, :string t.column :byte, :integer end add_index :chars, :char add_index :chars, :byteこんなのとcreate_table :similarities do |t| t.column :c
sst2007/12/17
linguistics
tool
DB
program
search
リンク
1234次のページ