こんにちは、初心者です。 適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。 何をやるの? データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。 トピックニュース、Sports Watch、ITライフハック、家電チャンネル 、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。 データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。 これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が

ryeとuvとはなにか 移行のモチベーション 移行方法 おわり ryeとuvとはなにか rye:Python のプロジェクトとパッケージ管理を包括的に行うことを目的に開発されているツール。Python のバージョン管理・venv 管理・依存関係管理を一括で行えるのが特徴であり、タスクランナーなども付属している。 rye.astral.sh uv: pip と pip-compile を置き換えることを目標にしたツール。要するに依存関係が爆速なpipくらいの認識で良い。Rust における cargo の立ち位置を目標に開発されており、rye は途中から内部的に uv を利用するようになった。 docs.astral.sh 最近では uv が rye 同等のプロジェクト管理機能を持つようになり、2024.10.12 時点ではタスクランナー以外の rye でできることは uv でもできると
参加者はPythonを用いて行う日本語文書の自然言語処理から未知語・重要語を抽出する手法の知識を得ます.また,この手法によって実装されたシステムの事例から,機械学習の手法を用いなくとも精度の高い転置索引による全文検索が実現可能となります.日本語解析が必要なシステムの選択肢の一つとなればと思います. ###形態素解析については - Mecab-Pythonを使用した形態素解析では何もしない状態では以下のように日本語トークンが抽出されます. import MeCab tagger = MeCab.Tagger()text = u'安倍晋三首相は17日、2020年東京五輪・パラリンピックのメーン会場となる新国立競技場'.encode('utf-8') token = tagger.parseToNode(text) while token: print token.posid, unicod

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く