Movatterモバイル変換

mrkn id:mrkn

data_scienceに関するmrknのブックマーク (52)

Call to Action to the Tech Community on New Machine Readable COVID-19 Dataset | The White House
Statements & Releases Call to Action to theTech Community on NewMachine ReadableCOVID-19 Dataset Today, researchers and leaders from the Allen Institute forAI, Chan Zuckerberg Initiative (CZI), Georgetown University’s Center forSecurity andEmergingTechno logy (CSET),Microsoft, and the National Library of Medicine (NLM) at the National Institutes of Health released theCOVID-19 Open Research
mrkn2020/03/18
COVID-19
data_science
リンク
決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる - St_Hakky’s blog
こんにちは。決定木の可視化といえば、正直scikit-learnとgraphvizを使うやつしかやったことがなかったのですが、先日以下の記事をみて衝撃を受けました。そこで今回は、以下の解説記事中で紹介されていたライブラリ「dtreeviz」についてまとめます。 explained.ai dtreevizの概要 dtreevizとはより良い決定木の可視化を目指して作られたライブラリです。解説記事 : How to visualize decision treesGithub :GitHub - parrt/dtreeviz: Apython machine learning library for structured data. Sample Imagesdtreeviz/testing/samples at master · parrt/dtreeviz ·GitHub 多
mrkn2018/10/01
なにこれ便利
data_science
visualization
リンク
Computing Research and the Emerging Field of Data Science
mrkn2018/08/10
data_science
リンク
『仕事ではじめる機械学習』＆『前処理大全』著者対談（Part 1）
今回より4回を予定して、書籍『仕事ではじめる機械学習』著者の有賀康顕さん、『前処理大全』著者の本橋智光さんの対談をお届けいたします。ひょんなことから実現した今回の対談、今話題の機械学習を中心に、さまざまな角度からのお話しが飛び出します。まずはお二人の著書の話題から… 書籍の評判と執筆の苦労（名刺交換をするお二人…）有賀：そうか、CTOですもんね。本橋： CTOと言ってもエンジニアは僕入れて4人ですけどねｗ有賀：よくあるスタートアップのCTOって最初のエンジニアで、みたいな感じで。だから4人いるんだったら、ハイアリングがもうできるようになったという。本橋：でも、いまAndroid エンジニアがいないから僕Androidアプリ書いてますよｗ　もう少しすると入社する予定ですけれど。有賀：スタートアップのCTOはできることは何でもやるということで。いやあ。ご活躍されていて。本橋
mrkn2018/07/03
この対談面白いから早く続きほしい。
data_science
data_engineering
リンク
KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装 - u++の備忘録
今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。github.com アルゴリズムの概要Pythonでの例可視化のためのパッケージ読み込みサンプルデータの生成可視化 K近傍を用いた特徴量抽出可視化 iris での例追記20180624 実装の修正はてなホットエントリ入りアルゴリズムの概要近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。生成される特徴量は下記のように、観測値と各クラス内の最近傍点との間の距離から計算されます。とあるクラスに属する訓練データの中の第1近傍までの距離を1つ目の特徴量とするとあるクラスに属する訓練データの中の第2近傍までの距離の和を2つ目の
mrkn2018/06/24
kaggle
data_science
リンク
kaggleメルカリコンペの表彰式イベントに参加してきました - 周回遅れでIT業界デビューしたプロジェクトマネージャーのブログ
2018/5/9（水）に表題のイベントに参加してきました。 kaggle関連の催しは初めてなのでワクワク。お話を聞きながらタイピングしてそのまま載せているので、多少間違っているところがあるかもしれません。あらかじめご容赦下さい。メルカリコンペの趣旨海外から入賞者を招き、同時通訳を用意するなどしてイベントのために1000万かけた。日本人のkaggler少ないな、もっと活性化したい！という想いで、ハウツーを共有するためにイベントを開催した。第一部 1位のお二人 3つの異なるデータセットデータセットにつき4つのモデルいくつか使った方が品質が上がるスコアを高くするためにも色々な施策を試した Sparseのデータセットを使って、4モデルを同時に学習させたテキストの結合をさせることが大事だった宣言型と命令型の前処理をしたとても複雑なコードを使ったので理解しづらくなっている前処
mrkn2018/05/14
kaggle
data_science
リンク
Data Science Version Control System
Data Version Control – and much more – forAI projectsFree and open source, forever. Manage and version images, audio, video, andtext files in storage and organize your ML modeling process into a reproducibleworkflow. Connect storage to repoKeep large data and model files alongside code and share via your cloud storage. Configure steps as yougoDeclare dependencies and outputs at each step to bu
mrkn2018/04/27
data_science
git
リンク
東大松尾研、データサイエンティスト育成講座の演習を無料公開
東京大学大学院工学研究科の松尾研究室は3月19日、データ解析からモデルのアウトプットまで学べる講座「GCIデータサイエンティスト育成講座」（正式名：グローバル消費インテリジェンス寄附口座）で利用している演習コンテンツをWebで無償公開した。個人で学習する目的に限り、誰でも無料で利用できる。「無償公開によって、実社会で価値を生むことができるデータサイエンティストの育成拡大を目指す」としている。 JupyterNotebook形式で作成された全15章の演習コンテンツ。データのセットアップから解析、可視化やモデルのアウトプットまでを一気通貫で学べるという。データサイエンスの主要言語Pythonの基礎から学べるほか、統計的数値計算や機械学習に関する技術、SQLやMongo DB、分散処理フレームワークのSparkなど、ビッグデータ解析に関する技術も学習できる。個人で学習する目的のみで無償で利用で
mrkn2018/03/19
すばらしい
data_science
リンク
KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。参加の動機目標感: 頑張りすぎずに上位10%以内に入る試行錯誤 AthenaとRedashによる探索的データ解析ベンチマークをまず超える線形分類器でシンプルな特徴量時系列要素を忘れていて過学習発生特徴量エンジニアリン
mrkn2018/03/19
参考になる
kaggle
data_science
あとで読む
リンク
データ分析コンテストの 勝者解答から学ぶ
ステアラボ人工知能シンポジウム 2018 講演資料 https://stair.connpass.com/event/76647/
mrkn2018/03/03
参考になる
data_science
kaggle
リンク
Kaggle Competition: How I Ranked in the Top 15 with My First Attempt – Dataquest
Kaggle Competition: How I Ranked in theTop 15 with My First Attempt Kaggle competitions are a fantastic way to learn data science andbuild your portfolio. I personally used Kaggle to learn many data science concepts. I started out with Kaggle a few months after learning basicPython programming, and later won several competitions. Doing well in a Kaggle competition requires more thanjust knowin
mrkn2018/02/13
kaggle
data_science
tutorial
リンク
How to Use t-SNE Effectively
A popular method for exploring high-dimensional data is something called t-SNE, introduced by van der Maaten and Hinton in 2008 [1]. Thetechnique has become widespread in the field ofmachine learning, sinceit has an almost magical ability tocreate compelling two-dimensonal “maps” from data with hundreds or even thousands of dimensions. Although impressive, these images can betempting to misre
mrkn2018/01/12
tsne
machine_learning
data_science
exploratory_data_analysis
リンク
最先端と泥臭い実務の現場とのはざまで、生きる - 渋谷駅前で働くデータサイエンティストのブログ
(Photo by Pixabay) これはただの年末ポエムです。何ひとつとして高度に技術的な話もなければ、ためになる話もありませんので予めご了承ください。時が流れるのは早いもので、僕がインダストリーにおけるデータ分析の仕事を手がけるようになってから5年目の今年もほどなく終わろうとしています。上記の記事ではその間にあった様々な出来事を振り返りましたが、今回は現在の仕事のやり方について最近感じていることを徒然なるままに書き散らしてみようかと思います。想像を超えて遥かに進んでいく「最先端」今の業界*1で最先端と言えば一般にはDeep Learningとか〇〇Netのことを指すことが多いですし、以前「今の状況は『俺が考えた最強のネットワーク選手権』だ」と言った通りの有様だと個人的には認識しています*2。その意味では今年も最先端の研究開発の進化のスピードはとどまることを知らないという印象で
mrkn2017/12/28
machine_learning
data_science
business
リンク
Cookecutter Data Science
Cookiecutter Data Science Alogical, flexible, and reasonably standardized project structure for doing and sharing data science work.
mrkn2017/12/19
data_science
リンク
Structure and automated workflow for a machine learning project — part 1
How am I supposed to run this from the beginning?You start with a brand new idea for themachine learning project. First of all you download the dataset. Then perform some kind of preprocessing — possibly multi step because task is sophisticated. Youcreate abunch of models, some of them perform better while other ones worse. Oh shit, I overwrite my best model. No probl em — will trainit again. W
mrkn2017/12/19
data_science
リンク
データサイエンスプロジェクトのディレクトリ構成どうするか問題
あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。こういう話で「あーその手があったかー！」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。必要なものリストナウいデータサイエンス/機械学習プロジェクトの中には（経験上、ぱっと思い浮かぶだけでも）次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。ソースコード役割がいろいろある：前処理（こ
mrkn2017/12/19
参考になる
data_science
リンク
ニューラルネットの学習過程の可視化を題材に、Jupyter + Bokeh で動的な描画を行う方法の紹介 [Jupyter Advent Calendar 2017] | LESS IS MORE
ニューラルネットの学習過程の可視化を題材に、Jupyter + Bokeh で動的な描画を行う方法の紹介 [Jupyter Advent Calendar 2017] 前置き Jupyter Advent Calendar 2017 14日目の記事です。この記事は、Jupyternotebookで作成したものをnbconvertでmarkdownに変換し、手で少し修正して作りました。読み物としてはこの記事を、実行するにはノートブックの方を参照していただくのが良いかと思います。ノートブック (gist) nbviewer 概要適当なニューラルネットの学習過程の可視化（ロス、正解率の遷移等）を題材にして、Bokehを使って動的にグラフを更新していくことによる可視化の実用例を紹介します。このノートブックの冒頭に、最後まで実行すると得られるグラフ一覧をまとめました。どうやってグラフを作るのか
mrkn2017/12/15
参考になる
python
bokeh
jupyter_notebook
data_science
リンク
メルカリの分析チームとは？その全ての疑問にひとつひとつ答えます | メルカリエンジニアリング
この記事はMercari Advent Calendar 6日目の記事です。メルカリのBIチームのアナリスト/マネジャーの @hikaru が、メルカリの分析チームの事情についてお送りします。 ※ BIチーム…メルカリ内の分析を一手に担うチーム。Business Intelligenceチーム。この記事についてイベントやカジュアル面談などでメルカリの分析チームの内幕についてよく聞かれる質問があります。いえ、それどころか場合によっては社内であまり一緒に仕事する機会がない方々からも、チームに関して質問されることがあります。 ※ カジュアル面談…メルカリでは、社内のポジションに興味ある方にオフィスに来ていただいて1on1でざっくばらんに話す会を頻繁に行っています。正直、分析チームというのは外部から何をやっているか見えづらい面もあるため、理解できます。よく頂く質問としては、組織的なこ
mrkn2017/12/06
参考になる
data_science
business
リンク
ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm
Twitterで見かけた以下の記事で紹介されていた論文がおもしろそうだったので読んだ感想と内容のてきとーな紹介(詳しく知りたい人は元論文を呼んでください) マイクロソフトの研究者による、いわゆる A/B テストにおいてメトリックを解釈するときに陥りがちな罠12選。実例がことごとく直感に反していてとても面白かった。 https://t.co/jC9JOsx1uB— Shuhei Takahashi (@nya3jp) 2017年10月11日内容が間違っている部分があったらコメントなどで教えていただけると嬉しいです論文このKDD2017の論文ではABテストの結果を解釈する時に陥りがちな12種類の罠についてMicrosoftの研究者が実例と対策を交えて説明しています Pavel Dmitriev, Somit Gupta, Dong Woo Kim and Garnet Vaz, "A D
mrkn2017/10/16
この論文について社内の LT で喋る予定だったので、このタイミングでこれを読めて便利でした。
data_science
metrics
リンク
Franchise - 多数のデータベースに対応したSQLノートブック
SQLを覚えると実務で使える様々なデータを取得できるようになります。毎回同じようなSQLを記述するのが面倒で、テキストファイルに定番のSQLをメモで残している方も多いのではないでしょうか。そんな方にお勧めなのがFranchiseです。SQLを残しておけるノートブックです。 Franchiseの使い方メイン画面です。複数のデータベースに対応しています。結果を地図に描画する例です。グラフ。線グラフです。棒グラフ。並び替えた棒グラフ。ドットだけ。表示を2カラムにしています。一般的な一覧表も可能です。レンジを使ってその時の値を表示するパターン。メールを取り込んでクエリを投げるパターン。 FranchiseのデータリソースはSQLite/PostgreSQL/BigQuery/Mongo DB/Microsoft SQL Server/Oracle/DB2/Teradataなどとな
mrkn2017/10/15
便利そうだ
data_science
data_utilization
リンク
123次のページ