Movatterモバイル変換

nabinno id:nabinno

pandasに関するnabinnoのブックマーク (602)

データサイエンス系チートシートを網羅してみた - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめにこの記事では、私がこれまでXで発信してきたデータサイエンスに関わるさまざまな分野のチートシートを一挙にまとめました。前処理、可視化、機械学習、深層学習、ベイズ・統計、さらにはその他の関連トピックまで、私が作成したものからネット上のものまで多岐にわたる内容を網羅しています。それぞれのセクションでは、実践的かつ即戦力となる情報が詰まったチートシートを紹介しており、初心者から上級者まで幅広い層に役立つ内容を目指しました。日頃からX（旧Twitter）を通じて、データサイエンスに関する知識や役立つリソースを共有していますが、今回の
nabinno2025/01/14
qiita
pandas
numpy
matplotlib
python
cheatsheet
analytics
リンク
Pandas API on Spark — PySpark master documentation
PandasAPI on Spark¶ Options and settings Getting and setting options Operations on different DataFrames Default Index type Available options From/to pandas and PySpark DataFrames pandas PySpark Transf orm and apply a function transf orm and apply pandas_on_spark.transf orm_batch and pandas_on_spark.apply_batch Type Support in PandasAPI on Spark Type casting between PySpark and pandasAPI on Spark T
nabinno2024/12/17
apache-spark
pyspark
pandas
python
リンク
Python Pandas: How to read only first n rows of CSV files in?
I have a very large data set and I can't afford to read the entire data set in. So, I'm thinking of reading only one chunk ofit to train but I have no idea how to doit.
nabinno2023/11/08
nrows
stack-overflow
pd.read_csv
pandas
python
リンク
pandas.pivot_table — pandas 2.3.1 documentation
nabinno2023/11/07
pandas
pd.pivot_table
python
リンク
［解決！Python］CSVファイルから読み込みを行うには（pandas編）
pandasが提供するread_csv関数を使って、CSVファイルなどからデータを読み込む方法を紹介する。 import pandas as pd from pathlib import Path filepath = 'test0.csv' print(Path(filepath).read_text()) #0.0,1.1,2.2 #3.3,4.4,5.5 #6.6,7.7,8.8 df = pd.read_csv(filepath) print(df) # 0.0 1.1 2.2 #0 3.3 4.4 5.5 #1 6.6 7.7 8.8 # ヘッダー行がないことを指定 df = pd.read_csv(filepath, header=None) print(df) # 0 1 2 #0 0.0 1.1 2.2 #1 3.3 4.4
nabinno2023/11/04
na_values, na_filter
itmedia
shinji-kawasaki
pandas
pd.read_csv
python
リンク
【保存版】Pandas2.0のread_csv関数の全引数、パフォーマンス、活用テクニックを完全解説する！ - Qiita
はじめにみずほリサーチ&テクノロジーズ株式会社の@fujineです。本記事ではpandas 2.0を対象に、CSVファイルの入力関数である read_csvの全49個（！）の引数をじっくり解説いたします。具体的には、各引数には、どんな効果や（公式ドキュメントにも記載されていない）制約があるのか？引数を工夫することで、処理時間やメモリ消費量などのパフォーマンスが具体的にどれだけ改善されるのか？ pandasのver2.0では、それ以前のバージョンからどう変化したのか？多くの引数を保守しやすく管理するにはどうしたらいいか？を体系的に整理・検証することを目指します。新入社員/若手社員向けのレクチャーや、これまで「何となく」使っていた引数を「効果的に」使えるようになるためのノウハウ集としてご活用下さい！ read_csvの引数が49個もある理由「ただCSVを読み込むだけなのに、な
nabinno2023/11/04
na_values, na_filter
qiita
pandas
pd.read_csv
python
リンク
pandas.Series.str.split — pandas 2.3.1 documentation
nabinno2023/10/31
pandas
pandas.series.str.split
python
リンク
便利だけど分かりにくいデータフレームを再構築するPandasのMelt()関数のお話し
RだろうがPythonだろうが、データフレームを再構築することは少なくないでしょう。例えば…… 縦持ち（Long）のデータフレームを、横持ち（Wide）のデータフレームに再構築横持ち（Wide)のデータフレームを、縦持ち（Long）のデータフレームに再構築なんのこっちゃ……　と思われている方もいるかもしれませんが、データ分析などをしていると、このような再構築が必要になるケースが少なくありません。今回は、「便利だけど分かりにくいデータフレームを再構築するPandasのMelt()関数のお話し」というお話しをします。その中で、縦持ちのデータフレーム（Long DataFrame）や横持ちのデータフレーム（Wide DataFrame）というデータフレームが、どういったものなのかのお話しもします。 melt()関数と pivot()関数 pivot()関数に馴染みある方も多いと思い
nabinno2023/10/27
pandas
pd.melt
python
リンク
pandas.melt — pandas 2.3.1 documentation
nabinno2023/10/27
pandas
pd.melt
python
リンク
pandas.DataFrame.nsmallest — pandas 2.3.2 documentation
nabinno2022/12/22
pandas
pandas.dataframe.nsmallest
リンク
pandas.DataFrame.nlargest — pandas 2.3.2 documentation
nabinno2022/12/22
pandas
pandas.dataframe.nlargest
リンク
遅くないpandasの書き方 - ML_BearのKaggleな日常
これは何？この記事は Kaggle Advent Calendar 2021 の7日目の記事です。 pandasはデータ分析ライブラリとして非常に便利ですが、書き方を間違えると簡単に処理が遅くなってしまうという欠点があります。そこで、この記事では遅くならない書き方をするために気をつけたいポイントをいくつかご紹介したいと思います。このColab Notebookの実行結果をエクスポートした上で、不要な部分を一部削って記事にしています。colab notebook をコピーして実行してもらえれば再現することが可能なはずです。(colabにコメント等をいただいても返すことはできないと思います、すみません。) 前提条件この記事ではあくまで「遅くない(なりづらい)書き方を紹介する」ことに努めます。よって、以下のような改善点はあるが一旦考慮の外におくものとして話を進めます。並列化ライブラリ
nabinno2021/12/07
pandas
python
performance-engineering
リンク
pandas でメモリに乗らない大容量ファイルを上手に扱う - StatsFragments
概要分析のためにデータ集めしていると、たまにマジか！? と思うサイズのCSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、？このエントリでは普通には開けないサイズのCSV を pandas を使ってうまいこと処理する方法をまとめたい。サンプルデータたまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンでCSV を選択し、ローカルにzip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan
nabinno2021/06/30
pandas
chunksize
リンク
Python用データ分析ライブラリ「pandas」の読み方(発音)
Python用データ分析ツール「pandas」の正しい読み方をご存知ですか？筆者は何となく勝手に「パンダス」だと思っていたのですが、どうやらそれほど単純な話ではなさそうです。改めて、pandasの正しい読み方について、調べてみました。 1. 英語の原則としてはどう発音するのかまず、「pandas」は「panda(パンダ)」の複数形と同じスペルなので、それを英語では原則としてどう発音するのかを調べました。ちなみに英語で「panda」は、ジャイアントパンダを表す場合と、レッサーパンダ(red panda)を表す場合があるようです。
nabinno2021/05/17
Wes McKinneyは「pan-duss」、英語話者は「pan-duhz」と発音している
pandas
python
wes-mckinney
pronounciation
リンク
時間のかかる前処理をDaskで高速化 - ぴよぴよ.py
最近仕事で自然言語処理を使ったモデルを作成していたんですが、前処理やモデルを作る際に数分〜数十分単位の処理待ちの空き時間が頻繁に発生してしまい、その度集中力が切れる問題に悩まされていました。モデルの学習に時間がかかってしまうのはまた別の解決策を考えるとして、今回は時間のかかる前処理をDaskをつかって高速化した方法をお話ししようと思います。この記事は PyLadies Advent Calendar 2018 - Adventar の18日目の記事になります。 Daskとは？ Daskとは、numpyやpandasなどのデータを簡単に並列計算するライブラリ。あまり公式のチュートリアルがわかりやすくない(気がする)ので、基本的な使い方はPython Dask で並列 DataFrame 処理 - StatsFragments を見てみると良い。サンプルデータ今回はKagg
nabinno2021/04/27
dask
pandas
python
concurrent-computing
リンク
One-Hot Encoding in Python with Pandas and Scikit-Learn
Introduction In computer science, data can be represented in a lot of different ways, and naturally, every single one of them hasits advantages as well as disadvantages in certain fields. Since computers are unable to process categorical data as these categories have no meaning for them, this information has to be prepared if we want a computer to be able to processit. This action is called prep
nabinno2020/11/02
python
pandas
pandas.get_dummies
one-hot
sklearn.preprocessing.labelbinar
リンク
Pandas Categoricals
nabinno2020/08/23
matthew-rocklin
pandas
python
statistics
リンク
データサイエンティストとして読んで役立った本たち@2020-07｜だみ〜
2016年10月に未経験・新人データサイエンティストで雇ってもらいました。当時はまだ業界が牧歌的だったのと、比較的書類上のスペックが高い若者だったのもあり、運良く拾ってもらえたのでした。今だと100％受かってないです。そんな私が今までで読んだ本の中で、役に立った本をつらつら書いていきます。現代の若者がどんどん優秀になっているので、これくらいでいまんとこいっぱしのデータサイエンティスト（@ビジネスサイド）になれるんだなあという基準を述べようかと思いました。何年か後に振り返りたいですね。もちろん、これが誰かの学習の役に立てばと思っています。ちなみに、アフィリエイト入れてないので気にせず買っていってください。数学無難に解析学と線形代数学を勉強しておくといいと思っています。
nabinno2020/07/25
note
pandas
matplotlib
python
data-science
statistics
リンク
pandas.DataFrame.melt — pandas 2.3.2 documentation
pandas.DataFrame.melt# DataFrame.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)[source]# Unpivot a DataFrame from wide to long format, optionally leaving identifiers set. This function is useful to massage a DataFrame into a format where one or more columns are identifier variables (id_vars), while all other columns, considered measured va
nabinno2020/06/19
pandas
python
pandas.datafrme
pandas.datafrme.melt
リンク
pandas.get_dummies — pandas 2.3.2 documentation
pandas.get_dummies# pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)[source]# Convert categorical variable into dummy/indicator variables. Each variable is converted in as many 0/1 variables as there are different values. Columns in the output are each named after a value; if the input is a DataFrame, the name of the or
nabinno2020/05/05
pydata
python
pandas
pandas.get_dummies
dummy-data
one-hot
リンク
12345678910次のページ