整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめにデータ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

『ダメな統計学』表紙 現在の科学研究において統計が誤用されていることが非常に多く、そのために科学研究の信頼性が揺らいでいることを記した『ダメな統計学』の冊子PDFを公開する。これは、アレックス・ラインハート氏が書いたStatistics Done Wrongの全訳である。理解を深めるために、訳注を比較的豊富に加えた。 2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』という本が出版されることになった。この本は、ここに掲載されているウェブ版の『ダメな統計学』の冊子PDFに比べると、大幅に加筆されている。ページ数で言うと2倍以上になっている。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 『ダメな統計学

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く