データ分析の練習や説明用によく使われる、「1970年代の」ボストンの不動産価格データセットは、"ethical problem" があって、いろんな機械学習ライブラリから排除されるのね。
“B”
Just incaseyou’ve gotten this far without somehow paying attention, the column in questionis called “B”:
B: Black proportion of population. (1970 US Census)
Thisis already offensive to 2019eyes (and hopefully 1975eyes). Butlet’stry to give the authors thebenefit of some doubt that I’mmissingsomething historical, orotherwise relevant, that would warrant the inclusion of thisfield in the “common specification” of hedonichouse pricing.
racist data destruction?. aBoston housing dataset controversy |by M Carlisle |Medium
https://medium.com/@docintangible/racist-data-destruction-113e3eff54a8
Deprecated sinceversion 1.0: This functionis deprecated in 1.0 andwill be removed in 1.2. See thewarningmessage below for further details regarding thealternative datasets.
sklearn.datasets.load_boston — scikit-learn 1.0.1 documentation
https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html
データに含まれる "B" という「地域住民のうちの黒人の割合」を示す列がいかんらしいね。まぁ、日本で「〇〇市の不動産価格データセット」があったとして、そこに「地域住民のうちの部落出身者の割合」が同じく "B列" であったら燃えるだろうしなぁ。でも、実際に目的変数である不動産価格に負の影響を及ぼしてるんだけどねぇ。