Movatterモバイル変換


[0]ホーム

URL:


跳去內容
維基百科
查嘢

數據科學

出自維基百科,自由嘅百科全書
2018 年其中一個禮拜英維最多人睇嗰 25 篇文嘅名同瀏覽數;要點樣利用呢啲數據達到目的呢?

數據科學粵拼sou3 geoi3 fo1 hok6)係跨學科科學領域,重點研究點樣運用科學方法同埋各種演算法,由有結構或者冇結構嘅數據嗰度搵出有用知識[1][2]。有數據科學家主張,數據科學可以用以下一句說話概括[3]:用最勁嘅硬件、最勁嘅編程系統、同用最有效嘅演算法嚟解決問題。

概論

[編輯]
空間性質嘅數據:想像幅圖係某地圖,每一個黑點表示一個霍亂個案。噉樣嘅數據有助公共健康工作者搵出疾病嘅來源喺邊。
内文:大數據統計

數據科學喺好多領域都有用。

譬如公共健康領域就成日用數據科學。喺公共健康上,研究者可以用空間分析做法,好多公共健康機構都會噉做:佢哋搵定一個想研究嘅地區,並且結合多源資料,包括流行病學調查、透過人造衛星攞到嘅數據、人群分佈、媒分佈、藥物同蚊帳嘅覆蓋率... 等,並且將啲資料畫做地圖,從而識別邊啲地區較高風險、邊啲地區似係多病原體,進而幫助決策者為疫苗、藥物同防蚊措施做精準部署。呢種做法常用於研究瘧疾等由害蟲傳染嘅病[4]

電腦保安工作亦有機會用到數據分析。一個簡單嘅做法係用邏輯迴歸嚟判斷某次活動係咪攻擊,抑或只係正常嘅活動[5]。研究者可以搵一啲數據返嚟,再建立好似噉嘅模型

P(Y=1X)=11+e(β0+β1x1+β2x2++βpxp){\displaystyle P(Y=1\mid X)\;=\;{\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\cdots +\beta _{p}x_{p})}}}}

例如佢用三個特徵去預測是次活動係咪入侵Y = 係咪入侵):

用數據科學上嘅演算法估計出啲β{\displaystyle \beta } 就得出個模型,研究者第時攞住個模型,就可以對未來嘅個案作出預測。

工序

[編輯]
睇埋:科學方法研究問題

做數據科學工作,工序大致如下[6]

  1. 界定清楚要解決嘅問題係乜。例:家陣有個數據科學家,俾人請佢幫手做市場研究,佢首先要搞清楚是次研究想達到乜目的(搞清楚消費者鍾意同唔鍾意件產品啲乜,再按呢個資訊改良件產品)。亦可以睇睇研究問題假說
  2. 做一啲探索性質嘅分析,諗吓手上嘅數據解答到乜嘢同目的相關嘅問題。例:手上個數據庫有一大柞消費者嘅數據,知道每個消費者對件產品喺各方面嘅評價,計劃可以試吓做聚類分析將消費者分做若干類。
  3. 建立數學模型,描述柞數據入面有啲乜嘢規律喺當中。例:用機械學習演算法做返咗個聚類分析,結果係消費者可以按照佢哋對件產品各方面嘅評價分做三大類。
  4. 匯報個結果(尤其係步驟 3 嘅結果)俾相關人員聽。
  5. 講吓個結果有乜嘢影響-即係知道咗呢個結果,目前嘅做嘢方法要有乜嘢改變先可以更有效噉達到目的。例:知道咗消費者可以分做三類,產品設計要點改變先可以令消費者更加滿意?

影響

[編輯]
睇埋:範式轉移

有人提出,數據科學係科學第四範式:本來科學係以實證理論計算為重嘅,廿一世紀初就喺呢三樣之上加多個數據[7];數據科學會運用數學統計學機械學習以及資訊科學等領域嘅技術,由手上嘅數據嗰度抽取有用嘅知識,並且攞去有經濟價值嘅地方度使用,例如根據手上數據,啲變數之間成咩關係,而呢個預測現象嘅能力可以作某啲商業用途[8]。數據科學伴隨住廿一世紀資訊科技應運而生-隨住互聯網發達,有大量數據喺網上流動(大數據),於是有唔少人開始想利用呢啲數據做有用嘅嘢,數據科學就隨之興起[9][10]

睇埋

[編輯]

參考

[編輯]

  • Understanding The 4 V's Of Big Data,Forbes,呢篇文講到大數據4V,即係指數據量大(volume)、花款多(variety)、攞得快(velocity)、而且有時難核實(veracity)。
  • Cielen, D., Meysman, A., & Ali, M. (2016).Introducing data science: big data, machine learning, and more, using Python tools. Manning Publications Co.
  • Grus, J. (2019).Data science from scratch: first principles with python. O'Reilly Media.

引述

[編輯]
  1. Dhar, V. (2013). "Data science and prediction".Communications of the ACM. 56 (12): 64–73.
  2. Jeff Leek (12 December 2013). "The key word in "Data Science" is not Data, it is Science互聯網檔案館歸檔,歸檔日期2018年8月21號,.".Simply Statistics.
  3. Leskovec, Jure; Rajaraman, Anand; Ullman, Jeffrey David.Mining of Massive Datasets (PDF) (Preprint of 3rd ed.). Cambridge University Press. p. 1.
  4. GIS for Public Health.
  5. Ogundokun RO, Odusami M, Sisodia DS, Awotunde JB, Tiwari DP. A Novel PCA-Logistic Regression for Intrusion Detection System. InInternational Conference on Information Systems and Management Science 2022 Oct 6 (pp. 575-588). Cham: Springer International Publishing.
  6. A Design Thinking Mindset for Data Science互聯網檔案館歸檔,歸檔日期2023年9月2號,..Towards Data Science
  7. Tansley, S., & Tolle, K. M. (2009).The fourth paradigm: data-intensive scientific discovery (Vol. 1). A. J. Hey (Ed.). Redmond, WA: Microsoft research.
  8. Hayashi, Chikio (1 January 1998). "What is Data Science? Fundamental Concepts and a Heuristic Example". In Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (eds.).Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization. Springer Japan. pp. 40–51.
  9. Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge".Science. 323 (5919): 1297–1298.
  10. "ASA Statement on the Role of Statistics in Data Science".AMSTATNEWS. American Statistical Association.

[編輯]
  • (英文)Towards Data Science(譯:通向數據科學),講數據科學嘅網站,雲集好多數據科學工作者,討論數據科學議題。
基本概念
數學模型
迴歸
網絡基礎
網絡概念
其他模型
最佳化
學習範式
模型評估
主要應用
拉雜相關
由「https://zh-yue.wikipedia.org/w/index.php?title=數據科學&oldid=2322768」收
屬於1類
屬於2隱類:

[8]ページ先頭

©2009-2025 Movatter.jp