數據挖掘技術越來越成熟和復雜。隨著互聯網的發展和大量數據的到來,傳統的依靠spss、sas等可視化工具實現數據挖掘建模已經越來越不能滿足日常需求。根據美國對數據科學家的要求,要成為真正的數據科學家,編程實現算法和編程實現建模是必要條件;目前,許多從事數據挖掘的人大多來自非計算機專業,編程基礎相對較低。因此,找到快速高效的編程語言非常重要。好的工具和編程語言可以事半功倍,下面介紹一下數據分析師用的幾種工具。
目前數據挖掘算法中最常用的編程語言有:Java、C++、C、Python、R等。
由于作者本人來自數學統計學,復雜而先進的語言對我來說并不劃算,所以我想從Java、C++和C開始學習,浪費的時間和精力顯然與收獲不成正比。所以Python和R語言已經成為最好的選擇。對于與我背景相似的數據從業者,我強烈建議從兩者中選擇一種。
R和Python是我想討論的第三類工具。雖然像Excel和BI工具這樣的軟件已經盡力考慮到大多數應用場景的數據分析,但它們基本上是定制的。如果軟件沒有設計功能或為功能開發按鈕,你可能無法使用它們來完成工作。
在這一點上,編程語言是不同的。它非常強大和靈活。您可以編寫代碼執行所需的任何操作。例如,R和Python是數據科學家必不可少的工具。從專業的角度來看,它們絕對比Excel和BI工具更強大。