搜狐彩票投注

當前位置: 首頁 > 數據分析師 > 數據分析師學習教程 > 這些必備的數據分析技術,才是數據分析師需要掌握的技能

這些必備的數據分析技術,才是數據分析師需要掌握的技能

發布時間:2020年05月21日 10:20:09 來源:環球網校 點擊量:

搜狐彩票投注【摘要】對于數據分析師來說,掌握數據分析技術才是硬道理,所以說這些必備的數據分析技術,才是數據分析師需要掌握的技能,為了讓大家對于所說的從業標準了解的更詳細,小編特地為大家講解的這些必備的數據分析技術,才是數據分析師需要掌握的技能,希望本文對您帶來幫助。

1、必備的數據分析技術——訓練數據

許多機器學習從業者習慣于在任何深度神經網絡(DNN)中使用原始(raw)訓練數據。為什么不這樣做呢,任何 DNN(大概)仍會給出好的結果,對吧?但是,說出「給出正確的數據類型,一個十分簡單的模型會比一個復雜的 DNN 更快地給出更好的結果」(雖然,這可能會有例外)并不是很守舊派的。因此,無論你是在做計算機視覺,還是在做自然語言處理或統計建模等,你都應該嘗試預處理您的原始數據。你可以采取以下幾個方法來獲得更好的訓練數據:

搜狐彩票投注盡可能大的數據集(DNN 對數據的需求是相當大的:越多越好)

搜狐彩票投注刪除所有具有損壞數據的訓練樣本(短文本、高失真圖像、虛假輸出標簽、具有大量空值的特征等)

數據增強——創建新樣本(如果是圖像,可以重新縮放、添加噪聲等)

2、必備的數據分析技術——選擇適當的激活函數

搜狐彩票投注激活函數在任何神經網絡中都是重要組成部分之一。激活將大家非常期望的非線性效果引入到了模型中。多年來,sigmoid 激活函數一直是最好的選擇。但是 sigmoid 函數本質上有兩個缺陷:

搜狐彩票投注1.sigmoid 尾部的飽和(會進一步導致梯度消失問題)

搜狐彩票投注2.sigmoid 不是以 0 為中心的。

搜狐彩票投注一個更好的選擇是 tanh 函數——在數學上,tanh 只是一個重新縮放和移位的 sigmoid,tanh(x) = 2*sigmoid(x) - 1。雖然 tanh 仍然可能遭受梯度消失問題,但好消息是 tanh 是以零為中心的。因此,使用 tanh 為激活函數可以更快地收斂。我使用中也發現使用 tanh 作為激活函數通常比使用 sigmoid 函數好。

你可以根據具體任務進一步探索其它選擇,如已經表現出可以改善一些問題的 ReLU,SoftSign 等函數。

3、必備的數據分析技術——隱含單元和隱含層的數量

使用比最佳隱含單元數更多的數量通常是安全的。因為,任何正則化方法在一定程度上都可以處理多余的單元。而另一方面,使用比最佳隱含單元數更少的數量時,發生欠擬合的概率更高一些。

搜狐彩票投注此外,當采用無監督學習預訓練的表示(pre-trained representations,在后面部分中描述)時,隱含單元數的最佳數量通常要更大一些。因為,在各種表示中(對于特定的監督任務),預訓練表示可能會包含大量的無關信息。通過增加隱含單元的數量,模型將具有足夠支持從預訓練表示中過濾出最合適的信息的靈活性。

搜狐彩票投注選擇最佳隱含層數是相對簡單的。正如 Yoshua Bengio 在 Quora 上提到的:「你只需要繼續添加層,直到測試錯誤不再改善為止」。

4、必備的數據分析技術——權重初始化

始終使用小隨機數(random numbers)初始化權重,以打破不同單元之間的對稱性。但是權重應該多小呢?推薦的上限是多少?使用什么概率分布來生成隨機數?此外,當使用 sigmoid 激活函數時,如果權重被初始化為非常大的數,則 sigmoid 函數將會飽和(尾部區域),導致死亡神經元(dead neurons)。如果權重非常小,則梯度也會很小。因此,最好在中間范圍選擇權重,并且使它們圍繞平均值均勻分布。

幸運的是,目前已經有很多關于初始權重的適當值的研究,這對于有效的收斂是非常重要的。為了初始化得到均勻分布的權重,uniform distribution 可能是最好的選擇之一。此外,如論文(Glorot and Bengio, 2010)所示,具有更多傳入連接(fan_in)的單元應具有相對較小的權重。

由于所有這些深入的實驗,現在我們有一個測量公式,可以直接用于權重初始化;例如從~ Uniform(-r, r) 范圍獲得權重,對于 tanh 作為激活函數的時候,r=sqrt(6/(fan_in+fan_out));而對于 sigmoid 作為激活函數的時候,r=4*(sqrt(6/fan_in+fan_out)),其中 fan_in 是上一層的大小,fan_out 是下一層的大小。

5、必備的數據分析技術——訓練速率

搜狐彩票投注這可能是最重要的超參數之一,決定了整個學習過程。如果設置的學習速率太小,你的模型可能需要幾年才能收斂;如果學習速率太大,在開始訓練幾個樣本之后,你的損失值(loss)可能會迅速增加。一般來說,0.01 的學習速率是安全的,但這不應被視為一個嚴格的規則;因為最佳學習速率應該根據具體任務來調整。

相比之下,在每個 epoch 之后選擇固定的學習率(learning rate)或者逐漸降低學習率(learning rate)是另一個選擇。雖然這可能有助于訓練得更快,但需要人工確定新的學習率。一般來說,學習率可以在每個 epoch 后減半——這幾類策略在幾年前相當普遍。

幸運的是,現在我們有更好的基于動量(momentum based methods)方法來改變學習率,就是基于誤差函數的曲率。這種方法也可以幫助我們為模型中的各個參數設置不同的學習率;使得一些參數可能以相對較慢或較快的速率學習。

近期大量針對優化方法的研究也產生了自適應學習率(adaptive learning rate)方法。現在,我們有很多可選擇的方法,從老牌的動量方法(Momentum Method)到 Adagrad、Adam(我最喜歡的方法)、RMSProp 等。像 Adagrad 或 Adam 這樣的方法有效地避免了手動選擇初始學習速率,并且模型能在一定的時間內順利地收斂(當然,如果選擇好的初始速率會進一步幫助模型收斂)。

5、必備的數據分析技術——超參數微調:旋轉的網格搜索,擁抱隨機搜索

網格搜索(Grid Search)是經典的機器學習方法。但是,在尋找 DNN 的最佳超參數時,網格搜索并不高效。主要是因為嘗試不同的 DNN 超參數組合所花費的時間太長。隨著超參數的數量不斷增加,網格搜索所需的計算也呈指數增長。

這里有兩種方法:

1. 根據經驗手動調整一些常用的超參數,如學習率、層數(number of layer)等。

1 2

分享到: 編輯:吳晨輝

數據分析師相關文章推薦

|

數據分析師最新文章推薦

綁定手機號

應《中華人民共和國網絡安全法》加強實名認證機制要求,同時為更加全面的體驗產品服務,煩請您綁定手機號.

預約成功

搜狐彩票投注

搜狐彩票投注

本直播為付費學員的直播課節

請您購買課程后再預約

環球網校移動課堂APP 直播、聽課。職達未來!

安卓版

下載

iPhone版

下載
環球小過-環球網校官方微信服務平臺

刷題看課 APP下載

免費直播 一鍵購課

代報名等人工服務

返回頂部