每日觀點(diǎn)：【W(wǎng)OTD】remittance 釋義/詞源/示例詞源詞根演化

來源：CSDN 時(shí)間：2023-03-07 11:39:12

一、決策樹原理

決策樹是一種比較常用的分類算法，理解起來也相對容易。所謂決策樹分類就是用決策條件構(gòu)成的一個(gè)樹狀預(yù)測模型，通過這個(gè)模型，我們可以對未知類別的數(shù)據(jù)進(jìn)行分類。

【資料圖】

二、決策樹的定義與核心思想

決策樹又稱為判定樹，是運(yùn)用于分類的一種樹結(jié)構(gòu)，其中的每個(gè)內(nèi)部節(jié)點(diǎn)代表對某一屬性的一次測試，每條邊代表一個(gè)測試結(jié)果，葉節(jié)點(diǎn)代表某個(gè)類或類的分布。決策樹的決策過程需要從決策樹的根節(jié)點(diǎn)開始，待測數(shù)據(jù)與決策樹中的特征節(jié)點(diǎn)進(jìn)行比較，并按照比較結(jié)果選擇選擇下一比較分支，直到葉子節(jié)點(diǎn)作為最終的決策結(jié)果。

三、決策樹構(gòu)造

決策樹的構(gòu)造過程不依賴領(lǐng)域知識，它使用屬性選擇度量來選擇將元組最好地劃分成不同的類的屬性。所謂決策樹的構(gòu)造就是進(jìn)行屬性選擇度量確定各個(gè)特征屬性之間的拓?fù)浣Y(jié)構(gòu)。

3.1構(gòu)造決策樹的關(guān)鍵步驟——分裂屬性

所謂分裂屬性就是在某個(gè)節(jié)點(diǎn)處按照某一特征屬性的不同劃分構(gòu)造不同的分支，其目標(biāo)是讓各個(gè)分裂子集盡可能地“純”。盡可能“純”就是盡量讓一個(gè)分裂子集中待分類項(xiàng)屬于同一類別。分裂屬性分為三種不同的情況：

屬性是離散值且不要求生成二叉決策樹。此時(shí)用屬性的每一個(gè)劃分作為一個(gè)分支。屬性是離散值且要求生成二叉決策樹。此時(shí)使用屬性劃分的一個(gè)子集進(jìn)行測試，按照“屬于此子集”和“不屬于此子集”分成兩個(gè)分支。屬性是連續(xù)值。此時(shí)確定一個(gè)值作為分裂點(diǎn)split point，按照>split point和<=split point生成兩個(gè)分支。構(gòu)造決策樹的關(guān)鍵性內(nèi)容是進(jìn)行屬性選擇度量，屬性選擇度量是一種選擇分裂準(zhǔn)則，是將給定了類標(biāo)記的訓(xùn)練集合劃分，“最好”地分成個(gè)體類的啟發(fā)式方法，它決定了拓?fù)浣Y(jié)構(gòu)及分裂點(diǎn)split point的選擇。屬性選擇度量算法有很多，一般使用自頂向下遞歸分治法，并采用不回溯的貪心策略，常用的算法有ID3和C4.5。在實(shí)際構(gòu)造決策樹時(shí)，通常要進(jìn)行剪枝，這是為了處理由于數(shù)據(jù)中的噪聲和離群點(diǎn)導(dǎo)致的過分?jǐn)M合問題。剪枝有兩種：先剪枝——在構(gòu)造過程中，當(dāng)某個(gè)節(jié)點(diǎn)滿足剪枝條件，則直接停止此分支的構(gòu)造。后剪枝——先構(gòu)造完成完整的決策樹，再通過某些條件遍歷樹進(jìn)行剪枝。

3.2 交叉驗(yàn)證

因?yàn)樵趯?shí)際的訓(xùn)練中，訓(xùn)練的結(jié)果對于訓(xùn)練集的擬合程度通常還是挺好的（初試條件敏感），但是對于訓(xùn)練集之外的數(shù)據(jù)的擬合程度通常就不那么令人滿意了。因此我們通常并不會把所有的數(shù)據(jù)集都拿來訓(xùn)練，而是分出一部分來（這一部分不參加訓(xùn)練）對訓(xùn)練集生成的參數(shù)進(jìn)行測試，相對客觀的判斷這些參數(shù)對訓(xùn)練集之外的數(shù)據(jù)的符合程度。這種思想就稱為交叉驗(yàn)證。

3.3函數(shù)介紹

（1）train_test_split函數(shù) train_test_split來自sklearn.model_selection，是交叉驗(yàn)證中常用的函數(shù)，它能從樣本中按比例隨機(jī)選取訓(xùn)練集和測試集。其用法如下： X_train, X_test, y_train, y_test = cross_validation.train_test_split(train_data, train_target, test_size=0.25, random_state=None) 參數(shù)解釋： . train_data：所要?jiǎng)澐值臉颖咎卣骷? . train_target：所要?jiǎng)澐值臉颖窘Y(jié)果。 . test_size：樣本占比，如果是整數(shù)的話就是樣本的數(shù)量。 . random_state：是隨機(jī)數(shù)的種子（2）tree.DecisionTreeClassifier函數(shù) DecisionTreeClassifier函數(shù)用于創(chuàng)建決策樹分類器。其用法如下： clf = tree.DecisionTreeClassifier() 常用參數(shù)解釋： . criterion： string類型，可選（默認(rèn)為"gini"）。指定使用哪種方法衡量分類的質(zhì)量。支持的標(biāo)準(zhǔn)有"gini"代表的是Gini impurity(不純度)與"entropy"代表的是information gain（信息增益）。 . splitter： string類型，可選（默認(rèn)為"best"）。指定在節(jié)點(diǎn)中選擇分類的策略。支持的策略有"best"，選擇最好的分類，“random"選擇最好的隨機(jī)分類。 . max_depth： int or None,可選（默認(rèn)為"None”）。表示樹的最大深度。 . min_samples_split： int,float,可選（默認(rèn)為2）。一個(gè)內(nèi)部節(jié)點(diǎn)需要的最少的樣本數(shù)。 . max_features： int,float,string or None類型，可選（默認(rèn)為None）。在進(jìn)行分類時(shí)需要考慮的特征數(shù)。 . random_state：可為int類型,RandomState 實(shí)例或None，可選（默認(rèn)為"None"）。如果是int,random_state是隨機(jī)數(shù)字發(fā)生器的種子；如果是RandomState，random_state是隨機(jī)數(shù)字發(fā)生器，如果是None，隨機(jī)數(shù)字發(fā)生器是np.random使用的RandomState instance.

四、編寫線性回歸算法代碼

4.1 基于鳶尾花數(shù)據(jù)集實(shí)現(xiàn)決策樹分類啟動環(huán)境后，登錄到服務(wù)器，編輯代碼文件： 1.導(dǎo)入用到的庫 2.加載數(shù)據(jù)集 3.構(gòu)建模型 4.模型評估 4.2基于癌癥數(shù)據(jù)集實(shí)現(xiàn)決策樹分類 1.導(dǎo)入數(shù)據(jù)集 2.提取數(shù)據(jù)

3.劃分?jǐn)?shù)據(jù)集

4.構(gòu)建模型 5.模型評估

6.決策樹的屬性

7.繪圖運(yùn)行結(jié)果：

責(zé)任編輯：

標(biāo)簽：

上一篇：環(huán)球觀速訊丨基于jsp+servlet+pojo+mysql的貼吧系統(tǒng) java項(xiàng)目源碼介紹
下一篇：最后一頁

相關(guān)推薦：

精彩放送：

一区二区三区电影_国产伦精品一区二区三区视频免费_亚洲欧美国产精品va在线观看_国产精品一二三四

每日觀點(diǎn)：【W(wǎng)OTD】remittance 釋義/詞源/示例 詞源詞根演化

每日觀點(diǎn)：【W(wǎng)OTD】remittance 釋義/詞源/示例詞源詞根演化