欧美日韩国产一区二区三区不卡,欧洲一区二区三区精品,日韩一区不卡,成人国产二区

representation(表示 (Representation):良好特征的特點)

時間:2023-08-13 22:17:08 閱讀:7

表現 (Representation):精良特性的特點

我們探究了將原始數據映射到切合特性矢量的辦法,但這只是事情的一局部。如今,我們必需探究什么樣的值才算這些特性矢量中精良的特性。

制止很少使用的散伙特性值

精良的特性值應該在數據會合顯現約莫 5 次以上。如此一來,模子就可以學習該特性值與標簽是怎樣關聯的。也就是說,多量散伙值相反的樣本可讓模子天然會了解不同設置中的特性,從而推斷何時可以對標簽很好地做出猜測。比如,house_type 特性約莫包含多量樣本,此中它的值為 victorian

?house_type: victorian

相反,假如某個特性的值僅顯現一次大概很少顯現,則模子就無法依據該特性舉行猜測。比如,unique_house_id 就不適互助為特性,由于每個值只使用一次,模子無法從中學習任何紀律:

?unique_house_id: 8SK982ZZ1242Z

最好具有明晰明白的涵義

每個特性關于項目中的任何人來說都應該具有明晰明白的涵義。比如,底下的房齡適互助為特性,可立刻識別是以年為單位的房齡:

?house_age: 27

相反,關于下方特性值的涵義,除了創建它的工程師,其他人恐怕辨識不出:

?house_age: 851472000

在某些情況下,雜亂的數據(而不是糟糕的工程選擇)會招致涵義不明晰的值。比如,以下 user_age 的泉源沒有反省值得當與否:

?user_age: 277

實踐數據內不要摻入特別值

精良的浮點特性不包含超出范圍的特別斷點或特別的值。比如,假定一個特性具有 0 到 1 之間的浮點值。那么,如下值是可以承受的:

?quality_rating: 0.82 quality_rating: 0.37

不外,假如用戶沒有輸入 quality_rating,則數據集約莫使用如下特別值來表現不存在該值:

?quality_rating: -1

為處理特別值的成績,需將該特性轉換為兩個特性:

  • 一個特性只存儲質量評分,不含特別值。
  • 一個特性存儲布爾值,表現對否提供了 quality_rating。為該布爾值特性指定一個稱呼,比如 is_quality_rating_defined

思索高明不安定性

特性的界說不應隨時間產生厘革。比如,下列值是有效的,由于都市稱呼尋常不會改動。(注意,我們仍舊必要將“br/sao_paulo”如此的字符串轉換為獨熱矢量。)

?city_id: "br/sao_paulo"

但搜集由其他模子推理的值會產生分外本錢。約莫值“219”現在代表圣保羅,但這種表現在將來運轉其他模子時約莫容易產生厘革:

?inferred_city_cluster: "219"

版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除

原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/wangluozixun/33606.html


Copyright ? 2021-2022 All Rights Reserved 備案編號:閩ICP備2023009674號 網站地圖 聯系:dhh0407@outlook.com

主站蜘蛛池模板: 三原县| 武夷山市| 怀化市| 元谋县| 安远县| 景谷| 定陶县| 阳高县| 巴南区| 荔浦县| 阜平县| 宝应县| 甘孜| 彰化市| 方正县| 铅山县| 尤溪县| 武宣县| 文登市| 肇庆市| 中宁县| 荥经县| 拉萨市| 五指山市| 阜新| 扎兰屯市| 聂拉木县| 峨边| 柳河县| 饶平县| 博爱县| 吴川市| 金乡县| 海门市| 灵璧县| 湟源县| 调兵山市| 山西省| 安新县| 曲靖市| 五寨县|