1樓:網友
特徵工程是將原始資料轉換為更好地代表**模型的潛在問題的特徵的過程,從而提高了對未知資料的模型準確性。
比如原始資料可能非常龐大,但是對我們有用的資料可能就是其中的幾項,而其他項留著可能會影響我們的結果,因此可以進行特徵選擇。或者比如我們想要在把資料放到演算法中進行計算的時候,一些文字資料先要轉換成數字型別的資料,這時候就需要進行one-hot編碼,等等。所有這些在把資料輸入演算法之前做的事情,都可以統稱為特徵工程。
特徵工程的意義:
更好的特徵檔蘆稿會有更強的魯棒性(穩定性)。
更好的特徵只需用簡單模型。
更好的特徵會有更準確的結果。
特徵抽取。在資料譁拆進入演算法之前,先需要對資料進行一些特徵抽取。以下是特徵處理中常用到的方法:
字典特徵抽取:
字典特徵抽取,就是針對一系列字典中的資料進行抽取。示例**如下:
from import dictvectorizer
fruits =
vect = dictvectorizer()
result =
print(result)
print(
print(
print(type(result))
登入後複製。
其中result返回的是乙個sparse矩陣,是scipy庫中的資料型別。sparse的特點是可以節省記憶體,因為他只會記錄這個列表中哪些位置出現了非0的值,以及具體的值。
2樓:煙塵星空紫
屬於判讓衝。特徵工程有特徵抽取,字典特徵抽取,文字特徵抽取等,掘殲是將原始資料轉換為更滑睜好地代表**模型的潛在問題的特徵的過程,從而提高了對未知資料的模型準確性。
3樓:帳號已登出
抽樣演算法屬於特徵工程。抽樣演算法屬於特徵工程。
特徵工程到底是什麼?
4樓:網友
在嵌入式特徵選擇中,特徵選擇演算法本身作為組成部分嵌入到學習演算法裡。最典型的即決策樹演算法,如id3、以及cart演算法等,決策樹演算法在樹增長過程的每個遞迴步都必須選擇乙個特徵,將樣本集劃分成較小的子集,選擇特徵的依據通常是劃分後子節點的純度,劃分後子節點越純,則說明劃分效果越好,可見決策樹生成的過程也就是特徵選擇的過程。過濾式特徵選擇的評價標準從資料集本身的內在性質獲得,與特定的學習演算法無關,因此具有較好的通用性。
通常選擇和類別相關度大的特徵或者特徵子集。過濾式特徵選擇的悄粗研究者認為,相關度較大的特徵或者特徵悄賣子集會在分啟運逗類器上可以獲得較高的準確率。過濾式特徵選擇的評價標準分為四種,即距離度量、資訊度量、關聯度度量以及一致性度量。
5樓:利之翠
在機器學習的具體實踐任務中,選擇一組具有代表性的特徵用於構建模型是非常重要的問題。特徵選擇通常選擇與類別相關性強、且特徵彼此間相關性弱的特徵子集,具體特徵選擇演算法通過定義合適的子集評價函式來體現。在現實世界中,資料通常是複雜冗餘,富有變化的,有必要從原始資料發現有用的特性。
人工選取出來的特咐行徵依賴人力和專業知識,不利於推廣。於是我們需要通過機器來學習和抽取特徵,促進特徵工程的工作更加快速、有效。特徵選擇的目標是尋找最優特徵子集。
特徵選擇能剔除不相關(irrelevant)或冗餘(redundant )的特徵,從而達到減少特徵個數,提高模型精確度,減少執行時間的目的。另一方面,選取出真正相關的特徵簡化模型,協助理解資料產生的過程特徵選擇的搜尋策略分為:完全搜尋策略、啟發式策略以及隨機搜尋策略。
特徵選擇本質上是乙個組合優化問題,求解組模賀合優化問題最直接的方法就是搜尋,理論上可以通過窮舉法來搜尋所有可能的特徵組合,選擇使得評價標準最優的特徵子集作為最後的輸出,但是n個特徵的搜尋空間為2n,窮舉法的運算量隨著特徵維數的增加呈指數遞增,實際應用中經常碰到幾百甚至成千上萬個特徵,因此窮舉法雖然簡單卻難以實際應用。其他的搜尋方法有啟衡碼譁髮式的搜尋和隨機搜尋,這些搜尋策略可以在運算效率和特徵子集質量之間尋找到乙個較好的平衡點,而這也是眾多特徵選擇演算法努力的目標。<>
6樓:知哥66234譾掣
引用一下吳恩達的話:「應用機器學習其實就是在做特徵工程,特徵工程是非常難、耗時、也是需要專業知識的乙個工作。」我們理想中機器學習的情況:
有很乾淨的raw data,然後變成可學習的dataset, 通過某些演算法學出某些模型攜肆桐,然後解決乙個問題,這是最理想的乙個狀態。但現實中,我們會有各種各樣的資料,有的從資料雹猛庫來,有的從日誌來,有的從半結構結構化文件來,有的從無結構的音訊、才能夠被我們機器學習所使用,從而能學辯坦習出模型解決出問題。<>
7樓:bonree博睿資料
特徵工程是工業界建模中最最最重罩逗要的乙個模組。模型效果的好壞,一部分是由資料質量決定的,另一部分是由特徵工程決定的,大家使用的演算法有時候都是團脊一樣的。
簡單舉個例子來說,金融信貸申請反欺詐場景下,當乙個新的使用者來申請貸款,我們如何評估乙個使用者是欺詐使用者還是正常使用者,那麼就需要找到這二者在哪些塌悶滲特徵上表現存在差異,通過這些特徵來進行區分。
尋找基本特徵、構建組合特徵來有效地區分不同label的樣本,這個就是特徵工程。
特徵工程--特徵變換
8樓:拋下思念
1、特徵尺度變換。
什麼是特徵尺度變換。
是一種電腦視覺的演算法用來偵測與描述影像中的區域性性特徵,它在空間尺度中尋找極值點,並提取出其位置、尺度、旋轉不變數;其應用範圍包含物體識別、機械人地圖感知與導航、影像縫合、3d模型建立、手勢辨識、影像追蹤和動作比對。支援常見的尺度變化函式 log2,log10,in,abs,sqrt。支援稠密或稀疏。
如何使用特徵尺度變換。
阿里數加平臺提供在畫布區拖拽式的方式進行配置,以演算法引數的方式提供給使用者,要想使用每個元件,須先了解每個引數的含義。
2、特徵異常平滑。
什麼是特徵異常平滑。
將輸入特徵中含有異常的資料平滑到一定區間,支援稀疏和稠密(特徵平滑元件只是將異常取值的特徵值修正成正常值,本身不過濾或刪除任何記錄,輸入資料維度和條數都不變)
如何使用特徵異常平滑。
特徵異常平滑分為 zscore平滑、百分位平滑、閾值平滑。
3、異常檢測模組。
什麼是異常檢測模組。
顧名思義,異常檢測就是檢測異常的;分為針對連續值特徵的異常(按箱線圖最大值和最小值檢測異常特徵),針對列舉值特徵的異常(按照列舉特徵的取值頻率,按照閾值過濾異常特徵)
如何使用異常檢測模組。
阿里數加平臺提供在畫布區拖拽式的方式進行配置,以演算法引數的方式提供給使用者,要想使用每個元件,須先了解每個引數的含義。
4、one-hot編碼。
什麼是one-hot編碼。
one-hot編碼,也稱獨熱編碼,對於每乙個特徵,如果它有m個可能值,那麼經過獨熱編碼後,就變成了m個二元特徵。薯冊凱並且,這些特徵互斥,每次只有乙個啟用。因此,資料會變成稀疏的,輸出結果也是k:
v的稀疏結構。
如何使用one-hot編碼。
二值化。5、特徵離散。
什麼是特徵離散。
顧名思義,特徵離散就是離散特徵的,分為「支援稠密或稀疏的數值類特徵離散」和「支援等頻離散和等距離離散」
如何姿純使用特徵離散。
直接選擇離散方法和離散區間即可。
6、主成分分析(pca)
什麼是主成分分析。
pca利用主成分分析方法,實現降維和降噪的功能;目數喚前支援稠密資料格式。
如何使用主成分分析。
我也不是很清楚,等清楚之後再補。
特徵工程是不是無監督演算法
9樓:桐雨文
特徵工程的演算法是基於所需工程的工程量而決定的,並不是無監督演算法。
特徵工程的目的
10樓:網友
1)特徵越好,靈活性越強。
只要特徵選得好,即使是一般的模型(或演算法)也能獲得很好的效能,因為大多數模型(或演算法)在好的資料特徵下表現的效能都還不錯。好特徵的靈活性在於它允許你選擇不復雜的模型,同時執行速度也更快,也更容易理解和維護。
2)特徵越好,構建的模型越簡單。
有了好的特徵,即便你的引數不是最優的,你的模型效能也能仍然會表現的很nice,所以你就不需要花太多的時間去尋找最有引數,這大大的降低了模型的複雜度,使模型趨於簡單。
3)特徵越好,模型的效能越出色。
顯然,這一點是毫無爭議的,我們進行特徵工程的最終目的就是提公升模型的效能。
判斷抽樣是屬於統計抽樣還是非統計抽樣
是的。因為詢問沒法留下任何軌跡供審計抽樣,即沒東西可抽,所以沒法使用審計抽樣。抽樣適用於留下軌跡的控制測試,比如簽字。判斷抽樣是屬於統計抽樣還是非統計抽樣 建議您結bai 合統計抽樣的內容一du並理解。對於統計抽zhi樣dao,必須掌握兩點,一是隨機專抽樣 總屬體中各個個體在被抽取時不但都有機會被選...
民法通則屬於什麼法?我國現行物權法屬於什麼法
你好第一題我認為選擇bc 我國不是判例法國家,是成文法國家,第二題選擇bc一樣的理由 希望對你有所幫助 第乙個選a,第二個選c 民法包括哪些法律?80 民法包括 民法總則,民法通則,物權法,合同法,擔保法,侵權責任法,婚姻法,繼承法,消費者權益保 等。民法是調整平等民事主體之間的社會關係的法律規範。...
律師違法屬於哪個部門管?要什麼程式?
接受委託人的委託,律師是為自己的當事人服務,律師是靠自己的服務獲得報酬,律師是依法提供法律服務。你如果有證據證明你的 律師,與對方串通,何時發現,為何不及時終止 合同。如果投訴,需要證據,向當地司法局投訴,也可以向省律師協會投訴。有證據也可以到法院律師違反合同約定,不是依法為你提供服務,而是利用 關...