本文節選自《智慧農業(中英文)》2021年第3卷第4期,黃鋁文副教授團隊的文章《基于介電特征的蘋果黴心病檢測方法》,其引用格式如下,歡迎大家閱讀、引用。
引文格式:李東博, 黃鋁文, 趙旭博. 基于介電特征的蘋果黴心病檢測方法[J]. 智慧農業(中英文), 2021, 3(4): 66-76.
LI Dongbo, HUANG Lyuwen, ZHAO Xubo. Detection method of apple mould core based on dielectric characteristics[J]. Smart Agriculture, 2021, 3(4): 66-76.
點擊直達知網閱讀
點擊直達官網閱讀(全文,免費)
基于介電特征的蘋果黴心病檢測材料與方法
李東博, 黃鋁文, 趙旭博
1 試驗材料
本研究以蘋果9種頻率下的12項介電指标為研究對象,所使用蘋果采集自陝西省白水縣西北農林科技大學蘋果試驗站,品種為“富士”,通過人工精心選擇挑選一批好果和疑似黴心病果。從中挑選大小相似、顔色相近、表皮無損傷的蘋果220個,于室溫下儲藏。
2 蘋果介電參數采集系統
圖1所示為蘋果介電參數采集系統,所使用主要設備為日本日置3532-50型LCR測試儀,測試探頭型号為L2000 4端開爾文夾。
圖1 蘋果介電參數采集系統
Fig. 1 Acquisition system of apple dielectric parameter
為避免外界環境所導緻的系統誤差,采集蘋果介電數據時首先将蘋果置于室内24 h,待蘋果溫度與室内溫度平衡後将蘋果放入屏蔽箱,上下移動平行電極闆使蘋果緊貼于平行電極闆之上,使用LCR測試儀探頭夾住平行電極闆進行測量,介電參數通過RS-232串行接口傳輸到電腦上。采集數據時沿果實最大橫截面測量,以保持蘋果與平行電極闆間接觸面積最大,保證所獲取介電數據可以準确反映蘋果内部品質。
蘋果的理化性質與介電特性在頻率為以10為底的對數下相關關系更加明顯,因此本研究使用158、251、398、15,800、25,100、39,800、1,580,000、2,510,000和3,980,000 Hz共9個頻率,每個頻率下采集12項介電指标,所采集介電指标如表1所示。
表1 蘋果12項介電參數說明
Table 1 Illustration of 12 dielectric parameters
采集數據時,分别為每個蘋果進行編号,每項介電指标将其頻率作為下标,如Z158表示該蘋果在頻率為158 Hz下所采集的複阻抗,其他介電指标同理可得。同時為避免采集過程中系統性誤差對試驗效果産生影響,每個蘋果分别采集5次數據,最後以5次數據的平均值作為該蘋果的介電數據。
采集完成電學指标之後,對每個蘋果進行破壞性試驗,觀察其是否為黴心病果,最終确認黴心病果164個,好果56個。劃分訓練集與測試集時,随機選取110個黴心病果和40個好果作為訓練集,剩餘的54個黴心病果和16個好果作為測試集進行後續試驗。
3 原始數據預處理
使用LCR儀采集到介電參數,由于數據格式是以二維表的形式存儲,即對于每一個蘋果而言,其介電數據都可視為9×129×12的二維數組,對于所有數據可視為220×9×12220×9×12的三維矩陣。但是此數據格式不利于進行數據處理,因此需要進行數據扁平化操作。與此同時,所采集的介電參數是在較大範圍頻率下采集的,數據分布範圍不均勻,數據大小有明顯差異。不同的介電指标具有不同的量綱,導緻采集到的介電指标數據相差較大。為防止試驗中大數據對小數據的影響,消除不同指标間的量綱影響,需要對原始數據進行标準化處理。
進行數據扁平化處理時,分别将每個蘋果的108項指标由9×129×12的二維矩陣轉換為1×1081×108的一維矩陣,同時将所有的蘋果數據進行拼接,最終形成220×108220×108的蘋果介電數據庫。
蘋果的介電參數是在9種不同頻率下采集的,因此相同介電指标在不同頻率下數據會産生較大的差異,如圖2所示。在同一頻率中不同的介電指标由于各自量綱的不同,數據的大小也會存在較大差異,如圖3所示。
圖2 不同頻率下複阻抗分布趨勢
Fig. 2 Distribution trend of complex impedance at different frequencies
圖3 相同頻率下不同介電指标分布趨勢
Fig. 3 Distribution trend of different dielectric indices at the same frequency
圖2中以複阻抗為例展示了其在15,800、25,100和39,800 Hz中的分布趨勢,從中可以觀察到不同頻率對複阻抗具有較大影響,随着頻率的上升,複阻抗值以倍數形式擴增。圖3中展示了158 Hz下并聯電阻、并聯電感及并聯電容的變化情況,因為三者之間數據相差巨大,所以使用對數刻度的樣式進行展示,可以觀察到三者處于不同分布,相互之間具有數量級差異。
由于數據間的巨大差異,不進行數據預處理将有較大概率導緻後續試驗中較大的數據訓練時占據更大的比重,較小的數據則占據更小的比重甚至于直接被忽略。而較小的數據中也可能蘊藏着較為重要的信息,因此需要将原始數據進行處理,消除不同量綱的影響。
預處理時使用了Z-score标準化方法對原始數據進行處理,其數學模型如下所示。
其中,x*為标準化後的數據;x為原始數據;
為原始數據均值;σ為原始數據标準差标準化後數據,如圖4所示。
圖4 介電參數标準化前後數據分布對比
Fig. 4 Distribution comparison of dielectric parameters before and after standardization
圖4(a)是原始數據中Z158的數據分布情況,圖4(b)是經過标準化後Z158的數據分布情況。兩者對比可以看出兩者數據分布幾乎沒有變化,但是數據分布區間已經大大減小,同時數據間的關聯性得到了很好的保留,證明了标準化後的數據依舊有效。通過對比圖2與圖4(c)可以得到,标準化後的數據可以很好地将不同頻率下的數據映射到較小的區間,同時可以保留數據間的關聯性。同理,觀察圖3與圖4(d)可得,經标準化後,數據可以消除不同指标間度量單位帶來的影響,并可很好地保留原始數據的原有信息。
4 建模方法
介電特性數據分析方法常用的算法有BP神經網絡(Back Propagation Neural Network,BPNN)預測模型、支持向量機(Support Vector Machine,SVM)和随機森林(Random Forest,RF)等模型。BPNN是一種按照數據間誤差進行逆向傳播訓練網絡的多層前饋神經網絡,是應用最廣泛的神經網絡之一,具有優秀的非線性映射能力,在衆多領域有着不俗的表現。SVM是一種按照監督學習方式對數據進行分類的模型,可以使用核方法進行非線性映射,在分類領域占據着重要的地位。RF是采取了集成思想的算法,将多個弱分類器通過組合變成一個強分類器。RF通過随機選取不同的訓練樣本和數據特征,根據每種訓練樣本和數據特征構建出對應的決策樹,通過統計森林中所有決策樹的分類結果,從而得出最終的分類結果,在多種數據集中都擁有着優秀的表現,且相較于其他算法可以有效降低訓練時長。
本研究根據經預處理并使用主成分分析(Principal Component Analysis,PCA)算法降維後所得主成分作為模型輸入,結合BPNN、SVM以及RF構建蘋果黴心病分類模型,對三種建模方法分别構建對應的分類模型,通過對比分析确定最優的模型。
小
店
歡迎光臨選購
微信交流服務群
為方便農業科學領域讀者、作者和審稿專家學術交流,促進智慧農業發展,為更好地服務廣大讀者、作者和審稿人,編輯部建立了微信交流服務群,有關專業領域内的問題讨論、投稿相關的問題均可在群裡咨詢。
入群方法:加小編微信331760296,備注:姓名、單位、研究方向,小編拉您進群,機構營銷廣告人員勿擾。
信息發布
科研團隊介紹及招聘信息、學術會議及相關活動的宣傳推廣
,