真空涂覆設備、發酵控制系統 、光伏匯流盒、 電纜橋架
139-1457-9385
新聞詳情

發酵記錄的處理:數據挖掘基本功

發酵記錄的處理:數據挖掘基本功

2016-12-13 J.F wang 發酵人網站
前言
    常年積累的批記錄或許已經超過上千批了,是讓它躺著睡覺,還是讓它發揮更大作用?當然選擇后者。那么問題來了,怎么辦呢?本篇文章或許給您一些啟發。
什么是數據挖掘
    關于數據挖掘,度娘的定義:
數據挖掘(英語:Data mining),又譯為資料探勘、數據采礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
        簡單的說,數據挖掘就是將歷史積累的數據進行一定的處理,從中找到潛在的數據間規律的過程。
發酵中的數據挖掘
   哪些發酵數據哪些適用于數據挖掘?綜合而言,能夠量化的與目標關聯的信息都可以用于數據挖掘。具體如下:
1、培養基小試結果
2、種子測試結果
3、染菌記錄和無菌后采取的措施
4、發酵過程數據,包括各種生理生化參數
5、冷卻水使用記錄
6、車間成本記錄
7、車間原料培養基檢測結果
8、其他相關的信息。
       數據挖掘的首要任務是數據的篩選,并將其錄入計算機系統,使其能夠被識別和計算。
       篩選真實的記錄,剔除不可靠的數據,比如檢測結果有明顯錯誤及剔除不規范數據,不規范數據是指其他批次檢測了,而這批沒有檢測。
       這一工作是基礎決定了數據挖掘的質量,因此需要有耐心和責任心的技術人員完成。

現在看來當時分析的還是不夠深入

找規律
       數據挖掘可以由車間的高級技術人員完成,也可以由公司的研發人員完成。
       數據的整理時候,操作人員需要按照既定的格式完成。
        很多人簡單的以為數據挖掘就是從數據中找到最好的結果,然后去模仿。顯然這不是數據挖掘的目的,或者說,這僅是數據挖掘最初級的方法。數據挖掘是發現數據間內在的規律,而不是直觀的找表面上的最優。
        如果找不數據間內在的規律,而只找一個最優的發酵單位的記錄,然后按照上面去做,能成嗎?答案是有可能,只是可能性與0接近。
數據挖掘的方法


       數據挖掘利用了來自如下一些領域的思想:
(1) 來自統計學的抽樣、估計和假設檢驗,
(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要數據庫系統提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,并且當數據不能集中到一起處理時更是至關重要。
        數據挖掘無論采取什么方法,都需要數據的真實有效。

聚類分析
         最常用的分析方法是聚類分析:聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。
       定義可能有點陌生,不過這是我們在車間最常用的方法:技術人員經常會翻批報,然后將產量高的罐批報放在一起,將產量低的罐批放到一起。之后找兩者之間的差異。
       由于方法統一,所以得出的結論會摻雜很多個人理解和經驗。比如發現有些高產罐批,初始的發酵單位高,還可能發現某個罐出現高產的比例會高。不管怎么說,這是一種最可靠的方法,可能對于發酵這樣一個非常復雜的系統,聚類分析,也許是最簡單有效的數據挖掘工具。
         不過,沒有計算機輔助,僅靠技術人員手工統計,時間太長,而且結論不完整,經常統計的結論是兩個同時發生的現象,都是結果,而不是原因。
人工神經網絡
       人工神經網絡是一種最有潛力挖掘發酵記錄的工具。
          隨著AlphaGo在圍棋領域戰勝了頂級專業棋手李世石,讓人充分認識到了其巨大的學習能力和判斷能力。其實AlphaGo的內核就是人工神經網絡技術。
      人工神經網絡(Artificial Neural Networks,ANN)系統是 20 世紀 40 年代后出現的。它是由眾多的神經元可調的連接權值連接而成,具有大規模并行處理、分布式信 息存儲、良好的自組織自學習能力等特點。BP(Back Propagation)算法又稱為誤差 反向傳播算法,是人工神經網絡中的一種監督式的學習算法。BP 神經網絡算法在理 論上可以逼近任意函數,基本的結構由非線性變化單元組成,具有很強的非線性映射能力。而且網絡的中間層數、各層的處理單元數及網絡的學習系數等參數可根據具體情況設定,靈活性很大,在優化、信號處理與模式識別、智能控制、故障診斷等許 多領域都有著廣泛的應用前景。
        人工神經網絡在發酵研發領域已經獲得較多應用, 但是在企業卻沒有廣泛應用,主要原因,我分析,是前期準備數據的工作量較大,企業沒有安排精力去做,而且對ANN得出的結論顯然不如聚類結果更直接,更好解釋。
結尾
      無論使用何種方法進行數據挖掘,顯然離不開計算機軟件,而且因為發酵參數的多尺度及復雜性,這些都將導致計算量呈幾何數據級上漲,所以需要對硬件和軟件方面的優化。
       另外,在數據挖掘中可能出現非常詭異的結論,但是無論得出什么結論,都應該進行關注或用試驗驗證,因為這些規律就是數據中統計的真實,不是杜撰的結論。
       如果試驗驗證數據挖掘得出的結論不可行,或與結論相反,可能是數據挖掘中,沒有設置好邊界條件,也就是優化的方向沒有根據發酵規律進行規定。簡爾言之:跑偏了。 這時需要重新設計邊界條件,重新計算。
       總之,只要我們決定做數據挖掘的工作了,肯定會有收獲。關于數據挖掘和試驗設計方面的公眾號文章還會在發酵人網站上發表,希望專業人士進行指導或拍磚。無論如何,我們都歡迎,只有討論才能讓大家分清正確與錯誤,才能推動發酵事業向著理性方向發展。


兆麒 自動化
關于我們                              產品中心                                行業資訊                             聯系我們
QQ:251576175 聯系電話:13914579385
聯系地址:江蘇省揚中市建中路16-17號
聯系郵箱:js_kxf@126.com
website qrcode

掃描查看手機版網站