引用本文:皇甫小留,王晶瑞,龍鑫隆,等. 機(jī)器學(xué)習(xí)在水處理系統(tǒng)中的應(yīng)用[J]. 給水排水,2022,48(11):153-165.
通信作者
皇甫小留
博士,教授。主要研究方向是智慧水環(huán)境科學(xué),水環(huán)境鉈污染防控。
人工智能作為21世紀(jì)尖 端技術(shù)的代表,是利用機(jī)器模擬人類的學(xué)習(xí)、思考、分析、決策等方式的技術(shù),是實(shí)現(xiàn)智慧水務(wù)的重要手段。智慧水務(wù)作為現(xiàn)代水務(wù)發(fā)展的新趨勢,是指利用物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、人工智能等新信息技術(shù),將水務(wù)系統(tǒng)狀態(tài)信息傳感技術(shù)、網(wǎng)絡(luò)與移動(dòng)系統(tǒng)相結(jié)合,構(gòu)建集感知、仿真、診斷、預(yù)警、調(diào)度、控制和服務(wù)于一體的全 方 位智能化水務(wù)管理系統(tǒng);涉及領(lǐng)域涵蓋了水源調(diào)度、給排水處理系統(tǒng)、市政管網(wǎng)、海綿城市建設(shè)與管理、智慧客服以及綜合性管控平臺(tái)等。
隨著用水量與污水量的持續(xù)增加,水處理技術(shù)的發(fā)展和處理規(guī)模的增大,處理工藝愈加復(fù)雜;另外,由于環(huán)境污染的嚴(yán)重性,水質(zhì)、處理成本和處理效率的要求被提高。由于水務(wù)系統(tǒng)控制與管理擁有大量的數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含著各種反應(yīng)機(jī)理和控制要素,各參數(shù)間存在非常復(fù)雜的非線性關(guān)系,其中包含的物理、化學(xué)和生物原理尚未研究透徹,因此傳統(tǒng)自動(dòng)控制過程只能給予一定的適度結(jié)果?;谝话阋?guī)律的模型難以建立,只能依據(jù)經(jīng)驗(yàn)進(jìn)行調(diào)整,但這種模型的精度有限,過于依賴人力。因此迫切需要一種新的適用于解決非線性問題的自動(dòng)化控制方法,充分利用水處理行業(yè)的數(shù)據(jù)信息,擺脫經(jīng)驗(yàn)操作,實(shí)現(xiàn)自主學(xué)習(xí)控制。
機(jī)器學(xué)習(xí)通過分析歸納得出數(shù)據(jù)趨勢,而不是基于編程的因果邏輯,因此機(jī)器學(xué)習(xí)只需要輸入海 量數(shù)據(jù),就可以自主構(gòu)建數(shù)據(jù)間的關(guān)系,建立某種模型,進(jìn)而根據(jù)模型對新數(shù)據(jù)進(jìn)行判斷和預(yù)測。另外,基于機(jī)器學(xué)習(xí)的模型雖然有一定的“黑箱”性,但可以通過適當(dāng)?shù)姆治龇椒ㄈ鏢hapley值(SHAP)挖掘其深層的物理化學(xué)信息,因此機(jī)器學(xué)習(xí)具備一定的可解釋性。機(jī)器學(xué)習(xí)依據(jù)其強(qiáng)大的學(xué)習(xí)和計(jì)算能力,可以在短時(shí)間內(nèi)快速地處理海 量數(shù)據(jù),非常適合處理非線性問題,如解釋污染物的遷移與轉(zhuǎn)換、分析和預(yù)測水質(zhì)、揭露處理反應(yīng)機(jī)理等。因此機(jī)器學(xué)習(xí)是智慧水務(wù)的重要實(shí)現(xiàn)途徑之一,是水務(wù)智慧化的核心和關(guān)鍵。機(jī)器學(xué)習(xí)在水務(wù)上的應(yīng)用有望對水務(wù)事業(yè)做出巨大的貢獻(xiàn),并推動(dòng)水務(wù)事業(yè)從人工控制中解放出來,實(shí)現(xiàn)智慧控制。
據(jù)統(tǒng)計(jì),已經(jīng)有機(jī)器學(xué)習(xí)在自然和工程水體的應(yīng)用綜述、機(jī)器學(xué)習(xí)在污水處理技術(shù)和飲用水處理系統(tǒng)非線性問題分析中的應(yīng)用匯總,但關(guān)于不同機(jī)器學(xué)習(xí)算法在水處理系統(tǒng)中的實(shí)際應(yīng)用及對比性總結(jié)還沒有研究。為增強(qiáng)業(yè)內(nèi)人士對機(jī)器學(xué)習(xí)和智慧水務(wù)的認(rèn)識,推動(dòng)智慧水務(wù)進(jìn)一步發(fā)展,本文綜述了國內(nèi)外機(jī)器學(xué)習(xí)在水處理系統(tǒng)和污染物去除新技術(shù)研發(fā)中的應(yīng)用,包括水量預(yù)測、混凝分析、消毒模擬、過程控制、能耗節(jié)約、膜污染預(yù)警、故障診斷等;最 后討論了代表性機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)和適用性;并分析了機(jī)器學(xué)習(xí)在水處理系統(tǒng)中應(yīng)用的挑戰(zhàn)和前景。
機(jī)器學(xué)習(xí)簡述
在具有海 量性、高速性、多樣性和失真性等特征的大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)憑借其算法的低成本性、精 準(zhǔn)預(yù)測性、機(jī)器自動(dòng)化性受到各行各業(yè)的青睞。在水務(wù)信息化的進(jìn)程中引入人工智能技術(shù)是發(fā)展的必然,這也將為水務(wù)智慧化、信息化帶來新的機(jī)遇。
人工智能是在一個(gè)機(jī)器內(nèi)嵌入相關(guān)算法后,多種算法相互結(jié)合,使機(jī)器擁有類似于人的行為,如觀察、思考、學(xué)習(xí)、創(chuàng)造等;機(jī)器學(xué)習(xí)是人工智能的一個(gè)核心分支,旨在使計(jì)算機(jī)無需進(jìn)行顯示編程即可學(xué)習(xí);深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子集,是一種含多隱藏層的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。機(jī)器學(xué)習(xí)應(yīng)用廣泛,可以與各領(lǐng)域技術(shù)相結(jié)合,從而形成多種交叉學(xué)科,如模式識別、計(jì)算機(jī)視覺、語音識別、自然語言處理等。
機(jī)器學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三個(gè)主要類別。監(jiān)督學(xué)習(xí)包括分類和回歸兩種算法,基于輸入和輸出訓(xùn)練數(shù)據(jù)進(jìn)行算法構(gòu)建,可用于預(yù)測新輸入數(shù)據(jù)所對應(yīng)的輸出。當(dāng)輸出只能取一個(gè)有限值集時(shí),用分類算法;當(dāng)輸出可取一定范圍內(nèi)的任意數(shù)值時(shí),用回歸算法。無監(jiān)督學(xué)習(xí)只能識別訓(xùn)練數(shù)據(jù)的共性特征,即在輸入數(shù)據(jù)中尋找結(jié)構(gòu),并對新數(shù)據(jù)所呈現(xiàn)或缺失的共性特征作出判斷,如聚類分析。強(qiáng)化學(xué)習(xí)是研究算法如何在動(dòng)態(tài)環(huán)境中執(zhí)行任務(wù)以實(shí)現(xiàn)累計(jì)獎(jiǎng)勵(lì)的最 大化,如博弈論、遺傳算法等,見圖1。
圖1 本論文中回顧的常用算法原理
為訓(xùn)練機(jī)器學(xué)習(xí)模型,一般將數(shù)據(jù)分為訓(xùn)練集、測試集和驗(yàn)證集三個(gè)部分。首先,基于已選機(jī)器學(xué)習(xí)算法利用訓(xùn)練集對模型進(jìn)行訓(xùn)練;其次,利用驗(yàn)證集數(shù)據(jù)通過調(diào)整超參數(shù)的方式優(yōu)化訓(xùn)練后的模型;最 后,將測試集輸入訓(xùn)練好的模型中,比較預(yù)測輸出與其相應(yīng)的已知結(jié)果,以評估訓(xùn)練模型的預(yù)測能力和泛化能力。相關(guān)系數(shù)(Pearson correlation coefficient,R2)、平均絕 對百分比誤差(Mean absolute percentage error, MAPE)、平均絕 對誤差(Mean absolute error, MAE)、均方根誤差(Root mean square error, RMSE)、相對標(biāo)準(zhǔn)偏差(Relative standard deviation, RSD)、性能效率、精度等參數(shù)可用于評價(jià)模型準(zhǔn)確性。常見的機(jī)器學(xué)習(xí)方法包括隨機(jī)森林、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、模糊控制等。每種算法都依據(jù)其機(jī)理的不同,各有長處,應(yīng)用場合也千差萬別。不同算法之間也可以相互結(jié)合,取長補(bǔ)短,提高精度。單獨(dú)算法往往存在一定缺陷,因此在復(fù)雜的水務(wù)工作中,通常將多種算法相互結(jié)合,共同控制。
機(jī)器學(xué)習(xí)在飲用水處理系統(tǒng)中的應(yīng)用
飲用水廠作為保障居民生活的重要組成部分,傳統(tǒng)自動(dòng)控制系統(tǒng)主要依靠傳感器監(jiān)測數(shù)據(jù),依據(jù)經(jīng)驗(yàn)進(jìn)行調(diào)整,具有實(shí)時(shí)性大、風(fēng)險(xiǎn)高、任務(wù)量重、控制復(fù)雜、精度有限、成本高等特點(diǎn)。將機(jī)器學(xué)習(xí)應(yīng)用于水處理系統(tǒng),將改變這一現(xiàn)狀,實(shí)現(xiàn)基于大數(shù)據(jù)的過程控制和決策。以下綜述了機(jī)器學(xué)習(xí)在需水量預(yù)測、藥劑投加、氯消毒等方面的運(yùn)用,包括水源水污染物監(jiān)測識別、混凝用量的準(zhǔn)確高效預(yù)測、消毒副產(chǎn)物的形成分析、膜污染的先進(jìn)控制。
2.1 水量水質(zhì)
需水量的預(yù)測是進(jìn)行城市規(guī)劃建設(shè)所必須的內(nèi)容,用機(jī)器學(xué)習(xí)的方法精 確預(yù)測城市需水量是保證供水系統(tǒng)安全運(yùn)行和實(shí)現(xiàn)科學(xué)管理與優(yōu)化調(diào)度的有效手段。傳統(tǒng)短期蓄水量預(yù)測一般采用回歸分析方法,金冬梅等采用多元線性回歸模型(Multivariable linear regress modal, MLR)以近年長春市用水量、人均收入及人口資料為輸入?yún)?shù),成功對長春市未來多年用水量進(jìn)行預(yù)測。YASAR等以月平均水費(fèi)、總?cè)丝跀?shù)、大氣溫度、相對濕度、降雨量等為影響因素,采用逐步線性回歸模型預(yù)測土耳其亞達(dá)納的供水量?;貧w分析方法計(jì)算簡單,對歷史數(shù)據(jù)質(zhì)量和影響參數(shù)的準(zhǔn)確性有較高要求,適用于數(shù)據(jù)波動(dòng)小的年用水量等問題,不適用于城市時(shí)需水量等數(shù)據(jù)波動(dòng)大的問題預(yù)測?;诰€型數(shù)據(jù)模型的自回歸移動(dòng)平均模型(Autoregressive integrated moving average mode, ARIMA)具有收斂速度快和魯棒性等優(yōu)點(diǎn),在數(shù)據(jù)波動(dòng)較大的日需水量預(yù)測中可取得較好的預(yù)測效果,但不適用于非線性時(shí)間序列問題。隨著機(jī)器學(xué)習(xí)算法的進(jìn)步,新的機(jī)器學(xué)習(xí)算法誕生,彌補(bǔ)了傳統(tǒng)算法的缺點(diǎn),提高了預(yù)測精度。人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network, ANN)模型依據(jù)若干神經(jīng)元節(jié)點(diǎn)及連接權(quán)重實(shí)現(xiàn)自主記憶,進(jìn)而完成輸入與輸出變量的非線性映射。BENNETT等利用兩個(gè)前饋反向傳播、一個(gè)徑向基函數(shù)網(wǎng)絡(luò)等三種神經(jīng)網(wǎng)絡(luò)模型對建筑用水終端組件(淋浴、洗衣機(jī)等)需水量進(jìn)行預(yù)測,并應(yīng)用至全市用水量預(yù)測。舒媛媛等基于主成分分析(Principal component analysis, PCA)的反向傳播神經(jīng)網(wǎng)絡(luò)(Back propagation neural network, BPNN)確定了人均收入、降雨量、居民生活用水量及生態(tài)環(huán)境用水量四個(gè)城市需水量影響因子,并對延安市年需水量進(jìn)行了預(yù)測。ANN雖然很適用于大部分非線性時(shí)間序列的需水量,但該方法也存在訓(xùn)練時(shí)間長、易陷入局部最 優(yōu)、訓(xùn)練數(shù)據(jù)量大等缺點(diǎn)。多種算法結(jié)合,能有效的提高單一模型的預(yù)測精度。BRENTAN等基于支持向量回歸(Support vector regression, SVR)模型,結(jié)合自適應(yīng)傅立葉級數(shù)預(yù)測偏差,利用巴西弗朗卡自來水公司需求數(shù)據(jù)對模型進(jìn)行驗(yàn)證,效果較好。蔣白懿等利用一種灰色遺傳(Genetic algorithm, GA)神經(jīng)網(wǎng)絡(luò)組合模型對某市區(qū)年居民生活年需水量進(jìn)行預(yù)測,組合模型的預(yù)測結(jié)果與實(shí)際值相對誤差僅為1.17%,相比灰色神經(jīng)網(wǎng)絡(luò)模型精度提高0.84%,比灰色遺傳算法模型提高了3.08%。葉強(qiáng)強(qiáng)等利用混沌算法優(yōu)化搜索BPNN模型的城市短期需水量預(yù)測全局最 優(yōu)解,該模型容易確定輸入層節(jié)點(diǎn)個(gè)數(shù),具有收斂速度快,訓(xùn)練樣本少等優(yōu)點(diǎn)。極限學(xué)習(xí)機(jī)(Extreme learning machine, ELM)具有高穩(wěn)定性和能力,被應(yīng)用于預(yù)測短期需水量預(yù)測。與修正偏差的傅立葉級數(shù)模型結(jié)合,效果與ANN模型相當(dāng),但建模時(shí)間僅為后者的5%。
2.2 混凝沉淀
作為提高水質(zhì)處理效率的水處理技術(shù),混凝技術(shù)具有既經(jīng)濟(jì)又簡便的優(yōu)點(diǎn),其關(guān)鍵問題是基于進(jìn)水濁度對加藥量進(jìn)行預(yù)測,在保證出水水質(zhì)的前提下精 準(zhǔn)投加混凝劑是獲得較好混凝效果及經(jīng)濟(jì)效益的前提。作為多輸入單輸出的非線性問題,模型的適用性對預(yù)測效果有重要影響。ANN模型依據(jù)簡單的結(jié)構(gòu)和魯棒性被廣泛應(yīng)用于建立混凝模型?;诩竟?jié)性原水變化和化學(xué)劑量,ANN模型被用于提高埃爾金地區(qū)污水處理廠過濾效率,該模型以0.63~0.79的相關(guān)性系數(shù)成功預(yù)測沉降水濁度,BPNN以0.78~0.89的相關(guān)系數(shù)計(jì)算出最 佳的混凝劑用量。為提高ANN的預(yù)測精度,可以與徑向基函數(shù)神經(jīng)(Radial basis function neural network, RBFNN)和廣義回歸神經(jīng)網(wǎng)絡(luò)(General regression neural network, GRNN)等其他算法聯(lián)合,來模擬混凝過程,GRNN在數(shù)據(jù)量有限的情況下具有更好的性能,而多層感知器(Multilayer perceptron, MLP)更適合于全規(guī)模水廠數(shù)據(jù)及高濁度的水混凝問題。以原水流量、pH、進(jìn)出水濁度以及對應(yīng)的混凝劑用量為指標(biāo),選用GA優(yōu)化BPNN中的連接權(quán)值和閾值,構(gòu)建了基于GA和BPNN的微渦流混凝投藥控制模型,也取得較好的預(yù)測效果。相對與其他智能控制算法,小腦神經(jīng)網(wǎng)絡(luò)算法具有逼近復(fù)雜函數(shù)、泛化能力強(qiáng)、收斂速度快等方面的優(yōu)點(diǎn)。該模型可根據(jù)關(guān)聯(lián)模糊隸屬函數(shù)將多輸入(原水溫度、濁度、pH)-單輸出(混凝劑用量)問題轉(zhuǎn)化為多個(gè)關(guān)聯(lián)的單輸入-單輸出的問題,因此結(jié)果準(zhǔn)確率更高,控制更合理。另外,ELM與RBFNN結(jié)合的算法ELMRBF可顯著降低計(jì)算量,在預(yù)測低濃度混凝劑用量中,模型相關(guān)系數(shù)超過0.97,高濃度模型中相關(guān)系數(shù)在0.80以上。田村山凈水廠以進(jìn)出水pH、溫度、流量、濁度、每日混凝劑投加量均值、每3 h混凝劑投加量均值為特征參數(shù),用長短時(shí)記憶網(wǎng)絡(luò)(Long short term memory, LSTM)、極端梯度增強(qiáng)集成方法(Extreme Gradient Boosting, XGBoost)和隨機(jī)森林(Random forest, RF)三種算法對單種或兩種混凝劑投加量進(jìn)行預(yù)測,最終采用了計(jì)算簡單、精度更高的基于XGBoost算法的混凝投藥模型。
2.3 氯消毒
氯是飲用水水廠主要的消毒劑,在消毒過程中,即要保證消毒效果,又要考慮副產(chǎn)物與氣味問題。水體中的余氯變化是一個(gè)非線性時(shí)變過程,利用單純神經(jīng)網(wǎng)絡(luò)模型雖然可以構(gòu)建出余氯預(yù)測模型,但由于神經(jīng)網(wǎng)絡(luò)搜索速度慢、易陷入局部最 優(yōu)、不適用于時(shí)變問題等缺點(diǎn),其模型精度需要進(jìn)一步提高。為搭建更加準(zhǔn)確、穩(wěn)定的水質(zhì)余氯預(yù)測模型,安小宇等將正余弦算法(Sine Cosine Algorithm, SCA)用于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的非線性權(quán)重,構(gòu)建了SCA-BP水體余氯預(yù)測模型,該模型相對誤差的平均值為4.04%,預(yù)測效果優(yōu)于BPNN、RBFNN模型。另外,基于粒子群算法改進(jìn)網(wǎng)絡(luò)權(quán)值和閾值的PSO-BPNN模型也被應(yīng)用在水廠消毒智能預(yù)測中,相對于傳統(tǒng) BPNN模型,該模型MAPE下降了1.8%,RSD下降了2.4%,并有效降低了氯消毒劑的使用量。針對小樣本、高維空間問題,何自立等利用二階振蕩粒子群優(yōu)化算法(Second-order Oscillation Particle Swarm Optimization, SOPSO)優(yōu)化了SVR模型動(dòng)態(tài)搜索最 優(yōu)解的性能。另外,多種消毒劑分次投加的協(xié)同消毒具有非線性、不確定因素多、過程復(fù)雜等特點(diǎn),相比于僅有反饋信號調(diào)節(jié)的統(tǒng)計(jì)控制,反饋與前饋信號相結(jié)合的智慧控制提高了消毒劑控制指標(biāo)精度、減少了消毒投加量,并降低了消毒副產(chǎn)物的生成量。
除余氯預(yù)測外,消毒副產(chǎn)物(Disinfection by products, DBPs)也是氯消毒需要考慮的重要部分。在消毒過程中,以三氯甲烷(Trichlormethane, THM)和鹵乙酸(Haloacetic acid, HAAs)為主體的DBPs與其前體存在高度非線性關(guān)系,傳統(tǒng)預(yù)測模型無法模擬,機(jī)器學(xué)習(xí)技術(shù)無疑是深入了解該復(fù)雜關(guān)系的實(shí)用工具,且測定DBPs是一項(xiàng)非常繁瑣、耗時(shí)、高成本的工作,通過機(jī)器學(xué)習(xí)算法準(zhǔn)確預(yù)測其含量將對相關(guān)研究提供巨大便利。江釓泓等以南方某市7個(gè)自來水廠為研究對象,利用線性回歸模型擬合進(jìn)出水水質(zhì)參數(shù)與兩種主要消毒副產(chǎn)物生成量之間的關(guān)系,為消毒副產(chǎn)物的預(yù)測提供新的思路。PLATIKANOV等也利用線性回歸如MLR和偏最 小二乘回歸(Partial least squares regression, PLSR)成功確定了THM的形成條件及濃度。在進(jìn)一步的研究中,利用非線性SVM和核PLSR證實(shí)了多操作變量之間的相互作用,核變換在說明變量之間的相關(guān)程度起到重要作用。由于DBPs的形成過程非常復(fù)雜,線性回歸等算法不再適合,需要使用ANN、SVM等適用于非線性問題的算法。此類算法雖然具有一定的“黑箱”性質(zhì),但與其他算法如PCA或靈敏度分析等方式結(jié)合,可以加強(qiáng)對模型結(jié)果的解釋性,提高模型的泛化能力和精度。KULKARNI等使用ANN來定量分析常規(guī)處理、氯化、顆?;钚蕴刻幚砗图{濾后的DBPs,并利用PCA評估了原水水質(zhì)對三種DBPs前體去除效果的關(guān)系,減少了自變量個(gè)數(shù),縮減了計(jì)算量。ANN可以準(zhǔn)確地預(yù)測THM、HAAs和總有機(jī)鹵素的濃度,預(yù)測的相關(guān)系數(shù)在0.92~0.97。SINGH等基于ANN、SVM和基因表達(dá)編程等算法建立模型,降低了模型誤差,優(yōu)化了自變量取值,基于有限數(shù)據(jù)集訓(xùn)練模型,以預(yù)測THM的形成。最終確定初始pH、接觸時(shí)間和溫度等三個(gè)參數(shù)為最 重 要影響因素,該模型在解決非線性問題方面具有更好的準(zhǔn)確性和泛化能力。
消毒后水體的氣味問題也值得被關(guān)注。MAO等將EPANET軟件與BPNN模型結(jié)合起來,模擬飲用水分配系統(tǒng)中氯、氯胺和氯氣味的強(qiáng)度。以控制水體嗅覺和最 小化投資為目的,該模型使得初始氯用量減少了50%,余氯合格率達(dá)到97.2%。
微信對原文有修改。原文標(biāo)題:機(jī)器學(xué)習(xí)在水處理系統(tǒng)中的應(yīng)用;作者:皇甫小留、王晶瑞、龍鑫隆、黃瑞星;作者單位:重慶大學(xué)環(huán)境與生態(tài)學(xué)院 三峽庫區(qū)環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室、哈爾濱工業(yè)大學(xué)環(huán)境學(xué)院 城市水資源與水環(huán)境國家重點(diǎn)實(shí)驗(yàn)室??窃凇督o水排水》2022年第 11期。