經(jīng)過了多次數(shù)據(jù)審核校驗(yàn)和修改的考驗(yàn),
深圳市審核通過率和核算完成率持續(xù)走在廣東省前列。在數(shù)據(jù)審核和核算工作基本完成的基礎(chǔ)上,深圳市普查辦組織全市11個(gè)區(qū)普查骨干開展污染源普查數(shù)據(jù)集中交叉會審會議,進(jìn)一步提高普查數(shù)據(jù)的整體質(zhì)量。
第二次全國污染源普查指標(biāo)多達(dá)1700余項(xiàng),對數(shù)據(jù)的完整性、邏輯性和準(zhǔn)確性有極高要求。為此,深圳市利用大數(shù)據(jù)技術(shù),打通數(shù)據(jù)審核“最后一公里”,確保普查數(shù)據(jù)真實(shí)準(zhǔn)確,這一“深圳特色”也獲得生態(tài)環(huán)境部普查辦的肯定。
預(yù)測填報(bào),夯實(shí)數(shù)據(jù)基礎(chǔ)
作為全國經(jīng)濟(jì)發(fā)展領(lǐng)頭羊之一,深圳市擁有大量工業(yè)企業(yè),污染源頭復(fù)雜多樣。據(jù)介紹,深圳市需要開展入戶調(diào)查的工業(yè)污染源達(dá)9.4萬家,占全國工業(yè)源總數(shù)的3%以上。數(shù)量如此龐大,普查員該如何保證數(shù)據(jù)填報(bào)精準(zhǔn)無誤?
深圳市普查辦工作人員介紹,普查員在上門填報(bào)時(shí),對于普查企業(yè)的基礎(chǔ)信息掌握有限,一般僅知道企業(yè)名稱、地址、聯(lián)系人和聯(lián)系電話。對于企業(yè)是否存在行業(yè)特征污染物、是否使用普查所關(guān)注的原材料、是否生產(chǎn)涉污產(chǎn)品等指標(biāo)僅有一個(gè)模糊的概念。
因此,深圳市普查辦立刻啟動大數(shù)據(jù)預(yù)填報(bào)項(xiàng)目,通過搭建部門監(jiān)管數(shù)據(jù)與互聯(lián)網(wǎng)公開數(shù)據(jù)之間的關(guān)系網(wǎng),在已有部門監(jiān)管數(shù)據(jù)源的基礎(chǔ)上,使用大數(shù)據(jù)技術(shù)獲取普查對象在互聯(lián)網(wǎng)公開的原輔料、產(chǎn)品等信息,并通過機(jī)器學(xué)習(xí)算法建立一套“深圳市工業(yè)企業(yè)原輔料-產(chǎn)品-排放污染物”的概化模型,極大地豐富了普查對象的基礎(chǔ)數(shù)據(jù),來解決普查員在普查過程中調(diào)取數(shù)據(jù)缺乏指向性的
問題。
利用該模型的預(yù)測功能,普查人員能夠大體了解企業(yè)的原料、水氣電資源消耗量、產(chǎn)品產(chǎn)量、產(chǎn)排污指標(biāo)和產(chǎn)排污數(shù)量范圍,做到填報(bào)過程中“眼中有數(shù),心中有譜”,能更有針對性地填準(zhǔn)報(bào)表并核實(shí)存疑數(shù)據(jù),大大提高了入戶效率;減少了普查數(shù)據(jù)在錄入過程中出現(xiàn)誤填誤報(bào)的情況,為數(shù)據(jù)審核工作打下良好基礎(chǔ)。
智能校驗(yàn),強(qiáng)化查漏補(bǔ)缺
為確保普查對象的應(yīng)查盡查,在按照國家要求對第四次全國經(jīng)濟(jì)普查清查名錄、用電數(shù)據(jù)清單、信訪舉報(bào)清單和‘散亂污’企業(yè)排查清單等進(jìn)行排查比對的基礎(chǔ)上,市普查辦還聯(lián)合南方科技大學(xué),在人工智能自然語言處理技術(shù)的加持下,設(shè)計(jì)出相應(yīng)的“數(shù)據(jù)清洗流程和排污企業(yè)實(shí)體一致性算法”。通過調(diào)取跨部門監(jiān)管數(shù)據(jù),計(jì)算企業(yè)名稱相似度,分別提取全市工業(yè)用氣量排名前3000名、用水量前10000名、環(huán)統(tǒng)數(shù)據(jù)、重點(diǎn)源監(jiān)管數(shù)據(jù)的企業(yè)記錄。將外部數(shù)據(jù)與普查數(shù)據(jù)進(jìn)行比對,篩查出2399家需核實(shí)疑似漏查企業(yè)名單,核實(shí)補(bǔ)充填報(bào)了249個(gè)污染源報(bào)表。
為確保普查報(bào)表的應(yīng)填盡填,深圳市普查辦采取分析各行業(yè)涉廢水、廢氣、危廢等報(bào)表填報(bào)率的方法,從表格填報(bào)率大于50%的行業(yè)中篩選出年產(chǎn)值大于300萬且未填報(bào)相應(yīng)表格的企業(yè)名單,形成3731家疑似漏表企業(yè)清單。經(jīng)現(xiàn)場核實(shí),共補(bǔ)充填報(bào)652家實(shí)際漏填表格企業(yè)。
為確保核算工藝環(huán)節(jié)的應(yīng)算必算,深圳市普查辦通過利用建立在NoSQL數(shù)據(jù)庫上、融合了環(huán)保專家專業(yè)知識和機(jī)器學(xué)習(xí)自然語言處理的工藝環(huán)節(jié)審核工具,對填報(bào)數(shù)據(jù)的工藝環(huán)節(jié)實(shí)現(xiàn)自動化審核,反推工藝流程是否有缺漏,完成了20個(gè)主要行業(yè)的工藝流程審核,覆蓋企業(yè)數(shù)量45409家,形成需核實(shí)企業(yè)名單11833家。經(jīng)核實(shí),共補(bǔ)齊了8000多個(gè)指標(biāo)。
細(xì)化審核,糾正異常數(shù)據(jù)
第二次全國污染源普查工作是一項(xiàng)重大的國情調(diào)查,其特殊的專業(yè)性決定了工作的復(fù)雜性。為此,深圳市發(fā)揮技術(shù)優(yōu)勢,厘清復(fù)雜信息、指標(biāo),突破數(shù)據(jù)審核瓶頸,為普查數(shù)據(jù)的準(zhǔn)確性夯實(shí)基礎(chǔ)。
“數(shù)據(jù)質(zhì)量是普查工作的生命線?!鄙钲谑衅詹檗k負(fù)責(zé)人如是說。為進(jìn)一步提升數(shù)據(jù)質(zhì)量,更好滿足環(huán)境管理部門后續(xù)對數(shù)據(jù)的使用需求,深圳市普查辦強(qiáng)化數(shù)據(jù)審核,排除異常數(shù)據(jù)。
“原輔料是描述和刻畫企業(yè)生產(chǎn)活動的必要指標(biāo),在普查數(shù)據(jù)填報(bào)過程中容易漏填、錯(cuò)填。” 深圳市普查辦工作人員說。
為解決這一問題,深圳市普查辦聯(lián)合南方科技大學(xué)開發(fā)了專門針對原輔料用量、固廢產(chǎn)生量、危廢產(chǎn)生量等的填報(bào)指標(biāo)及填報(bào)內(nèi)容審核的方法。據(jù)了解,該審核方法基于“相同行業(yè)在填報(bào)指標(biāo)項(xiàng)和填報(bào)內(nèi)容上應(yīng)該具有較高的一致性”的假設(shè),從多個(gè)維度比對“同行業(yè)、同產(chǎn)品、同工藝”的“三同”原則下填報(bào)企業(yè)的數(shù)量型指標(biāo)的合理性,借助指標(biāo)特征圖譜篩選出異常值指標(biāo)。通過比對異常值內(nèi)容,從而查找出漏填、錯(cuò)填的企業(yè)名單。從20個(gè)行業(yè)中篩查得出了790條異常值信息,經(jīng)核實(shí)糾正了266條數(shù)據(jù)。
與此同時(shí),深圳市普查辦聯(lián)合南方科技大學(xué)使用人工智能比對技術(shù),分別提取外部監(jiān)管數(shù)據(jù)中全市工業(yè)用氣量排名前3000名、用水量前10000名的企業(yè)記錄,與普查系統(tǒng)中填報(bào)的用水量和用氣量數(shù)據(jù)進(jìn)行偏離度分析。共篩查出664條偏離度較高的記錄,核實(shí)糾正203條數(shù)據(jù)。
值得一提的是,深圳市普查辦大數(shù)據(jù)項(xiàng)目組聯(lián)合市督導(dǎo)組開發(fā)了“深圳市審核軟件”,作為對國家、廣東省審核規(guī)則的補(bǔ)充,直接對國家軟件系統(tǒng)導(dǎo)出的表格進(jìn)行審核,并且規(guī)則可動態(tài)更新。