阿里云專訪佰騰科技大數據團隊,談專利大數據領域的挑戰與實踐

2017-03-01 來源:佰騰專利巴巴
    近日,阿里云數加團隊與佰騰科技大數據團隊進行采訪交流,就專利大數據領域現狀與實踐進行了探討。

以下為實錄:

YQ:貴公司主要使用大數據來解決哪些方面的問題,想借助大數據取得哪些成果?

    佰騰科技大數據團隊:佰騰科技專注為客戶提供最好的專利信息和技術創新服務,我們所依賴的核心就是專利信息的數據挖掘,以及與專利信息相關的其它延展信息的數據挖掘,如全球期刊文獻、法律訴訟、企業信息等。專利信息的『大數據』與其它領域的『大數據』多少有些不同,雖然全球專利信息的總量僅在1億多條,但是每條專利信息要分析獲取的數據維度目前就多達200多項,實際處理的數據量在百億級別。同時,針對各種客戶的不同需求,我們還要基于這些數據實現數百種的分析模型和方法,從中挖掘出專利信息的深層次價值。

    在我們的業務處理場景中,我們需要經常性的對原始數據進行維度的挖掘和測試,以確保數據維度滿足客戶分析應用的要求。以前,我們在自建的環境中進行一次回歸數據處理要花費近一周的時間,如果中途發現錯誤還會導致大量的時間浪費,效率非常低下。而在使用了數加大數據基礎服務之后,這個時間縮短到了小時級別,數據回歸處理的風險大幅下降,數據分析工程師可以在更快的時間內驗證分析模型和方法,效率提升非常顯著。

    另外,隨著我們對專利信息維度挖掘的深入,我們對于信息挖掘的需求正在從『文字表述』向『邏輯概念』轉移,比如我們希望從專利信息中挖掘出技術概念并發現它們之間的關系,這樣我們就能幫助客戶更好的分析技術發展的趨勢和熱點。目前我們正在推進專利信息深度挖掘技術的研發,借助數加平臺的機器學習以及數據分析能力,為我們的客戶提供更加精準、更加全面、更個性化的專利大數據應用服務。

YQ:在大數據實踐的過程中,你們業務場景中的主要挑戰有?

佰騰科技大數據團隊:我們的挑戰主要來自于三個方面:


1. 專利大數據處理的維度內容越來越多,數據量也越來越大,我們原有的以文本搜索為核心的數據框架平臺亟待升級,未來我們需要把數加的能力融合到我們的新數據框架平臺上,實現對數據的獲取、清洗、挖掘、分析、應用的全周期的數據管理、監控和開發支撐。

2.專利大數據的深度挖掘越來越需要依賴新的數據挖掘技術,比如文本聚類、機器學習、圖像識別等,而我們不可能建立并擁有研發這些技術的專業團隊,我們認為數加平臺可以在我們的領域內給予針對性的能力支撐。

3.專利大數據的應用是一個實踐性非常強的領域,隨著客戶應用需求的不斷提升, 我們需要不斷更新分析和展示數據結果的模型和方法,這里面不僅有提升數據處理效率的問題,也有提升數據分析應用能力的問題。


YQ:阿里云數加的哪些特性幫助你們解決了這些問題?

    佰騰科技大數據團隊:數加平臺的MaxCompute 解決了我們數據存儲量大的問題,保證了數據的安全性和完整性;平臺的任務開發功能很好的解決了數據處理過程中流程標準化的問題,可以將任務托管后自動化執行,解放我們雙手;分布式的框架結構解決了多任務的并發處理問題, 提高了任務處理的速度,實現了數據價值的快速挖掘,避免了我們自己開發系統存在的諸多不穩定問題;機器學習平臺降低了算法的學習成本,也可利用既有的數據模型算法解決數據挖掘過程中的問題。 我們使用的服務有:數據存儲、數據處理、流程任務、機器學習。

5a74a9fc3fa2c633c1ae22f2c781c5da9605d856

    使用數加平臺后,我們的數據存儲和處理效率有了大幅提升。在我們自建的環境里進行一次回歸數據處理需要7 天時間,而使用數加平臺處理只需要3~6 個小時。這些效率的提升可以縮短我們數據分析應用產品的研發周期,并能更好的提高這些產品的需求符合度。

    YQ:當初是什么原因促使您選擇阿里云數加產品的?

佰騰科技大數據團隊:

1.我們自建環境儲存數據的代價高昂,不利于大量數據的安全存儲和快速處理。

2.我們自建環境和原有數據框架平臺對大數據處理的速度很慢,不能適應業務需求的快速變化。

3.我們原有的數據框架平臺已使用多年,技術比較落后,已經不能很好的支撐新的大數據研發需求。

4.阿里云在國內大數據技術方面處于領先地位,也是最早進行大數據云化的平臺,我們信任阿里云數加平臺的能力。

    YQ:對比云服務和自建大數據基礎設施,你們是怎么衡量的?

    佰騰科技大數據團隊:云服務最大的特點就是只管使用服務,不需要關心底層技術架構、安全性、可靠性、穩定性等方面的問題。自建大數據基礎設施需要采購和維護大量硬件設備,部署和配置復雜的系統環境,需要耗費大量資源保證服務的持續、穩定運行,并且對于運維人員的要求會更高。

    對于我們專利大數據處理業務來講,云服務是我們整個業務系統依賴的重要基礎,能幫助我們節省大量的基礎建設費用。同時,我們也會根據自身業務的需求,對云服務進行進一步的開發,形成最有利于自身業務發展的大數據分析應用平臺。

    YQ:你們未來還想借助大數據實現的場景有?阿里云數加是否能滿足你們的需求?如果沒有,期待有哪些?

佰騰科技大數據團隊:我們希望借助阿里云數加平臺打造面向專利大數據分析應用的領域性大數據平臺,并利用大數據技術實現對專利信息數據價值的深度挖掘,能幫助客戶及時掌握全球技術發展的動態和熱點,提高企業技術創新和知識產權保護的效率和成效。


目前我們已經將基礎數據處理和部分數據挖掘的任務放在阿里云數加平臺上完成,我相信數加平臺會不斷發展并支撐我們更多的大數據業務需求,讓我們更多的大數據工作逐步實現云化。我們期待阿里云數加平臺能在文本數據挖掘、圖像數據識別、數據關聯分析等方面給予更多的能力支撐,助力專利大數據分析應用領域的快速發展。


江蘇佰騰科技有限公司,是一家專業從事知識產權服務的高科技服務企業,國內知名的知識產權服務機構,江蘇省最大的民營知識產權綜合服務機構。佰騰科技以專利信息應用和專利咨詢服務為核心,面向國內外用戶提供專利信息檢索、專利大數據應用開發、專利代理服務、專利預警分析、專利戰略研究、知識產權貫標輔導、知識產權管理、專利技術成果轉化交易等服務,為客戶提供知識產權、科技創新的整體解決方案。

nab篮彩