搜索引擎是信息時代的利器,推動著互聯網應用、技術的發展。網絡空間大搜索是指面向泛在網絡空間中的人、物體、信息和服務,在正確理解用戶意圖基礎上的,基于從網絡空間大數據獲取的知識,給出滿足用戶需求的智慧解答。區別于傳統搜索,網絡空間大搜索有泛網的獲取、知識融合、用戶感知、智慧解答、安全可信等五個特點。

中文名

網絡空間大搜索

外文名

Cyberspace?Big?Search

背景

搜索空間從面向信息的互聯網擴展到了人、機、物互聯的泛在網絡空間?;ヂ摼W、移動互聯網、物聯網、傳感網等技術的迅猛發展促進了網絡空間的日趨繁榮,使得傳統搜索引擎的搜索空間由單一的互聯網發展到了泛在的網絡空間。泛在網絡空間是一種建立在互聯網基礎之上的具有自適應性的智能網絡,它通過各種有線和無線網絡與物聯網、互聯網、傳感網等的融合,綜合應用海量的傳感器、智能處理設備等終端,實現物與物、人與人等之間在任何時間、任何地點的安全有效連接,并在上面運行了海量的軟件、服務和應用。泛在網絡空間以深度環境、內容感知為基礎,實現人機物三元世界中的社會資源、信息資源、物理資源的高效深度融合和綜合利用,為個人和社會提供無所不包、無所不能的信息服務和應用。網絡空間的擴展,使得搜索引擎的范圍由互聯網擴展到“互聯網+物聯網+傳感網”所形成的泛在網絡空間,使得搜索對象由傳統的信息擴展到了物體、信息、人物和服務。搜索空間的擴展使得傳統的面向關鍵字的搜索不能滿足用戶對物體、信息、人物和服務搜索需求,搜索引擎必須進行完全創新性的、顛覆性的、革命性的變革。

網絡應用模式從Web1.0發展到了Web3.0。當前,網絡應用模式從靠點擊流量取勝的綜合門戶Web1.0時代,發展到高度交互人人都可參與的Web2.0時代(如社交網絡應用等),并向更高級的服務化、高度智能化的Web3.0應用模式發展。在Web1.0時代,主要以靜態、單向閱讀的靜態網頁為主,其特點是由商業公司和少數人將大量的信息編輯并上傳到網上,用戶通過瀏覽器獲取信息,屬于制造者和消費者之間的關系。這些搜索引擎主要采用網絡爬蟲技術獲取互聯網上的Web網頁,按內容建立倒排索引,根據用戶輸入的關鍵字進行檢索,再利用PageRank等算法對搜索結果排序,即可滿足人們按關鍵詞在互聯網上快速搜索相關內容的需求。在以社交網絡為代表的Web2.0時代,任何人既是網絡信息的消費者,也是網絡信息的制造者,并相互影響,頻繁交互。Web2.0應用主要包括:微博、微信、論壇、貼吧、博客、百科全書、網摘、P2P、即時信息等。這些應用生成了更多的數據,主要包括:帶有時間位置的時空交通數據;用戶產生的圖片和音視頻數據;用戶情報數據和司法數據;用戶產生的大量健康醫療數據;表達用戶對某事件具體想法的數據;用戶討論話題內容不斷演化的數據;人與人之間的互粉、交流等交互數據。Web3.0語義網絡是以網絡化和個性化為特征,提供更多人工智能服務的語義網,為人們提供更加個性化的智能服務。顯然,傳統的Web1.0搜索引擎已不能應對上述變化,大搜索需要新一代的、革命性創新的搜索引擎。

大數據時代的到來

“大數據”是指在一定時間內難以依靠已有數據處理技術進行有效采集、管理和分析的數據集合,它通常滿足“5V”特點:規模大(Volume),從TB級別躍升到PB甚至ZB級別;數據類型繁多(Variety),如文本、視頻、音頻、圖片等及其變化組合;速度快(Velocity),數據高速生成,要求實時處理;不確定性(Veracity),數據不確定,來源不可信;有價值(Value),大量的數據中存在極有價值的信息。目前,企業利用自己擁有的大數據為自己進行服務,但如果數據是可交換及開放的,發掘能力也是通用的,大數據就可以為其他企業及社會大眾創造價值。隨著數據的不斷發布和公開,一種通用的、智能化的、泛在的大搜索技術正成為迫切需求。

發展

國家自然科學基金委員會第120期雙清論壇于2014年9月28日-29日在北京召開,與會代表圍繞網絡空間智慧搜索暨網絡空間大搜索理論與技術的研究現狀、發展趨勢及面臨的挑戰進行了熱烈討論和交流,初步提出了該領域急需關注和解決的重要基礎科學問題。