本文根據作者對數據市場領域的理解,深度探討數據重要性、數據使用存在的難題? web3 會從何途徑解決這些難題?原文源自 Jonas1997 撰寫的《web3 數據市場展望(萬字長文)》,由 PANews 整理、編修。
(前情提要:觀點|網路重回歷史叉路口,從「開放與封閉」維度回顧創建到 web 2、web3 之路 )
(事件背景:近期最大論戰|因為「Web3.0」,推特創辦人被自己的投資人封鎖了)
2022 年伊始,我在推特寫下 —— 2022 個人更關注的領域:web3 數據市場/ infrastructure、web3 社交/串流媒體、非資金盤鏈遊、錢包(web3 入口,含 DID)、次文化/青年文化 NFT 消費、DeFi 監管解決方案、技術突破性公鏈/跨鏈。
今天就從數據市場開始,梳理一下自己對這個領域的一些理解。
目錄
一、數據到底有多重要?
1、生產方式變革與組織形態遷徙
2、網路對傳統商業模式的重構
3、web2 的資訊孤島
二、數據使用存在哪些難題?
1、隱私邊界與隱私保護
2、數據外部性與產權確立
3、物聯網與數據採集
4、數據價值匹配
5、數據估值
三、web3 可能會從哪些途徑解決這些問題?
1、什麼是web3?
2、區塊鏈解決部分問題的可能途徑
3、web3 數據市場展望
一、數據到底有多重要?
生產方式變革與組織形態遷徙
人類社會發展至今,生產力幾經變革。生產力變革帶來生產方式的變化,進而又會影響到生產的組織形態,因為生產組織畢竟是為了適應生產活動而產生的。
純粹的生產為了滿足需求,需要以物易物,這通常是低效且繁瑣的。為了適應效率提高的需求,貨幣得以出現,成為了商品間交換的一般等價物。流通市場開始逐步建立,以流通市場為基礎的商業活動開始日益繁榮。
我認為人類至今共發生過三類生產方式變革:
第一,以器具的出現為標誌,從原始社會進入農耕社會。
透過對石器、青銅器、鐵器等各類工具的使用,人類開始順應自己的需求改造自然,開始種植水稻小麥,開始蓄養家禽,開始定居。
這一時期以自給自足的生產活動(農業、家庭手工業)為主,並且隨著文明發展逐漸出現了一些商業活動(「商人」一詞就起源於商朝)。
隨著社會發展,產品日益複雜,自給自足的生產方式越來越難以滿足個體需求,商業活動的佔比也越來越高。就這麼幾千年延續下來,很多現代社會常見的商業機構已經在這一階段初具雛形,比如銀行、海關等。
第二,以蒸汽機的發明為標誌,從手工工業進入機械工業。
煤炭與鋼鐵分別解決了生產力變革的能源與材料問題,蒸汽機對付的則是勞動效率問題。人類的長處終究不在體力,重複性的低效生產終究會遇到上限與瓶頸。
而機械(包括後來的電力革命)的出現,解放了人類的雙手,提高了生產的效率。就此,生產方式開始向專業分工的方向演化,人類通過奴役機械,擁有了更多的時間去發展科技人文,文明得以向更複雜多樣的道路前進。
生產端的解放造就了流通端的興盛,商業活動開始爆發,現代企業製度初具雛形。
第三,以網路的出現為標誌,從機器生產進入資訊生產。
網路,顧名思義就是電腦間互相聯接而成的網路。文明在發展中產生大量資訊,以記帳為例,人類最早是用結繩、刻契等方式來記錄經濟活動中的數量關係;數字出現後,它們被記錄在龜甲、銅器、竹簡直到造紙術發明後記錄在紙上。
隨著文明演進,生產活動越來越複雜,對一套清晰易懂的記帳規則的需求開始日益強烈。慢慢發展至今天我們熟悉的、會計裡的複式記帳法。
然而這些生產出來的資訊並沒有機會發揮更大的價值,在漫長的歷史長河中,它們要麼被記錄、沉澱到無人冊封的一角;要麼被遺忘,消散在過往雲煙中。
直到電腦(廣義,指計算晶片)代替紙筆成為承載資訊的工具,人類才能以一種更為高效、容量更廣闊的方式來記錄與分享資訊。在網覆的語境下,生產活動與商業活動重新發掘了資訊的價值,使得資訊不僅僅只是產品,也能夠承擔生產資料的角色。
在網路產品出現之前,資訊當然也能夠作為生產資料,但這意味著高額的成本;而網路的出現使得資訊得以數位化,這賦予了其一條非常重要的特性:零邊際成本。 (邊際成本簡單理解就是每多生產一個數量的產品成本要增加多少)
事實上,資訊生產相對於機器生產的另一大優勢在於網路外部性(網路效應)。網路效應的意思是,網路中每一個節點的增加,都會對現存節點帶來正效用。
這本質上仍來自於資訊零邊際成本的特性 —— 每一個新加入的節點都會向網路中的所有節點零成本共享一部分新的資訊(這是正效用的由來)。
零邊際成本與網路外部性賦予資訊生產方式一些非常恐怖的特性,比如迅速擴張與天然壟斷。理解了這兩點,你會非常容易理解為什麼網路公司能夠在短短幾年內創造出超越傳統製造業的價值,理解為什麼網路行業的創業公司總是喜歡燒錢大戰,理解為什麼最近中國網路公司開始走下坡路。
而基於網路的生產方式變革也影響到了對應的組織形態。按照制度經濟學大師科斯的理論,企業之所以存在,是因為其交易成本小於市場。
而基於網路的市場,資訊是具有零邊際成本的,也就是說,企業的交易成本必須變得更低才能夠適應,原先的縱向管理形態必須開始向橫向協同進行轉化。類似於 OKR(目標與關鍵成果法)之類更注重內部協同的管理系統也開始代替原有的 KPI(關鍵績效指標)系統。
網路對傳統商業模式的重構
伴隨著生產方式的不斷變革,人類的經濟活動重心也開始轉移,相比於物質生產,資訊生產以其更廣闊的發展前景得到了更多的關注。除去網路上原生的商業活動,應用網路對傳統行業進行改造將會是更勢在必行的方式。
現存的改造方式有兩個方向,其一從生產流程入手,目標是提升生產效率,比如很久之前(2013 年,德國)就被喊爛了的工業 4.0,通過「互聯+智能」來改進現有生產系統、產業分工、物流管理等;另一個就是重構商業模式,比如共享經濟、資訊平台、網購、社交等。
傳統的商業模式是線性的。假設你想買一個保溫杯(為什麼我最先想到的是保溫杯),你最先想到的是去超市/商場等零售商;你不會說我先去找廠家拿貨,廠家通常也不會給你;你更不會說我希望我的保溫杯是用鈦鋼做的去找更上游的鋼鐵廠。從上游材料商到中游生產商(再到下游零售商)這樣一個完整的鏈條,就是產業鏈。
廠家的生產也是相對盲目的。為什麼這麼說?因為廠家有自己的一本帳,這本帳一頭是成本一頭是利潤。利潤來自於下游的訂單,通常誰的條件更適合就接誰的訂單。消費者的需求無法直接傳達給廠家。廣泛來說,產業鏈上的每一個節點都無法低成本地去和非相鄰節點直接進行資訊與價值傳輸。
互聯網對此的重構,就是將「鏈」變成「網」。
在網路裡,任意節點之間都是可以建立起相互連接的(除非領導不讓)。消費者可以繞過零售商直接找到廠家,去進行批發或者定制產品(前者意味著傳統角色界限開始模糊,只要你想,消費者也可以變成零售商;後者意味著產業鏈的每一個節點都擁有更多選擇,這對打破縱向壟斷、提高效率有益);
看起來似乎是有意消弭了零售商這個角色,實則不然。網路實際上強調了零售商資訊中介的作用,因為消費者直接去找廠家是需要成本的,而如果零售商可以很好地整合及匹配資訊,就能夠賺取利潤。
然而我們知道,分佈式系統會帶來大量冗餘資訊。如果網路僅僅是將「鏈」變成「網」,那麼隨之而來的,就是資訊阻隔與資訊干擾,資訊之間無法完成高效而準確的匹配。
網路對商業模式重構的第二個要點,就是平台的出現。
平台所做的事情,本質上來說就是資訊匹配。線性的傳統產業鏈被網路重構為一個個節點後,需要有一個東西來實現原本由產業鏈實現的東西,那就是匹配供需資訊。
廠商去了 B 端(business),消費者去了 C 端(customer)。消費者對某一類產品的需求可以為生產商所捕捉,當整個平台上出現足夠多相同的需求,生產商的生產就會變得有利可圖(邊際成本遞減)。
我們前面說過,網路進行生產的兩大特性:零邊際成本與網路外部性。當越來越多的節點通過平台獲得連接,他們也會逐漸對平台產生路徑依賴,這意味著平台在生產/商業活動中的話語權在越來越強。
話語權意味著定價權,零邊際成本帶給平台的是幾乎為零的成本,因此定價權幾乎就意味著單個節點更高的利潤空間;而網路外部性帶給平台的是加速的節點進入。當利潤的兩個因子都在以恐怖的速度增加時,可想而知,一個成功的平台將會獲得多大的利益。
讓我們來就此解釋以下之前提到的三個問題:
為什麼網路公司能夠在短短幾年內創造出超越傳統製造業的價值?為什麼網路行業的創業公司總是喜歡燒錢大戰?為什麼最近中國網路公司開始走下坡路?
問題一已解。問題二。因為處在競爭狀態的平台所面臨的,一是話語權的不穩定性,一是新節點的多選擇,即使做到超大的規模、即使有很高的利潤,但只要戰場上還存在哪怕一個差不多的對手,結果就都是不確定的。
(典型案例如共享單車大戰)而不停地融資燒錢搶爭用戶,就是要在未來讓用戶別無選擇,進而利用自己的話語權謀求利潤。 (案例如滴滴)
這是網路平台商業模式的本質。 “winner-take-all”
但其實平台能做的不只有這些。如果僅僅因為平台本身的特性而干擾到市場正常的發展,這種行為是短視且不可持續的。
如果燒錢獲得勝利,未來勢必要向節點「徵稅」來彌補已經燒掉的錢。這個時候再出現實力不錯的新平台,很容易透過更好的服務與更低廉的價格吸引流量,別人此時無債一身輕,而你呢? (案例如共享單車大戰後的哈囉)
網路外部性並不意味著純粹的護城河,而是“好的服務=無比堅固的護城河”與“壞的服務=大廈將傾”。這種不健康的商業模式長期是不成立的。
說回平台能做的。 (其實已經偏題了但我既然說了還是說完吧)
前面說到網路對產業鏈重構,是將「鏈」變為「網」,平台為了搶奪這些節點而大打出手。但他們忽視了網路外部性的前提是節點對平台的路徑依賴,也忽視了節點之間的區別。
以網約車為例,司機與乘客是兩種不同性質的節點,乘客打車這一消費行為更多具有隨機性,更注重「打到車去目的地」這一結果,至於優惠多少是哪個平台則擺在了後面,相信我,網約車大戰時乘客每個 APP 都會下載,能白嫖的基本不會錯過;
而司機則不同,司機與平台之間更像是一種新型的、自由的僱傭關係,儘管會同時使用多個 APP,但每個 APP 待他們怎麼樣他們是心知肚明的。
也就是說,司機更容易培養忠誠度,在打車這一行為中也扮演著更重要的角色(司機是服務提供者,司機碰到不好的乘客不會怪罪平台,乘客碰到不好的司機平台就難免難逃其咎了)。
所以目標就是要用激勵機制使司機與平台的利益盡可能一致,無論是補貼還是什麼措施,都要盡可能偏向於司機一方。有人說,那乘客呢?別忘了,現在是在網路外部性的語境下,乘客的兩個選擇(出租車、網約車)中後者仍然是最優選擇(不過是獎勵稍微少了點而已)。
所以通過生命週期的利益平衡來傾倒更多資源對司機進行長期激勵,讓其與平台保持利益一致;乘客端則優先保證提供比出租車更便捷舒適的體驗(由司機提供),經濟激勵放其次,才是更合理也更健康的打法。
另外一點,平台之間橫向爭奪倒不如縱向延伸。如果平台能夠利用自己獲得的網路外部性惠及上下游,何愁沒有用戶黏性呢?如果不能,並且存在有外部激勵讓用戶打破路徑依賴,現有平台的網路外部性就會受到威脅。
以上所談的全部為網路,是存在於電腦(人)與電腦(人)之間的;而如果物聯網也加入呢?電腦(物)與計算機(物)、電腦(物)與電腦(人)的連接會使網路成長冪次級別的倍數。想想我們平均一個人擁有多少個物,每一個新的節點加入會使網路複雜性增加多少就能夠明白了。
網路/物聯網對傳統商業模式的重構,還遠遠沒有停止。而網路的「資訊生產」,本質上就是對網路中節點產生的數據的再利用。某種角度來說,數據之於網路,猶如能源之於現代工業。
web2 的數據孤島
前面說了,網路公司通過建立平台來完成資訊採集與匹配,利用零邊際成本與網路外部性的資訊生產特性賺取了大量利潤。隨著物聯網、大數據、雲端運算、人工智慧等技術的日益發展,人類的生活將越來越「數位化」:
利用數位化解決支付場景、解決工作流、解決社交聯繫、解決金融業務需求 …… 在這場數位化遷徙中,人類的「在線」時長會繼續增加,更多的人類活動將會被記錄為數據儲存在網路。
想想今天,睡眠監測儀可以獲得你的睡眠數據、智能家居獲得你的生活數據、智能出行工具獲得你的行動軌跡、無處不在的監控獲得你所有的體態與行為數據 …… 而在未來,物聯網的加入只會讓你的數據資料庫更豐富,大數據與雲端運算會讓算法通過數據描繪出你的數位形象、會通過搜索精確定位數據與個體的聯繫 ……
web2 的數據生態顯然已經難以滿足越來越複雜的數據生產與需求活動了。
巨頭網路公司透過壟斷用戶數據來牟利,但本質上他們並不擁有這些數據的所有權 —— 他們只是通過提供免費的服務來獲得了這些數據;他們也沒有完善的機制去保護這些數據(顯然,也並沒有激勵去這麼做),隱私洩露成為常態;
數據儲存於他們的中心服務器之上,他們也不會去刻意記錄每一次拷貝的細節。最重要的是,不同機構擁有自己的數據庫,來自於無效的重複性採集;數據的儲存與管理不成系統,存在大量失真;機構間形成數據孤島,缺乏互操作措施;非正當的數據交易頻發,信任成本畸高。
當 web3 攜手物聯網到來後,數據將呈冪次級增長,如果上面這些問題仍然得不到解決,將會誕生多少低效率的市場交易?新技術的應用價值將大打折扣。
數據孤島是行不通的。人類是社會性動物,數據也是。數據要想利用資訊生產的兩大特性,就必須開放互聯。隨著各類新技術的出現,對數據的應用出現了一些可能性。本篇第二部分,我將詳細說一說數據的使用目前存在有哪些難題。
延伸閱讀:科普 | Web3.0 時代,我們的生活將產生什麼變化?
二、數據使用存在哪些難題?
現代商業活動建立在市場機制之上,按照交換對象的不同,市場通常被劃分為:商品市場、服務市場、技術市場、金融市場、勞動力市場和資訊市場。
其中,技術市場可分為技術商品與技術服務,砍掉;而服務本質上也可以打包為商品;因此從我的角度,一般這麼劃分:商品市場、勞動力市場、金融市場、資訊市場。 (勞動力之所以單獨拎出來,是因為背後都是人,人的行為是複雜而不可預測的,不能簡單定義為商品)
前三者是我們經常可以接觸到的,資訊市場這個概念卻較為抽象。顧名思義,資訊市場中的交換對象是資訊,比如商業資訊、經濟資訊、人才資訊等。這些已知的資訊市場所交換的資訊,例如房產中介、獵頭、知識網、用戶資訊交易等,大多存在有專門的資訊中介。使用者為獲得這類資訊必須付費,否則就需要付出大量成本去尋找。
正如前文所說,目前可供交易的資訊只佔網路生產的數據的極小部分,並且基本處於灰色地帶。數據要想如能源驅動現代工業一般驅動數字化經濟,必須具備通行的行業標準、合規的市場、合適的交易規則等。而這困難重重。
隱私邊界與隱私保護
最先需要被提到的問題,就是隱私保護。我在前文提到了很多會被記錄的數據:
睡眠監測儀可以獲得你的睡眠數據、智能家居獲得你的生活數據、智能出行工具獲得你的行動軌跡、無處不在的監控獲得你所有的體態與行為數據 ……
這些數據對提供相應服務的公司都具有價值。例如智能空調檢測到你冬天喜歡開空調,該條數據可能會被某「巴拉巴拉離子暖風機」廠商購買,然後向您推送他家產品的廣告「比空調更健康、更省電」……
廠商定向買 1,000 條這樣的數據花的錢可能遠低於去某網首頁做個廣告。當然,理想情況下,這些錢是付給你的,畢竟你才是這條數據的所有者。
問題來了:如果你不想自己喜歡開空調這件事被人知道怎麼辦?
最粗放的方式當然是直接把智能空調卸了,換上普通空調;可如果普通空調的晶片也能收集數據怎麼辦?去二手市場淘一個老式電風扇可能比較靠譜。
智能冰箱也是,最好換成地窖儲冰;不能坐高鐵,也不能過收費站,為了去外地只好徒步穿越無人村落 …… 然而一通操作下來,你發現你的生活品質急劇下降,科技明明在進步,你卻退化成了原始人。
排斥新產品與排斥數據收集顯然是不太現實的。重點在於個體要擁有自主選擇的權利,可以選擇什麼樣的數據被收集,什麼樣的數據不被。然而這真的現實嗎?
學過經濟學的朋友都清楚一個概念叫做「道德風險」,來源於事後的資訊不對稱。即:如果由用戶選擇什麼樣的數據被收集,用戶完全可以選擇不提供任何數據,或者為了用數據牟利提供虛假的數據,因為誰都不想有關自己生活的一些真實數據被人知道。
如果事情發展成這樣,討論數據是沒有任何意義的,數位化經濟也會不復存在。因為沒有人會願意千辛萬苦最後得知你的名字叫「坎布尼特爾斯威齊巴克尼布維斯達我就不給你真名你自己慢慢猜吧但是我錢先拿走了撒油拉拉·張」。
所以數據收集一定需要是客觀默認的,這就需要做到被用戶自己也認可的足夠程度的隱私保護。這一點現行的密碼學技術已經有了一些方向。
但其實真正的問題往往是哲學性的:如何定義隱私的邊界?隱私的邊界該由個體選擇還是群體選擇?如何平衡監管與個體權利?如何處理隱私的外部性?
舉個例子,如果默認數據收集,而收集的數據是否加密則由用戶選擇,這樣一旦有危急事件政府可以選擇啟用被用戶選擇「加密」的數據,而平時涉足到商業的部分數據也是由用戶親手選擇,並由用戶獲得收益,這看似是一個不錯的解決方案。
但實際上,如果這個人是一個恐怖分子,他選擇不公佈的數據中藏有能夠找到他的資訊怎麼辦?有人說,那就讓政府啟用啊!問題來了,在啟用前政府不知道恐怖分子是誰,為了知道是誰只能全面啟用,這又會波及到其他無辜的用戶(隱私洩露了);同時,該恐怖分子作惡會對其他人產生負外部性。如何處理這些外部性?
隱私如同文學作品,不同人對其的理解可能是千人千面的。我覺得露脖子不算什麼,可能有的人會非常反感。這導致如果推行一個通用型的標準,總會有部分人的「隱私」被侵犯。如此通用型標準只能夠越寬泛越好,但如果過於寬泛,也不能稱之為「標準」了。
數據外部性與產權確立
談及數據的外部性,必先介紹兩個概念:非競爭性與非排他性。這兩個概念是用來規定公共品的,而外部性就是存在於公共品問題之中。
非競爭性指,當一個人消費某種產品時,不會減少或限制其他人對該產品的消費。通常來說,這意味著零/低邊際成本(所以網路產品通常具有非競爭性)。
我們所見到的絕大部分數據,都是可以被重複使用的,不會因為用過一次而自焚或者改變內容。與之不同的是,大學入學名額,我擠進了分數線就一定有一個人被擠下去,所以高考就是「競爭性」的。
非排他性指,當一個人在消費某種產品時,無法排除其他人也消費這一產品(或者排除的成本很高)。
什麼意思呢?舉個例子,你去魚塘釣魚,不能不讓別人釣(除非這魚塘是你家的);或者你半夜去散步,看到另一個散步的,但你不能打他,除非給他很多錢請他離開,但如果他走了又有一個人過來散步,你還是不能打他,因為馬路大家都有份。
滿足非競爭性與非排他性的就是公共品。公共品問題中存在一個著名的博弈:「公地悲劇」,意思是每個人都想盡可能多地利用公共資源謀私利,最終導致公共資源難以承受而崩潰。這是因為每個人對公共資源的使用都會對其他人產生一個「負外部性」。
我們知道,在網路中,外部性是正的。這源於資訊生產的零邊際成本,而公共資源顯然不具有這個優勢。
無論外部性是正還是負,外部性的存在意味著產權不夠明晰。而市場是無法為產權不夠明晰的商品做出合理定價的。如何看待數據的外部性?
首先我們需要就非競爭性與非排他性的概念給數據進行分類。對於非競爭且非排他的數據而言,顯然應該由政府/公共組織提供,收益歸其所有。比如天氣預報、宏觀經濟數據。這類公共數據有一個特點:他們都與個體毫無瓜葛。這是最為清晰明了的一種。
對於競爭性/排他性數據,由於在生產過程中無法明確分離權利主體,導致無法分離出數據中的公共內容與私人內容。
例如某公司想通過 X 市一個普通人的生活數據來尋找X市的投資機會,X 市總共有 10 萬人願意提供這類數據,但該公司只需要 1 萬條。這類數據就具有外部性,因為它們的一部分內容是共享的,任意一條數據被採用都會使得其他數據受到“負外部性”影響而貶值。
又例如,我的聽歌數據,除了我自己知道,記錄該數據的軟體也一定知道,因為我使用這個軟體聽歌。除去我的行為部分,其餘的部分本質上來說由軟體生產,難道這就意味著軟體也擁有我的聽歌數據的部分產權?
人做任何行為,最終一定是要與外部世界互動的;無論這種互動是物理性的,還是通過生活狀態表現出來的。這使得互動對象通常存在於你的數據裡,無論他是物體還是人。既然外部性似乎不可避免,我們又如何去為數據確立明晰的產權呢?
物聯網與數據採集
前面兩點都或多或少地涉及到了數據採集。比如數據採集應該是自發而是被選擇受控制的?受個體控制的數據採集如何保證真實性?自發的數據採集如何保證不侵犯隱私?數據採集的範圍、方式與量規?
現有的數據採集可能主要發生於「上網」這一行為。舉例來說,透過支付與消費記錄獲得購物習慣、行動軌跡;透過網路言論推測個體想法與認知;透過瀏覽記錄、應用下載記錄等獲得個人喜好等。然而智能家居、自動駕駛、監控等背後代表的可能會是另一種覆蓋面更廣的數據採集路徑 —— 物聯網。
物聯網將在個體的生活中佈滿裝有高速計算晶片的機器,這些機器的日常工作將會積累到大量的數據,透過計算與加工匹配入數據庫。這些更豐富的細節將會使得大數據對個體的畫像更加清晰,從簡單的行為習慣深入到思維認知、精神特性等。
這從一方面對數位化經濟及社會治理具有極大意義,另一方面也引發了奧威爾式的個體隱私困境 —— 不僅僅來源於被時刻監控的焦慮,更因為這些重要數據一旦洩露,基本上可以宣布一個數位時代公民的「死亡」。
因此,物聯網在數據採集過程應該做到什麼程度、遵守什麼規則,設備的可信度、設備的身份核實、設備的記帳系統等,是一定需要被提前約定並嚴格遵守的。
數據價值匹配
提到數據市場,不得不說的一個問題是數據的價值匹配。
什麼意思?對比商品市場,每個商品能夠做什麼我們都是非常清楚的,正是據此我們結合自己的需求給出了期望價格。比如我是一名農夫,我一天可以砍十斤柴,一斤柴可以賣二十塊,我想去市場買只斧子,斧子可以用三十天,於是我知道了:斧子總共能砍六千塊的柴,我砍柴這麼累應該賺三千,那麼斧子的期望價格就在三千以下。
但數據市場不同。數據的價值討論存在一個悖論:即如果我不知道一條數據的內容,我無法為其確定價值;但一旦我知道這條數據的內容,這條數據對我來說就不存在價值了。這種特性讓數據市場自然完成價值匹配變得非常困難。
好在大數據技術讓內容無法一目了然的數據完成了價值發現。數據需求者可以搜索或挖掘想要的數據,現在擺在他們面前的難題成了:如何確定這些數據內容的「正確性」?
即:如果低價值的數據偽裝成高價值數據,無法提前查看內容的數據需求者如何快捷地進行篩選以便滿足自己的需求?
密碼學中存在有一種「在不向驗證者提供任何有用的資訊的情況下,使驗證者相信某個論斷正確」的技術,稱為「零知識證明」。
然而,零知識證明的提供者,如何保證他提供正確論斷的動機不受高額利益的影響?設計事前激勵機制是個好主意,然而如果無法知道數據的準確價值,如何調節激勵的額度?
即使解決了數據內容與數據標題的匹配「正確性」,在海量的交易需求面前,需要的顯然是一個高並發、高性能、可自動執行交易的系統。好在區塊鏈已經走在了解決問題的路上。
數據估值
還有個容易被忽略的一點:數據估值。既然要做交易,就必須有通行被認可的估值體系,否則市場將亂象叢生。現行的數據估值方法包括:
成本法,將收集、存儲和分析數據的成本作為數據估值基準。一個明顯的問題是,大部分數據並非專門生產,而是其他活動中的附屬物;大部分數據的收集、儲存等也是同時進行;大部分數據的產權還難以進行界定。這導致它們的成本難以劃分。
收入法,預測數據的未來現金流並進行折現。然而數據所產生的效用根本難以建模,以剛才說到的價值匹配為例,如果匹配出錯,數據是有可能一文不值的,這部分概率是否要折入期望值?此外,同一個數據對不同使用者的效用是完全不同的,難以去製定一個通行的標準。
市場法,根據市場上類似數據的交易價格進行類比估值。這要求市場機制較為完善,有大量交易和數據累積。我個人認為市場法是最為合理的,但仍然存在很多問題。
比如,由於價值匹配問題的存在,數據的交易是不具有穩定性的,好比開盲盒開到垃圾,這會反映到市場之中影響估值(數據可能由於匹配錯誤率高等非內容原因獲得低估值)。又比如,數據是非標準化的,如何界定類似數據也會是一大問題,界定過細影響累積深度,界定過寬卻又沒什麼用……
三、web3 可能會從哪些途徑解決這些問題?
什麼是web3?
關於 web3 有很多形象的說法:
這些說法分別指向了 web3 的幾個突出特徵(以及我自己總結的):數據產權、社群共建共享、開源、數據透明、個體價值創造、價值層。
數據產權:個體擁有私人數據的所有權,可以利用自己的數據創造及獲取價值;私人數據由隱私技術確定邊界。與 web2 巨頭壟斷用戶數據相對應。
社群共建共享:在以區塊鏈為底層技術的 web3 背景下,共識成為價值發現的基石。社群/DAO 建立於共識之上,共同建設、共同分享建設成果。與現代企業制度相對應(二者並非對立的)
開源:共識的前提是開源,共建共享的前提是開源。開源是未來基於算法的信任機制。
數據透明:數據在共識認可下被記錄,可追溯、不可篡改。
個體價值創造:個體能夠作為一個完整體,透過算法建立的合作機制與他人完成分工生產。各類治理問題開始變得清晰簡明。
價值層:web3 建立在貨幣等價值底層之上,這讓數據確權與交換、社群共建共享、個體價值創造等擁有了激勵引導。
web3的技術底層是區塊鏈。區塊鏈具有分佈式記帳,交易可追溯、不可篡改,公開透明,智能合約可編程性、「算法+激勵機制」協同驅動等特點。我之前也寫過一篇文章可進一步了解:說說我對區塊鏈行業的一些看法(萬字長文)
區塊鏈對現存問題的可能解決途徑
那麼在解決前文所提的數據市場問題時,區塊鏈到底具有什麼優勢呢?
來爬一下前面提過的問題,總結如下,並附上我的個人回答:
Q:巨頭網路公司透過壟斷用戶數據來牟利,但本質上他們並不擁有這些數據的所有權 —— 他們只是透過提供免費的服務來獲得了這些數據;
A:用戶在區塊鏈上進行的每一筆交易都由多個礦工進行維護,交易記錄是公開透明可查詢的;目前任何需要這些數據的項目會通過分發 token 的方式完成冷啟動,這同時給用戶帶來了獎勵。隨著隱私、零知識證明等技術的進步,未來用戶將擁有自己的私人數據以及其產權,將可以自主決定這些數據的用處。
Q:他們也沒有完善的機制去保護這些數據(顯然也沒有激勵去這麼做),隱私洩露成為常態;
A:公鏈的共識機制決定了其安全性不受單個或多個中心的影響,因為區塊鏈的設計已經將共識機制與激勵機制相結合,所以,除去挖礦獎勵也無需專門的激勵。 (考慮到環境影響與資源浪費,ETH 目前正由 PoW 轉向 PoS,然而 PoS 也並非完美機制,共識機制仍舊處於不斷進化的狀態)對於惡行,共識機制也會根據算法實施懲罰。
共識機制的安全破綻來自於遵循機制規則的惡意攻擊,隨著越來越多節點的加入,這樣的機會將會越來越少。
Q:數據存儲於巨頭的中心服務器之上,他們也不會去刻意記錄每一次拷貝的細節;
A:區塊鏈將數據存儲於分佈式帳本之中,由去中心化的礦工們進行維護。目前似乎無法記錄數據的查閱記錄,但這並沒有必要,因為可供查閱的記錄一直是公開透明的,未來如果是涉及到隱私的私人數據,將會由對應的算法進行保護。任何查閱都將需要支付成本並擁有交易記錄的。
Q:不同機構擁有自己的數據庫,來自於無效的重複性採集;
A:由於底層的數據共享,區塊鏈的使用者無需進行重複採集,他們只需要使用模塊化前端或者自己去爬取即可,他也完全可以和他人共享這些成果。無所謂共享,本就是公開透明的。
Q:數據的存儲與管理不成系統,存在大量失真;
A:但凡被記載在鏈上的都是經過共識機制下礦工群體的確認,由於帳本是分佈式的,因此不存在丟失的問題;對於嚴重的分歧,會在社群投票後進行分叉。歷史仍然可以被真實記載。
Q:機構間形成數據孤島,缺乏互操作措施;
A:數據共享。模塊化產品將更有利於互操作。
Q:非正當的數據交易頻發,信任成本畸高;
A:所有公開數據無需非正當交易。非公開數據的交易是完全自由並且會被記載,無需單獨的信任程序,因為算法實現了這一點。
Q:如何定義隱私的邊界?隱私的邊界該由個體選擇還是群體選擇?
A:關於隱私邊界存在有一個概念叫「合理隱私期待」,在1967年凱茨訴聯邦案中為解決隱私權的邊界問題提出,由於凱茨使用的公共電話亭被聯邦官員竊聽,凱茨將其告上法庭。
美國最高法院認定「保護人民而不是保護場所」,意思是只要個人的行為意願並非想要公之於眾並刻意避免引起注意,即使發生在公開場合也是可以被保護的。
然而這個概念存在有一個致命問題,那就是沒人知道「個人的行為意願」到底是善意還是惡意。正如我前面所舉的例子,恐怖分子並非想要公之於眾並刻意避免引起注意,這樣的隱私該受到保護嗎?
我個人的觀點是,如果隱私不具有外部性,這種隱私就該受到保護。一旦個人隱私對外界產生不良影響(負外部性),就需要有人來為此負責,產生負外部性的個體應該支付成本使得社會恢復原樣,就如同污水治理問題規定污水排放權一樣。
然而前面又說了,不確定負外部性來自於誰,只能查看全部個體的隱私來進行搜尋,這種行為反而又造成了另一種負外部性。是否存在有這樣的一種技術,對資訊查詢者的任意問題由機器進行零知識證明驗證,從而解決上述難題呢?
對於後一個問題,我認為應由群體選擇基本邊界,外部性原則確定客觀邊界,二者並集即為法定隱私邊界。而個體可以根據個人選擇,在法定邊界的基礎上自由選擇維持隱私還是通過使用私人數據獲利。
Q:如何平衡監管與個體權利?
A:恕我愚昧。
Q:如何處理隱私的外部性?
A:區塊鏈技術由「算法+激勵機制」驅動,當交易發生在鏈上時,可以將多個交易方進行劃分,同時一組交易中的多個子交易也可根據公共/私人等不同性質進行劃分,如果能夠明確任意交易中不同節點的歸屬,就可以由此進行產權劃分,解決數據外部性問題。
(以上為我胡謅)隱私同樣屬於數據,但隱私外部性還存在問題,即如何事前預防作惡。
Q:數據的外部性似乎不可避免,我們又如何去為數據確立明晰的產權呢?
A:以上。
Q:數據採集應該是自發而是被選擇受控制的?受個體控制的數據採集如何保證真實性?自發的數據採集如何保證不侵犯隱私?
A:我認為在安全且完備的隱私算法的技術支持下,數據採集應該是自發的。原因我之前也說過,如果由個體控制,數據市場會被大量虛假數據污染,也就不復存在的必要了。
受個體控制的數據採集如果要保證真實性,必定要保證擁有足額的懲罰機制,例如一旦生產虛假數據被發現,將會從數據市場中除名(這意味著數據收益權變為雞肋)。
然而,在技術無法保證數據採集的隱私安全性時,我認為應該保留個體參與數據採集的選擇權利(放棄數據採集也意味著幾乎放棄數據使用權,因為缺乏機器輔助,人力幾乎無法做到對數據的有效利用)。
Q:如何確定數據內容與數據標題的匹配「正確性」?即:如果低價值的數據偽裝成高價值數據,無法提前查看內容的數據需求者如何快捷地進行篩選以便滿足自己的需求?
A:同隱私外部性部分,寄希望於新技術 —— 你永遠可以相信「算法+激勵機制」。如果你不信的話,那改成我一直相信「算法+激勵機制」好了。
Q:零知識證明的提供者,如何保證他提供正確論斷的動機不受高額利益的影響?設計事前激勵機制是個好主意,然而如果無法知道數據的準確價值,如何調節激勵的額度?
A:同隱私外部性部分,我對此的終極期待是,驗證者的角色由人工智能擔任。現有的解決辦法可能會是,一旦驗證者作惡,會被永遠踢出節點隊伍;但受限於區塊鏈的匿名性,我們仍然無法對地址的善惡做出經驗性判斷。
正是由於懲罰的失效,驗證者有動機在面臨高額利益誘惑時做出不誠實的證明。從某些角度來說,如果零知識證明驗證者由現實世界受信任的主體擔任(即中心化)會帶來一個更好的結果。
Q:在利用市場法為數據進行估值的過程中,如何界定非標準化數據的「類似數據」?
A:「類似數據」並非一定要從現狀界定,或許可以從生產過程入手,即按照數據不同維度的分類對數據生產時的相關交易記錄進行匹配,每個分類統計特徵滿足要求的數據可以列入該分類下的「類似數據」,對於結合了所有給定分類的標的數據,或許可以用統計學手段對每個「類似數據」的市場價格進行回歸來尋找擬合值。
無論如何,數據的估值存在有諸多問題,估值方法的目的不是盡可能準確,而是盡可能維持市場秩序,促進市場來完成價值匹配。
web3 數據市場展望
總結一下本文到現在的內容。
首先,從人類生產方式與對應的組織形態的變遷過程中,我指出了資訊生產兩個特徵:零邊際成本與網路外部性。網路借助這些特徵正在逐步完成對傳統產業、商業模式的重構,也使得人類逐漸向數位化遷徙。
在這樣一個趨勢中,數據的重要性開始凸顯,然而 web2 對數據的使用存在有各種問題。具體到數據市場交易,又存在隱私邊界與保護、數據外部性、數據採集困境、數據價值匹配、數據估值等各種問題。
基於區塊鏈技術的 web3 是對傳統網路的革新,希望能通過「算法+激勵機制」結合的思路去解決眾多難題,為數據市場的實現提供一個可能。
那麼,我對數據市場的期待是什麼樣的呢?
首先,關於數據市場的基礎設施。關於隱私、數據外部性、零知識證明等,現有的技術需要突破。高並發、高性能的新公鏈也會是一個剛需(並且還需要足夠的安全性,這太困難了)。
從我個人的角度,由於數據市場中很多地方涉及到監管、通行規則確定、個體產權等,想在公鏈上構建是不太現實的,全球性的數據市場很可能是在公鏈實現技術突破後(一般技術突破是在公鏈,嗯),由現存政治格局對應的受信任國家間構建穩定聯盟鏈,並在底層協議規則得到協商公認後再行發展的。
然而,局部性的數據市場一定會在公鏈上先發一步。涉及到哪些數據呢?所有 dapp 的使用記錄、用戶在公鏈上的創作內容這類公開數據並不具用戶間交易價值,但對 B 端是有價值的,預計仍然會通過空投 token 的方式(使用數據圈定了目標用戶)。
而未來由隱私算法所記錄的私人數據將會將會開始進行原始的點對點市場,最先興起的市場預計是用來做配套服務的,比如抵押擔保交易。
隱私算法成熟後,機構或者鯨魚會隱藏自己的一部分交易,因為在傳統金融裡,資訊即價值。鏈上 token 市場將會變得更加複雜,同時由於缺乏監管,普通用戶將承擔更多的風險。類似知識付費的商業形態可能會興起,因為算法可以自動完成相關交易,這對個人創作者將更為友好。
數據交易廣義來看,還包括鏈上文化精神消費。舉個例子,影音網站、網路小說平台的會員制,本質上就是一種非競爭、排他的數據產品;如果這類文化產品不免費對外開放,就需要隱私算法支持,或者一些其他的技術手段(比如 opensea 購買 NFT 後解鎖隱藏內容)。
在精神消費領域中,有一個方向一直是各位紳士們的心頭所好,更是完美契合隱私匿名的特性,具體是啥我就不說了。
儘管說了這麼多,但數據市場的未來仍舊是任重而道遠。說是 2022 年展望,等到那一天真的來到,或許是 2032 年了。或許 …… 也有可能 …… 不會到來?
📍相關報導📍
近期最大論戰|因為「Web3.0」,推特創辦人被自己的投資人封鎖了
馬斯克:目前 Web3.0 很行銷而非真實,2051年感覺像瘋狂未來主義
Web 3.0 的故事要從《大教堂與市集》說起:從 Linux 中所學到的
讓動區 Telegram 新聞頻道再次強大!!立即加入獲得第一手區塊鏈、加密貨幣新聞報導。
LINE 與 Messenger 不定期為大家服務