發(fā)布于:2020-12-30 11:56:32
0
92
0
網(wǎng)絡(luò)是建立在數(shù)據(jù)之上的——我的數(shù)據(jù)、你的數(shù)據(jù)、小公司的數(shù)據(jù)、大公司的數(shù)據(jù)等等。我們可能會(huì)交出電子郵件地址等數(shù)據(jù),作為回報(bào),我們可能會(huì)獲得其他數(shù)據(jù),可能是新電子游戲的獨(dú)家內(nèi)容或每周新聞通訊。這種持續(xù)的數(shù)據(jù)交換允許在web之前從未存在過(guò)的規(guī)模上進(jìn)行協(xié)作和通信。
目前很多交換的數(shù)據(jù)都可以看作是以人為中心的。我們有新聞文章、博客、電子商務(wù)、論壇、視頻平臺(tái)、社交媒體和問(wèn)答網(wǎng)站,為我們提供了閱讀、觀看和消費(fèi)的數(shù)據(jù)。我們不是唯一的網(wǎng)絡(luò)消費(fèi)者,搜索引擎,語(yǔ)音助手,定價(jià)機(jī)器人,甚至鏈接預(yù)覽機(jī)器人每天執(zhí)行驚人數(shù)量的請(qǐng)求。像這樣的計(jì)算機(jī)系統(tǒng)在數(shù)據(jù)消費(fèi)中扮演著越來(lái)越重要的角色。
蒂姆·伯納斯-李創(chuàng)造了“語(yǔ)義網(wǎng)”的概念,在這個(gè)概念中,網(wǎng)絡(luò)可以被認(rèn)為是一個(gè)計(jì)算機(jī)系統(tǒng)可以理解的全球性數(shù)據(jù)庫(kù),而不是一系列獨(dú)立的網(wǎng)頁(yè)。反過(guò)來(lái),這可以有效地允許不同計(jì)算機(jī)系統(tǒng)之間的更深入集成,并允許更大程度的數(shù)據(jù)分散。這里的數(shù)據(jù)不只是來(lái)自大公司——它可以是你的數(shù)據(jù),也可以是我的數(shù)據(jù),我們通過(guò)自己的網(wǎng)站控制和管理自己的數(shù)據(jù)。
不幸的是,我們還沒(méi)有達(dá)到數(shù)據(jù)烏托邦的這個(gè)階段。大量數(shù)據(jù)不是公開(kāi)可用的,對(duì)于可用的數(shù)據(jù),通常會(huì)被api和它們自己的專(zhuān)有系統(tǒng)鎖定,在這些系統(tǒng)中,您需要付費(fèi)訪(fǎng)問(wèn)。
構(gòu)建語(yǔ)義Web
從我們現(xiàn)在所處的位置到一個(gè)完整的語(yǔ)義網(wǎng)不是一朝一夕就能實(shí)現(xiàn)的。多年來(lái),我們一直在HTML、CSS和JavaScript上構(gòu)建網(wǎng)頁(yè),為人類(lèi)的瀏覽體驗(yàn)進(jìn)行優(yōu)化設(shè)計(jì)。目前,要從HTML中提取可靠數(shù)據(jù),計(jì)算機(jī)系統(tǒng)需要能夠處理非結(jié)構(gòu)化數(shù)據(jù),然后建立上下文和意義。問(wèn)題是,我們?nèi)祟?lèi)可以通過(guò)查看頁(yè)面來(lái)確定上下文和含義,但機(jī)器必須執(zhí)行額外的處理才能獲得相同的上下文。直接編碼結(jié)構(gòu)化數(shù)據(jù)消除了機(jī)器自身處理的額外復(fù)雜性。編碼結(jié)構(gòu)化數(shù)據(jù)有許多不同的解決方案,包括開(kāi)放圖、微數(shù)據(jù)、RDFa和JSON-LD。
由Facebook創(chuàng)建的Open Graph是一種保存特定類(lèi)型結(jié)構(gòu)化數(shù)據(jù)的流行格式。Facebook使用這個(gè)從頁(yè)面元數(shù)據(jù)生成鏈接預(yù)覽。網(wǎng)站開(kāi)發(fā)人員希望根據(jù)元數(shù)據(jù)中描述的方式來(lái)控制顯示的內(nèi)容。自從它誕生以來(lái),其他社交媒體網(wǎng)站也采用了Open Graph來(lái)生成鏈接預(yù)覽。
然而,微數(shù)據(jù)、RDFa和JSON-LD有一點(diǎn)不同,因?yàn)樗鼈儽旧碇槐硎驹趙eb頁(yè)面中存儲(chǔ)數(shù)據(jù)的不同格式。計(jì)算機(jī)可以解析這些標(biāo)準(zhǔn)化的結(jié)構(gòu)。然而,除非它知道所表示的數(shù)據(jù)類(lèi)型,否則它不會(huì)真正理解數(shù)據(jù)。這里缺少的是一個(gè)共享的詞匯表,以便兩個(gè)不同的計(jì)算機(jī)系統(tǒng)能夠相互理解。
谷歌、微軟、雅虎和Yandex聯(lián)合提出了一個(gè)名為Schema.org的解決方案,以在具有通用詞匯表的web頁(yè)面中促進(jìn)結(jié)構(gòu)化數(shù)據(jù)。對(duì)于搜索引擎來(lái)說(shuō),這種結(jié)構(gòu)化數(shù)據(jù)可以幫助在搜索結(jié)果中提供更豐富的信息。org并沒(méi)有描述所有類(lèi)型的對(duì)象,也沒(méi)有打算這樣做,但它確實(shí)為描述許多常見(jiàn)對(duì)象創(chuàng)建了堅(jiān)實(shí)的基礎(chǔ):書(shū)籍、事件、地點(diǎn)、醫(yī)療條件、電影、組織和人員。對(duì)于它沒(méi)有涵蓋的領(lǐng)域,可以使用替代詞匯表來(lái)描述專(zhuān)門(mén)的數(shù)據(jù)。由于Schema.org在增強(qiáng)SEO方面的流行,它擁有一個(gè)不斷增長(zhǎng)的用戶(hù)基礎(chǔ),這反過(guò)來(lái)有助于語(yǔ)義網(wǎng)的發(fā)展。
數(shù)據(jù)可能會(huì)改變我們使用網(wǎng)絡(luò)的方式
語(yǔ)義網(wǎng)不僅會(huì)改變我們對(duì)在線(xiàn)搜索信息的看法,還會(huì)改變誰(shuí)來(lái)控制信息。想象一下,每個(gè)網(wǎng)站不僅僅是一堵內(nèi)容墻,而是一張相互關(guān)聯(lián)的主題和想法的圖表。不需要有一個(gè)中心點(diǎn),將數(shù)據(jù)存儲(chǔ)和控制在一個(gè)單一的實(shí)體,這有助于避免審查和偏見(jiàn)的一些擔(dān)憂(yōu),同時(shí)提高隱私和對(duì)共享數(shù)據(jù)的控制。
以Facebook這樣的網(wǎng)站為例。它維護(hù)關(guān)于人員和企業(yè)的大量信息,以及來(lái)自評(píng)論、反應(yīng)和共享的不同實(shí)體之間的各種關(guān)系。這些數(shù)據(jù)是Facebook生態(tài)系統(tǒng)的一部分;它實(shí)際上“屬于”他們。在未來(lái),數(shù)據(jù)由我們自己控制,像Facebook這樣的網(wǎng)站可能只是現(xiàn)有網(wǎng)絡(luò)的可視化表現(xiàn),建立在語(yǔ)義網(wǎng)上。我們?cè)诰W(wǎng)站上公開(kāi)的數(shù)據(jù)是可以查看的,這使我們能夠完全控制哪些數(shù)據(jù)被分享。這也意味著我們不會(huì)被Facebook之類(lèi)的服務(wù)所束縛。您可以自由移動(dòng)到其他“前端”,因?yàn)閿?shù)據(jù)是您的,您可以維護(hù)它。
像Facebook這樣的組織想要交出他們的數(shù)據(jù)似乎很奇怪,然而,隨著更嚴(yán)格的法律的通過(guò),例如歐盟的GDPR和加州的CCPA, Facebook被迫交出數(shù)據(jù)可能只是時(shí)間問(wèn)題。
隨著利用這些數(shù)據(jù)的新技術(shù)的出現(xiàn),它也將為用戶(hù)提供新的工具和體驗(yàn)。雖然搜索引擎背后的算法很復(fù)雜,但它們目前提供的查詢(xún)結(jié)果已經(jīng)得到了明確的回答。如果你問(wèn),“1995年之前所有在國(guó)內(nèi)失敗但在世界范圍內(nèi)廣受歡迎的歌曲”,你不太可能得到結(jié)果,因?yàn)檫€沒(méi)有人回答這個(gè)問(wèn)題。這種查詢(xún)的數(shù)據(jù)存在于web上;然而,由于搜索的工作方式,它并不是現(xiàn)成的。在一個(gè)建立在數(shù)據(jù)基礎(chǔ)上的網(wǎng)絡(luò)中,像這樣的模糊查詢(xún)可以通過(guò)組合多個(gè)站點(diǎn)的不同數(shù)據(jù)集來(lái)顯示結(jié)果。
查詢(xún)更復(fù)雜數(shù)據(jù)的能力尤其能幫助研究人員和數(shù)據(jù)科學(xué)家,因?yàn)樗麄冇锌赡軐⒋罅康墓矓?shù)據(jù)與自己的私人研究數(shù)據(jù)結(jié)合起來(lái),發(fā)現(xiàn)新的和有趣的事情。此外,它可以幫助那些訓(xùn)練機(jī)器學(xué)習(xí)模型,因?yàn)樘囟ǖ臄?shù)據(jù)集可以精心制作,它們可能是不可能獲得的其他方法。
仍然有障礙需要克服
支持語(yǔ)義網(wǎng)的改變不是一夜之間就能實(shí)現(xiàn)的——我們說(shuō)的是多年的小步驟和增量的改進(jìn)。即使大多數(shù)網(wǎng)站在其標(biāo)記中有豐富的結(jié)構(gòu)化數(shù)據(jù),也需要構(gòu)建許多新的工具和技術(shù)來(lái)利用它。例如,Berners-Lee一直致力于將Solid作為一種方法,使用戶(hù)能夠更好地控制自己的數(shù)據(jù),這是建立在語(yǔ)義網(wǎng)的關(guān)鍵概念之上的。
像許多其他概念一樣,語(yǔ)義網(wǎng)也有其批評(píng)者。其中一位是科里?多克托羅(Cory Doctorow),他甚至稱(chēng)其為“一個(gè)建立在自欺、書(shū)呆子自大和極度膨脹的市場(chǎng)機(jī)會(huì)之上的白日夢(mèng)”。這一評(píng)論并非毫無(wú)道理,因?yàn)檫€有幾個(gè)潛在的問(wèn)題需要考慮。
由于web上有大量的網(wǎng)站和可能需要表示的大量類(lèi)型,任何足夠復(fù)雜的查詢(xún)都需要理解大量的數(shù)據(jù)。org本身有841個(gè)類(lèi)型,但僅觸及了可以表示的所有數(shù)據(jù)的表面。當(dāng)查看特定行業(yè)和它們可能公開(kāi)分享的數(shù)據(jù)時(shí),可能有數(shù)百個(gè)詞匯表,每個(gè)詞匯表中有數(shù)千種類(lèi)型。
除了純粹的數(shù)據(jù)量,我們還要決定如何對(duì)其中一些數(shù)據(jù)進(jìn)行分類(lèi)。人們可能會(huì)在最平凡的事情上展開(kāi)激烈的爭(zhēng)論,比如“洗衣機(jī)是廚房用具還是家用清潔設(shè)備”。
然后,語(yǔ)義Web需要處理重復(fù)數(shù)據(jù),不幸的是,這可能并不比試圖消除非結(jié)構(gòu)化數(shù)據(jù)的重復(fù)數(shù)據(jù)更容易。單個(gè)項(xiàng)可以用兩個(gè)或更多不同的詞匯表表示,并且可以定義不同的屬性。數(shù)據(jù)的全局標(biāo)識(shí)符在特定情況下可能有幫助,但是它不能完全解決問(wèn)題。
數(shù)據(jù)的可信度是語(yǔ)義Web的另一個(gè)關(guān)鍵問(wèn)題。當(dāng)我們研究當(dāng)前的信息時(shí),在確定我們所閱讀的信息是否可信時(shí),我們可能會(huì)考慮許多不同的因素。此外,我們可能會(huì)驗(yàn)證我們?cè)诙鄠€(gè)不同的站點(diǎn)發(fā)現(xiàn)的內(nèi)容。系統(tǒng)不僅需要處理事實(shí)上不正確的數(shù)據(jù),而且還需要處理它發(fā)現(xiàn)的數(shù)據(jù)中的不一致性。
也許最大的問(wèn)題不是技術(shù)問(wèn)題,而是人的問(wèn)題。Web開(kāi)發(fā)人員或其他對(duì)這類(lèi)技術(shù)感興趣的人可能會(huì)在他們的頁(yè)面和網(wǎng)站上添加數(shù)據(jù),但是,你的父母會(huì)希望像那樣管理他們自己的數(shù)據(jù)嗎?你的鄰居嗎?你的朋友嗎?即使工具是為普通人設(shè)計(jì)的,他們想要使用它們又有什么關(guān)系呢?對(duì)他們來(lái)說(shuō),語(yǔ)義Web可能一出現(xiàn)就死了。
我們離某種形式的語(yǔ)義Web還有很長(zhǎng)的路要走。雖然在很多方面我們都在朝著這個(gè)方向邁進(jìn),但完整的數(shù)據(jù)烏托邦將依賴(lài)于許多方面的完美整合。它不太可能是一場(chǎng)數(shù)據(jù)革命,而更可能是當(dāng)前網(wǎng)絡(luò)運(yùn)作方式的演變。隨著我們向前邁進(jìn),毫無(wú)疑問(wèn),我們會(huì)發(fā)現(xiàn)數(shù)據(jù)的新用途,并開(kāi)始開(kāi)發(fā)利用它的技術(shù)。
作者介紹
熱門(mén)博客推薦