-
熊節:算法推薦終于可關閉,中國《互聯網信息服務算法推薦管理規定》開世界先河
算法推薦的技術原理
各種形式的算法推薦,包括《規定》中列舉的“生成合成、個性化推送、排序精選、檢索過濾、調度決策”等形式,當下主流的實現方式都是采用機器學習(machine learning),背后的原理都是基于貝葉斯統計(Bayesian statistics)方法的預測——聽起來很高深,其實通過一個簡單的例子很容易就能理解。
假設你丟一個以前沒用過的骰子,你認為有多大概率丟出6點?當然,在沒有任何額外信息的情況下,你的預測是“1/6”。然后,你連續丟了20把,每把都是6點,這時候你認為下一把繼續丟出6點的概率是多大?經典概率論說,每次丟骰子都是一個獨立隨機事件,過去丟出的點數不影響未來丟出的點數,所以你的預測仍然應該是“1/6”。但很明顯正常人不會這么想。
“這個骰子連丟了20把6點”這項信息很明顯會影響對未來的決策(例如可能說明這個骰子被灌了鉛),因此你會預測下一把有很大概率還是會丟出6點。簡化地說,貝葉斯統計就是“基于過去已經發生過的事件預測未來將要發生的事件”。各種算法推薦都是在進行這樣的預測:
知乎的個性化推送就是預測用戶可能喜歡看什么問題和回答;
百度的檢索過濾就是預測用戶可能對哪些搜索結果感興趣;
淘寶的排序精選就是預測用戶可能購買哪些商品。
這些預測所基于的“過去已經發生過的事件”則是與用戶相關的、非常寬廣的數據集,不僅包含“用戶看過/贊過/收藏過哪些回答”這種直接的用戶行為,還包含大量用戶本身的屬性信息:年齡、性別、地域、教育程度、職業、上網設備、買過什么東西、發過什么言論、住多大房子、家里幾口人、喜歡張信哲、反感蔡徐坤……這些信息都會被用于預測用戶的偏好。
每一項類似這樣的屬性信息也被稱為“特征”(feature),對于一個普通用戶,互聯網公司通常擁有數千、數萬項特征信息。其中一些特征信息來自該公司本身的業務,更多的特征信息來自其他平臺,三大運營商、微博、騰訊、阿里、手機制造商等企業都會SDK(軟件開發包)的方式與其他互聯網應用共享用戶個人特征信息。
知乎與第三方共享個人信息的清單(部分)
在所有這些特征信息中,給定一項具體的預測,有些特征與這項預測的相關度較高,有些特征的相關度則較低。如果能從預測的結果回溯到哪些特征產生了重要的影響,我們就可以說這種算法“具備可被審核性”(auditable)。例如最簡單、最基礎的機器學習算法線性回歸(linear regression),其原理就是根據過去的事件給每項特征打一個權重分數,然后根據這些權重分數預測未來的事件。從一個線性回歸的預測模型中,可以直觀地看到每項特征的在預測中的權重,因此線性回歸是特別容易審核的一種算法。
當然,最簡單、最基礎的算法,也就存在預測能力不夠強的問題。形象地說,只用簡單的線性回歸,無法把特征值里隱含的信息全都榨取出來,所以預測效果不見得特別好。于是科學家和工程師們想了很多辦法來壓榨特征值里的信息。一種辦法叫“特征工程”(feature engineering),說白了就是從已知的特征值推導出新的特征值,例如根據用戶的手機型號、購物清單給用戶打上“購買力強”或者“時尚潮人”的新標簽,這就是一種簡單的特征工程。
另一種壓榨特征值的辦法是把起初的特征信息視為一“層”輸入,然后用各種數學方法把輸入層變換成新的信息節點,從而形成一個多層的“網絡”。這個變換的過程可以重復進行,變換的層數越多,就說這個網絡越“深”——這就是“深度學習”(deep learning)這個詞的由來。
盡管科學家經常用“神經元”、“神經網絡”來類比這些數學變換的結果,但很多時候,經過這些變換得到的信息節點幾乎沒有現實世界中的含義,純粹是一種數學工具的產物。所以業界有一種說法:深度學習就像煉金術(國內也稱“煉丹”),把數據丟進神經網絡,不知道什么原因就煉出結果了——如果結果不理想,就再加幾層神經網絡。
正因為深度學習常有“煉金術”的神秘感,使用它們的工程師經常自己都不知道為什么一個算法有效。例如谷歌曾發表過一篇論文介紹他們的圖像識別算法,其中使用了一個深達19層的神經網絡(VGG19)。然而谷歌的照片服務(Google Photos)卻多次被曝暗含種族歧視,甚至把黑人照片識別為“大猩猩”。事后谷歌根本無法找出算法中的問題出在哪里,只好刪除“大猩猩”標簽了事。
VGG19:深度為19層的卷積神經網絡,主要用于圖像識別
盡管有谷歌的前車之鑒,類似的問題仍然在各家互聯網巨頭的產品中反復出現。2020年,部分臉書用戶在觀看一段以黑人為主角的視頻時收到推薦提示,詢問他們是否愿意“繼續觀看有關靈長類動物的視頻”。2018年MIT媒體實驗室的研究員Joy Buolamwini發現,微軟、IBM和Face++的人臉識別算法在識別黑色人種的性別的錯誤率要遠遠高于白色人種,而且膚色越黑,識別率就越低,黑人女性的識別錯誤率高達35%。過度依賴“煉金術”式的深度學習算法,是這些互聯網巨頭對算法審核態度冷淡的原因,同時也導致它們難以修正其算法中隱含的系統性歧視。
-
本文僅代表作者個人觀點。
- 責任編輯: 周遠方 
-
俄外長:克里米亞地位不能談判
2022-03-02 20:19 -
“雙減”半年教培機構眾生相:集體虧損、跨界轉型
2022-03-02 17:53 大公司 -
郭樹清談螞蟻等整改:自查基本結束,還有一些問題需繼續探索
2022-03-02 17:53 阿里帝國 -
郭樹清:我國房地產泡沫化金融化勢頭得到根本扭轉
2022-03-02 16:04 -
《士兵突擊》制片人吳毅被捕,浙文影業擬起訴追償2.64億元
2022-03-02 15:11 -
大公司早報 | 張勇卸任海底撈CEO 華為稱不會退出海外市場
2022-03-02 09:08 大公司 -
百度2021年總營收1245億,23%花在研發上
2022-03-01 23:04 大公司 -
看到東京地標亮燈,烏克蘭大使激動發推,結果尷尬了…
2022-03-01 21:31 烏克蘭之殤 -
工信部發聲,半年漲價300%的鋰電材料要降溫了?
2022-03-01 20:26 觀網財經-科創 -
供應商遭遇網絡攻擊,豐田日本國內工廠全部停產
2022-03-01 15:06 觀網財經-汽車 -
美加商家抵制伏特加,北約酒商躺槍
2022-03-01 13:43 觀網財經-海外 -
紫光展銳CEO遭董事會解職,市占率已反超華為、三星
2022-03-01 11:40 觀網財經-科創 -
大公司早報 | 董明珠連任格力董事長 阿里將校招數百名頂尖技術人才
2022-03-01 09:11 大公司 -
中國開始從烏克蘭撤出首批公民
2022-03-01 00:35 烏克蘭之殤 -
德邦物流因重大事項停牌,業績創新低后將何去何從?
2022-02-28 19:54 大公司 -
不談融資,先搶賽道?蔚來將在港股二次上市
2022-02-28 19:16 觀網財經-汽車 -
比亞迪、一汽共建135億元電池項目
2022-02-28 18:27 汽車工業 -
58同城因未核驗商戶真實信息被罰
2022-02-28 18:19 觀網財經-互聯網 -
俄羅斯暫時禁止外國人出售證券
2022-02-28 17:07 觀網財經-海外 -
應烏克蘭要求,Facebook限制部分俄官媒賬戶
2022-02-28 15:19 俄羅斯與世界
相關推薦 -
“俄方承諾追究刑責” 評論 24“印度曾與馬爾代夫反對派接觸,密謀罷免親華總統” 評論 103中國最重要的事是,不能總看美國的眼色行事 評論 80“后果太嚴重了,鳥擊不能成為事故的直接原因” 評論 196“美國最底層三分之一已花光所有” 評論 233最新聞 Hot
-
“俄方承諾追究刑責”
-
美法院裁定:特朗普性侵成立,賠她500萬美元
-
兩周內三項協議“對抗”中國,“更像給美國的短期信號”
-
美財政部竟又賴上中國,還列為“重大事件”
-
阿薩德政權為何垮臺?拉夫羅夫點名美國
-
俄前國腳前線陣亡:因販毒入獄,參軍減刑
-
他后悔了
-
“連續三年低于更替水平”,2024年越南生育率創新低
-
“印度曾與馬爾代夫反對派接觸,密謀罷免親華總統”
-
“沙姆解放組織”領導人:敘利亞可能4年后舉行選舉
-
“后果太嚴重了,鳥擊不能成為事故的直接原因”
-
他也跳出來:對抗中俄前線,哪能光靠狗拉雪橇…
-
“澤連斯基在12月提出了一個荒謬的建議......”
-
美媒圣誕節也沒閑著:看看中美這對比趨勢…
-
他“譽滿天下”,卻曾“謗滿美國”
-
俄專家:“以德服人”,中國是認真的!
-