-
精耕細作的數據標注產業,能否幫中國AI大模型構筑獨特優勢?
-
張廣凱13764468101
文/觀察者網 張廣凱
具備高度智能的ChatGPT,能否正確運用自己海量的知識,卻要取決于一群時薪不到2美元的肯尼亞勞工。
他們所做的工作——數據標注,不僅是ChatGPT能夠領先競爭對手的重要原因,也有著重要的倫理意義。數據標注師們自己的價值觀,同樣決定了人工智能的價值觀,決定了AI能否被善意地運用。
在百度智能云數據標注基地業務產品負責人胡馳看來,人工標注將是大模型訓練中絕對無法被替代的一部分。
而對于中國大模型企業來說,這項嚴重依賴勞動力個人素質的工作,或許也是獨特的競爭優勢所在。
近日,百度在中文大模型的數據標注產業建設上邁出重要一步。
100%本科學歷,百度數據標注卷到新高度
日前,位于海口市秀英區的百度智能云(海口)人工智能基礎數據產業基地正式啟動運營,這是百度智能云與海口市政府合作共建的國內首個大模型數據標注中心。
百度智能云海口人工智能基礎數據產業基地
百度智能云大模型數據標注師董志煥介紹到:”我們的主要工作就是對大模型生成的內容進行評價、反饋,通過這些人工標注數據,讓大模型學習人類的思維方式,從而使大模型更加聰明。”
當前,大模型正處在產業落地前期,高質量的數據,是大模型實現產業化的關鍵要素。以ChatGPT、文心一言為代表的生成式AI,不僅需要海量的數據訓練,更需要人工標注、指令微調、基于人類反饋的強化學習(RLHF),才能夠讓大模型與人類價值觀、思維方式不斷對齊,使大模型更加可用。
為此,百度智能云升級了大模型數據服務能力,建設了國內首個專業大模型數據標注基地。
截至目前,百度智能云已經在全國與各地政府合作,共建了十多個數據標注基地,累計為當地提供超過1.1萬個穩定就業崗位,間接帶動5萬人就業。
但是相比于傳統的數據標注,語言類大模型對勞動者技能提出了更高的要求。海口數據標注基地現擁有數百名專職大模型數據標注師,標注師的本科率達到100%。
“和傳統的數據標注師要求不同,大模型標注師都需要本科以上學歷,我覺得主要是因為大模型數據涉及的知識面很廣,評判標準復雜,非常考驗標注師的語言理解能力和邏輯推理能力。在入職的前兩個月,公司會對我們進行集體培訓和考核,通過考核后才能正式上崗。”百度智能云大模型數據標注師王潔玉說。
標注師劉小瑩畢業于一所普通本科學院的漢語國際教育專業。她對觀察者網表示,自己的專業原本就業方向較窄,就業壓力大,而大模型標注產業卻剛剛傾向于招收漢語言、新聞傳播等專業畢業生,為自己提供了新的就業方向。
海口市秀英區委常委、常務副區長石晟屹表示:“海口人工智能技術數據產業基地的落成,最大的價值是在人才集約、產業集聚等方面有重要的引領作用。在不到一年的時間,基地已經帶動近千人的大學生就業,對培育本地的數字經濟人才做出了突出貢獻。同時,引入百度這樣的科技企業,將持續帶動數字產業化項目落地,也會為傳統產業的轉型升級帶來新的戰略契機和發展機會。”
百度智能云海口人工智能基礎數據產業基地 作業區
不只靠堆人力,中國數據標注如何精耕細作?
盡管數據標注聽上去是一個依賴簡單重復勞動的工作,但是一旦深入工作細節便會發現,它同樣需要很高的技術含量。
事實上,以Scale AI為代表,海外已經誕生了一些數據標注行業的獨角獸公司。2022年,Scale AI營收達到2.9億美元,毛利率更是高達70%。
Scale AI不僅僅在使用非洲等地的廉價人力資源,同樣還招聘了數十名博士,來應對各行業的專業數據。數據標注質量,是Scale AI為OpenAI等大模型企業提供的最大價值。
百度也正在全面提升中文大模型的標注質量。
劉小瑩向觀察者網介紹,除了自己負責的第一道標注工序之外,層層審核也是保證標注質量的重要環節。在數據標注公司內部,有資深標注師對所有標注數據進行全面復核,而百度自己也有龐大的審核團隊,最終把握數據質量。涉及到專業領域知識時,也有相關行業專家提供支持。
據了解,百度智能云沉淀了多領域專家資源,針對來自不同行業的數據服務需求,百度智能云可快速搭建專家團隊,對特定領域的任務提供監督微調和強化訓練數據,保證數據交付質量,目前已覆蓋計算機、法律、醫療等領域。
此外,百度智能云還組建了專業的數據咨詢團隊,從前期的數據收集、數據清洗,再到數據管理、數據回流,可為企業提供全流程的咨詢服務,幫助企業在智能化轉型過程中少走彎路。
百度自研的高效標注系統,則進一步提升了數據標注效率。
胡馳表示,為提高數據標注的質量和效率,百度智能云自主研發了業內領先的大模型數據標注平臺,支持從大模型微調、強化學習到模型評估的數據生產閉環。在人工標注之前,平臺會首先進行自動化的預審核,對數據的行業特征進行分類,確保數據交到更合適的審核員手上。
結合平臺獨有的人機協同標注、多輪智能審核等智能化工具,百度可大幅提升數據標注的產能和質量,同時幫助企業實現降本增效。
數據安全也始終是重中之重。胡馳表示,百度智能云不僅可提供高安全性的端到端數據服務,標注平臺還支持私有部署,通過與基地資源聯動,為客戶提供多樣化的數據安全方案。
“大模型標注基地重點要評估三大指標:高效標注工具、高端人才梯隊、高級別數據安全,只有三管齊下,才能為大模型提供好的數據。”胡馳說。
隨著數據標注基地等“智能新基建”的建設,百度“千帆大模型平臺”將更好地向社會提供服務。
據悉,百度智能云將在9月全面升級大模型服務。8月,百度智能云宣布,千帆大模型平臺升級,接入包括文心一言、Llama 2全系列、ChatGLM2-6B等在內的33個國內外最主流的大模型,成為國內擁有大模型最多的平臺。
(文中劉小瑩為化名)
標簽 百度- 責任編輯: 張廣凱 
-
兩部門:多項個稅優惠政策延續至2027年底
2023-08-28 16:14 -
滬指高開低走漲1.13%,市場成交額超1.1萬億元
2023-08-28 16:06 觀網財經-金融 -
“四箭齊發”后,A股開盤暴漲超5%
2023-08-28 10:09 觀網財經-金融 -
央媒:“組合拳”釋放“活躍資本市場”強信號
2023-08-28 07:33 觀網財經-金融 -
財政部、稅務總局:減半征收證券交易印花稅
2023-08-27 17:23 觀網財經-金融 -
涉及超6萬億收入的增值稅法將二審,有六大變化
2023-08-27 15:04 -
中國人的消費觀變了?“報復式消費”集中在這些領域
2023-08-26 09:19 觀網財經-消費 -
華為與愛立信續簽專利協議,包括3G/4G/5G技術
2023-08-25 17:59 觀網財經-科創 -
預計旅游人數將達13.31億人次,今年暑期游有多“熱”?
2023-08-25 17:54 觀網財經-消費 -
AI加持,人人都可以做外貿了?
2023-08-25 17:48 觀網財經-海外 -
平安健康:虧幅收窄47%,有望提前盈利上岸
2023-08-25 17:36 觀網財經-健康 -
光伏企業集中披露業績,為何呈現“冰火兩重天”?
2023-08-25 16:01 觀網財經-金融 -
網易二季度游戲收入188億低于預期,高管稱AI改變研發邏輯
2023-08-25 14:20 觀網財經-互聯網 -
三部門推動落實購首套房貸款“認房不認貸”
2023-08-25 14:12 觀網財經-房產 -
《中國好聲音》停播,背后公司股價跳水跌超13%
2023-08-25 11:39 觀網財經-互聯網 -
“消費持續復蘇”,美團二季度營收增長33%
2023-08-24 18:52 觀網財經-互聯網 -
途虎養車通過上市聆訊,今年上半年扭虧為盈
2023-08-24 17:47 觀網財經-互聯網 -
因四項違規,民生銀行遭警告
2023-08-24 17:04 觀網財經-金融 -
數十家上市公司股東集中承諾不減持
2023-08-24 15:43 觀網財經-金融
相關推薦 -
-
“朔爾茨對波蘭總統怒吼,在場領導人都驚了” 評論 30被當面打臉,日鐵急了 評論 39受中國影響,澳企要在稀土加工業務上發力了 評論 58全國最大!哈密百萬千瓦“光熱+光伏”項目并網發電 評論 76最新聞 Hot
-
“沙特曾多次警告德國提防嫌疑人”
-
特朗普最新任命!這次包括火箭隊老板、真人秀制作人
-
巴勒斯坦三個政治派別發表聯合聲明
-
“中國在非洲真正贏得了民心,就連斯威士蘭…”
-
“日企抱團是絕望之舉,中國工廠效率質量都是第一”
-
“中國有能力讓夢想照進現實,將贏得史詩般競爭”
-
被災民暴罵到當場破防,馬克龍發飆:你該慶幸你在法國!
-
美高校敦促國際學生抓緊回來:萬一把中印拉黑名單呢
-
美國政府“逃過一劫”
-
“澤連斯基要求歐盟新外長:對華批評要降調”
-
澳大利亞來了,中國就得走人?澳總理這么回應
-
美媒感慨:基建狂魔發力,我們又要被超越了
-
英國剛公布新任大使,特朗普顧問就痛罵:傻X
-
“來自中國的老大哥能確保我們…”
-
俄羅斯的報復來了
-
澤連斯基罵普京“傻子”,俄方怒斥
-