逐浪AIGC?|AI催生“數據標注員”需求 數據質量或釋放更多價值
2023-04-13 14:32:31 |來源:21世紀經濟報道
南方財經全媒體記者江月 上海報道人工智能產業發展催生了“新流水線工人”,時薪介于10元至30元之間,它時髦的新名字叫“數據標注員”。
人工智能大模型給人們帶來強烈的智慧沖擊,令人驚嘆于它前沿的神經網絡研究、精密的計算機設備和光鮮亮麗的精英人才結構。然而,這種智慧背后還有極致枯燥的工作。
(資料圖片)
近期,南方財經全媒體記者留意到,全國多地數據標注招聘市場火熱、相關創業模式也不斷涌現。提升數據質量成為人工智能開發商“彎道超車”的一記策略,但為相關勞動者提升工作價值,也是長遠發展中不容忽視的問題。
數據標注市場需求大增
“10元-30元/小時(與項目難度呈正相關,3D類>語音類>2D類>普通拉框轉寫類、打碼類)?!?月13日,南方財經全媒體記者在招聘App“Boss直聘”上看到一則招聘廣告中如是寫道。在AI產業中,這類崗位令人聯想起電子廠的“流水線”工作。
2023年春天,市場的關注度被“大模型”吸走了一大半,但有一批公司正轉移到“數據端”另辟蹊徑,這是他們抓住這波AI浪潮的機遇。
算力、算法、數據,是人工智能的“三駕馬車”。一位從事計算視覺的程序員告訴南方財經全媒體記者:“對某些公司而言,算力、算法提優,遠遠沒有數據提優的效益大。”
眼下,算力和算法的賽道上,頭部公司最為耀眼。無論是微軟、谷歌、OpenAI,還是華為、阿里、百度,對大模型斥下的資金成本令其他公司望塵莫及,購買芯片動輒上千萬元,高薪聘請(或“挖角”)人才更不計代價。
不過變革席卷全行業,“幕后英雄”也浮出水面。4月初在復旦大學舉行的一場研討會上,計算機科學技術學院教授、MOSS系統負責人邱錫鵬提到,OpenAI的成功不止來自大家津津樂道的模型、微軟提供的昂貴算力,也得益于外包的專業數據清洗公司。
美國某高校數據分析碩士專業畢業生李夢(化名)告訴南方財經全媒體記者,她目前正在一家生物醫藥公司實習,所做的工作正是優化數據標注程序。
“大模型依賴數據訓練,但要先做好數據采集、清洗、標注和質檢。”李夢介紹。
數據標注領域知名學術人物李飛飛,在2009年發布了ImageNet數據集的論文,激起一場算法競賽。依托ImageNet海量得到標注的圖片,算法公司展開了圖像識別的競賽,最低錯誤率者獲勝。直到現在,很多人將ImageNet視為本輪人工智能浪潮的催化劑。
如今,數據標注依然如此重要,且有更大需求量。人工智能在哪個行業施展拳腳,就需要哪個行業給模型大量“喂料”,這不局限于城市安防、物聯網、交通、生物制藥。
數據標注的“顆粒度”也在提升。4月5日,Meta人工智能實驗室發表了有關Segment Anything這一計算視覺模型和數據集的論文。論文中提到,需要人工標記的圖片高達12萬張,平均每張圖片有44個圖層,每個圖層的標注時間需要14秒??傮w計算之下,人工標注的時間需要20533個小時。如果聘用一個百人團隊每天工作9個小時,這需要23天。
枯燥無味的流水線工作
“如果數據量太大,一般公司會雇外包公司承擔?!崩顗粝蛴浾咧赋?。外包公司將數據標注變成了算計件工分的一種工作。
按照前述Boss直聘App上的廣告,時薪價格依據工作內容不等。時薪能達到30元檔的是指3D類工作,一般是對實際場景中的特定事物進行標注,例如對一條道路上的雷達車道線、雷達目標拉框。接著是語音類,是指對音轉文、方言轉寫、喚醒助手等進行標注。
2D類被認為更簡單,是指對平面圖像、文字段落進行標注,或者是OCR(文字識別)轉寫,例如對交通違規圖片里的人和車、紅綠燈、交通標示進行識別。
價格最低的打碼類,是指驗證碼里的計算題、哪些圖片中含有火車這類工作。
“數據標注十分枯燥無味,純體力活,每標注200個就有一種想吐的感覺。”正在浙江某高校讀研的小何對南方財經全媒體記者表示。
以此謀生的數據標注師,工作強度可能更為難忍,除了需要耐心在電腦前面坐上幾小時、耗盡眼力,可能還要面對原始數據里的限制級內容,涉及性、暴力、仇恨言論等。
數據標注產業正在持續爆發。早在2021年,人社部就發布了《人工智能訓練師》國家職業技能標準,覆蓋數據標注員、人工智能算法測試員兩個工種,反映當時相關產業已經成勢。這份標準將人工智能訓練師分為5個等級,從初級工到高級技師。
數據標注看似“無腦”,但卻因實際落地需要而需要嚴謹的工作態度。比方說,如果對自動駕駛領域的標注缺乏質量把控,那么相關軟件就無法令汽車安全地行駛在道路上。
然而,圍繞著數據標注員的低薪、長期伏案、內容重復和精神壓力,社會輿論也正圍繞著相關職業保護而發酵。如果無法改善數據標注師的工作環境、提升價值,這種職業的長久性仍令人存疑。
市場前景看漲
近期,南方財經全媒體記者從數個招聘渠道了解到,從北京、上海、廣州到陜西榆林市清澗縣、“大數據之城”貴陽市的惠水縣百鳥河數字小鎮,數據標注公司正在市場上急迫地發出招聘廣告。與此對應的是,數據標識公司本身也被視為利益潛力大增的投資標的。
記者發現,數據標識行業“個體戶”正大量涌現。在百度貼吧上,大量項目正在召集所謂“團隊”接標,從發帖內容可以看出,只要有一個相對固定人數、固定工作時長的團隊,就可以接下大公司分發下來的項目標。有從業者介紹,刨去場地租賃、電腦和桌椅配置、每月水電費、人工開支,這種個體分包商賺取的是中間差價。
不過,這個行業當然也正向著規?;?、公司化的方向發展。行內有兩種類型的公司,一種是大型互聯網公司的內部部門、一種是外包公司。后者正成為資本市場上的“香餑餑”。
2021年登陸科創板的海天瑞聲,今年股價從1月初的60元水平一度暴漲至超過200元。該公司從事語音識別、語音合成、自然語言處理、計算機視覺等數據集技術開發。2022年,該公司收入達到2.63億元,和2021年相比僅增長27.3%,凈利潤則微跌6.56%至2953萬元。盡管如此,按照4月12日收盤價每股187元計算,該公司市值已經達到80億元,動態市盈率為326倍。
未上市的公司也獲得了更多的資本青睞。2022年12月,星塵數據完成A輪融資5000萬元,相距上一次2018年6月獲得融資已經時隔4年半。這也反映,資本市場可能正重新關注這個新興領域。
“由于‘廉價勞動力’常常是數據標注公司的招牌,致使其無法獲得足夠的重視?!毙菈m數據在其官方一篇新聞稿中這樣寫道。該公司稱,正通過自動化來提升標注效率。
人工智能的飛輪滾動,數據還在海量增長。數據公司Exploding Topics的數據顯示,2023年全球新增數據或將達到120ZB,2025年近一步達到181ZB。其中,美國、德國、英國、中國是排名前四的數據產生大國。
不過,業內正在爭議“以數據為中心的人工智能”是否將取代“以模型為中心的人工智能”。知名人工智能學者吳恩達(Andrew Ng)是前一論點的持有者,他曾多次強調,有標注的高質量數據才能釋放人工智能的價值,如果業界將更多精力放在數據質量上,人工智能的發展會更快。
基于原始數據增長而產生的數據標注,因此也仍繼續擴大,并將市場需求而價值波動。華經產業研究院在近期的一份報告中預測,到2029年中國數據標注市場規模將達到204.3億元。這和2019年的43.3億元相比,增長了大約3.7倍。
數據標注行業能否在未來去除“人力工廠”的標簽,又將如何用自動化和技術手段提升數據策略、融入AI更高階的發展浪潮中?人們拭目以待。
關鍵詞:
標簽閱讀
-
逐浪AIGC?|AI催生“數據標注員”需求 數據質量或釋放更多價值
2023-04-13 -
快消息!炒黃金有什么條件限制
2023-04-13 -
什么是黃金低位補倉
2023-04-13 -
濕氣重的人注意!常用這種方法給身體“擠擠水”,身體越來越好
2023-04-13 -
黑芝麻真的能“烏發”?提醒:它實際的作用,其實只有這4個!
2023-04-13 -
【世界新要聞】山東各地的名字有多好聽
2023-04-13 -
當前熱文:濟南市地鐵站內的風景、造型設計優美。
2023-04-13 -
全球快訊:以誠信品質筑行業標桿 濟南能源工程集團獲評“中國...
2023-04-13 -
當前快播:檸萌影視午后一度大漲25% 中金預計公司全年版權劇...
2023-04-13 -
天賦冰川 泉新活力——雪都冰泉新品戰略發布會,引領好水新風標
2023-04-13 -
全球實時:北森控股港交所上市:開盤29.6港元每股,市值約200...
2023-04-13 -
世界關注:通脹因素消化殆盡 接下來主導美股走勢的唯有業績
2023-04-13 -
【全球速看料】江西南昌:中心城區房屋征收全面推行房票安置...
2023-04-13 -
今日南財市場情緒指數為61.6,市場投資熱度明顯提升
2023-04-13 -
天天信息:水果營養雖好,但提醒大家:這些水果或過于“寒涼”...
2023-04-13 -
家里有高壽老人,并不一定是福氣,經歷過的人才知有苦難言
2023-04-13 -
【新視野】熱水泡腳究竟是養生還是慢性自殺?這3種人千萬別泡
2023-04-13 -
天天消息!菜農偷偷提示我,這種山藥可別買,白送也不要,轉...
2023-04-13 -
陳醋、米醋、香醋、白醋有啥不同?好多人分不清,難怪總用錯!
2023-04-13 -
哪些情形交通事故當事人應當報警
2023-04-13