第一經(jīng)濟網(wǎng)歡迎您!
        當(dāng)前位置:首頁>金融動態(tài) > 正文內(nèi)容

        逐浪AIGC?|AI催生“數(shù)據(jù)標注員”需求 數(shù)據(jù)質(zhì)量或釋放更多價值

        南方財經(jīng)全媒體記者江月 上海報道人工智能產(chǎn)業(yè)發(fā)展催生了“新流水線工人”,時薪介于10元至30元之間,它時髦的新名字叫“數(shù)據(jù)標注員”。

        人工智能大模型給人們帶來強烈的智慧沖擊,令人驚嘆于它前沿的神經(jīng)網(wǎng)絡(luò)研究、精密的計算機設(shè)備和光鮮亮麗的精英人才結(jié)構(gòu)。然而,這種智慧背后還有極致枯燥的工作。


        (資料圖片)

        近期,南方財經(jīng)全媒體記者留意到,全國多地數(shù)據(jù)標注招聘市場火熱、相關(guān)創(chuàng)業(yè)模式也不斷涌現(xiàn)。提升數(shù)據(jù)質(zhì)量成為人工智能開發(fā)商“彎道超車”的一記策略,但為相關(guān)勞動者提升工作價值,也是長遠發(fā)展中不容忽視的問題。

        數(shù)據(jù)標注市場需求大增

        “10元-30元/小時(與項目難度呈正相關(guān),3D類>語音類>2D類>普通拉框轉(zhuǎn)寫類、打碼類)?!?月13日,南方財經(jīng)全媒體記者在招聘App“Boss直聘”上看到一則招聘廣告中如是寫道。在AI產(chǎn)業(yè)中,這類崗位令人聯(lián)想起電子廠的“流水線”工作。

        2023年春天,市場的關(guān)注度被“大模型”吸走了一大半,但有一批公司正轉(zhuǎn)移到“數(shù)據(jù)端”另辟蹊徑,這是他們抓住這波AI浪潮的機遇。

        算力、算法、數(shù)據(jù),是人工智能的“三駕馬車”。一位從事計算視覺的程序員告訴南方財經(jīng)全媒體記者:“對某些公司而言,算力、算法提優(yōu),遠遠沒有數(shù)據(jù)提優(yōu)的效益大。”

        眼下,算力和算法的賽道上,頭部公司最為耀眼。無論是微軟、谷歌、OpenAI,還是華為、阿里、百度,對大模型斥下的資金成本令其他公司望塵莫及,購買芯片動輒上千萬元,高薪聘請(或“挖角”)人才更不計代價。

        不過變革席卷全行業(yè),“幕后英雄”也浮出水面。4月初在復(fù)旦大學(xué)舉行的一場研討會上,計算機科學(xué)技術(shù)學(xué)院教授、MOSS系統(tǒng)負責(zé)人邱錫鵬提到,OpenAI的成功不止來自大家津津樂道的模型、微軟提供的昂貴算力,也得益于外包的專業(yè)數(shù)據(jù)清洗公司。

        美國某高校數(shù)據(jù)分析碩士專業(yè)畢業(yè)生李夢(化名)告訴南方財經(jīng)全媒體記者,她目前正在一家生物醫(yī)藥公司實習(xí),所做的工作正是優(yōu)化數(shù)據(jù)標注程序。

        “大模型依賴數(shù)據(jù)訓(xùn)練,但要先做好數(shù)據(jù)采集、清洗、標注和質(zhì)檢?!崩顗艚榻B。

        數(shù)據(jù)標注領(lǐng)域知名學(xué)術(shù)人物李飛飛,在2009年發(fā)布了ImageNet數(shù)據(jù)集的論文,激起一場算法競賽。依托ImageNet海量得到標注的圖片,算法公司展開了圖像識別的競賽,最低錯誤率者獲勝。直到現(xiàn)在,很多人將ImageNet視為本輪人工智能浪潮的催化劑。

        如今,數(shù)據(jù)標注依然如此重要,且有更大需求量。人工智能在哪個行業(yè)施展拳腳,就需要哪個行業(yè)給模型大量“喂料”,這不局限于城市安防、物聯(lián)網(wǎng)、交通、生物制藥。

        數(shù)據(jù)標注的“顆粒度”也在提升。4月5日,Meta人工智能實驗室發(fā)表了有關(guān)Segment Anything這一計算視覺模型和數(shù)據(jù)集的論文。論文中提到,需要人工標記的圖片高達12萬張,平均每張圖片有44個圖層,每個圖層的標注時間需要14秒??傮w計算之下,人工標注的時間需要20533個小時。如果聘用一個百人團隊每天工作9個小時,這需要23天。

        枯燥無味的流水線工作

        “如果數(shù)據(jù)量太大,一般公司會雇外包公司承擔(dān)?!崩顗粝蛴浾咧赋觥M獍緦?shù)據(jù)標注變成了算計件工分的一種工作。

        按照前述Boss直聘App上的廣告,時薪價格依據(jù)工作內(nèi)容不等。時薪能達到30元檔的是指3D類工作,一般是對實際場景中的特定事物進行標注,例如對一條道路上的雷達車道線、雷達目標拉框。接著是語音類,是指對音轉(zhuǎn)文、方言轉(zhuǎn)寫、喚醒助手等進行標注。

        2D類被認為更簡單,是指對平面圖像、文字段落進行標注,或者是OCR(文字識別)轉(zhuǎn)寫,例如對交通違規(guī)圖片里的人和車、紅綠燈、交通標示進行識別。

        價格最低的打碼類,是指驗證碼里的計算題、哪些圖片中含有火車這類工作。

        “數(shù)據(jù)標注十分枯燥無味,純體力活,每標注200個就有一種想吐的感覺?!闭谡憬掣咝Wx研的小何對南方財經(jīng)全媒體記者表示。

        以此謀生的數(shù)據(jù)標注師,工作強度可能更為難忍,除了需要耐心在電腦前面坐上幾小時、耗盡眼力,可能還要面對原始數(shù)據(jù)里的限制級內(nèi)容,涉及性、暴力、仇恨言論等。

        數(shù)據(jù)標注產(chǎn)業(yè)正在持續(xù)爆發(fā)。早在2021年,人社部就發(fā)布了《人工智能訓(xùn)練師》國家職業(yè)技能標準,覆蓋數(shù)據(jù)標注員、人工智能算法測試員兩個工種,反映當(dāng)時相關(guān)產(chǎn)業(yè)已經(jīng)成勢。這份標準將人工智能訓(xùn)練師分為5個等級,從初級工到高級技師。

        數(shù)據(jù)標注看似“無腦”,但卻因?qū)嶋H落地需要而需要嚴謹?shù)墓ぷ鲬B(tài)度。比方說,如果對自動駕駛領(lǐng)域的標注缺乏質(zhì)量把控,那么相關(guān)軟件就無法令汽車安全地行駛在道路上。

        然而,圍繞著數(shù)據(jù)標注員的低薪、長期伏案、內(nèi)容重復(fù)和精神壓力,社會輿論也正圍繞著相關(guān)職業(yè)保護而發(fā)酵。如果無法改善數(shù)據(jù)標注師的工作環(huán)境、提升價值,這種職業(yè)的長久性仍令人存疑。

        市場前景看漲

        近期,南方財經(jīng)全媒體記者從數(shù)個招聘渠道了解到,從北京、上海、廣州到陜西榆林市清澗縣、“大數(shù)據(jù)之城”貴陽市的惠水縣百鳥河數(shù)字小鎮(zhèn),數(shù)據(jù)標注公司正在市場上急迫地發(fā)出招聘廣告。與此對應(yīng)的是,數(shù)據(jù)標識公司本身也被視為利益潛力大增的投資標的。

        記者發(fā)現(xiàn),數(shù)據(jù)標識行業(yè)“個體戶”正大量涌現(xiàn)。在百度貼吧上,大量項目正在召集所謂“團隊”接標,從發(fā)帖內(nèi)容可以看出,只要有一個相對固定人數(shù)、固定工作時長的團隊,就可以接下大公司分發(fā)下來的項目標。有從業(yè)者介紹,刨去場地租賃、電腦和桌椅配置、每月水電費、人工開支,這種個體分包商賺取的是中間差價。

        不過,這個行業(yè)當(dāng)然也正向著規(guī)?;⒐净姆较虬l(fā)展。行內(nèi)有兩種類型的公司,一種是大型互聯(lián)網(wǎng)公司的內(nèi)部部門、一種是外包公司。后者正成為資本市場上的“香餑餑”。

        2021年登陸科創(chuàng)板的海天瑞聲,今年股價從1月初的60元水平一度暴漲至超過200元。該公司從事語音識別、語音合成、自然語言處理、計算機視覺等數(shù)據(jù)集技術(shù)開發(fā)。2022年,該公司收入達到2.63億元,和2021年相比僅增長27.3%,凈利潤則微跌6.56%至2953萬元。盡管如此,按照4月12日收盤價每股187元計算,該公司市值已經(jīng)達到80億元,動態(tài)市盈率為326倍。

        未上市的公司也獲得了更多的資本青睞。2022年12月,星塵數(shù)據(jù)完成A輪融資5000萬元,相距上一次2018年6月獲得融資已經(jīng)時隔4年半。這也反映,資本市場可能正重新關(guān)注這個新興領(lǐng)域。

        “由于‘廉價勞動力’常常是數(shù)據(jù)標注公司的招牌,致使其無法獲得足夠的重視?!毙菈m數(shù)據(jù)在其官方一篇新聞稿中這樣寫道。該公司稱,正通過自動化來提升標注效率。

        人工智能的飛輪滾動,數(shù)據(jù)還在海量增長。數(shù)據(jù)公司Exploding Topics的數(shù)據(jù)顯示,2023年全球新增數(shù)據(jù)或?qū)⑦_到120ZB,2025年近一步達到181ZB。其中,美國、德國、英國、中國是排名前四的數(shù)據(jù)產(chǎn)生大國。

        不過,業(yè)內(nèi)正在爭議“以數(shù)據(jù)為中心的人工智能”是否將取代“以模型為中心的人工智能”。知名人工智能學(xué)者吳恩達(Andrew Ng)是前一論點的持有者,他曾多次強調(diào),有標注的高質(zhì)量數(shù)據(jù)才能釋放人工智能的價值,如果業(yè)界將更多精力放在數(shù)據(jù)質(zhì)量上,人工智能的發(fā)展會更快。

        基于原始數(shù)據(jù)增長而產(chǎn)生的數(shù)據(jù)標注,因此也仍繼續(xù)擴大,并將市場需求而價值波動。華經(jīng)產(chǎn)業(yè)研究院在近期的一份報告中預(yù)測,到2029年中國數(shù)據(jù)標注市場規(guī)模將達到204.3億元。這和2019年的43.3億元相比,增長了大約3.7倍。

        數(shù)據(jù)標注行業(yè)能否在未來去除“人力工廠”的標簽,又將如何用自動化和技術(shù)手段提升數(shù)據(jù)策略、融入AI更高階的發(fā)展浪潮中?人們拭目以待。

        關(guān)鍵詞:

        標簽閱讀


        }
        亚洲成av人片在www鸭子| 久久久久亚洲精品中文字幕| 亚洲午夜爱爱香蕉片| 麻豆亚洲AV永久无码精品久久| 色欲色欲天天天www亚洲伊| 亚洲黄色片在线观看| 亚洲综合色视频在线观看| 国产偷国产偷亚洲高清在线| 亚洲国产亚洲片在线观看播放| 国产成人亚洲精品狼色在线 | 精品国产日韩久久亚洲| 亚洲国产成人片在线观看无码| 亚洲国产美女精品久久久| 亚洲色大成网站www久久九 | 亚洲欧美不卡高清在线| 麻豆狠色伊人亚洲综合网站 | 国产午夜亚洲精品国产| 亚洲综合偷自成人网第页色| 久久亚洲精品专区蓝色区| 亚洲中文字幕日本无线码| 亚洲欧美日韩久久精品| 亚洲爆乳无码精品AAA片蜜桃| 亚洲国产成人综合精品| 久久亚洲AV成人无码国产电影| 亚洲国产精品久久网午夜| 亚洲国产精品综合久久久| 亚洲人成网站在线观看播放动漫 | 中文字幕亚洲综合精品一区| 亚洲欧洲视频在线观看| 亚洲Av综合色区无码专区桃色 | 亚洲av无码一区二区三区乱子伦| 久久精品国产99精品国产亚洲性色| 久久久久国产亚洲AV麻豆 | 亚洲日韩欧洲乱码AV夜夜摸| 亚洲国产av一区二区三区| 亚洲av午夜国产精品无码中文字 | 久久精品国产亚洲AV未满十八| 国产一区二区三区亚洲综合| AV在线播放日韩亚洲欧| 亚洲国产精品成人久久| 亚洲网站免费观看|