第一經濟網歡迎您!
        當前位置:首頁>機構分析 > 正文內容

        大模型還在“亂戰”,數據商先賺一波 | 創新者Innovator_天天快看點

        算法、算力、數據,是AI技術發展的三大要素。

        其中算力、數據提供商們,被看作為AI時代中的“賣水人”。

        在算力賽道上,生產了A100、H100GPU的英偉達,一度擠入了與亞馬遜、蘋果、微軟等同列的萬億美金市值梯隊。


        (資料圖片)

        而數據服務商們也成為了“既得利益者”。即便國內大模python型還處在“亂戰”之中,資本已經給予了數據服務商們足夠的“熱情”。

        成立于2005年的海天瑞聲,是國內最早從事AI訓練數據的研發設計、生產及銷售業務的企業之一。今年以來,海天瑞聲的市值從年初最低的17.5億左右,漲到了截至6月12日收盤的66.4億元,漲幅超過了270%。半年之中,其市值最高時一度飆升超過了110億元。

        在一級市場上,據36氪報道,今年以來B輪及以前的十余家數據標注平臺,集體迎來了接近100%增幅的高估值。

        對于海天瑞聲做的是一門什么樣生意的問題,海天瑞聲CEO王曉東做了這樣一個比喻:

        “現在叫數據時代新基建,我們公司是賣水泥的,提供的是高質量水泥。無論你蓋什么樓,砌墻、打樓板、打地基,你都得需要水泥。”

        作為一種剛需,AI大模型時代的到來,對整個數據行業而言,意味著更多的機會,更大的市場,從業者們均不愿意錯過。

        在近期,海天瑞聲進行了一場企業品牌煥新,英文名稱從“SpeechOcean”改成“DataOcean AI”,中文名“海天瑞聲”不變。

        王曉東表示:“此次品牌升級不僅是一個簡單的改名,還代表著海天瑞php聲將在數據科技和人工智能領域的進一步發展和探索。”

        但另一方面,行業也迎來了全新挑戰。

        在技術上,基于人類反饋的強化學習(RLHF)成為了一項可能讓機器像人一樣思考的重要技術。其原理是將人類的反饋納入訓練過程,為機器提供了一種自然的、人性化的互動學習過程。眾所周知,RLHF 也是ChatGPT 成功的秘密武器。

        而傳統的數據標注停留在更加基礎的階段,難以滿足AI大模型的需求。

        海天瑞聲CTO黃宇凱也用了一個比喻形容傳統數據標注與RLHF的區別:“以前教起來簡單,這個學生是小學生或者幼兒園,現在學生成長為初中生、高中生了,教他會更難一些。”

        這不僅意味著數據企業需要對RLHF相關技術進行更多的投入,還意味著對數據訓練師的專業要求也在提高。

        不能忽略的是,入局大模型之爭的互聯網企業、科技公司出于對自身核心數據的重視,也在加快布局數據標注團隊。以百度為例,其擁有行業內最大的自建標注團隊,在山東濟南、山西臨汾、重慶奉節等10個地區有自建標注基地。

        相關數據標注頁面 圖片來源:曼孚科技

        這也讓第三方數據服務商的處境更加尷尬。

        行業的洗牌已經來臨,沒有資源積累、技術壁壘、人才儲備的數據企業,將很難在這一輪洗牌中留下。而對于數據行業的頭部企業來說,“越洗越大”的機會也在來臨。

        對于數據行業的發展、AI大模型時代給數據行業帶來的挑戰和機會、企業如何保持核心競爭力等話題,全天候科技與黃宇凱進行了一次對話。

        以下為全天候科技與海天瑞聲CTO黃宇凱對話內容,經全天候科技整理:

        1

        數據是門怎樣的生意

        全天候科技:從業這么多年中,你感受到AI行業或者是下游科技企業,對數據的需求有哪些變化?順應需求,你們在做哪些業務調整和拓展?

        黃宇凱:變化挺大的,2005年左右還是以語音數據為主,我們當時做語音合成,后來做語音識別相關的數據服務。也會做一些NLP,比如說與搜索相編程客棧關的數據服務,在2010年左右,搜索還是很熱的。然后是圖像圖片,有一陣子圖像識別很火,我們就去做圖像識別的數據。

        我們永遠是跟著AI下游的客戶的技術發展做各種突破,他們的數據需求我們都可以去提供服務。

        2012年前后,深度學習突飛猛進。數據集的需求不斷變化,從一開始的找貓找狗,識別率比較低,到后來學深度學習發展起來,立馬提升了一個大臺階,原因是背后的范式發生了變化。深度神經網絡復雜度越來越高以后,它的數據需求量就有了一個飛速增長的過程。

        我們可以說半被動地去接受,響應技術的變化。以前可能幾十小時,后來幾百小時,以前可能一兩百人,后來要上千人,大規模的這種數據集業務,對我們來說都是很好的業務機會。

        到這兩年,AI大模型起來了,我們看到(客戶)對數據的需求有新的變化,對我們來說也有大量的新機會。我們要有一定的敏感度,要挖掘到大模型對數據的要求和傳統深度學習對數據要求有什么相同的地方,我們怎么去學習掌握它一樣的地方,利用好我們原來的一些優勢。

        全天候科技:數據量的需求上去了,就需要企業在數據量上多去布局,多去搜集,現在還是誰擁有的數據最多,誰就有更多優勢的階段嗎?

        黃宇凱:這里有一個關鍵的點——數據量上去以后,設計其實很重要。

        比如山東人說普通話,你要做這樣一個語音識別的數據集,讓1000個山東人來說普通話,你怎么選這1000個人?讓這1000個人說什么樣的話?這里面是有很高的技術壁壘的。又比如某些語言里平翹舌音不分,我們要提供數據集,就要在平翹舌音的覆蓋面上盡量多放一些這種句子。

        這些都需要語言學家去理解語言或者方言的特點,要去設計數據集的結構。

        再舉一個圖像方面的例子,比如找貓找狗,不是說有1000張、10000張貓的圖片,就是一個很好的數據集。要去判斷貓的種品種、顏色,又比如貓的姿態、體態,在什么光線下拍的照片,在這張圖片里的占比、位置,要做出這么一張數據集,最好包含了多樣性,才是一個比較好的數據集,這背后是有一套的設計方案和邏輯的 。

        我們的團隊有很多的經驗,大概知道客戶要做什么,對數據集的要求是什么,能設計出一個好的數據集。把數據集給到客戶后,他的算法團隊拿這個數據去訓練,讓他的訓練效果很好,這樣客戶才愿意第二次、第三次來找我們。

        全天候科技:如何設計數據集的結構呢?怎樣的數據集才能算是好的數據集呢?

        黃宇凱:數據集方案我們需要和客戶溝通不止一輪,客戶的算法團隊從算法、訓練模型的角度,我們從數據采集和數據標注處理的角度,兩者放在一起,才能變成一個更好的模型。

        這個過程我們要來回碰,雙方的技術人員要去討論方案。第一版方案做出來,我們還要去推導、精細調優它,一版一版做。微軟、亞馬遜,國內的BAT都是我們的頭部大客戶,我們和這些頭部大客戶的算法團隊一起成長。

        像一些自動駕駛領域的客戶,有些客戶對于什么樣的數據集能夠幫助他的算法做得更好,他一開始也不明確,因為行業內沒有標準。我們做的時候可以告訴他應該如何調整,有的地方標注精度99%就夠了,有的就需要99.9%,有些類型以靜態物為主,標的時候可以粗一些,有些類型就需要標的細一些……這些方案都是需要和客戶之間來回磨合,客戶慢慢就知道了。

        他在成長,其實我們也在成長,所以我們和很多大客戶有很強的綁定關系。這個行業很多大客戶一般和一php家數據公司合作以后,他不會輕易更換。因為數據很關鍵,對核心數據供應商的頻繁調整,對他其實是一個消耗。

        而對我們來說,這些knowhow也可以服務一些其他的客戶。

        2

        做技術投入,太早太晚都不行

        全天候科技:數據行業是否也是一個有先發優勢的行業,比如早期積累的數據集越多,服務了越多的客戶,做了足夠多的方案,你們的邊際成本也會下降?

        黃宇凱:邊際成本肯定是有的。

        最簡單的一個例子,節省了磨合時間。我們的項目管理團隊、供應商,以及我們自建的標注基地、標注員之間,是有一個已經磨合好的信任關系的。初期磨合可能難一些,順了以后形成了穩定團隊,項目的輸出能力就是很強的,數據質量也是有保證的,這是一個邊際效應。

        我們還有一類邊際效應是我們的數據集產品,我們的業務形態里,接近一半是通過數據集的形式去賣的。

        比如A客戶找我們一起來去打造一個算法,我們做出了一個很好的數據集,對他算法提升很不錯。這里有一個商業邏輯,數據的擁有權是屬于客戶還是屬于我們,這是可以協商的事情。

        知識產權完全歸他,我們的項目團隊也能繼續服務其他客戶。很多客戶他不需要知識產權,而我們擁有知識產權,我們就可以對它做復賣。

        我們管這些叫成品庫,如果B客戶也想做相關的業務,我就可以直接把庫賣給他。他拿到這個庫以后,可以用更短的時間迅速的做出一個好的產品。

        我們目前在語音方面有近1000多個成品庫,并且整個庫的質量是很高的。基本上第二次復賣的時候,就除了銷售成本沒有其他成本,幾乎是100%毛利。

        全天候科技:但現在大模型起來了,它對數據的需求也在發生變化,比如它用到的RLHF和傳統的數據標注就不一樣,你們原來的優勢還會在嗎?

        黃宇凱:RLHF就是我們經常說的強化學習,它和傳統的數據標注形式上不一樣,但本質是一樣的。

        舉個例子,讓AI寫一個摘要,以前做NLP的標注你給個文章寫出來就行了。所謂摘要,就是給長段的文本用三四句話歸納一下。標注場景其實相對簡單,比較直接。

        而大模型時代里,同樣去訓練大模型學會寫摘要的能力,就要用RLHF這種方式,數據標注員做標注就不是那么簡單了。不僅要準確,還要考慮到各方面的代表性,甚至語氣、長度、篇幅,要求會很高。

        但本質都是一樣的,還是把人的知識通過那幾條、幾十條或者幾百條的數據,教會這個模型。只是以前教起來簡單,這個學生是小學生或者幼兒園,現在學生成長為初中生、高中生了,教他會更難一些。以前可能普通老師就行,現在就得是碩士、博士畢業的老師才能做這個工作。

        全天候科技:這是不是也對數據標注員的專業素養提出一個更高的要求?

        黃宇凱:是的,比方說985、211畢業的學生,我不是開玩笑,是真的能招到這樣的一些人才來做數據學習。或者說有一些技術點的人才,我們最近比較關注人才的工程化能力,特別是大模型訓練的工程化能力這一塊。

        以前我們這塊是不需要做太多的積累和投入的,所以這塊人員比較少,現在到大模型時代,我們需要有這樣的人,我們也會去定向招聘這樣的人才。

        全天候科技:海天瑞聲對于大模型的關注可能更早,你們有在提前布局跟大模型相關的業務嗎?

        黃宇凱:我們關注比較早,GPT2的時候我們就開始關注。今年大模型起來了,我們判斷后再去做的投入,我們還是相對謹慎的。因為技術投入有一定的風險,要去判斷、預測未來技術方向到底在哪,因為技術方向有可能會變。

        去年大家都不知道今年大模型會火成這個樣子,國內現在學術界也開始關注這些事情。在這些基礎上,我們從上到下也會去投入做學習理解。另一面也是看客戶,我們有非常高水平的客戶群,他們會有很多的反饋給到我們。

        Q:現在會不會晚了?今年需求肯定急速增長,如果沒有提前布局,會抓不住這些機會嗎?

        黃宇凱:我覺得早、晚都是有可能的,就像中國在大模型上,肯定已經晚了。只是晚多久的判斷,有些人說幾個月,悲觀的人認為晚兩年。國外也是,Google它也晚了。

        對我們數據公司來說,現在我們會做一些投入,就像幾年前我們做自動駕駛,要去判斷什么時候切入自動駕駛。

        一開始我們做自動駕駛也是有一些零散的項目找過來,我們自己會去研究一些技術和論文,看看自動駕駛到底在一個怎樣的水平,然后做一些有限的投入。隨著商業的節奏,我們的技術節奏也起來了。

        如果你永遠擔心晚了,永遠是早投,你會面臨浪費的問題,這個度它也沒有什么標準答案。

        至少我們現在和中國行業里做大模型的節奏差不多。我們做了一些投入研究,一些原來我們不擅長的再補補課,原來擅長的再加深一下。在業務側,像RLHF有些項目在持續推進,這也不是說一兩周、一兩個月的事情,已經比較長時間了。

        3

        大模型時代的數據行業洗牌

        全天候科技:今年以來,AI大模型的熱度超過了所有行業,許多投資人也在試圖找數據標注企業進行投資。對于AI的“數據商”們來說,這是一個怎樣的階段?

        黃宇凱:數據行業是一個非常好的賽道,(AI)技術越往后發展,它越是以數據為載體來做傳播,所以數據會越來越重要。

        大模型發展起來以后,AI也開始平民化,以前AI也是無處不在,目前AI感覺更厲害,觸角伸到各行各業,它背后或多或少都有數據的需求。對我們數據行業來說,這個市場就會非常大,就看你能不能抓住這個機會。

        做好技術投入、資源管理、knowhow積累,把自己壁壘越建越高,那就行了。如果你不好好做這些事情,你可能就失去這個機會了。

        全天候科技:很多互聯網、科技公司在做AI大模型的時候,也在搭建自己的數據團隊,也在搶奪人才,他們的加入,對數據行業會有怎樣的影響?

        黃宇凱:我覺得這個行業會是一個長期共存的狀態,有三類企業會一直存在。一類就是算法公司自建團隊,一類是像我們這樣的專業數據服務提供商,第三類是我們的上游供應商,會給我們提供人力外包。

        這個行業這么多年來,不管你是機器學習階段、深度學習時代,還是大模型時代,都有共存的關系。

        客戶不自建團隊了,全部找我們這家公司,我覺得也不可能。因為他們內部有一些最高級別的數據安全要求,或者內部有其他數據,大公司總是會保留一定的自建團隊。

        但我也不覺得他們會把我們的份額都拿走,因為確實存在一些競爭的問題,導致客戶互相之間是隔離的,特別是很重要的數據,互相之間肯定會屏蔽。對于這些壁壘,海天有這么多的資源,全球的采集能力,說實話也不是隨便一家公司能有的。

        Q:作為一個中立的數據服務商,你們可以給大廠提供哪些方面的數據補充?如果只是第三方,是否意味著你們只能做一些邊緣業務?

        黃宇凱:我覺得他們需要什么我們都可以做。很多人認為大廠做什么都行,因為大廠有所謂的生態。國內大廠經常是什么都想做,但最終還是會有很多業務劃分出來,形成一個生態上下游關系,這是正常的技術發展的趨勢。

        我不覺得我們是邊緣業務,他們有數據,但要用起來那才叫有用。而從那么多數據里面,把有用的挑選出來,這個過程相當于把數據做蒸餾,這個才是核心技術。

        這部分技術就是我們的knowhow。就像銀行的某個數據,這是他有的,但是我知道怎么把這類數據用最高效的方式、最節約成本,最快的速度變成他的算法。

        Q:AI大模型它對數據的需求變化,會讓數據提供商行業有一個洗牌嗎?什么樣的企業更能夠適應這個時代,而什么樣的企業可能被這個時代拋下了?

        黃宇凱:更關注技術、對商業敏感的企業,更關注資源、有資源積累的企業,更關注安全合規的企業,在這三類上關注度比較高的企業更容易活下來。

        技術的投入是需要代價的,但如果有些企業在技術投資上長期處于謹慎狀態,投入比較少,長期來說它的護城河就不夠,那就慢慢會有風險。像我們這種頭部企業,我們一直非常注重技術的投入、資源的培養,以及合規這三塊,也有持續的投入,在洗牌的過程中也會越洗越大。

        相對來說,市場占比小的企業更可能被洗掉。特別是剛才提到的第三類,提供人力外包的這些公司,說實話他們可能真的要想清楚他們的壁壘在哪,不然他們有可能會被替換掉。

        關鍵詞:

        標簽閱讀


        全亚洲最新黄色特级网站| 亚洲精品动漫免费二区| 亚洲成片观看四虎永久| 亚洲久热无码av中文字幕| 亚洲三级在线视频| 亚洲国产福利精品一区二区| 精品亚洲aⅴ在线观看| 麻豆亚洲AV永久无码精品久久 | 中文字幕在线观看亚洲日韩| 亚洲一级毛片免费看| 亚洲三级在线播放| 国产亚洲福利在线视频| 亚洲午夜无码久久久久小说| 亚洲色成人四虎在线观看| 亚洲一区二区三区成人网站 | 亚洲韩国精品无码一区二区三区| 亚洲乱码一区二区三区在线观看 | 亚洲精品无码专区久久久 | 亚洲乱码日产一区三区| 国产成A人亚洲精V品无码性色| 国产成A人亚洲精V品无码性色 | 亚洲s色大片在线观看| 91大神亚洲影视在线| 亚洲精品国产肉丝袜久久| 亚洲综合激情九月婷婷| 亚洲中文无码线在线观看| 97se亚洲国产综合自在线| 亚洲精品无码久久久久秋霞| 国产精品亚洲av色欲三区| 亚洲另类激情专区小说图片| 亚洲桃色AV无码| 亚洲一区二区中文| 亚洲fuli在线观看| 亚洲av无码一区二区三区在线播放 | 亚洲熟妇AV一区二区三区浪潮 | 蜜芽亚洲av无码一区二区三区| 在线观看国产一区亚洲bd| 久久综合亚洲色HEZYO国产| 亚洲人成网站在线观看播放| 亚洲精品私拍国产福利在线| 亚洲一线产区二线产区精华|