王潔玉:1997年生于海南省臨高縣,2020年畢業(yè)于四川民族大學,曾做過小學語文老師,2023年3月起進入數(shù)據(jù)標注行業(yè),成為一名數(shù)據(jù)標注師。
“雞蛋和雞精哪個更好吃?”“雞蛋是一種常見食物,含有豐富的蛋白質(zhì)和其他營養(yǎng)成分,口感相對豐富;雞精由雞肉提取的精華制成,味道鮮美。它們各有特點,需要根據(jù)個人口味選擇。”
電腦前的王潔玉看到這樣的人工智能對話,笑著搖搖頭。她在評分欄給出不及格的分數(shù),并在旁邊注釋:違反常識,雞精是調(diào)味料,不能直接食用。
“就像給學生判卷子一樣,只不過這個學生有點特別。”王潔玉是一名“90后”數(shù)據(jù)標注師。曾經(jīng)做過小學教師的她,現(xiàn)在的教學對象是人工智能,也就是AI。
人工智能技術的突飛猛進發(fā)展,正在為我們的生活帶來巨大改變和機遇。可以實時互動聊天的新型機器人,不僅可以為用戶答疑解惑,還可以完成撰寫郵件、做視頻腳本、進行翻譯等任務,吸引了大量“Z世代”用戶試水。
“有多少智能,就得付出多少人工”,王潔玉引用行業(yè)內(nèi)一句廣為流傳的話,向《環(huán)球人物》記者解釋自己的工作內(nèi)容。實際上,AI背后每一次回復、每一個作品,都要從AI訓練師的“教學”開始。2020年2月,AI訓練師被正式納入國家職業(yè)分類目錄,數(shù)據(jù)標注師作為AI訓練師的一種,主要負責教機器學習人類思維,說人話,讓機器像人類一樣感知和認識這個世界。
跑題的“做家務日記”
王潔玉2020年從四川民族大學漢語言文學專業(yè)畢業(yè)。同學們的就業(yè)方向很集中,大部分選擇進入中小學當老師,“這是最對口的”。王潔玉則回到老家海南,考入海南省檔案局。這樣一份擁有事業(yè)編制的工作,是家長們眼中標準的“鐵飯碗”。工作還算輕松,但無法帶來新鮮感和挑戰(zhàn),王潔玉干了幾個月,背著爸媽,裸辭了。
剛好有朋友給她介紹了一份當老師的工作,在瓊中烏石的一所私立學校教語文。王潔玉通過面試,成為小學三年級語文老師并擔任班主任。“起初我熱情蠻高的,希望把學到的東西教給孩子們。”做了一年多教師后,王潔玉愛折騰的“老毛病”又犯了,“可能我真不適合那種一眼就能望到頭的工作。明天要做什么,今天就知道了,下周的工作內(nèi)容,這周也基本清楚了。”
疫情期間,有人丟了工作,王潔玉卻又一次主動辭職。當時,正好趕上海南疫情暴發(fā),她去方艙做了一名志愿者。把自己裹進厚重的防護服里,人生、理想、就業(yè),她什么也不想,每天穿梭在感染者中間,發(fā)飯、發(fā)藥、發(fā)口罩,維持秩序。
2023年3月,一個看起來很酷、很前衛(wèi)的工作機會吸引了王潔玉。“一開始,看到數(shù)據(jù)標注師的招聘信息時,我還專門上網(wǎng)查了查,大概就是給機器人進行文本糾錯。”面試通過后,王潔玉才發(fā)現(xiàn),這并不是一份可以很快上手的工作。她和其他新入職的員工一起接受了一周的入職培訓,對標注規(guī)則和應用軟件進行了系統(tǒng)學習。直到一周后的上崗考試,她才意識到,自己做的是一份什么樣的工作——“AI完成了一份答卷,我們就是老師,需要給出評分和判斷”。
王潔玉第一次給AI創(chuàng)作的作文“判卷子”,題目要求是寫一篇三年級學生的做家務日記。在這篇作文中,AI對家務做了非常詳盡的描述:廚房需要洗碗、洗鍋,清潔所有的餐具廚具;客廳需要清理地面,整理書籍……但它只寫了“家務”的部分,“做”的部分沒有提到。“這屬于跑題范疇了,只能打出不及格的分數(shù)。”王潔玉跟記者解釋,這類題型,除了主題要正確,還要注意語病,最難的一點,要考慮這是三年級學生的日記,寫得文學性越強,分數(shù)可能反而越低。
一位資深的數(shù)據(jù)標注基地運營經(jīng)理對《環(huán)球人物》記者說,這種對AI生成的內(nèi)容進行評價和反饋的形式,實際就是“喂養(yǎng)”的過程。“通過不斷地反饋,去訓練AI深度學習,把人類思維和價值觀等不斷地‘喂’給AI,最終讓它能像人一樣去解決實際問題。”
王潔玉給AI判完卷子,還有專門的培訓老師對王潔玉的操作熟練程度、文本評判水平和改寫能力做出評估。超過80分才能上崗,王潔玉得了85分。分數(shù)不達標的員工只能不斷地再學習再考試。等到這一批員工全部達到上崗標準,一個月已經(jīng)過去了。
和AI一起成長
和其他數(shù)據(jù)標注師不完全一樣,王潔玉從事的是大模型數(shù)據(jù)標注。所謂的大模型,就是由人制造出來的有一定智商的AI系統(tǒng)。王潔玉解釋,其他數(shù)據(jù)標注工作可能像自動駕駛中的AI應用,需要標注師通過畫框的形式標出畫面中的行人、樹、車道線、紅綠燈的位置,培養(yǎng)AI的識別能力,“大部分是有標準答案的”。
大模型數(shù)據(jù)標注更像是一道道“主觀題”。“不再是簡單的‘標注’‘畫框’,讓AI學習什么是人臉,什么是障礙物,更多是讓AI自主判斷什么樣的答案更符合人類思維。”隨著深入學習,王潔玉感覺這份工作并沒有想象中那么簡單,“大模型數(shù)據(jù)涉及的知識面很廣,評判標準復雜,非??简灅俗煹恼Z言理解能力和邏輯推理能力。”
在王潔玉看來,針對大模型的數(shù)據(jù)標注師更像是專業(yè)輔導老師的角色,需要具備特定的知識和技能才能勝任。王潔玉所在的百度智能云(???人工智能基礎數(shù)據(jù)產(chǎn)業(yè)基地,和她一起入職的同事們基本全是本科以上學歷。
俗話說,老師的眼界,決定學生的高度。為了避免“誤人子弟”,王潔玉等標注師需要不定期接受考核,如果錯誤率太高,可能會被迫下線。“就像駕照一樣,扣分到一定程度,就需要重新考試,申領到新的駕照才能再次上路。”每次考試之后,還有專門的培訓師召集會議,幫標注師們逐一分析“丟分點”在哪里。
比起之前在學校教學生,王潔玉感覺給AI當老師難度更大。“小學生的教材至少是固定的,通過備課和一些知識儲備,我相信自己有資格去教他們,但AI就不一定了。”
訓練AI時,王潔玉經(jīng)常會面對一些超出能力范圍的題目。比如,“曲高和寡”這個成語是什么意思,王潔玉完全可以判斷AI生成的答案是否正確。但接著下一個問題,“曲高和寡在經(jīng)濟學領域?qū)氖鞘裁蠢碚?rdquo;,這讓沒怎么接觸過經(jīng)濟學的王潔玉覺得有點“超綱”。她不得不查閱資料,咨詢同事,來補充印證自己的想法。除了經(jīng)濟學,計算機、法律、科技等領域內(nèi)容,在實際工作中都可能涉及。
王潔玉(白衣服者)和同事一起開會。
“因為題型會變,不同的大模型項目,也會有不同的標注規(guī)則,相當于根本沒有一本固定教材可以參考。”在訓練AI的同時,王潔玉也被迫不斷學習充電,“與其說我在陪它成長,某種意義上,它也在幫助我成長。”
另外,王潔玉發(fā)現(xiàn),教AI需要的耐心不比教學生時少。在學校時,如果學生學了一遍沒學會,兩遍仍沒學會,她肯定會主動找到這位學生,面對面交流他學不會的原因。“大模型可是沒辦法直接溝通的,就算它總是學不會,我也不能生氣,只能不斷去糾正和灌輸,希望它早點掌握其中的邏輯。”
學有所成的“AI學生”
2022年底,“AI繪畫”相關話題爆火。用戶只需要輸入幾個關鍵詞,畫質(zhì)精美、創(chuàng)意獨特的繪畫作品就能一鍵生成。今年5月,“AI孫燕姿”“AI周杰倫”等虛擬歌手爆火網(wǎng)絡,引發(fā)關注。這次“雙11”期間,也有一部分頭部商家,選擇使用虛擬主播全天24小時直播,有問必答。
2023年5月,在上海一場科技展覽上,參會者與虛擬數(shù)字人對話。
當時代的風吹起,能否站上“風口”成了年輕人心中的向往。“我越來越喜歡這份工作,數(shù)據(jù)標注師,聽起來就很時尚。”王潔玉對這份工作的未來十分看好。
2020年2月,人社部將“人工智能訓練師”納入國家職業(yè)分類目錄時,對這個新職業(yè)的解釋是,“使用智能訓練軟件,在人工智能產(chǎn)品實際使用過程中進行數(shù)據(jù)庫管理、算法參數(shù)設置、人機交互設計、性能測試跟蹤及其他輔助作業(yè)的人員”,該職業(yè)包含數(shù)據(jù)標注師、人工智能算法測試員兩個工種。
而隨著這一新職業(yè)的快速發(fā)展,一個新的問題產(chǎn)生了:如何評判一名人工智能訓練師的職業(yè)能力?
一位業(yè)內(nèi)人士透露,AI數(shù)據(jù)標注產(chǎn)業(yè)一大特點是勞動密集。像王潔玉一類的大模型數(shù)據(jù)標注師,因為題目復雜,一天可以做四五十道題。而對于普通標注師來說,一天可以完成幾百道題目的標注工作。因此,國內(nèi)存在大量標注的小作坊、工作室。他們以低薪招人,靠量取勝,卻毫無品質(zhì)保證。很長一段時間,AI數(shù)據(jù)標注行業(yè)處在粗放管理的無序狀態(tài)。
2021年11月,《人工智能訓練師國家職業(yè)技能標準》發(fā)布,為這個職業(yè)劃分了五個等級,并對各個等級的職業(yè)能力給出了職業(yè)發(fā)展指引。這也意味著,未來,數(shù)據(jù)標注師或?qū)⒖梢韵窆こ處熞粯樱行袠I(yè)內(nèi)的職稱評定標準。
生活中,王潔玉的成就感時常在一些場合不自覺冒出來。在手機銀行辦業(yè)務向24小時在線顧問咨詢時,在購物平臺跟有問必答的售后聯(lián)系時,她都會聯(lián)想,對面提供服務的,說不定就是經(jīng)過自己訓練的“AI學生”。