每10份音頻就有8份被“胡編”?OpenAI語音轉(zhuǎn)錄工具被曝存重大缺陷
財(cái)聯(lián)社10月28日訊(編輯 瀟湘)生成式人工智能領(lǐng)域的領(lǐng)軍者OpenAI,曾吹噓其人工智能轉(zhuǎn)錄工具Whisper具有接近“人類水平的穩(wěn)定性和準(zhǔn)確性”。
然而,隨著該轉(zhuǎn)錄工具在各行各業(yè)被越來越多地普及使用,其問題似乎也正開始凸顯——根據(jù)業(yè)內(nèi)媒體對十多位軟件工程師、開發(fā)人員和學(xué)術(shù)研究人員的采訪,如今Whisper所存在的一個重大缺陷已愈發(fā)不容忽視:它很容易會編造大段文字,甚至是整段句子。
這些業(yè)內(nèi)專家表示,一些編造出的文字——在行業(yè)內(nèi)被稱為“幻覺”,可能包括種族言論、暴力措辭,乃至完全杜撰出的醫(yī)療建議。
專家們越來越擔(dān)心這種“胡編亂造”可能造成嚴(yán)重后果,因?yàn)閃hisper當(dāng)前正被全球多個行業(yè)用于翻譯和轉(zhuǎn)錄采訪內(nèi)容、生成文本以及為視頻制作字幕。雖然OpenAI曾警告不應(yīng)在“高風(fēng)險(xiǎn)領(lǐng)域”使用該工具,但目前一些美國醫(yī)療中心都正開始使用基于Whisper的工具,來記錄患者與醫(yī)生間的對話。
據(jù)經(jīng)常使用Whisper的研究人員和工程師表示,他們在工作中經(jīng)常會遇到該工具出現(xiàn)“幻覺”。例如,密歇根大學(xué)的一名研究人員在研究公共會議的轉(zhuǎn)錄準(zhǔn)確率時發(fā)現(xiàn),他所審核的每十份音頻轉(zhuǎn)錄中,便有八份存在“幻覺”。
一位機(jī)器學(xué)習(xí)工程師則稱,在他分析的100多個小時的Whisper轉(zhuǎn)錄中,他最初發(fā)現(xiàn)大約有一半存在“幻覺”。第三位開發(fā)人員指出,在他用Whisper創(chuàng)建的26000份記錄中,幾乎每一份都發(fā)現(xiàn)了胡編亂造的現(xiàn)象。
即使是在那些錄制良好的簡短音頻樣本里,問題也依然存在。在最近的一項(xiàng)研究中,計(jì)算機(jī)科學(xué)家們在審查的超過13000個清晰音頻片段中發(fā)現(xiàn)有187個存在“幻覺”問題。
研究人員表示,這種趨勢將導(dǎo)致在數(shù)百萬段錄音中出現(xiàn)數(shù)以萬計(jì)的錯誤轉(zhuǎn)錄。
后果嚴(yán)重
曾在拜登政府領(lǐng)導(dǎo)白宮科技政策辦公室工作的Alondra Nelson表示,這種錯誤可能會造成“非常嚴(yán)重的后果”,尤其是在醫(yī)院里。
目前,包括明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi)的超過30000名臨床醫(yī)生和40個衛(wèi)生系統(tǒng),已開始使用法國AI診療公司Nabla基于Whisper打造的工具。
Nabla公司的首席技術(shù)官M(fèi)artin Raison表示,該工具根據(jù)醫(yī)學(xué)語言進(jìn)行了微調(diào),以轉(zhuǎn)錄和總結(jié)醫(yī)生與病人間的互動。該工具轉(zhuǎn)錄的就診記錄目前已多達(dá)約700萬次。該公司官員還指出,他們知道Whisper會產(chǎn)生幻覺,并正在努力解決這個問題。
目前擔(dān)任普林斯頓高等研究院教授的Nelson表示,“沒有人希望出現(xiàn)誤診。(該領(lǐng)域)應(yīng)該有更高的標(biāo)準(zhǔn)!
目前,Whisper還被用于為聾人和聽力障礙者制作字幕——這是一個特別容易因出現(xiàn)錯誤轉(zhuǎn)錄而陷入困境的人群,因?yàn)槊@人和聽力障礙者完全無法識別“隱藏在所有文本中”的編造內(nèi)容。
這種幻覺在Whisper中的普遍存在,已促使眾多專家、倡導(dǎo)者和OpenAI前員工呼吁美國政府考慮制定人工智能法規(guī)。他們指出,OpenAI至少需要解決這一缺陷。今年2月因擔(dān)心公司的發(fā)展方向而從OpenAI辭職的工程師William Saunders就表示,如果OpenAI愿意優(yōu)先解決這個問題,這個問題似乎是可以解決的。而如果你長期把它放在那里,而人們對它的功能過于自信,并把它集成到所有這些其他系統(tǒng)中,那就有麻煩了。
雖然大多數(shù)開發(fā)人員都認(rèn)為轉(zhuǎn)錄工具不可避免會拼錯單詞或出現(xiàn)其他錯誤,但不少工程師和研究人員表示,他們從未見過其他人工智能轉(zhuǎn)錄工具像Whisper一樣容易產(chǎn)生幻覺。
目前,該工具已被集成到OpenAI旗艦聊天機(jī)器人ChatGPT的某些版本中,同時也是甲骨文和微軟云計(jì)算平臺的內(nèi)置產(chǎn)品,為全球數(shù)千家公司提供服務(wù)。它還可用于將文本轉(zhuǎn)錄和翻譯成多種語言。
僅在上個月,開源人工智能平臺HuggingFace上的一個Whisper最新版本就被下載了420多萬次。該平臺的機(jī)器學(xué)習(xí)工程師Sanchit Gandhi表示,Whisper是最流行的開源語音識別模型,從呼叫中心到語音助手,都內(nèi)置了Whisper。
康奈爾大學(xué)教授Allison Koenecke和弗吉尼亞大學(xué)教授Mona Sloane,目前已研究了他們從卡內(nèi)基梅隆大學(xué)的研究資料庫TalkBank中獲得的數(shù)千個簡短音頻片段。他們發(fā)現(xiàn),近40%的幻聽是有害的或令人擔(dān)憂的,因?yàn)檎f話者的原意可能被曲解或歪曲。
研究人員并不確定Whisper和類似工具產(chǎn)生幻覺的原因,但軟件開發(fā)人員表示,這些胡編亂造往往發(fā)生在出現(xiàn)停頓、背景聲音或音樂播放時。OpenAI此前在網(wǎng)上披露的信息中曾建議,不要在決策情境中使用Whisper,因?yàn)闇?zhǔn)確性上的缺陷會導(dǎo)致結(jié)果上的明顯缺陷。
而針對最新爆料,有OpenAI發(fā)言人回應(yīng)稱,OpenAI會在接下來的模型更新中加入相應(yīng)的反饋機(jī)制。
本網(wǎng)站所刊載信息,不代表中新經(jīng)緯觀點(diǎn)。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責(zé)任。
[京B2-20230170] [京ICP備17012796號-1]
違法和不良信息舉報(bào)電話:18513525309 報(bào)料郵箱(可文字、音視頻):zhongxinjingwei@chinanews.com.cn
Copyright ©2017-2024 jwview.com. All Rights Reserved
北京中新經(jīng)聞信息科技有限公司