每10份音頻就有8份被“胡編”？OpenAI語音轉(zhuǎn)錄工具被曝存重大缺陷

2024-10-28 15:47:13 財(cái)聯(lián)社

　　每10份音頻就有8份被“胡編”？OpenAI語音轉(zhuǎn)錄工具被曝存重大缺陷

　　財(cái)聯(lián)社10月28日訊(編輯瀟湘)生成式人工智能領(lǐng)域的領(lǐng)軍者OpenAI，曾吹噓其人工智能轉(zhuǎn)錄工具Whisper具有接近“人類水平的穩(wěn)定性和準(zhǔn)確性”。

　　然而，隨著該轉(zhuǎn)錄工具在各行各業(yè)被越來越多地普及使用，其問題似乎也正開始凸顯——根據(jù)業(yè)內(nèi)媒體對十多位軟件工程師、開發(fā)人員和學(xué)術(shù)研究人員的采訪，如今Whisper所存在的一個重大缺陷已愈發(fā)不容忽視：它很容易會編造大段文字，甚至是整段句子。

　　這些業(yè)內(nèi)專家表示，一些編造出的文字——在行業(yè)內(nèi)被稱為“幻覺”，可能包括種族言論、暴力措辭，乃至完全杜撰出的醫(yī)療建議。

　　專家們越來越擔(dān)心這種“胡編亂造”可能造成嚴(yán)重后果，因?yàn)閃hisper當(dāng)前正被全球多個行業(yè)用于翻譯和轉(zhuǎn)錄采訪內(nèi)容、生成文本以及為視頻制作字幕。雖然OpenAI曾警告不應(yīng)在“高風(fēng)險(xiǎn)領(lǐng)域”使用該工具，但目前一些美國醫(yī)療中心都正開始使用基于Whisper的工具，來記錄患者與醫(yī)生間的對話。

　　據(jù)經(jīng)常使用Whisper的研究人員和工程師表示，他們在工作中經(jīng)常會遇到該工具出現(xiàn)“幻覺”。例如，密歇根大學(xué)的一名研究人員在研究公共會議的轉(zhuǎn)錄準(zhǔn)確率時發(fā)現(xiàn)，他所審核的每十份音頻轉(zhuǎn)錄中，便有八份存在“幻覺”。

　　一位機(jī)器學(xué)習(xí)工程師則稱，在他分析的100多個小時的Whisper轉(zhuǎn)錄中，他最初發(fā)現(xiàn)大約有一半存在“幻覺”。第三位開發(fā)人員指出，在他用Whisper創(chuàng)建的26000份記錄中，幾乎每一份都發(fā)現(xiàn)了胡編亂造的現(xiàn)象。

　　即使是在那些錄制良好的簡短音頻樣本里，問題也依然存在。在最近的一項(xiàng)研究中，計(jì)算機(jī)科學(xué)家們在審查的超過13000個清晰音頻片段中發(fā)現(xiàn)有187個存在“幻覺”問題。

　　研究人員表示，這種趨勢將導(dǎo)致在數(shù)百萬段錄音中出現(xiàn)數(shù)以萬計(jì)的錯誤轉(zhuǎn)錄。

　　后果嚴(yán)重

　　曾在拜登政府領(lǐng)導(dǎo)白宮科技政策辦公室工作的Alondra Nelson表示，這種錯誤可能會造成“非常嚴(yán)重的后果”，尤其是在醫(yī)院里。

　　目前，包括明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi)的超過30000名臨床醫(yī)生和40個衛(wèi)生系統(tǒng)，已開始使用法國AI診療公司Nabla基于Whisper打造的工具。

　　Nabla公司的首席技術(shù)官M(fèi)artin Raison表示，該工具根據(jù)醫(yī)學(xué)語言進(jìn)行了微調(diào)，以轉(zhuǎn)錄和總結(jié)醫(yī)生與病人間的互動。該工具轉(zhuǎn)錄的就診記錄目前已多達(dá)約700萬次。該公司官員還指出，他們知道Whisper會產(chǎn)生幻覺，并正在努力解決這個問題。

　　目前擔(dān)任普林斯頓高等研究院教授的Nelson表示，“沒有人希望出現(xiàn)誤診。(該領(lǐng)域)應(yīng)該有更高的標(biāo)準(zhǔn)�！�

　　目前，Whisper還被用于為聾人和聽力障礙者制作字幕——這是一個特別容易因出現(xiàn)錯誤轉(zhuǎn)錄而陷入困境的人群，因?yàn)槊@人和聽力障礙者完全無法識別“隱藏在所有文本中”的編造內(nèi)容。

　　這種幻覺在Whisper中的普遍存在，已促使眾多專家、倡導(dǎo)者和OpenAI前員工呼吁美國政府考慮制定人工智能法規(guī)。他們指出，OpenAI至少需要解決這一缺陷。今年2月因擔(dān)心公司的發(fā)展方向而從OpenAI辭職的工程師William Saunders就表示，如果OpenAI愿意優(yōu)先解決這個問題，這個問題似乎是可以解決的。而如果你長期把它放在那里，而人們對它的功能過于自信，并把它集成到所有這些其他系統(tǒng)中，那就有麻煩了。

　　雖然大多數(shù)開發(fā)人員都認(rèn)為轉(zhuǎn)錄工具不可避免會拼錯單詞或出現(xiàn)其他錯誤，但不少工程師和研究人員表示，他們從未見過其他人工智能轉(zhuǎn)錄工具像Whisper一樣容易產(chǎn)生幻覺。

　　目前，該工具已被集成到OpenAI旗艦聊天機(jī)器人ChatGPT的某些版本中，同時也是甲骨文和微軟云計(jì)算平臺的內(nèi)置產(chǎn)品，為全球數(shù)千家公司提供服務(wù)。它還可用于將文本轉(zhuǎn)錄和翻譯成多種語言。

　　僅在上個月，開源人工智能平臺HuggingFace上的一個Whisper最新版本就被下載了420多萬次。該平臺的機(jī)器學(xué)習(xí)工程師Sanchit Gandhi表示，Whisper是最流行的開源語音識別模型，從呼叫中心到語音助手，都內(nèi)置了Whisper。

　　康奈爾大學(xué)教授Allison Koenecke和弗吉尼亞大學(xué)教授Mona Sloane，目前已研究了他們從卡內(nèi)基梅隆大學(xué)的研究資料庫TalkBank中獲得的數(shù)千個簡短音頻片段。他們發(fā)現(xiàn)，近40%的幻聽是有害的或令人擔(dān)憂的，因?yàn)檎f話者的原意可能被曲解或歪曲。

　　研究人員并不確定Whisper和類似工具產(chǎn)生幻覺的原因，但軟件開發(fā)人員表示，這些胡編亂造往往發(fā)生在出現(xiàn)停頓、背景聲音或音樂播放時。OpenAI此前在網(wǎng)上披露的信息中曾建議，不要在決策情境中使用Whisper，因?yàn)闇?zhǔn)確性上的缺陷會導(dǎo)致結(jié)果上的明顯缺陷。

　　而針對最新爆料，有OpenAI發(fā)言人回應(yīng)稱，OpenAI會在接下來的模型更新中加入相應(yīng)的反饋機(jī)制。

來源：財(cái)聯(lián)社

編輯：張嘉怡

廣告等商務(wù)合作，請點(diǎn)擊這里

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請聯(lián)系原著作權(quán)人

中新經(jīng)緯版權(quán)所有，未經(jīng)書面授權(quán)，任何單位及個人不得轉(zhuǎn)載、摘編或以其它方式使用。

關(guān)注中新經(jīng)緯微信公眾號(微信搜索“中新經(jīng)緯”或“jwview”)，看更多精彩財(cái)經(jīng)資訊。

今日推薦