Ginamit ko ang bagong tech ng OpenAI upang i-transcribe ang audio mismo sa aking laptop

admin
admin

OpenAI, ang kumpanya sa likod ng image-generation at meme-spawning programang DALL-E at ang malakas na text autocomplete engine GPT-3, ay naglunsad ng bago, open-source na neural network na nilalayong i-transcribe ang audio sa nakasulat na teksto (sa pamamagitan ng TechCrunch). Ito ay tinatawag na Whisper, at sabi ng kumpanya ito ay “lumalapit sa katatagan at katumpakan ng antas ng tao sa English speech recognition” at maaari rin nitong awtomatikong makilala, i-transcribe, at isalin ang iba pang mga wika tulad ng Spanish, Italian, at Japanese.

Bilang isang taong patuloy na nagre-record at nagsa-transcribe ng mga panayam, agad akong natuwa tungkol sa balitang ito — naisip kong makakasulat ako ng sarili kong app para secure na mag-transcribe ng audio mula mismo sa aking computer. Bagama’t gumagana ang mga cloud-based na serbisyo tulad ng Otter.ai at Trint para sa karamihan ng mga bagay at medyo secure, may ilang mga panayam lang kung saan ako, o ang aking mga source, ay pakiramdam mas komportable kung hindi naka-internet ang audio file.

Ang paggamit nito ay naging mas madali kaysa sa naisip ko; Mayroon na akong Python at iba’t ibang mga tool ng developer na naka-set up sa aking computer, kaya ang pag-install ng Whisper ay kasingdali ng pagpapatakbo ng isang Terminal command. Sa loob ng 15 minuto, nagamit ko ang Whisper para i-transcribe ang isang pansubok na audio clip na na-record ko. Para sa isang taong medyo tech-savvy na wala pang Python, FFmpeg, Xcode, at Homebrew na naka-set up, malamang na mas malapit ito sa isa o dalawa. Mayroon nang isang tao na nagtatrabaho sa paggawa ng proseso na mas simple at madaling gamitin, gayunpaman, na pag-uusapan natin sa isang segundo.

Malinaw na hindi para sa lahat ang mga command-line app, ngunit para sa isang bagay na medyo kumplikadong trabaho, napakadaling gamitin ng Whisper.

Malinaw na hindi para sa lahat ang mga command-line app, ngunit para sa isang bagay na medyo kumplikadong trabaho, napakadaling gamitin ng Whisper.

Habang ang OpenAI tiyak na nakita ang use case na ito bilang isang posibilidad, medyo malinaw na ang kumpanya ay pangunahing nagta-target ng mga mananaliksik at developer sa release na ito. Sa ang blog post na nagpapahayag ng Whisper, sinabi ng koponan na ang code nito ay maaaring “magsilbing pundasyon para sa pagbuo ng mga kapaki-pakinabang na aplikasyon at para sa karagdagang pananaliksik sa matatag na pagproseso ng pagsasalita” at umaasa itong “Ang mataas na katumpakan at kadalian ng paggamit ng Whisper ay magbibigay-daan sa mga developer na magdagdag ng mga interface ng boses sa isang mas malawak na hanay ng mga aplikasyon.” Ang pamamaraang ito ay kapansin-pansin pa rin, gayunpaman — ang kumpanya ay may limitadong pag-access sa pinakasikat nitong mga proyekto sa machine-learning tulad ng DALL-E o GPT-3, pagbanggit ng isang pagnanais upang “matuto nang higit pa tungkol sa paggamit sa totoong mundo at patuloy na umulit sa aming mga sistema ng kaligtasan.”

Larawang nagpapakita ng text file na may na-transcribe na lyrics para sa kanta ni Yung Gravy na “Betty (Get Money).”  Ang transkripsyon ay naglalaman ng maraming mga kamalian.

Ang mga text file na ginagawa ng Whisper ay hindi eksakto ang pinakamadaling basahin kung ginagamit mo ang mga ito upang magsulat ng isang artikulo, alinman.

Nariyan din ang katotohanan na hindi eksaktong user-friendly na proseso ang pag-install ng Whisper para sa karamihan ng mga tao. Gayunpaman, ang mamamahayag na si Peter Sterne ay nakipagtulungan sa tagataguyod ng developer ng GitHub na si Christina Warren upang subukan at ayusin iyon, na nag-aanunsyo na gumagawa sila ng “libre, secure, at madaling gamitin na transcription app para sa mga mamamahayag” batay sa machine learning model ng Whisper. Nakausap ko si Sterne, at sinabi niyang napagpasyahan niya na ang programa, na tinawag na Stage Whisper, ay dapat umiral pagkatapos niyang magpatakbo ng ilang mga panayam sa pamamagitan nito at natukoy na ito ang “pinakamahusay na transkripsyon na ginamit ko kailanman, maliban sa mga taong transcriber.”

Inihambing ko ang isang transkripsyon na nabuo ng Whisper sa inilabas nina Otter.ai at Trint para sa parehong file, at masasabi kong medyo maihahambing ito. Mayroong sapat na mga error sa lahat ng mga ito na hindi ko na lang kokopyahin at i-paste ang mga quote mula sa kanila sa isang artikulo nang hindi sinusuri ang audio (na, siyempre, pinakamahusay na kasanayan pa rin, kahit anong serbisyo ang iyong ginagamit). Ngunit ang bersyon ng Whisper ay talagang gagawin ang trabaho para sa akin; Maaari akong maghanap sa pamamagitan nito upang mahanap ang mga seksyon na kailangan ko at pagkatapos ay i-double check lamang ang mga iyon nang manu-mano. Sa teorya, ang Stage Whisper ay dapat gumanap nang eksakto sa parehong paraan dahil ito ay gumagamit ng parehong modelo, na may isang GUI na nakabalot sa paligid nito.

Inamin ni Sterne na maaaring gawin ng tech mula sa Apple at Google na hindi na ginagamit ang Stage Whisper sa loob ng ilang taon — ang voice recorder app ng Pixel ay nakapagsagawa ng mga offline na transkripsyon sa loob ng maraming taon, at ang isang bersyon ng feature na iyon ay nagsisimula nang ilunsad sa ilang iba pang mga Android deviceat may naka-built in na offline na pagdidikta ang Apple iOS (bagama’t sa kasalukuyan ay walang magandang paraan upang aktwal na mag-transcribe ng mga audio file kasama nito). “Ngunit hindi kami makapaghintay ng ganoon katagal,” sabi ni Sterne. “Kailangan ng mga mamamahayag na tulad namin ng magagandang auto-transcription na app ngayon.” Umaasa siyang magkaroon ng bare-bones na bersyon ng Whisper-based na app na handa sa loob ng dalawang linggo.

Upang maging malinaw, malamang na hindi lubusang iwawaksi ng Whisper ang mga serbisyong nakabatay sa cloud tulad ng Otter.ai at Trint, gaano man ito kadaling gamitin. Para sa isa, ang modelo ng OpenAI ay nawawala ang isa sa mga pinakamalaking tampok ng tradisyonal na mga serbisyo ng transkripsyon: ang kakayahang mag-label kung sino ang nagsabi kung ano. Sinabi ni Sterne na malamang na hindi susuportahan ng Stage Whisper ang feature na ito: “hindi kami gumagawa ng sarili naming machine learning model.”

Ang cloud ay computer lang ng ibang tao — na malamang ay nangangahulugang medyo mas mabilis ito

At habang nakukuha mo ang mga benepisyo ng lokal na pagproseso, nakukuha mo rin ang mga disbentaha. Ang pangunahing isa ay ang iyong laptop ay halos tiyak na hindi gaanong malakas kaysa sa mga computer na ginagamit ng isang propesyonal na serbisyo sa transkripsyon. Halimbawa, ipinakain ko ang audio mula sa isang 24 na minutong panayam sa Whisper, na tumatakbo sa aking M1 MacBook Pro; tumagal ng humigit-kumulang 52 minuto upang i-transcribe ang buong file. (Oo, tiniyak kong ginagamit nito ang Apple Silicon na bersyon ng Python sa halip na ang Intel.) Nagluwa si Otter ng transcript sa wala pang walong minuto.

Ang teknolohiya ng OpenAI ay may isang malaking kalamangan, bagaman – presyo. Ang mga serbisyo sa subscription na nakabatay sa cloud ay halos tiyak na gagastos sa iyo ng pera kung ginagamit mo ang mga ito nang propesyonal (May libreng tier si Otter, ngunit paparating na mga pagbabago gagawin itong hindi gaanong kapaki-pakinabang para sa mga taong madalas mag-transcribe ng mga bagay-bagay), at ang mga tampok ng transkripsyon na built-in na mga platform tulad ng Microsoft Word o hinihiling sa iyo ng Pixel na magbayad para sa hiwalay na software o hardware. Ang Stage Whisper — at ang Whisper mismo— ay libre at maaaring tumakbo sa computer na mayroon ka na.

Muli, ang OpenAI ay may mas mataas na pag-asa para sa Whisper kaysa sa pagiging batayan nito para sa isang secure na transcription app — at ako ay nasasabik sa kung ano ang gagawin ng mga mananaliksik dito o kung ano ang kanilang matututunan sa pamamagitan ng pagtingin sa modelo ng machine learning, na sinanay. sa “680,000 oras ng multi-linggwal at multitask na pinangangasiwaang data na nakolekta mula sa web.” Ngunit ang katotohanang mayroon din itong tunay, praktikal na paggamit ngayon ay ginagawa itong mas kapana-panabik.




Source link

Share this Article
Leave a comment

Leave a Reply

Your email address will not be published.

adbanner