今天介绍一款离线工具,效果非常好。
WhisperDesktop是一款开源的软件,使用C++语言实现,仅有900KB大小左右,它是语音识别模型的一个端口软件,项目地址:
https://github.com/Const-me/Whisper?tab=readme-ov-file
解压后运行软件,主页面如下,根据页面上的提示,我们需要下载「语音模型」。
打开语音模型网站后,我们可以看到里面有非常多的模型,体积大小不一,其中体积越大的效果会越好,原作者推荐了一个中等的模型,如下图所示,「ggml-medium.bin」体积1.42GB(网站上显示1.53GB),网站地址:
https://huggingface.co/ggerganov/whisper.cpp/tree/main
SHA256: 6c14d5adee5f86394037b4e4e8b59f1673b6cee10e3cf0b11bbdbee79c156208
虽然软件界面是英文的,但是使用方法非常的简单,一看就会。首先选择语音模型「ggml-medium.bin」的地址,如下图所示。其中Model Implementation(模型实施)默认位GPU,因此该软件主要基于显卡的性能来实现,因此对显卡的要求较高,如果电脑显卡性能较差的话,本软件使用会非常慢。点击OK进行下一步。
接下来选择语言,Chinese表示中文。按下图依次设置好录音的地址、输出类型(Text file,表示输出为文本文件)、输出的地址,设置完毕后点击“Transcribe”开始转录。等待转录完成即可!
备注:以下是原作者优化的一些显卡型号(包括一些独显和个别核显),表现效果均不错。
从作者的测试结果来看,比OpenAI实现的速度要快。
评论 (0)