语音转录 | 开发者人工智能社区 --开发者开聊

【大语言模型】如何用Whisper转录音频：2023年综合指南

developer.chat

20 January 2024

在当今快节奏的数字世界中，将口语转换为书面文本已成为专业人士和个人的宝贵工具。无论你是记录采访的记者、记录讲座的学生，还是记录会议的商业专业人士，准确转录音频的能力都至关重要。进入由OpenAI最先进的Whisper模型提供支持的音频API，这是语音转文本技术领域的游戏规则改变者。

音频API包含两个强大的端点：转录和翻译。这些都建立在Whisper大v2模型的基础上，该模型以擅长处理各种语言任务而闻名。这个工具不仅仅是将音频转录成文本；它还能够将各种语言的口语翻译成英语。无论您是处理播客、重要的商务电话还是多语言会议，Audio API都能满足各种需求。

在深入探讨如何使用这项尖端技术的细节之前，重要的是要注意几个关键方面。API目前支持高达25 MB的文件上载，可容纳常见的音频格式，如mp3、mp4、mpeg、mpga、m4a、wav和webm。这种灵活性确保了大多数标准音频文件可以在不需要fr转换的情况下轻松处理。

Whisper是开源的。基于大规模弱监督的鲁棒语音识别：https://github.com/openai/whisper