【大语言模型】如何用Whisper转录音频：2023年综合指南

developer.chat

20 January 2024

SEO Title

How to Transcribe Audio with Whisper: A Comprehensive Guide 2023

在当今快节奏的数字世界中，将口语转换为书面文本已成为专业人士和个人的宝贵工具。无论你是记录采访的记者、记录讲座的学生，还是记录会议的商业专业人士，准确转录音频的能力都至关重要。进入由OpenAI最先进的Whisper模型提供支持的音频API，这是语音转文本技术领域的游戏规则改变者。

音频API包含两个强大的端点：转录和翻译。这些都建立在Whisper大v2模型的基础上，该模型以擅长处理各种语言任务而闻名。这个工具不仅仅是将音频转录成文本；它还能够将各种语言的口语翻译成英语。无论您是处理播客、重要的商务电话还是多语言会议，Audio API都能满足各种需求。

在深入探讨如何使用这项尖端技术的细节之前，重要的是要注意几个关键方面。API目前支持高达25 MB的文件上载，可容纳常见的音频格式，如mp3、mp4、mpeg、mpga、m4a、wav和webm。这种灵活性确保了大多数标准音频文件可以在不需要fr转换的情况下轻松处理。

Whisper是开源的。基于大规模弱监督的鲁棒语音识别：https://github.com/openai/whisper

Whisper Audio API入门

Whisper Audio API提供两种主要服务：转录和翻译。了解这两种服务之间的功能和差异对于有效利用API满足您的转录需求至关重要。

转录本

转录终点很简单：它将音频内容转换为与原始录音相同语言的书面文本。此功能对于创建演讲稿、访谈、播客等特别有用。它支持多种输入和输出格式，为各种应用程序提供了多功能性。

要使用转录API，只需提供音频文件并指定所需的转录输出格式。OpenAI支持一系列音频格式，确保与大多数录音工具和平台兼容。

翻译

另一方面，翻译端点获取您的音频文件，并不仅仅是转录；它将内容翻译成英语。这对全球业务、多语言活动或任何使用英语以外语言处理音频的情况都特别有益。需要注意的是，到目前为止，翻译服务只支持英语输出，但它接受多种语言的输入。

‍

有两种方法可以用耳语将音频转录为文本：使用make.com无代码方式和使用python的api。

解决方案#1：使用无代码Make.com通过Whisper转录音频

使用Make.com，您可以以无代码的方式将音频文件发送到Openai Whisper API，并轻松获得成绩单。

https://youtu.be/vC9k6GgnBlI

解决方案2：使用Whisper API Python转换音频

https://youtu.be/UAdX0cGuC28

用Whisper进入音频转录的世界就像解锁了一个新的效率和准确性水平。无论你是经验丰富的播客用户、勤奋的研究人员，还是介于两者之间的任何人，掌握这个工具都可以彻底改变你处理音频内容的方式。让我们深入了解如何利用Whisper的力量准确轻松地转录音频文件。

魔术始于一个简单的代码

要开始，您只需要您的音频文件和几行Python代码。以下是开始的简单程度：

from openai import OpenAIclient = OpenAI()

audio_file = open("/path/to/your/audio.mp3", "rb")

transcript = client.audio.transcriptions.create(  

model="whisper-1",  

file=audio_file

)

这个片段是解锁Whisper功能的关键。默认情况下，转录以JSON格式返回，转录后的文本整齐地放在其中。以下是您可以期待的内容：

{
 "text": "Imagine a world where your words are seamlessly transformed into text, capturing every nuance and detail..."
}

量身定制体验

但是等等，还有更多！Whisper不仅仅停留在默认设置。假设您更喜欢无JSON结构的纯文本格式的转录。没问题！只要对您的请求稍作调整，您就可以按照自己的意愿返回您的转录：

from openai import OpenAIclient = OpenAI()

audio_file = open("your_speech.mp3", "rb"

)transcript = client.audio.transcriptions.create(  

model="whisper-1",  

file=audio_file,  

response_format="text"

)

指尖灵活性

Whisper的优势之一在于它的多功能性。API不仅仅是转录音频；它是以一种符合您特定要求的方式来做的。无论您是需要法律诉讼、学术研究、创意项目的转录，还是仅仅为了写个人日记，Whisper都能适应您的需求，提供保持原始音频完整性和本质的转录。

API参考资料是一个信息宝库，包括可用参数的完整列表。在这里，您可以探索定制选项的深度，确保您的转录过程根据您的特定项目需求进行微调。

将音频翻译成英语

现在，让我们浏览一下音频翻译。想象一下，你有一个德语、西班牙语或Whisper支持的多种语言的音频文件。你是如何将这些多样化的语言内容转化为流利的英语文本的？这就是Whisper翻译能力的神奇之处。

轻松突破语言障碍

这个过程反映了转录的简单性，但增加了翻译的强大元素。以下是如何将德语音频文件转换为英语文本的示例：

from openai import OpenAIclient = OpenAI()

audio_file = open("/path/to/your/german_audio.mp3", "rb")

transcript = client.audio.translations.create(

model="whisper-1",  

file=audio_file

)

运行此代码后，Whisper不仅努力转录内容，还将其翻译成英语。输出可能如下所示：

"Hello, my name is Wolfgang and I come from Germany. Where are you heading today?"

拥抱语言世界

虽然目前的翻译服务仅限于英语，但输入语言的范围非常广泛。这一功能有利于全球交流，使语言之间能够无缝衔接。无论您是在处理国际会议、全球播客还是多语言教育内容，Whisper的翻译服务都能让您与更广泛的受众接触，以前所未有的轻松打破语言障碍。

处理较长的音频文件

在音频内容领域，大小确实很重要，尤其是当你处理大量录音时。Whisper目前支持高达25 MB的文件，这涵盖了很多领域，但那些更长的讲座、采访或会议呢？在这里，一些巧妙的策略发挥了作用。

音频分割艺术

对于超过25 MB阈值的文件，您需要将它们拆分成更小、可管理的块。这听起来可能令人生畏，但使用PyDub这样的工具非常简单，PyDub是一个专为音频操作设计的开源Python包。

以下是关于如何分割较长文件的简单指南：

from pydub import AudioSegment

audio_file = AudioSegment.from_mp3("lengthy_recording.mp3")

ten_minutes = 10 * 60 * 1000

first_segment = audio_file[:ten_minutes]

first_segment.export("segment_1.mp3", format="mp3")

保持上下文完整

当分割音频文件时，尽量避免在句子或重要片段的中间进行剪切。这样可以确保上下文保持完整，从而实现更准确、更连贯的转录。请记住，尽管Whisper非常先进，但它仍然依靠音频内容的连续性来提供最佳效果。

一句忠告

虽然PyDub是一个很棒的工具，但重要的是要记住，OpenAI并不能保证第三方软件的可用性或安全性。始终保持谨慎，并确保您的下载来源可靠。

‍

提示提高转录准确性

准确地转录音频不仅仅是将语音转换为文本；这是关于捕捉口语的本质和细微差别。这就是Whisper凭借其提示功能实现飞跃的地方。让我们探讨一下如何使用提示来显著提高转录的准确性和质量。

精确提示的力量

在Whisper中提示就像给导航员指路。它指导转录过程，确保输出更符合您的期望。以下是如何利用提示来应对常见的转录挑战：

纠正错误识别的单词或首字母缩写：通常，特定的术语、技术术语或首字母缩略词对于转录模型来说可能很棘手。通过提供包含这些具有挑战性的单词的提示，您可以大大提高它们的识别率。例如：prompt=“你好，欢迎收看我的讲座。今天我们正在讨论…”
这个提示可以帮助Whisper准确地转录这些可能被误解的特定术语。
在分割音频文件中维护上下文：当处理分割的音频文件时，连续性可能是一个问题。要保留上下文，请使用包含前一段文字记录的提示。这种连续性可以显著增强最终转录的连贯性。
结合标点符号和风格：有时，Whisper可能会跳过标点符号或忽略风格上的细微差别。包含标点符号和样式元素的提示可以指导模型在转录中复制这些元素：
pythonCopy代码
prompt=“你好，欢迎收看我的讲座。今天我们正在讨论…”
处理填充词：在会话音频中，像“嗯”、“嗯”和“喜欢”这样的填充词很常见。如果保留这些对你的成绩单至关重要，请将它们包括在你的提示中：prompt=“嗯，所以，比如，我们要讨论……”
适应写作风格：对于具有多种写作风格的语言，如简体中文和繁体中文，使用首选风格的提示可以引导模型效仿。

有效提示的最佳实践

保持相关性：确保提示与音频的内容和风格直接相关。
简洁很重要：简明扼要。过长的提示可能会削弱它们的有效性。
实验：不同的提示会产生不同的结果。不要犹豫，尝试各种方法，找到最适合您特定需求的方法。

请记住，虽然提示提供了一定程度的控制，但与OpenAI的其他语言模型相比，它目前更为有限。尽管如此，它还是一个完善转录输出的强大工具。

提高转录的可靠性

除了基本的转录之外，真正的挑战往往在于处理标准语音到文本模型可能难以处理的独特或不常见的术语。Whisper虽然强大，但也不能免受这些挑战。然而，使用正确的方法，可以显著提高其可靠性和准确性。

处理不常见的单词和缩略词

不常见的单词、技术术语和缩写词有时甚至会绊倒最好的转录工具。以下是解决此问题的方法：

专业词汇的自定义提示：使用包含对转录至关重要的特定术语或缩写的提示。这可以训练Whisper识别并正确转录这些术语。
上下文清晰度：在音频或提示中提供这些术语的上下文也会有所帮助。上下文中的用法越清晰，准确转录的可能性就越高。
一致的格式：如果您的转录需要特定的格式，特别是数字、日期或专业术语，请确保您的提示反映这种格式。一致性有助于提高识别和转录的准确性。

‍

完善流程

记住，转录不仅仅是一个一步的过程，而是一个迭代的过程。查看您的初始成绩单，并确定Whisper可能需要更多指导的领域。根据这些见解完善您的方法和提示。这种持续的改进周期是实现高质量、可靠转录的关键。

根据提供的文字记录，以下是您的博客文章中可以包含的其他信息，以增强其深度和实用性：

‍

来自真实世界应用程序的其他见解

实际应用和设置

易用性：使用OpenAI Whisper在Python中转录音频文件的过程因其简单性而突出显示。只需要几行代码，即使是那些具有基本编程知识的人也可以访问它。
真实世界示例：文字记录演示了Whisper在转录视频音频文件时的应用。这个真实的例子对想要生成字幕或建立视频内容的可搜索数据库的内容创作者特别有用。

技术方面

安装和设置：博客可以包括安装openai耳语包和设置Python环境的步骤，使其成为初学者的全面指南。
硬件要求：值得注意的是，Whisper可以在各种硬件上运行，包括带有AMD GPU的老式笔记本电脑。对于担心硬件限制的用户来说，这是一个重要的考虑因素。

转录质量和限制

准确性：文字记录强调Whisper文字记录的高质量，这是一个关键的卖点。它可以准确地捕捉口语，优于基本的语音识别工具。
处理唯一术语：转录可能会遇到某些唯一术语的问题，例如特定的包名称（例如pipreqs）。强调这一点可以让用户做好准备，期待并手动更正转录的某些部分。
手动调整：可以专门讨论用户可能需要如何对不常用的特定术语进行手动调整，从而无法被Whisper准确识别。

将Whisper与其他工具进行比较

与基本语音识别相比的优势：该成绩单提供了Whisper和基本语音识别模块之间的比较，指出Whisper具有卓越的准确性和处理更大数据的方便性。有很多工具可以免费将音频转录为文本，您可以阅读博客文章并探索我们的转录产品transcripttube.com
本地与云处理：值得一提的是，Whisper在用户的机器上本地运行，这对于关心数据隐私和互联网连接问题的用户来说可能是一个显著的优势。

结论和行动呼吁

用户体验和反馈：鼓励读者尝试Whisper以满足他们的转录需求，并邀请他们在评论区分享自己的体验或提问，可以促进社区参与。
订阅提醒：提醒读者订阅更多这样的内容，反映出所提供的文字记录的对话和引人入胜的语气。

常见问题

Whisper支持哪些音频文件格式？Whisper支持多种常见的音频格式，包括mp3、mp4、mpeg、mpga、m4a、wav和webm。该系列确保了与大多数录音工具和平台的兼容性。
Whisper可以用任何语言转录音频文件吗？Whisper支持多种语言的转录，包括但不限于英语、德语、法语、西班牙语和中文。但是，对于未在支持的语言中列出的语言，转录质量可能会有所不同。
如何提高专业术语或技术术语转录的准确性？要提高特定术语或术语的准确性，请使用包含这些术语的自定义提示。此外，在音频或提示中提供这些术语的上下文可以帮助Whisper正确识别和转录它们。
Whisper中的音频文件是否有文件大小限制？是的，Whisper目前支持高达25 MB的音频文件。对于较大的文件，您需要使用PyDub等工具将其拆分为较小的段。
Whisper可以将音频文件翻译成英语以外的语言吗？目前，Whisper的翻译能力仅限于将音频内容翻译成英语。它接受各种语言输入，但只翻译成英语。
提示在Whisper中是如何工作的，效果如何？提示语包括提供特定的短语或上下文来指导转录过程。它有效地提高了对独特术语的识别，保持了风格的一致性，并提高了整体转录的准确性。然而，与OpenAI的其他语言模型相比，它的局限性更大。
有没有分割较长音频文件的最佳实践？当分割较长的音频文件时，尽量避免在句子或关键内容中间剪切，以保持上下文。使用像PyDub这样的工具来均匀地分割音频，并考虑使用提示为分割的部分提供上下文。
Whisper可以处理一个音频文件中的多个扬声器吗？是的，Whisper可以用多个扬声器转录音频。然而，音频文件中扬声器之间的清晰度和区别可能会影响转录的准确性。
有没有办法格式化转录的输出？Whisper允许您指定转录的输出格式，包括JSON或纯文本等选项。这可以使用API请求中的response_format参数进行设置。
对敏感音频内容使用Whisper的安全性如何？虽然Whisper是一个强大的工具，但对敏感信息保持谨慎是很重要的。在转录敏感或机密音频内容时，始终确保您遵守隐私法律法规。

结论

当我们总结如何使用Whisper转录音频的指南时，很明显，这个强大的工具打开了一个充满可能性的世界。从转录多语言内容到处理大量音频文件，Whisper是一个多功能、高效的解决方案。无论你是希望简化工作流程的专业人士，还是探索个人项目音频转录领域的人，Whisper都提供了一个可访问的高级平台。

拥抱转录的未来

在Whisper的功能之旅中，我们看到了它的功能是如何根据不同的需求量身定制的。提示的力量、处理大文件的灵活性以及跨多种语言翻译和转录的能力使Whisper成为一个突出的选择。

记住，成功转录的关键在于理解该工具并尝试其功能以满足您的特定要求。使用Whisper，您不仅仅是在转录音频；你在工作中开启了一个新的清晰度和效率水平。

登录发表评论

Search