VOX 转 NIST 转换器
将 Dialogic VOX 录音保存为 NIST SPHERE 格式
vox
nist
电话研究数据
NIST 将电话音频整合到学术语音研究中——以标准语料库格式呈现的真实世界语音数据。
语料库构建
批量将 VOX 通话录音转为 NIST——高效组装电话语音数据集。
数据安全
语音数据需要保密。VOX 上传立即删除,NIST 输出在 24 小时内清除。
如何转换VOX到NIST
从计算机,Google Drive,Dropbox,URL或在页面上拖拽选择文件.
选择nist或任何其他你需要的格式作为结果(支持超过200种格式)
让文件进行转换随后你可以下载你的nist文件
关于格式
VOX 是一种基于 Dialogic ADPCM 编码的无头部音频格式,自 1980 年代以来在电话、交互式语音应答(IVR)系统和语音邮件平台中被广泛采用。每个音频采样使用 Oki Electric 开发并在 Dialogic Corporation 电话接口卡上以硬件实现的算法压缩为 4 位。VOX 文件通常使用 6000 或 8000 Hz 的采样率,产生极为紧凑的录音,优先保证语音可懂度而非音乐保真度。由于该格式不包含头部,播放软件必须预先知道采样率和编码参数 — 这种取舍减少了开销但需要谨慎的文件管理。VOX 的主要优势在于存储效率:8 kHz 下一分钟的语音录音大约仅占 240 KB,对于存储数千条提示音的系统来说非常实用。Dialogic ADPCM 符合 ITU-T G.726 标准,确保了不同厂商电话设备之间的互操作性。即使现代呼叫中心正在向基于 IP 的系统迁移,使用 Opus 等编解码器,全球范围内旧版 IVR 部署和合规存档中仍存在大量 VOX 录音。
NIST SPHERE(SPeech HEader REsources,语音头资源)是由美国国家标准与技术研究院专门为语音研究而创建的音频文件格式,尤其适用于 DARPA 资助的项目。该格式使用结构化的 ASCII 头部将原始音频采样数据封装在一起,头部中编码了采样率、声道数、编码类型、说话人信息及转录标注等元数据,非常适合分发语音语料库。NIST 文件通常存储未压缩的 PCM 或 mu-law 音频,采样率为电话级别的 8 kHz 或 16 kHz,但容器格式本身足够灵活,可容纳多种编码方式。一个重要优势在于其丰富的自描述头部,研究人员可以将详细的语料库元数据直接嵌入文件中,无需额外的辅助文件。SPHERE 已成为 TIMIT、Switchboard 和 Fisher 等主要语音数据库的事实标准,在学术和政府实验室中获得广泛认可。其开放的规范以及配套的命令行工具(sphere、h_strip、w_decode)使得在语音处理流水线中转换、检查和处理这些文件十分便捷。
经常问的问题
为什么要将 VOX 转为 NIST?
NIST 存储带有丰富元数据的音频用于语音研究。将 VOX 转换可将电话数据整合到学术研究工作流中。
哪些软件能打开 NIST?
NIST SPHERE 工具包、SoX、Kaldi 和 HTK 都支持 NIST 格式。
NIST 和 SPH 有什么区别?
它们是同一种格式。NIST 有时用作扩展名或格式名称;SPH 是标准扩展名。
Kaldi 使用 NIST 吗?
是的——Kaldi 原生读取 NIST SPHERE 文件用于语音识别训练和解码。
能添加元数据吗?
NIST 支持丰富的文本元数据头,可记录说话人信息、录音条件等。