VOXからNISTコンバーター
Dialogic VOXテレフォニーオーディオをNIST音声データ形式に変換
vox
nist
音声データ形式
VOXテレフォニー録音をNIST形式に変換 — 音声認識ベンチマークで世界的に使用。
ウェブベース
NISTツールのインストール不要。ブラウザからVOXをNISTに変換できます。
データプライバシー
テレフォニーデータは機密処理。ファイルは24時間以内に消去されます。
VOXをNISTへ変換する方法
コンピューター、Googleドライブ、Dropbox、URLからファイルを選ぶか、ページにドラッグして下さい.
nistもしくは必要な別のフォーマットを選ぶ(200種類以上のフォーマットが利用できます)
ファイルを変換すれば、すぐにnistファイルをダウンロードできます
フォーマットについて
VOXは、1980年代からテレフォニー、対話型音声応答(IVR)システム、ボイスメールプラットフォームで広く採用されているDialogic ADPCMエンコーディングを中心に構築されたヘッダーレスオーディオ形式です。各オーディオサンプルは、沖電気が開発しDialogic Corporationのテレフォニーインターフェースカードにハードウェアで実装されたアルゴリズムを使用して4ビットに圧縮されます。VOXファイルは通常6000または8000 Hzのサンプリングレートを使用し、音楽的な忠実度よりも音声の明瞭性に最適化された極めてコンパクトな録音を生成します。形式はヘッダーを持たないため、再生ソフトウェアはサンプルレートとエンコーディングパラメータを事前に知っている必要があります — オーバーヘッドを削減するトレードオフですが、慎重なファイル管理が求められます。VOXの主な利点はストレージ効率です — 8 kHzでの1分間の音声録音はわずか約240 KBで、数千のプロンプトを保存するシステムに実用的です。Dialogic ADPCMはITU-T G.726標準に準拠しており、異なるベンダーのテレフォニー機器間の相互運用性を保証します。最新のコールセンターがOpusなどのコーデックを持つIPベースシステムに移行しても、膨大なVOX録音のライブラリがレガシーIVR展開やコンプライアンスアーカイブに世界中で残っています。
NIST SPHERE(SPeech HEader REsources)は、アメリカ国立標準技術研究所がDARPA資金の音声研究プロジェクト向けに作成した特殊なオーディオファイル形式です。この形式は、サンプルレート、チャンネル数、エンコーディングタイプ、話者の属性、書き起こしアノテーションなどのメタデータをエンコードする構造化されたASCIIヘッダーで生のオーディオサンプルをラップし、音声コーパスの配布に最適です。NISTファイルは通常、電話品質のサンプルレート(8 kHzまたは16 kHz)で非圧縮PCMまたはmu-lawオーディオを格納しますが、コンテナはさまざまなエンコーディングを保持できる柔軟性があります。重要な利点は、研究者が詳細なコーパスメタデータをファイルに直接埋め込める豊富な自己文書化ヘッダーで、サイドカーファイルが不要になります。SPHEREはまた、TIMIT、Switchboard、Fisherコーパスなどの主要な音声データベースのデファクトスタンダードとなり、学術および政府の研究室全体で広く認知されています。オープンな仕様とコマンドラインツール(sphere、h_strip、w_decode)の利用可能性により、音声処理パイプラインでのファイルの変換、検査、処理が容易です。
よくある質問
なぜVOXをNISTに変換するのですか?
NISTは音声評価ベンチマークの標準形式です。テレフォニー録音を音声認識研究の入力データとして提供できます。
NISTを使用する研究ツールは?
NIST音声評価ツール、Kaldi、HTK、計算言語学プラットフォームがNIST形式で動作します。
NISTはロスレスですか?
NISTはロッシー圧縮なしでオーディオデータを格納します。
変換は無料ですか?
convertio.cloudでVOXをNISTに無料で変換できます。
ファイルは安全ですか?
VOXファイルは変換後に削除。NIST出力は24時間以内に消去されます。