VOX to HTK Converter

Dialogic VOX sesini HTK konuşma araştırma formatına dönüştürün

Dosyaları buraya bırakın. 1 GB maksimum dosya boyutu veya Kaydol
için
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Konuşma Araştırması

Gerçek Dialogic telefon kayıtlarını HTK formatına aktarın — konuşma tanıma modelleri için otantik eğitim verisi.

Telefondan Yapay Zekaya

IVR ses verilerini konuşma tanıma araştırma hatlarına besleyin.

Çevrimiçi İşleme

HTK kurulumu gerektirmez. Sunucularımız kodlamayı çevrimiçi olarak gerçekleştirir.

VOX'i HTK'ye dönüştürme yöntemi

1

Dosyaları bilgisayar, Google Drive, Dropbox, URL'den veya sayfa üzerinden sürükleyerek seçin.

2

htk ya da sonuç olarak ihtiyacınız olan diğer formatlardan birini seçin (200'den fazla format desteklenir)

3

Haydi dosyayı dönüştürün ve htk dosyanızı hemen sonra indirebilirsiniz

Formatlar hakkında

VOX, 1980'lerden bu yana telefon, etkileşimli sesli yanıt (IVR) sistemleri ve sesli posta platformlarında yaygın olarak benimsenen Dialogic ADPCM kodlaması üzerine kurulu başlıksız bir ses formatıdır. Her ses örneği, Oki Electric tarafından geliştirilen ve Dialogic Corporation'ın telefon arayüz kartlarında donanımsal olarak uygulanan bir algoritmayla 4 bite sıkıştırılır. VOX dosyaları genellikle 6000 veya 8000 Hz örnekleme hızı kullanarak müzikal kaliteden ziyade konuşma anlaşılırlığı için optimize edilmiş son derece kompakt kayıtlar üretir. Format başlık taşımadığından oynatma yazılımının örnekleme hızını ve kodlama parametrelerini önceden bilmesi gerekir — ek yükü azaltan ancak dikkatli dosya yönetimi gerektiren bir ödünleşim. VOX'un başlıca avantajı depolama verimliliğidir: 8 kHz'de bir dakikalık ses kaydı yaklaşık 240 KB yer kaplar ve bu özellik binlerce komut depolayan sistemler için pratiktir. Dialogic ADPCM, ITU-T G.726 standardına uygundur ve farklı üreticilerin telefon ekipmanları arasında birlikte çalışabilirlik sağlar. Modern çağrı merkezleri Opus gibi kodeklerle IP tabanlı sistemlere geçse de eski IVR dağıtımlarında ve uyumluluk arşivlerinde geniş VOX kayıt kütüphaneleri dünya genelinde varlığını sürdürmektedir.
Geliştirici: Dialogic Corporation
İlk yayın: 1983
HTK, Cambridge Üniversitesi Mühendislik Bölümü'nde konuşma tanıma araştırmaları için geliştirilen bir yazılım paketi olan Hidden Markov Model Toolkit'ın yerel dalga formu kapsayıcısıdır. 1993'te i̇lk dağıtılan HTK, dünya genelinde hesaplamalı dilbilim laboratuvarlarında hızla referans platform haline gelmiş ve dosya formatı da aynı yolu izlemiştir. Her dosya, çerçeve sayısını, 100 ns birimlerinde çerçeve süresini, çerçeve başına bayt sayısını ve veri türünü belirten bir tür kodu içeren 12 baytlık bir başlık ile öncelenmiş parametre vektörleri veya ham örnekler dizisi depolar — dalga formu PCM'den Mel-frekans kepstral katsayılarına ve filtre bankası enerjilerine kadar seçenekler mevcuttur. Bu çok yönlülük, tek bir kapsayıcının hem kaynak sesi hem de çıkarılan özellikleri ayrıştırıcı değiştirmeden taşımasını sağlar. Kasıtlı olarak minimalist başlık, hizalama dolgusu veya isteğe bağlı yığınlardan kaçınarak formatı C, Python veya MATLAB'da birkaç satır i̇kili G/Ç ile okumayı kolaylaştırır. HTK'nın kalıcı önemini destekleyen üç avantaj: HTK eğitim ve tanıma hattıyla sıkı entegrasyon, ayrıştırıcı belirsizliğini ortadan kaldıran deterministik bayt düzeni ve akademik veri derlemlerinde yaygın benimseme.
İlk yayın: 1993

Sık Sorulan Sorular

VOX'u neden HTK'ya dönüştürmeliyim?

HTK konuşma tanıma araştırmalarında standart formattır. Gerçek telefon kayıtlarını konuşma modeli eğitim verisi olarak kullanmak için idealdir.

HTK dosyalarını hangi araçlar kullanır?

HTK araç seti, Kaldi ve çeşitli akademik konuşma işleme hatları HTK formatında sesi kabul eder.

HTK genel ses için uygun mu?

Hayır — HTK konuşma araştırmasına özeldir. Genel dinleme için MP3 veya FLAC kullanın.

Dönüştürme güvenli mi?

VOX dosyaları hemen silinir. HTK çıktıları 24 saat içinde kaldırılır.

Toplu dönüştürme yapabilir miyim?

Evet — birden fazla VOX kaydını yükleyin ve hepsini HTK formatına dönüştürün.