Konwerter VOX na NIST

Zapisz nagrania Dialogic VOX w formacie NIST SPHERE

Upuść pliki tutaj. 1 GB Maksymalny rozmiar pliku lub Zapisz się
do
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Telefoniczne dane badawcze

NIST integruje audio telefoniczne z akademickimi badaniami nad mową — rzeczywiste dane głosowe w standardowym formacie korpusu.

Budowanie korpusu

Konwertuj nagrania rozmów VOX na NIST hurtowo — wydajne do tworzenia telefonicznych zbiorów danych mowy.

Bezpieczeństwo danych

Dane mowy wymagają poufności. Przesłane pliki VOX usuwane natychmiast, pliki NIST w ciągu 24 godzin.

Jak przekonwertować plik w formacie VOX do formatu NIST

1

Wybierz pliki z komputera, dysku Google, usługi Dropbox, adresu URL lub po prostu przeciągnij plik na stronę.

2

Wybierz format nist lub inny potrzebny Ci format (spośród ponad 200 wspieranych formatów).

3

Poczekaj, aż plik zostanie przekonwertowany do formatu nist; od razu po konwersji możesz go pobrać.

O formatach

VOX to format audio bez naglowka oparty na kodowaniu Dialogic ADPCM, szeroko przyjety w telefonii, systemach interaktywnej odpowiedzi glosowej (IVR) i platformach poczty glosowej od lat 80. Kazda probka audio jest kompresowana do 4 bitow za pomoca algorytmu opracowanego przez Oki Electric i zaimplementowanego sprzetowo na kartach interfejsu telefonicznego firmy Dialogic Corporation. Pliki VOX zwykle uzywaja czestotliwosci probkowania 6000 lub 8000 Hz, tworzac wyjatkowo kompaktowe nagrania zoptymalizowane pod katem zrozumialosci mowy, a nie jakosci muzycznej. Poniewaz format nie zawiera naglowka, oprogramowanie do odtwarzania musi z gory znac czestotliwosc probkowania i parametry kodowania — kompromis, ktory redukuje narzut, ale wymaga starannego zarzadzania plikami. Glowna zaleta VOX jest efektywnosc przechowywania: jednominutowe nagranie glosowe przy 8 kHz zajmuje ok. 240 KB, co jest praktyczne dla systemow przechowujacych tysiace promptow. Dialogic ADPCM jest zgodny ze standardem ITU-T G.726, zapewniajac interoperacyjnosc sprzetu telefonicznego róznych producentow. Nawet gdy nowoczesne centra obslugi migruja na systemy IP z kodekami takimi jak Opus, ogromne biblioteki nagran VOX przetrwaly w starszych wdrozeniach IVR i archiwach zgodnosci regulacyjnej na calym swiecie.
Pierwsze wydanie: 1983
NIST SPHERE (SPeech HEader REsources) to specjalistyczny format plikow audio stworzony przez National Institute of Standards and Technology na potrzeby badan nad mowa, w szczegolnosci projektow finansowanych przez DARPA. Format opakowuje surowe probki audio w strukturalny naglowek ASCII kodujacy metadane, takie jak czestotliwosc probkowania, liczba kanalow, typ kodowania, dane demograficzne mowcy i adnotacje transkrypcyjne — co czyni go idealnym do dystrybucji korpusow mowy. Pliki NIST zwykle przechowuja nieskompresowane PCM lub audio mu-law przy czestotliwosciach probkowania klasy telefonicznej (8 kHz lub 16 kHz), choc kontener jest na tyle elastyczny, by pomiescic rozne kodowania. Kluczowa zaleta jest bogaty, samoopisujoacy sie naglowek, pozwalajacy badaczom osadzac szczegolowe metadane korpusowe bezposrednio w pliku, eliminujac potrzebe osobnych plikow towarzyszacych. SPHERE stal sie rowniez de facto standardem dla glownych baz danych mowy, takich jak TIMIT, Switchboard i korpus Fisher, zapewniajac szerokie uznanie w laboratoriach akademickich i rzadowych. Otwarta specyfikacja i dostepnosc narzedzi wiersza polecen (sphere, h_strip, w_decode) umozliwiaja latwa konwersje, inspekcje i przetwarzanie tych plikow programistycznie w potokach przetwarzania mowy.
Pierwsze wydanie: 1990

Często Zadawane Pytania

Dlaczego warto konwertować VOX na NIST?

NIST przechowuje audio z bogatymi metadanymi do badań nad mową. Konwersja VOX integruje dane telefoniczne z akademickimi procesami badawczymi.

Co otwiera pliki NIST?

Zestaw narzędzi NIST SPHERE, SoX, Kaldi i HTK obsługują format NIST.

Czym różni się NIST od SPH?

To ten sam format. NIST jest czasem używany jako rozszerzenie lub nazwa formatu; SPH to standardowe rozszerzenie.

Czy NIST jest używany w Kaldi?

Tak — Kaldi odczytuje pliki NIST SPHERE natywnie do treningu i dekodowania rozpoznawania mowy.

Czy mogę dodawać metadane?

NIST obsługuje bogate tekstowe nagłówki metadanych dla informacji o mówcy, warunków nagrania i więcej.

Ocena jakości od VOX do NIST

5.0 (1 głosów)
Aby przesłać opinię, musisz przekonwertować i pobrać co najmniej 1 plik!