Bộ chuyển đổi VOC sang NIST

Lưu bản ghi Sound Blaster VOC ở định dạng NIST

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Tích hợp nghiên cứu

NIST là container chuẩn cho corpus giọng nói. Chuyển VOC sang NIST tích hợp bản ghi Sound Blaster vào các pipeline nghiên cứu.

Xử lý hàng loạt

Xây dựng corpus giọng nói hiệu quả — tải lên nhiều tệp VOC và tạo đầu ra NIST cho tất cả trong một phiên duy nhất.

Riêng tư và an toàn

Dữ liệu âm thanh nghiên cứu thường chứa giọng nói nhạy cảm. Các tệp VOC tải lên được xóa ngay lập tức, đầu ra NIST trong vòng 24 giờ.

Làm thế nào để chuyển đổi VOC sang NIST

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn nist hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin nist của bạn xuống ngay sau đó

Về các định dạng

VOC (Creative Voice) là bộ chứa âm thanh kỹ thuật số do Creative Technology phát triển, ra mắt cùng card Sound Blaster gốc vào năm 1989. Đây là định dạng âm thanh nguyên bản của dòng Sound Blaster trong kỷ nguyên DOS, khi phần cứng của Creative thống trị âm thanh PC. Tệp VOC dựa trên cấu trúc khối: mỗi tệp gồm các khối dữ liệu có kiểu, có thể mang PCM 8-bit không dấu, ADPCM Creative 4-bit và 2,6-bit, PCM 16-bit có dấu, cũng như âm thanh mã hóa A-law và mu-law. Cấu trúc khối này còn hỗ trợ khoảng lặng, vòng lặp lặp lại và điểm đánh dấu, mang lại cho nhà phát triển game khả năng kiểm soát chi tiết việc phát lại âm thanh. Ưu điểm đáng chú ý là giải mã cấp phần cứng — card Sound Blaster có thể phát dữ liệu VOC trực tiếp qua truyền DMA, giải phóng CPU cho các tác vụ khác trong kỷ nguyên mà chu kỳ xử lý vô cùng quý giá. Định dạng được sử dụng rộng rãi trong các game DOS từ id Software, Sierra và LucasArts. Với sự trỗi dậy của Windows và định dạng WAV, VOC dần rời khỏi thị trường chính thống, nhưng vẫn quan trọng cho bảo tồn trò chơi retro và cho bất kỳ ai làm việc với kho lưu trữ âm thanh PC cổ điển.
Nhà phát triển: Creative Technology
Phát hành lần đầu: 1989
NIST SPHERE (SPeech HEader REsources) là định dạng tệp âm thanh chuyên dụng do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ phát triển, phục vụ nghiên cứu giọng nói, đặc biệt các dự án được DARPA tài trợ. Định dạng này đóng gói các mẫu âm thanh thô kèm theo phần header ASCII có cấu trúc, chứa siêu dữ liệu như tần số lấy mẫu, số kênh, kiểu mã hóa, thông tin nhân khẩu học người nói và chú thích phiên âm — lý tưởng cho việc phân phối kho dữ liệu giọng nói. Các tệp NIST thường lưu trữ âm thanh PCM không nén hoặc mu-law ở tần số lấy mẫu chất lượng điện thoại (8 kHz hoặc 16 kHz), dù bộ chứa đủ linh hoạt để hỗ trợ nhiều kiểu mã hóa khác. Ưu điểm nổi bật là phần header tự mô tả phong phú, cho phép nhà nghiên cứu nhúng trực tiếp siêu dữ liệu chi tiết của kho ngữ liệu vào tệp mà không cần tệp đi kèm. SPHERE cũng trở thành tiêu chuẩn thực tế cho các cơ sở dữ liệu giọng nói lớn như TIMIT, Switchboard và Fisher corpus, được công nhận rộng rãi trong các phòng thí nghiệm học thuật và chính phủ. Đặc tả mở và sự sẵn có của các công cụ dòng lệnh (sphere, h_strip, w_decode) giúp việc chuyển đổi, kiểm tra và xử lý các tệp này trở nên đơn giản trong các quy trình xử lý giọng nói.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Tại sao nên chuyển VOC sang NIST?

NIST lưu trữ âm thanh với header metadata cho nghiên cứu giọng nói. Nó tích hợp âm thanh cũ vào các quy trình nghiên cứu ngôn ngữ học học thuật.

Có thể mở tệp NIST bằng phần mềm nào?

Bộ công cụ NIST SPHERE và SoX đọc NIST. Các framework nhận dạng giọng nói như Kaldi và HTK cũng hỗ trợ định dạng này gốc.

NIST khác WAV như thế nào?

NIST sử dụng header dạng văn bản với các trường metadata phong phú — mô tả chi tiết hơn nhiều so với header nhị phân được sử dụng bởi tệp WAV.

Kaldi có dùng định dạng NIST không?

Có. Kaldi, một trong những bộ công cụ nhận dạng giọng nói phổ biến nhất, đọc tệp NIST SPHERE trực tiếp để huấn luyện và giải mã.

Có thể chuyển đổi hàng loạt nhiều tệp VOC không?

Tải lên tất cả bản ghi VOC và chuyển đổi chúng sang NIST cùng lúc — hiệu quả khi xây dựng corpus giọng nói từ nhiều nguồn.