Công cụ chuyển đổi 8SVX sang SPH

Chuyển âm thanh Amiga 8SVX sang định dạng NIST SPHERE SPH

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Chuẩn nghiên cứu

SPH là định dạng do NIST định nghĩa cho kho ngữ liệu giọng nói. Chuyển âm thanh 8SVX để tương thích với công cụ nghiên cứu giọng nói học thuật.

8SVX sang nghiên cứu giọng nói

Kết nối âm thanh Amiga cổ và khoa học giọng nói hiện đại — chuyển mẫu 8SVX sang SPH cho thí nghiệm nhận dạng.

Xử lý trực tuyến

Không cần công cụ NIST cục bộ. Máy chủ đám mây xử lý toàn bộ mã hóa 8SVX sang SPH cho bạn.

Làm thế nào để chuyển đổi 8SVX sang SPH

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn sph hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin sph của bạn xuống ngay sau đó

Về các định dạng

8SVX (8-Bit Sampled Voice) là một định dạng tệp âm thanh được tạo ra như một phần của đặc tả Interchange File Format dành cho nền tảng Amiga của Commodore. Ra đời vào khoảng năm 1985 bởi Electronic Arts, định dạng này lưu trữ các mẫu âm thanh 8-bit với khả năng nén delta Fibonacci tùy chọn nhằm giảm dung lượng tệp. Dữ liệu được tổ chức theo các khối IFF — khối VHDR chứa thông tin tiêu đề (tốc độ lấy mẫu, số quãng tám, kiểu nén) và khối BODY chứa dữ liệu âm thanh. 8SVX cung cấp âm thanh cho mọi thứ từ hiệu ứng game cho đến nhạc mẫu trong phần mềm tracker trên toàn bộ hệ sinh thái Amiga. Một ưu điểm nổi bật là kiến trúc dựa trên khối rất đơn giản, giúp việc phân tích cú pháp và tạo tệp dễ dàng hơn đáng kể so với các định dạng container hiện đại. Lợi thế khác là hỗ trợ sẵn cho các mẫu âm một lần, vùng lặp và định nghĩa nhạc cụ đa quãng tám trong cùng một tệp — rất có giá trị cho sản xuất âm nhạc thời kỳ đầu. Mặc dù nền tảng Amiga đã không còn phổ biến, các tệp 8SVX vẫn quan trọng với những người đam mê máy tính cổ điển và các chuyên gia lưu trữ bảo tồn phần mềm cũng như nội dung âm thanh kinh điển.
Phát hành lần đầu: 1985
SPH là phần mở rộng tệp cho âm thanh lưu trữ trong định dạng NIST SPHERE (SPeech HEader REsources), một tiêu chuẩn do Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ tạo ra khoảng năm 1990. Được xây dựng cho nghiên cứu giọng nói, tệp SPH mang header ASCII 1024 byte chứa đầy siêu dữ liệu — mã định danh cơ sở dữ liệu, số kênh, tần số lấy mẫu, thứ tự byte và kiểu nén — giúp mỗi bản ghi tự mô tả. Âm thanh bên dưới thường là PCM tuyến tính 16-bit lấy mẫu ở 16 kHz, dù các cấu hình khác cũng được phép. Các nhà nghiên cứu tại NIST, DARPA và các trường đại học trên toàn thế giới dựa vào SPH để phân phối kho ngữ liệu giọng nói như TIMIT, Switchboard và các bộ sưu tập LDC — nền tảng của các hệ thống nhận dạng giọng nói tự động hiện đại. Ưu điểm chính là header đọc được bằng mắt người cho phép các script phân tích siêu dữ liệu bản ghi mà không cần giải mã nhị phân. Sự chuẩn hóa nghiêm ngặt của định dạng cũng loại bỏ sự mơ hồ khi chia sẻ tập dữ liệu giữa các tổ chức và nền tảng. Vì tệp SPH lưu trữ PCM không nén, chúng bảo toàn toàn bộ chất lượng âm thanh — điều cực kỳ quan trọng khi huấn luyện mô hình âm học mà ngay cả những artifact nhỏ cũng có thể làm lệch kết quả.
Phát hành lần đầu: 1990

Các câu hỏi thường gặp

Định dạng SPH là gì?

SPH dùng định dạng NIST SPHERE — được phát triển bởi Viện Tiêu chuẩn và Công nghệ Quốc gia để phân phối dữ liệu nghiên cứu giọng nói.

Tại sao chuyển đổi 8SVX sang SPH?

SPH là định dạng chuẩn cho kho ngữ liệu giọng nói trong nghiên cứu học thuật. Chuyển đổi cung cấp dữ liệu tương thích với bộ công cụ xử lý giọng nói.

Công cụ nào dùng tệp SPH?

HTK, Kaldi, công cụ giọng nói NIST và nhiều framework nhận dạng giọng nói học thuật chấp nhận SPH làm định dạng đầu vào chính.

SPH có được dùng ngoài nghiên cứu không?

SPH gần như chỉ dùng trong nghiên cứu giọng nói học thuật và chính phủ. Để nghe thông thường, hãy chọn MP3 hoặc WAV.

Tôi có thể chuyển hàng loạt mẫu không?

Có — tải nhiều tệp 8SVX và chuyển đổi tất cả sang SPH đồng thời. Hữu ích cho xây dựng bộ dữ liệu nghiên cứu giọng nói.