VOC to NIST Converter

บันทึกการบันทึก Sound Blaster VOC ในรูปแบบ NIST

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

บูรณาการการวิจัย

NIST คือคอนเทนเนอร์มาตรฐานสำหรับ speech corpus การแปลง VOC เป็น NIST บูรณาการการบันทึก Sound Blaster เข้า research pipeline

ประมวลผลหลายไฟล์

สร้าง speech corpus อย่างมีประสิทธิภาพ อัปโหลดไฟล์ VOC หลายไฟล์และผลิต NIST output สำหรับทั้งหมดในครั้งเดียว

ส่วนตัวและปลอดภัย

เสียงวิจัยมักมีข้อมูลเสียงพูดที่ละเอียดอ่อน ไฟล์ VOC ที่อัปโหลดจะถูกลบทันที NIST output ภายใน 24 ชั่วโมง

วิธีแปลง VOC เป็น NIST

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ nist หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ nist ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

VOC (Creative Voice) เป็นคอนเทนเนอร์เสียงดิจิทัลที่พัฒนาโดย Creative Technology และเปิดตัวพร้อมกับการ์ด Sound Blaster ดั้งเดิมในปี 1989 ทำหน้าที่เป็นรูปแบบเสียงดั้งเดิมของตระกูล Sound Blaster ในยุค DOS เมื่อฮาร์ดแวร์ของ Creative ครองตลาดเสียง PC ไฟล์ VOC ใช้โครงสร้างแบบบล็อก — แต่ละไฟล์ประกอบด้วยบล็อกข้อมูลที่มีประเภทกำหนด สามารถบรรจุ PCM แบบ 8 บิตไม่มีเครื่องหมาย, Creative ADPCM 4 บิตและ 2.6 บิต, PCM แบบ 16 บิตมีเครื่องหมาย รวมถึงเสียงที่เข้ารหัส A-law และ mu-law โครงสร้างบล็อกนี้ยังรองรับช่วงเงียบ ลูปซ้ำ และจุดมาร์กเกอร์ ให้นักพัฒนาเกมควบคุมการเล่นเสียงได้อย่างละเอียด ข้อดีที่สำคัญคือการถอดรหัสในระดับฮาร์ดแวร์ — การ์ด Sound Blaster สามารถเล่นข้อมูล VOC โดยตรงผ่านการถ่ายโอน DMA ปลดปล่อย CPU สำหรับงานอื่นในยุคที่รอบการประมวลผลมีค่ามาก รูปแบบนี้ถูกใช้อย่างกว้างขวางในเกม DOS จาก id Software, Sierra และ LucasArts เมื่อ Windows และรูปแบบ WAV เริ่มแพร่หลาย VOC ก็ค่อยๆ หายไปจากกระแสหลัก แต่ยังคงมีความสำคัญสำหรับการอนุรักษ์เกมย้อนยุคและผู้ที่ทำงานกับคลังเสียง PC ย้อนยุค
ผู้พัฒนา: Creative Technology
เผยแพร่ครั้งแรก: 1989
NIST SPHERE (SPeech HEader REsources) เป็นรูปแบบไฟล์เสียงเฉพาะทางที่สร้างโดย สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ สำหรับการวิจัยเสียงพูด โดยเฉพาะโปรเจกต์ที่ได้รับทุนจาก DARPA รูปแบบนี้ห่อหุ้มตัวอย่างเสียงดิบด้วยส่วนหัว ASCII ที่มีโครงสร้างซึ่งเข้ารหัสเมตาดาต้า เช่น อัตราสุ่มตัวอย่าง จำนวนแชนเนล ประเภทการเข้ารหัส ข้อมูลประชากรผู้พูด และคำอธิบายการถอดความ — เหมาะอย่างยิ่งสำหรับการเผยแพร่คอร์ปัสเสียงพูด ไฟล์ NIST มักเก็บ PCM แบบไม่บีบอัดหรือเสียง mu-law ที่อัตราสุ่มตัวอย่างคุณภาพโทรศัพท์ (8 kHz หรือ 16 kHz) แม้คอนเทนเนอร์จะยืดหยุ่นพอรองรับการเข้ารหัสหลายแบบ ข้อดีสำคัญคือส่วนหัวแบบบันทึกตัวเองที่หลากหลาย ช่วยให้นักวิจัยฝังเมตาดาต้าคอร์ปัสโดยละเอียดในไฟล์โดยตรง ไม่ต้องมีไฟล์ข้างเคียง SPHERE ยังกลายเป็นมาตรฐานที่ใช้จริงสำหรับฐานข้อมูลเสียงพูดหลัก ๆ เช่น TIMIT, Switchboard และคอร์ปัส Fisher รับประกันการรับรู้อย่างกว้างขวางในห้องปฏิบัติการทั้งด้านวิชาการและภาครัฐ ข้อกำหนดแบบเปิดและเครื่องมือบรรทัดคำสั่งที่มีให้ (sphere, h_strip, w_decode) ทำให้สามารถแปลง ตรวจสอบ และประมวลผลไฟล์เหล่านี้ทางโปรแกรมได้อย่างตรงไปตรงมาในไปป์ไลน์ประมวลผลเสียงพูด
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง VOC เป็น NIST?

NIST เก็บเสียงด้วย metadata header สำหรับการวิจัยเสียงพูด บูรณาการเสียง legacy เข้าสู่ workflow การวิจัยภาษาศาสตร์เชิงวิชาการ

เปิดไฟล์ NIST ด้วยโปรแกรมอะไรได้บ้าง?

NIST SPHERE toolkit และ SoX อ่าน NIST speech recognition framework เช่น Kaldi และ HTK รองรับรูปแบบนี้โดยตรง

NIST แตกต่างจาก WAV อย่างไร?

NIST ใช้ header แบบ text-based กับ metadata field ที่สมบูรณ์ ให้ข้อมูลมากกว่า binary header ที่ WAV ใช้

Kaldi ใช้รูปแบบ NIST ไหม?

ใช่ Kaldi หนึ่งใน speech recognition toolkit ที่ได้รับความนิยมมากที่สุด อ่านไฟล์ NIST SPHERE โดยตรงสำหรับการฝึกและถอดรหัส

แปลงไฟล์ VOC หลายไฟล์พร้อมกันได้ไหม?

อัปโหลดการบันทึก VOC ทั้งหมดและแปลงเป็น NIST พร้อมกัน มีประสิทธิภาพเมื่อสร้าง speech corpus จากหลายแหล่ง