ตัวแปลง CDDA เป็น HTK

แปลงเสียง CD เป็นรูปแบบ HTK สำหรับการรู้จำเสียงพูด

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

รูปแบบวิจัยเสียงพูด

เตรียมเสียง CDDA สำหรับ HTK — รูปแบบที่ Hidden Markov Model Toolkit ต้องการสำหรับวิจัยการรู้จำเสียงพูด

ประมวลผลบนคลาวด์

การแปลง HTK ทำบนเซิร์ฟเวอร์ของเรา ไม่ต้องติดตั้ง HTK toolkit — ได้เสียงในรูปแบบที่ถูกต้องทันที

อินพุตคุณภาพ CD

เริ่มจาก CDDA ที่ไม่บีบอัดให้นักวิจัยด้านเสียงพูดได้เสียงที่มีความเที่ยงตรงสูงสุดสำหรับสกัดฟีเจอร์และฝึกโมเดล

วิธีแปลง CDDA เป็น HTK

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ htk หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ htk ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

CDDA (Compact Disc Digital Audio) หรือที่รู้จักกันในชื่อมาตรฐาน Red Book กำหนดรูปแบบเสียงที่จัดเก็บในซีดีเพลง พัฒนาร่วมกันโดย Sony และ Philips และเผยแพร่ในปี 1980 มาตรฐานนี้กำหนดพารามิเตอร์ที่กำหนดทิศทางเสียงดิจิทัลมาหลายทศวรรษ: linear PCM 16 บิตที่ 44.1 kHz สเตอริโอ ให้อัตราบิต 1,411.2 kbps แบบไม่บีบอัด แต่ละแผ่นบรรจุได้สูงสุด 80 นาที จัดเรียงเป็นแทร็กพร้อมจุดดัชนี ข้อมูลซับแชนเนลสำหรับแสดงข้อความ และรหัสแก้ไขข้อผิดพลาด (CIRC) ที่รับประกันการเล่นที่เสถียรแม้มีรอยขีดข่วนเล็กน้อย เมื่อริปเสียงจากซีดี สตรีมที่ได้มักถูกบันทึกด้วยนามสกุล .cdda เป็น raw PCM ก่อนการแปลง ข้อดีที่ชัดเจนที่สุดคือธรรมชาติแบบไม่บีบอัดและไม่สูญเสียข้อมูล — สิ่งที่เข้าถึงหูของคุณเหมือนกับต้นฉบับจากสตูดิโอทุกประการที่ความละเอียดที่กำหนด การแก้ไขข้อผิดพลาดที่แข็งแกร่งให้ความทนทานยอดเยี่ยม รักษาความสมบูรณ์ของเสียงแม้พื้นผิวแผ่นจะสึกหรอปานกลาง จากการขายหลายพันล้านชิ้นนับตั้งแต่เปิดตัวเชิงพาณิชย์ครั้งแรกในปี 1982 CDDA ได้สร้างมาตรฐานคุณภาพพื้นฐานสำหรับเพลงดิจิทัลและยังคงเป็นเกณฑ์อ้างอิงสำหรับการเปรียบเทียบตัวแปลงสัญญาณแบบบีบอัด
ผู้พัฒนา: Sony / Philips
เผยแพร่ครั้งแรก: ตุลาคม 1980
HTK เป็นคอนเทนเนอร์รูปคลื่นดั้งเดิมของ Hidden Markov Model Toolkit ชุดซอฟต์แวร์ที่พัฒนาที่ภาควิชาวิศวกรรมของมหาวิทยาลัยเคมบริดจ์สำหรับการวิจัยด้านการรู้จำเสียงพูด เผยแพร่ครั้งแรกในปี 1993 HTK กลายเป็นแพลตฟอร์มอ้างอิงในห้องปฏิบัติการภาษาศาสตร์คอมพิวเตอร์ทั่วโลกอย่างรวดเร็ว และรูปแบบไฟล์ก็ได้รับความนิยมตามไปด้วย แต่ละไฟล์เก็บลำดับเวกเตอร์พารามิเตอร์หรือตัวอย่างดิบนำหน้าด้วยส่วนหัว 12 ไบต์ที่ระบุจำนวนเฟรม คาบเฟรมในหน่วย 100 ns จำนวนไบต์ต่อเฟรม และรหัสประเภทที่ระบุชนิดข้อมูล — ตัวเลือกมีตั้งแต่ waveform PCM ไปจนถึง Mel-frequency cepstral coefficients และพลังงาน filter-bank ความอเนกประสงค์นี้ช่วยให้คอนเทนเนอร์เดียวบรรจุทั้งเสียงต้นทางและคุณลักษณะที่สกัดออกมาโดยไม่ต้องเปลี่ยนตัวแยกวิเคราะห์ ส่วนหัวที่เรียบง่ายอย่างจงใจหลีกเลี่ยง alignment padding หรือ optional chunks ทำให้อ่านรูปแบบจาก C, Python หรือ MATLAB ได้ง่ายด้วยโค้ดไบนารี I/O เพียงไม่กี่บรรทัด ข้อดีสามประการที่สนับสนุนความเกี่ยวข้องอย่างต่อเนื่องของ HTK: การผสานรวมอย่างแน่นแฟ้นกับไปป์ไลน์ฝึกอบรมและรู้จำของ HTK เลย์เอาต์ไบต์ที่แน่นอนซึ่งขจัดความคลุมเครือของตัวแยกวิเคราะห์ และการนำไปใช้อย่างแพร่หลายในคอร์ปัสทางวิชาการ
เผยแพร่ครั้งแรก: 1993

คำถามที่พบบ่อย

ทำไมต้องแปลง CDDA เป็น HTK?

HTK เป็นรูปแบบดั้งเดิมของ Hidden Markov Model Toolkit การแปลง CDDA เป็น HTK เตรียมเสียงสำหรับการฝึกโมเดลรู้จำเสียงพูด

HTK ใช้ทำอะไร?

HTK เป็นชุดเครื่องมือวิจัยการรู้จำเสียงพูดจากเคมบริดจ์ รูปแบบนี้จัดเก็บฟีเจอร์เสียงและรูปคลื่นสำหรับฝึกและประเมินโมเดล

HTK รองรับคุณภาพ CD เต็มไหม?

HTK จัดเก็บอัตราสุ่มตัวอย่างได้หลากหลาย การรู้จำเสียงพูดมักใช้ 16 kHz แต่รูปแบบรองรับ 44.1 kHz ของ CDDA เต็มที่หากต้องการ

ซอฟต์แวร์อะไรอ่าน HTK ได้?

HTK Toolkit เอง รวมถึง SoX และเฟรมเวิร์กประมวลผลเสียงพูดต่างๆ สามารถอ่านและเขียนข้อมูลเสียง HTK ได้

แปลงแบบแบตช์ได้ไหม?

อัปโหลดไฟล์ CDDA หลายไฟล์แล้วแปลงเป็น HTK ทั้งหมดพร้อมกัน — มีประสิทธิภาพสำหรับสร้างคอร์ปัสเสียงพูดจากการบันทึก CD