ตัวแปลง NIST เป็น HTK

แปลงเสียง NIST เป็น HTK ผ่านเบราว์เซอร์ออนไลน์

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

เป็นส่วนตัวและปลอดภัย

ไฟล์ NIST จะถูกลบทันทีหลังแปลง และเอาต์พุต HTK จะถูกลบออกจากเซิร์ฟเวอร์ภายใน 24 ชั่วโมง

ผลลัพธ์แม่นยำ

การแปลง NIST เป็น HTK รักษาความเที่ยงตรงของเสียงตลอดกระบวนการ ไฟล์บันทึกจะออกมาชัดเจนพร้อมข้อมูลตัวอย่างที่ถูกต้อง

ใช้ได้ทุกอุปกรณ์

เรียกใช้ตัวแปลง NIST เป็น HTK บนระบบปฏิบัติการใด ๆ ผ่านเว็บเบราว์เซอร์ — เดสก์ท็อป แล็ปท็อป แท็บเล็ต หรือสมาร์ทโฟน

วิธีแปลง NIST เป็น HTK

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ htk หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ htk ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

NIST SPHERE (SPeech HEader REsources) เป็นรูปแบบไฟล์เสียงเฉพาะทางที่สร้างโดย สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ สำหรับการวิจัยเสียงพูด โดยเฉพาะโปรเจกต์ที่ได้รับทุนจาก DARPA รูปแบบนี้ห่อหุ้มตัวอย่างเสียงดิบด้วยส่วนหัว ASCII ที่มีโครงสร้างซึ่งเข้ารหัสเมตาดาต้า เช่น อัตราสุ่มตัวอย่าง จำนวนแชนเนล ประเภทการเข้ารหัส ข้อมูลประชากรผู้พูด และคำอธิบายการถอดความ — เหมาะอย่างยิ่งสำหรับการเผยแพร่คอร์ปัสเสียงพูด ไฟล์ NIST มักเก็บ PCM แบบไม่บีบอัดหรือเสียง mu-law ที่อัตราสุ่มตัวอย่างคุณภาพโทรศัพท์ (8 kHz หรือ 16 kHz) แม้คอนเทนเนอร์จะยืดหยุ่นพอรองรับการเข้ารหัสหลายแบบ ข้อดีสำคัญคือส่วนหัวแบบบันทึกตัวเองที่หลากหลาย ช่วยให้นักวิจัยฝังเมตาดาต้าคอร์ปัสโดยละเอียดในไฟล์โดยตรง ไม่ต้องมีไฟล์ข้างเคียง SPHERE ยังกลายเป็นมาตรฐานที่ใช้จริงสำหรับฐานข้อมูลเสียงพูดหลัก ๆ เช่น TIMIT, Switchboard และคอร์ปัส Fisher รับประกันการรับรู้อย่างกว้างขวางในห้องปฏิบัติการทั้งด้านวิชาการและภาครัฐ ข้อกำหนดแบบเปิดและเครื่องมือบรรทัดคำสั่งที่มีให้ (sphere, h_strip, w_decode) ทำให้สามารถแปลง ตรวจสอบ และประมวลผลไฟล์เหล่านี้ทางโปรแกรมได้อย่างตรงไปตรงมาในไปป์ไลน์ประมวลผลเสียงพูด
เผยแพร่ครั้งแรก: 1990
HTK เป็นคอนเทนเนอร์รูปคลื่นดั้งเดิมของ Hidden Markov Model Toolkit ชุดซอฟต์แวร์ที่พัฒนาที่ภาควิชาวิศวกรรมของมหาวิทยาลัยเคมบริดจ์สำหรับการวิจัยด้านการรู้จำเสียงพูด เผยแพร่ครั้งแรกในปี 1993 HTK กลายเป็นแพลตฟอร์มอ้างอิงในห้องปฏิบัติการภาษาศาสตร์คอมพิวเตอร์ทั่วโลกอย่างรวดเร็ว และรูปแบบไฟล์ก็ได้รับความนิยมตามไปด้วย แต่ละไฟล์เก็บลำดับเวกเตอร์พารามิเตอร์หรือตัวอย่างดิบนำหน้าด้วยส่วนหัว 12 ไบต์ที่ระบุจำนวนเฟรม คาบเฟรมในหน่วย 100 ns จำนวนไบต์ต่อเฟรม และรหัสประเภทที่ระบุชนิดข้อมูล — ตัวเลือกมีตั้งแต่ waveform PCM ไปจนถึง Mel-frequency cepstral coefficients และพลังงาน filter-bank ความอเนกประสงค์นี้ช่วยให้คอนเทนเนอร์เดียวบรรจุทั้งเสียงต้นทางและคุณลักษณะที่สกัดออกมาโดยไม่ต้องเปลี่ยนตัวแยกวิเคราะห์ ส่วนหัวที่เรียบง่ายอย่างจงใจหลีกเลี่ยง alignment padding หรือ optional chunks ทำให้อ่านรูปแบบจาก C, Python หรือ MATLAB ได้ง่ายด้วยโค้ดไบนารี I/O เพียงไม่กี่บรรทัด ข้อดีสามประการที่สนับสนุนความเกี่ยวข้องอย่างต่อเนื่องของ HTK: การผสานรวมอย่างแน่นแฟ้นกับไปป์ไลน์ฝึกอบรมและรู้จำของ HTK เลย์เอาต์ไบต์ที่แน่นอนซึ่งขจัดความคลุมเครือของตัวแยกวิเคราะห์ และการนำไปใช้อย่างแพร่หลายในคอร์ปัสทางวิชาการ
เผยแพร่ครั้งแรก: 1993

คำถามที่พบบ่อย

ทำไมต้องแปลง NIST เป็น HTK?

NIST SPHERE และ HTK ต่างรับใช้การวิจัยเสียงพูดแต่ต่างกันที่ระบบนิเวศเครื่องมือ รูปแบบ HTK ทำงานร่วมกับชุดเครื่องมือรู้จำเสียงพูด HTK ได้โดยตรง

เปิดไฟล์ HTK ด้วยโปรแกรมอะไรได้บ้าง?

เปิด HTK ได้ด้วยชุดเครื่องมือรู้จำเสียงพูด HTK, SoX หรือเครื่องมือวิเคราะห์เสียงพูดระดับวิจัย

ต้องติดตั้งซอฟต์แวร์พิเศษไหม?

ไม่ต้องเลย การแปลงทำออนไลน์ — เพียงเปิดเบราว์เซอร์ อัปโหลดไฟล์ NIST แล้วดาวน์โหลดผลลัพธ์ HTK

การแปลง NIST เป็น HTK ใช้เวลานานไหม?

การแปลงรวดเร็ว — มักใช้เวลาเพียงไม่กี่วินาทีสำหรับไฟล์บันทึกเสียง NIST ขนาดมาตรฐาน ไฟล์ขนาดใหญ่อาจใช้เวลาเพิ่มเล็กน้อย

รองรับแพลตฟอร์มอะไรบ้างสำหรับแปลง NIST เป็น HTK?

ใช้ได้ทุกแพลตฟอร์ม เปิดตัวแปลงใน Chrome, Firefox, Safari หรือ Edge บนเดสก์ท็อปหรืออุปกรณ์มือถือ

ปรับตั้งค่าเสียงก่อนแปลงได้ไหม?

ได้ คุณตั้งค่าอัตราสุ่มตัวอย่าง ความลึกบิต และจำนวนช่องสัญญาณได้ก่อนเริ่มการแปลง NIST เป็น HTK