Chuyển đổi HTML sang TXT

Trích xuất văn bản thuần từ trang web — trình chuyển đổi trực tuyến

Thả tập tin ở đây. 1 GB Kích thước file tối đa hoặc là Đăng ký
đến
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Đầu ra văn bản thuần

Mọi thẻ HTML được loại bỏ sạch sẽ — bạn chỉ nhận nội dung đọc được, không có mã đánh dấu và lỗi định dạng.

Chụp mọi URL

Trỏ trình chuyển đổi vào bất kỳ địa chỉ trang web nào và nhận phiên bản TXT — toàn bộ xử lý diễn ra trên máy chủ đám mây.

Trích xuất hàng loạt

Tải lên nhiều trang web cùng lúc và trích xuất nội dung văn bản trong một lần — tải tất cả kết quả khi hoàn tất.

Làm thế nào để chuyển đổi HTML sang TXT

1

Lựa chọn các tập tin từ Máy tính, Google Drive, Dropbox, URL hoặc bằng cách kéo tập tin vào trang này.

2

Chọn txt hoặc bất kỳ định dạng nào khác bạn cần chuyển đổi sang (hỗ trợ hơn 200 định dạng)

3

Hãy để tập tin chuyển đổi và bạn có thể tải tập tin txt của bạn xuống ngay sau đó

Về các định dạng

HTML (HyperText Markup Language — Ngôn ngữ đánh dấu siêu văn bản) là ngôn ngữ đánh dấu tiêu chuẩn để tạo trang web, ban đầu được Tim Berners-Lee phát minh tại CERN vào năm 1991 và sau đó được W3C và WHATWG chuẩn hóa. HTML cấu trúc nội dung bằng hệ thống các thẻ lồng nhau định nghĩa tiêu đề, đoạn văn, danh sách, liên kết, hình ảnh, bảng biểu, biểu mẫu và các yếu tố đa phương tiện, với CSS xử lý trình bày hình thức và JavaScript bổ sung tính tương tác. Ngôn ngữ này đã phát triển qua các phiên bản lớn — HTML 2.0 (1995), HTML 4.01 (1999), XHTML 1.0 (2000) và Tiêu chuẩn HTML Sống hiện tại (phát triển từ HTML5, công bố năm 2014) — mỗi phiên bản mở rộng từ vựng ngữ nghĩa và khả năng. Tài liệu HTML là các tệp văn bản thuần túy có thể được bất kỳ trình duyệt web nào diễn giải, và vai trò của ngôn ngữ này vượt ra ngoài trang web: định dạng email, nội dung sách điện tử (EPUB), giao diện ứng dụng (Electron, Cordova) và xuất tài liệu đều dựa vào HTML. Một ưu điểm là khả năng hiển thị toàn cầu — mọi thiết bị tính toán có trình duyệt đều hiển thị được nội dung HTML, khiến nó trở thành định dạng tài liệu được hỗ trợ rộng rãi nhất trên thế giới. Mô hình đánh dấu ngữ nghĩa mang lại một thế mạnh khác: các phần tử như <article>, <nav>, <aside> và <figure> mang ý nghĩa giúp ích cho các công cụ hỗ trợ tiếp cận, lập chỉ mục công cụ tìm kiếm và tái sử dụng nội dung. Đặc tả do W3C/WHATWG quản lý đảm bảo tính độc lập với nhà cung cấp, và bản chất văn bản của HTML giúp tài liệu được tạo, kiểm tra và xử lý dễ dàng với bất kỳ ngôn ngữ lập trình nào.
Nhà phát triển: Tim Berners-Lee / W3C
Phát hành lần đầu: 1993
TXT (Plain Text — Văn bản thuần túy) là định dạng tài liệu kỹ thuật số cơ bản nhất, lưu trữ văn bản không định dạng dưới dạng chuỗi mã ký tự không có kiểu dáng nhúng, hướng dẫn bố cục hay siêu dữ liệu ngoài chính các ký tự. Nền tảng của tính toán văn bản thuần túy bắt nguồn từ chuẩn ASCII được công bố năm 1963 bởi Hội Tiêu chuẩn Mỹ (nay là ANSI), định nghĩa 128 mã ký tự bao gồm chữ cái Latin hoa và thường, chữ số, dấu câu và các ký tự điều khiển. Các tệp văn bản thuần túy hiện đại thường sử dụng mã hóa UTF-8, một mã Unicode độ rộng thay đổi bao gồm hầu như mọi hệ thống chữ viết trên thế giới trong khi vẫn tương thích ngược với ASCII. Ký tự xuống dòng khác nhau theo quy ước nền tảng — LF trên Unix/macOS, CR+LF trên Windows — dù hầu hết các công cụ hiện đại xử lý cả hai một cách minh bạch. Một ưu điểm là tính phổ quát tuyệt đối — các tệp TXT có thể được tạo, đọc và chỉnh sửa trên mọi thiết bị tính toán từng được sản xuất, từ máy tính lớn những năm 1960 đến điện thoại thông minh hiện đại, mà không cần bất kỳ phần mềm chuyên dụng nào. Chi phí tối thiểu là một thế mạnh cốt lõi khác: văn bản thuần túy không mang bất kỳ gánh nặng định dạng nào, khiến các tệp TXT lý tưởng cho tệp cấu hình, nhật ký đầu ra, trao đổi dữ liệu, mã nguồn, tập lệnh và bất kỳ ngữ cảnh nào cần xử lý nội dung bằng lập trình. Văn bản thuần túy là nền tảng cho các định dạng có cấu trúc như CSV, JSON, XML, YAML và Markdown, và vẫn là phương tiện nhập/xuất cho hầu như tất cả các công cụ dòng lệnh và môi trường lập trình. Bất chấp hàng thập kỷ các giải pháp phong phú hơn, TXT vẫn tồn tại như định dạng tài liệu thực sự phổ quát duy nhất.
Nhà phát triển: ANSI
Phát hành lần đầu: 1963

Các câu hỏi thường gặp

Tại sao trích xuất văn bản thuần từ trang web?

Loại bỏ thẻ HTML cho bạn văn bản sạch, di động — hữu ích cho ghi chú, xử lý dữ liệu hoặc đưa nội dung vào công cụ khác.

Phần mềm nào mở tài liệu TXT?

Mọi hệ điều hành đều có trình soạn thảo tích hợp: Notepad trên Windows, TextEdit trên macOS, gedit trên Linux và nhiều công cụ khác.

Có thể chuyển URL trực tuyến sang văn bản thuần không?

Có — dán bất kỳ địa chỉ web nào và Convertio tải trang, loại bỏ mã HTML và trả về chỉ phần văn bản hiển thị.

Mã hóa ký tự đặc biệt có được giữ không?

Trình chuyển đổi xử lý UTF-8 và các mã hóa tiêu chuẩn khác, nên chữ có dấu và ký tự đặc biệt được giữ nguyên.

Hình ảnh hoặc media có được bao gồm không?

Không — TXT chỉ là văn bản thuần. Tất cả yếu tố hình ảnh, ảnh và media nhúng đều bị loại khỏi đầu ra.

Chuyển đổi hàng loạt có hoạt động không?

Tải lên nhiều trang HTML cùng lúc và chuyển tất cả sang TXT trong một phiên để trích xuất văn bản hàng loạt hiệu quả.

Xếp hạng chất lượng từ HTML đến TXT

4.3 (2,965 phiếu bầu)
Bạn cần phải chuyển đổi và tải xuống ít nhất 1 tệp để cung cấp phản hồi!