Làm sao để font chữ sau khi scan giống như văn bản gốc?

vietnam
vietnam
Trả lời 16 năm trước
Bạn tham khảo bài viết hướng dẫn này nhé! Muốn nhận dạng tiếng Việt tốt khi scan, ngoài yêu cần bản gốc phải rõ ràng ra, bạn cần phải điều chỉnh thông số khi nhận dạng. Cụ thể: Mở chương trình VnDOCR, chọn "Quét". Màn hình lựa chọn loại văn bản xuất hiện, bạn chọn loạ văn bản là Text black & white, rồi kéo thanh trượt về mức - 18 đến 24 (âm 18 đến 24). [b]CÁCH SỬ DỤNG VNDOCR 2.0 DEMO[/b] Cách hoán chuyển Chữ từ Sách, trang Pdf ,... bằng Vndocr . Dụng cụ cần có : 1. Computer . 2. Scanner (Tốc độ quét ảnh càng nhanh càng tốt) . 3. Nhu liệu Vndocr demo version 2 . (Hoán chuyển bản văn phóng ảnh thành Chữ). 4. Nhu liệu Mviet 8.2qP (Tạo Tốc Ký và Sửa Chữa bản văn sau khi Vndocr hoán chuyển). 5. Nhu liệu Translator 1.1 (Hoán chuyển Nhiều hồ sơ một lượt). 6. Nhu liệu WinComparer 3.2 Unicode Version. (So sánh Hồ Sơ, Trước và Sau khi sửa). Và đòi hỏi ở Bạn ... "Nhiều" kiên nhẫn . Đây là bài hướng dẫn cách xử dụng : Nhu liệu Vndocr cộng với các nhu liệu khác như Mviet 8.2qP, Translator 1.1, WinComparer 3.2... để hoán chuyển Chữ (image) trong Sách , trang pdf... thành Chữ (text) mà computer có thể sửa đổi (edit) được . Mọi sự thiết kế giữa computer và máy quét ảnh (scanner) là do tự bạn "Hoàn Tất" trước khi bắt tay vào bài hướng dẫn này . Nếu bạn chưa có Nhu liệu Vndocr demo 2.0 thì hãy lấy xuống và cài vào máy mình . Bạn có thể lấy Vndocr.zip (2.36MB). Bây giờ thì chúng ta có thể bắt đầu . Mời Bạn theo dõi . Để tiện lợi cho việc khởi động chương trình , chúng ta có thể tạo những hình nhỏ cho các nhu liệu Vndocr, Mviet 8.2qP, Translator 1.1, WinCompare 3.2 Unicode, để trên desktop như hình sau : http://4vn.net/images/vndocr/4icons.gif 1. Khởi động nhu liệu Vndocr bằng cách nhấn chuột trái 2 lần vào hình của vndocr mà chúng ta vừa thiết kế ở trên . Hay là khởi động theo chuổi sau: Start - programs - VNDOCR demo 2.0 - vndocr 2.0 2. Khi một khung nhỏ giới thiệu xuất hiện thì bạn nhấn vào ô "Chấp Nhận" để tiếp tục . http://4vn.net/images/vndocr/chapnhan.gif 3. Bây giờ thì vndocr mở khung chính , và chúng ta có thể bắt đầu quét một ảnh đầu tiên để thử nghiệm xem sao . Để khởi động cho việc Quét ảnh chúng ta nhấn vào hình nằm bên trái khung chữ "Quét Ảnh" như trong hình sau . Chú ý: Nếu trong khung này đang là Đọc Ảnh thì chúng ta nhấn vào mũi tên đen hướng xuống và chọn chữ Quét Ảnh . http://4vn.net/images/vndocr/vntoolbar1.gif Một khung nhỏ "Select source" xuất hiện . Nếu bạn thiết kế đúng thì Tên của máy quét ảnh của bạn sẽ xuất hiện trong khung này . Bạn nhấn vào ô "Select" để tiếp tục . Nếu bạn KHÔNG thấy tên của máy scanner mình trong khung này , thì có thể bạn quên chưa mở điện hay là sự thiết kế nối kết giữa computer và scanner chưa được thỏa đáng , cần bạn xem xét lại . http://4vn.net/images/vndocr/selectsource.gif 4. Một khung to sẽ xuất hiện . Đây là khung thiết kế của máy quét ảnh . Tùy theo máy quét ảnh mà bạn có , mà khung thiết kế nầy có thể không giống như trong hình ở đây . Hai điểm chính để Vndocr có hiệu quả tốt nhất là : - Black and white ( đen trắng) . - 300 dpi . http://4vn.net/images/vndocr/scansetup.gif 5. Nhấn vào nút Scan của máy quét ảnh . Máy quét ảnh sẽ quét ánh sáng vào bản văn và hoàn tất khi đèn quét ảnh trở lại vị trí ban đầu của nó . http://4vn.net/images/vndocr/scan.gif 6. Sau khi máy quét ảnh hoàn tất công việc của nó thì nó sẽ đưa bạn trở lại khung chính của vndocr . Nếu bạn có cả cuốn sách để hoán chuyển thì bạn "Lập Lại" phần số 5 ở trên . Thường thì bạn nên scan 10 trang liên tục một lần . http://4vn.net/images/vndocr/vnscan.gif 7. Để cho vndocr có thể nhận dạng bảng văn quét ảnh thì phải phân vùng . Vndocr có chức năng tự động phân vùng , nhưng chức năng này chưa được hoàn hảo lắm . Tốt nhất là chúng ta "Tự" phân vùng hoán chuyển . Trước khi phân vùng , nếu ảnh xuất hiện nằm ngang , tức là bạn không thể đọc chữ được thì nhấn vào hình có mũi tên 90 độ "trái" hay "phải" để làm cho bản văn đứng như trong hình phía dưới đây. Để phân vùng , chúng ta nhấn vào hình "khung chữ nhật màu xanh dương" , nằm bên phải khung chữ "Đầy" . Chúng ta làm một khung cho cả trang , bắt đầu từ một góc , nhấn vào chuột trái và đưa chuột đến góc chéo đối diện và nhấn chuột trái để hoàn tất khung nhận dạng . Nếu chúng ta quét ảnh nhiều trang thì chúng ta nhấn vào từng hình nhỏ của các trang (nằm trong cột bên trái) để làm khung nhận dạng cho tất cả các trang 1 lần. http://4vn.net/images/vndocr/vnboxscan1.gif 8. Bây giờ chúng ta dùng chức năng Nhận Dạng của Vndocr để hoán chuyển chữ dạng "hình" thành chữ dạng "chữ" . Bạn nhấn vào hình bên trái khung chữ Nhận Dạng . Nếu bạn có nhiều trang thì sẽ xuất hiện một khung nhỏ hỏi là bạn muốn nhận dạng trang "hiện thời" (trang đang bôi đen), hay muốn nhận dạng tất cả các trang một lần. Nhấn "Đồng Ý" để nhận diện tất cả, còn nếu muốn từng trang thì bấm vào ô thích hợp. http://4vn.net/images/vndocr/nhandang.gif 9. Các khung nhận dạng sẽ lần lượt đổi màu xanh lá cây rồi xanh dương và sau cùng trở lại trắng như cũ . Đồng thời khung bên tay phải , xuất hiện chữ dưới dạng chữ mà vndocr đã hoán chuyển . Đây là chữ ở dạng TCVN3 . Chú ý : những chữ này chỉ có thể đọc được nếu trong máy của bạn "đã" có sẳn dạng chữ TCVN3 . Cho nên nếu bạn không đọc được bản văn thì cũng đừng nên ngạc nhiên. http://4vn.net/images/vndocr/text.gif 10. Bạn nên nhấn vào khung 100% và chọn 50% để có thể thấy được tất cả các trang , (nếu là hai trang) . 11. Bôi đen và dùng "hình cây kéo" để cắt và dán vào Mviet 8.2qP http://4vn.net/images/vndocr/texthilite.gif Đến đây là xong phần cùa VNdocr . Chúng ta sang phần Mviet 8.2qP 1. Mở Mviet 8.2qP nếu chúng ta chưa làm . http://4vn.net/images/vndocr/mviet82qp.gif 2. Nhấn chuột trái vào khung trống bên phải. 3. Nhấn chuột phải , chọn "past" để "dán" văn bảng đã dùng kéo cắt từ Vndocr vào . 4. Nhấn hình "chuyển mã" (nằm trên khung chữ này). Khung chuyễn mã xuất hiện bên trái, thay thế vào chỗ của khung Tốc Ký. http://4vn.net/images/vndocr/mvchuyenma.gif 5. Nhấn "Select All" nằm trên chữ "Auto" màu đỏ. Văn bảng bên phải sẽ được bôi đen. 6. Nhấn hình "mũi tên hướng phải" nằm giữa hai chữ "cũ - mới" trong khung bên trái. http://4vn.net/images/vndocr/kchuyenma.gif Bản văn bên khung phải sẽ được hoán chuyển từ TCVN3 qua UNICODE. http://4vn.net/images/vndocr/paste1.gif http://4vn.net/images/vndocr/paste2.gif 4. Chúc mừng Bạn . Bạn đã Thành Công hoán chuyển từ chữ dạng Sách sang chữ dạng Chữ . Tùy theo trình độ rõ ràng của quyển Sách hay Văn Bản mà bạn đã phóng ảnh (scanned) ở trên mà kết quả sẽ mỹ mãn hay sẽ làm cho bạn chán nản . Thường các truyện chưởng đăng trên internet dưới dạng pdf , chất lượng rất thấp (có thể được scan ở 100-200 dpi) để cho dung lượng hồ sơ nhỏ đi như vậy độc giả sẽ đem xuống (download) máy mình nhanh hơn . Vì lý do nầy cho nên những pdf file nầy khi dùng Vndocr để hoán chuyển thì kết quả thật là Xấu . Ngoài ra phải kể đến kỹ thuật ấn loát của các Sách nầy rất là thấp , nếu chúng ta đọc bằng mắt thường cũng đã khó khăn rồi thì "Không Thể" kỳ vọng ở Vndocr làm phép lạ được. Bài tới sẽ trình bày "Chi Tiết" cách dùng các chức năng của Mviet để tạo Tốc Ký , Hoán chuyển các dạng chữ, sửa lỗi chánh tả cho bản văn chúng ta mới vừa hoán chuyển từ Vndocr . Sau đó sẽ dùng nhu liệu Translator để sửa "Tất Cả" các nhu liệu một lần . Cuối cùng là dùng nhu liệu WinCompare để so sánh hai bản văn Trước và Sau khi sửa, để chắc chắn là bảng Tốc Ký mà chúng ta dùng Mviet tạo ở trên đã mang lại kết quả mong muốn (tức là sửa các chữ sai thành đúng). Còn nếu như kết quả ngược lại là Tốc Ký sửa chữ Đúng ra Sai thì chúng ta biết để mà điều chỉnh bảng Tốc ký lại cho hoàn chỉnh hơn.