“Phần mềm tự động số hóa và rút trích thông tin tài liệu SmartDoc”
là phần mềm hữu ích được TS. Lê Trung Hiếu cùng các công tác viên thuộc Trung
tâm Công nghệ Thông tin thuộc Đại học Huế nghiên cứu thành công.
“Phần mềm tự động số hóa và rút trích thông tin
tài liệu SmartDoc” là công nghệ nhận dạng
và rút trích thông tin ảnh tài liệu dựa trên kỹ thuật nhận dạng ký tự quang
học. Công nghệ là sự kết hợp các kỹ thuật xử lý ảnh tài liệu của Tesseract, các
kỹ thuật xử lý ảnh nâng cao, xử lý nhận dạng chữ số viết tay, xử lý ngôn ngữ tự
nhiên cho bài toán sửa lỗi chính tả và rút trích thông tin. Trên cơ sở kế thừa
các tính năng ưu việt của công nghệ OCR, công nghệ giải quyết được các hạn chế
của các chương trình hiện có và đặc biệt phù hợp với việc nhận dạng ký tự và
rút trích thông tin từ văn bản hành chính ở Việt Nam. SmartDoc với các chức
năng nổi bật, tạo nên sự khác biệt với các phần mềm ứng dụng khác, như:
- Tự động nhận dạng và
rút trích thông tin văn bản hành chính; đảm bảo khả năng xử lý với mọi văn bản
được soạn thảo theo chuẩn quy định của Bộ Nội vụ, không phụ thuộc vào đặc thù
chuyên môn, chuyên ngành của văn bản.
- Ngoài văn bản hành
chính, các tài liệu có cấu trúc hay bán cấu trúc, SmartDoc hỗ trợ việc cấu hình
tài liệu nhanh, dễ dàng đưa vào phần mềm tự động nhận dạng và rút trích thông
tin; hỗ trợ tốt công tác số hoá và rút trích thông tin tài liệu với số lượng
mẫu lớn. Hiện SmartDoc đã đưa vào ứng dụng nhận dạng và rút trích thông tin hỗ
trợ các ngành y tế; du lịch quản lý các tài liệu như: chứng chỉ hành nghề dược,
chứng chỉ hành nghề khám chữa bệnh, giấy chứng nhận nhà thuốc…; quyết định cấp
và đổi thẻ hướng dẫn viên du lịch, tài liệu quản lý cơ sở lưu trú du lịch…
-
Một chức năng rất quan trọng và có tính ứng dụng cao của SmartDoc là hỗ trợ
người dùng tự định nghĩa cấu hình tài liệu cần rút trích với giao diện trực
quan, dễ dàng tích hợp với SmartDoc hỗ trợ tự động nhận dạng và rút trích theo
định nghĩa cấu hình.
- Với chất lượng scan văn bản khá tốt
như phần lớn các văn bản đang lưu hành hiện nay, cùng với chất lượng của các
thiết bị số hoá (máy scan chuyên dụng và máy scan phổ thông) ngày càng cao,
SmartDoc cho kết quả nhận dạng và rút trích thông tin với độ chính xác trên
95%, đảm bảo tính khả thi trong việc ứng dụng SmartDoc vào các hệ thống quản lý
tài liệu thực tế. "SmartDoc"cũng đảm bảo nhận dạng các ảnh văn bản có định dạng: PDF, TIFF, JPEG,
BMP, PNG… và có khả năng nhận dạng văn bản theo từng vùng chỉ định. SmartDoc hỗ
trợ khả năng tích hợp hệ thống dễ dàng, cho phép nhận dạng nhiều văn bản cùng
lúc. Tốc độ nhận dạng và rút trích thông tin văn bản cao (5-7 giây/1 trang A4).
“SmartDoc” hiện đã được sử dụng trong tiếp nhận và lưu
trữ, quản lý tài liệu, văn bản gửi đến tại một số đơn vị ở miền Trung như: Đại
học Huế, Sở Thông tin - Truyền thông Thừa Thiên - Huế, Sở Thông tin - Truyền
thông TP Đà Nẵng.
Thông tin chi tiết, liên hệ: TS Lê Trung Hiếu - Trung tâm Công
nghệ thông tin (Đại học Huế);
Địa chỉ: 20 Lê Lợi, TP Huế; Tel: 0909127087;
Email:hieukien@hueuni.edu.vn Đàm Tuyết