Khám phá tất cả bài viết

Nhận diện ký tự quang học (Optical Character Recognition) là gì và hoạt động như thế nào?

tác giả

Nhóm Lumin

ngày xuất bản

19 Th10 2022

thể loại

Chỉnh sửa PDF

thời gian đọc

5 phút

Nhận diện ký tự quang học (Optical Character Recognition) là gì và hoạt động như thế nào?

Ghi chú viết tay và phác thảo rất tiện dụng khi in ra – nhưng lại khó sử dụng trong môi trường làm việc số. Đó là lúc OCR, hay Nhận diện ký tự quang học, phát huy tác dụng.

Bạn cũng có thể đọc bài viết này bằng Español, Français, PortuguêsEnglish.

Chuyển tới:

  • 1. OCR là gì?

  • 2. Lợi ích của OCR

  • 3. OCR hoạt động như thế nào?

  • 4. OCR và bộ công cụ Lumin

  • 1. OCR là gì?
  • 2. Lợi ích của OCR
  • 3. OCR hoạt động như thế nào?
  • 4. OCR và bộ công cụ Lumin

Chia sẻ bài viết này

OCR là gì?


Nhận diện ký tự quang học (OCR) là công nghệ chuyển đổi văn bản in ấn hoặc viết tay và hình ảnh thành định dạng kỹ thuật số. Điều này có nghĩa là nếu bạn viết kín một trang giấy và quét nó, bạn vẫn có thể tìm kiếm, lưu trữ và chỉnh sửa những ghi chú ấy như thể bạn đã gõ chúng trên trình soạn thảo văn bản thông thường.


Hãy tưởng tượng bạn có một văn bản in trên giấy muốn quét và tải lên thành phiên bản điện tử. Tuy nhiên, chỉ quét bản giấy sẽ không giúp máy tính đọc được chữ viết tay của bạn. Bạn sẽ không thể chỉnh sửa những dòng chữ tự mình viết – mà chỉ có thể ngắm nhìn chúng.


Trừ khi bạn hài lòng với việc loay hoay với các hộp văn bản thay cho công cụ chú thích chuyên dụng (và nếu bạn đọc blog này, có lẽ bạn không thuộc kiểu đó), bạn sẽ cần sử dụng công nghệ OCR.

Lợi ích của OCR


Biến tài liệu thành có thể tìm kiếm được


Như đã đề cập ở trên, việc chỉnh sửa hay chú thích văn bản viết tay trên môi trường số là một nhiệm vụ đầy thách thức. Nếu không có công nghệ OCR, bạn không thể sử dụng các công cụ chỉnh sửa PDF vốn làm cho phần mềm như Lumin trở nên hữu ích. Các công cụ như ký tên, đánh dấu và trường điền thông tin giúp công việc hành chính nhẹ nhàng hơn. Chúng giúp bạn không cần nhập liệu thủ công, tiết kiệm thời gian, công sức và chi phí.


Nếu bạn chuyển tài liệu của mình qua trình chuyển đổi OCR, những dòng chữ nguệch ngoạc của bạn lập tức có thể được máy móc đọc hiểu – và chỉnh sửa một cách dễ dàng! Giờ đây bạn có thể dùng Ctrl+F cho nhật ký của mình để nhanh chóng tìm thấy ghi chú cụ thể.


Biến hình ảnh thành có thể chỉnh sửa được


Các yếu tố thiết kế như ảnh, biểu đồ, hoặc đám mây từ ngữ giúp PDF sinh động hơn nhưng thường bị mã hóa cứng. Nghĩa là chúng không thể đọc được bằng trình xử lý văn bản, gây khó khăn khi kiểm tra lỗi hoặc quét phần chữ hiệu quả.


Công nghệ OCR có thể trích xuất và nhận diện những thành phần bị mã hóa cứng này, giúp bạn chỉnh sửa trực tiếp các yếu tố thiết kế thay vì phải truy về tập tin gốc và tải lên lại.


blog image

Tiếp tục viết ghi chú theo cách của bạn


Dù môi trường làm việc ưu tiên số đã trở nên phổ biến, viết tay vẫn luôn có chỗ đứng. Việc viết ra ý tưởng và ghi chú bằng tay có giá trị rất lớn. Không chỉ tạo cảm giác tự nhiên, nhiều nghiên cứu còn cho thấy viết tay giúp tập trung và ghi nhớ thông tin hiệu quả hơn so với đánh máy.


Nhưng có một nhược điểm lớn: tích hợp các ghi chú viết tay vào quy trình làm việc ngày càng (nếu không hoàn toàn) số hóa. Đánh máy lại những gì bạn đã viết rất mất thời gian và dễ sai sót, khiến bạn ngần ngại thực hiện công việc này.


Một lợi ích lớn của OCR là nhận diện và trích xuất dữ liệu từ chữ viết tay để chúng có thể đọc được trên thiết bị điện tử, cho phép bạn thoải mái vẽ vời, ghi chú theo ý thích mà vẫn không lo lắng về việc số hóa.


OCR hoạt động như thế nào?


Bản chất hoạt động của OCR khá phức tạp. Nhưng có hai phương thức chính mà phần mềm OCR sử dụng:


Nhận diện mẫu


Thuật toán của OCR đã được lập trình với nhiều phông chữ, hình ảnh và mẫu văn bản khác nhau để nhận diện, tách biệt và chuyển đổi chữ viết. Phương pháp này phù hợp nhất với chữ viết tay, vì phần mềm có thể không nhận diện được phông chữ tự tạo.


Nhận diện đặc điểm


Đa số phần mềm OCR hiện đại dùng phương pháp nhận diện đặc điểm, cho phép người dùng cài đặt để phần mềm nhận ra các đặc điểm riêng biệt trong từng ký tự (như nét cong, nét thẳng, nét xiên, v.v.), từ đó quét và chuyển đổi nội dung chính xác hơn.


Công nghệ OCR có thể xuất hiện dưới dạng phần mềm độc lập hoặc tích hợp sẵn trong các chương trình như trình duyệt web hoặc trình đọc tài liệu. Điều này có nghĩa là chỉ cần bạn có một giải pháp vừa mở được file tài liệu vừa hỗ trợ OCR, bạn đã có mọi thứ cần thiết để bắt đầu sử dụng.


OCR và bộ công cụ Lumin


Bên cạnh việc là trình chỉnh sửa PDF (trực tuyến và ngoại tuyến) và giải pháp lưu trữ trên nền tảng đám mây, Lumin ứng dụng công nghệ OCR để:


  • Chỉnh sửa tài liệu nhanh chóng và hiệu quả hơn
  • Biến các file PDF thành tài liệu có thể tìm kiếm và dễ dàng chỉnh sửa các tài liệu lớn, nhiều chữ
  • Quét và tải lên tài liệu có thể chỉnh sửa và lưu sau này vào thư mục Lumin của bạn

blog image

Mọi người dùng Lumin đều có thể truy cập công cụ OCR tại trang công cụ Lumin. Chỉ cần đăng ký tài khoản miễn phí và chọn thẻ ‘OCR’ trên menu. Nhấn nút ‘bắt đầu ngay’ và tải tài liệu PDF từ máy tính hoặc nền tảng đám mây bạn yêu thích để bắt đầu quá trình OCR. Khi hoàn tất, bạn có thể nhấn ‘tải về’ hoặc lưu trực tiếp lên Google Drive hay Dropbox.


Bây giờ khi tệp PDF của bạn đã được kích hoạt đầy đủ, bạn có thể sử dụng đầy đủ bộ tính năng chú thích và chỉnh sửa của Lumin. Tham khảo toàn bộ bộ công cụ của chúng tôi để khám phá cách Lumin giúp tối ưu hóa tài liệu cho đội nhóm hoặc tổ chức của bạn.


Chia sẻ bài viết này