Skip to main content

Cách trích xuất văn bản từ các tệp PDF

Nếu bạn có bản PDF của một chương sách hoặc bài báo, nó sẽ là một trong hai loại cơ bản.


<sup id="rf1-24338" _istranslated="1"><a href="https://www.jdavidstark.com/how-to-extract-text-from-image-only-pdfs-with-zotero/#fn1-24338" title="Header image provided by <a href=&quot;https://twitter.com/zotero&quot; target=&quot;_blank&quot; rel=&quot;noreferrer noopener&quot;>Zotero via Twitter</a>." rel="footnote" _istranslated="1">1</a></sup>

Một mặt, nó có thể có văn bản thực bên trong nó. Nếu vậy, bạn sẽ có thể chọn các chữ cái hoặc từ cụ thể bên trong PDF.

Mặt khác, nó có thể chỉ là một loạt các hình ảnh trang. Nếu đây là những gì bạn có, bạn có thể nhấp vào nó tất cả những gì bạn muốn, nhưng tất cả những gì bạn sẽ chọn là toàn bộ hình ảnh trang.

Ngay cả khi bạn có văn bản thực trong PDF, bạn sẽ gặp nhiều vấn đề khác nhau nếu bạn cố gắng sao chép và dán từ nó. Và có lẽ bạn không nên làm nhiều điều đó bằng mọi cách. Chuỗi trích dẫn nói chung không phải là cách hiệu quả nhất để đưa ra lập luận.

Nhưng có văn bản thực bên trong chương hoặc bài viết PDF của bạn sẽ làm cho PDF đó có thể tìm kiếm được và dễ chú thích hơn nếu bạn có ý định đọc nó bằng điện tử, gạch chân hoặc đánh dấu văn bản hoặc sử dụng PDF của bạn như giấy điện tử.

Tuy nhiên, nếu PDF của bạn không có văn bản thực bên trong, bạn có thể sử dụng Zotero để thêm nó thông qua "nhận dạng ký tự quang học" (OCR). Đó là, bạn có thể có Zotero

  • "nhìn" vào một tệp PDF chỉ có hình ảnh,
  • đưa ra dự đoán tốt nhất về văn bản nào trên trang và
  • lưu văn bản đó trở lại với hình ảnh thành một tệp PDF kết hợp khác.

OCR có thể không hoàn hảo. Nhưng nó sẽ làm cho các tệp PDF của bạn dễ sử dụng hơn.

1. Chuẩn bị sẵn sàng cho Zotero.

Để Zotero sẵn sàng thêm văn bản vào các tệp PDF chỉ có hình ảnh của bạn, trước tiên bạn cần

Khi bạn có những công cụ này, hãy cài đặt tiện ích mở rộng Zotero OCR trong Zotero.

Sau khi bạn khởi động lại Zotero,

  1. Đi tới Công cụ > Tùy chọn OCR Zotero.
  2. Đối với đường dẫn đến công cụ OCR của bạn, hãy nhập đường dẫn đến (ví dụ: ).tesseract.exe``C:\Program Files\Tesseract-OCR\tesseract.exe
  3. Đối với đường dẫn đến pdftoppm, hãy nhập đường dẫn mà bạn có Poppler (ví dụ: ).pdftoppm.exe``C:\Users\[yourusername]\poppler-0.68.0\bin\pdftoppm.exe
  4. Tùy chỉnh các tùy chọn khác theo sở thích của bạn và nhấp vào "OK". Nếu bạn muốn văn bản OCR của Zotero trở lại trong tệp PDF, ít nhất bạn nên chọn hộp "Lưu đầu ra dưới dạng PDF với lớp văn bản". Nhưng bạn có thể muốn _bỏ chọn_tùy chọn ghi đè lên tệp PDF ban đầu, chỉ trong trường hợp có điều gì đó không ổn với việc chuyển đổi.

2. Tạo PDF với văn bản thực.

Tại thời điểm này, Zotero đã sẵn sàng

  • chạy OCR trên bất kỳ tệp PDF nào chỉ có hình ảnh trong thư viện của bạn và
  • tạo một tệp PDF mới ánh xạ các hình ảnh trang này thành văn bản thực.

Để làm như vậy, hãy tìm một tệp PDF chỉ có hình ảnh trong Zotero, nhấp chuột phải vào tệp đó và chọn "OCR selected PDF (s)".

Sau khi bạn nhấp vào tùy chọn này, bạn sẽ muốn kiên nhẫn. Quá trình này có thể mất một lúc, ngay cả với một tệp PDF tương đối ngắn. Và nó có thể trông giống như không có nhiều điều đang xảy ra.

Nhưng cuối cùng, bạn sẽ nhận được một cửa sổ dòng lệnh cung cấp cho bạn một số chỉ số tiến trình khi Tesseract hoạt động thông qua PDF của bạn.

Khi Tesseract kết thúc, bạn sẽ thấy một tệp đính kèm được liên kết mới trong Zotero với ".ocr.pdf" kết thúc với tên tệp. Bạn có thể sử dụng tệp này để tương tác với văn bản thực mà Tesseract đã tạo ra cho hình ảnh trang PDF của bạn. Trình lập chỉ mục của Zotero và chức năng tìm kiếm của trình đọc PDF của bạn cũng có thể làm như vậy.

Nếu bạn muốn có thể tìm kiếm văn bản mới trong PDF của mình từ Zotero, bạn có thể muốn xây dựng lại hoặc cập nhật chỉ mục Zotero của mình (Chỉnh sửa Tùy chọn > > Tìm kiếm > Xây dựng lại Chỉ mục ...).

3. Dọn dẹp thức ăn thừa.

Nếu bạn không quan tâm đến việc giữ thức ăn thừa từ quá trình chuyển đổi, bạn có thể làm sạch chúng ở giai đoạn này. Chỉ cần nhấp chuột phải vào tệp đính kèm được liên kết mới hoặc tệp gốc trong thư viện Zotero của bạn và chọn "Hiển thị tệp".

Sau đó, bạn sẽ được hiển thị thư mục lưu trữ Zotero nơi các tệp PDF của bạn được lưu trữ. Đảm bảo không chạm vào tệp or. Nhưng bất kỳ tệp văn bản còn sót lại (".txt") nào bạn có thể xóa..zotero-ft-cache``.zotero-ft-info

Và nếu bạn hài lòng với kết quả chuyển đổi, bạn cũng có thể xóa tệp PDF gốc của mình khỏi thư mục này và đổi tên tệp ".ocr.pdf" để bỏ qua phần ".ocr" trong tên tệp của nó. Sau đó, nó sẽ có cùng tên với tệp PDF gốc của bạn.

Vì vậy, liên kết tệp được lưu trữ ban đầu trong Zotero (liên kết không có biểu tượng chuỗi nhỏ) sẽ hoạt động để mở nó. Và bạn cũng có thể xóa liên kết Zotero đến tệp ".ocr.pdf" (mà bây giờ bạn đã đổi tên).

Kết thúc

Có văn bản thực trong PDF giúp bạn có thể tìm kiếm tài liệu đó. Nó cũng làm cho nó dễ dàng hơn để đánh dấu nó. Các tệp PDF cũ hơn hoặc PDF của các nguồn cũ hơn có thể không đi kèm với văn bản thực này đã có trong đó và OCR hiếm khi hoàn hảo.

Nhưng bạn có thể sử dụng Zotero để thêm một lượng văn bản chính xác vào các tệp PDF chỉ có hình ảnh của mình, điều này sẽ giúp việc chú thích và tham chiếu các tệp này dễ dàng hơn nhiều.


  1. Header image provided by Zotero via Twitter