Cài tesseract on windows 7

6

New! Save questions or answers and organize your favorite content.
Learn more.

My objective is to use OCR in Python 2.7 using Tesseract on a Windows 7 machine, but I am running into issues as for the installation process. I tried following the instruction here but the link to "tesseract-core-yyyymmdd.exe" and "tesseract-langs-yyyymmdd.exe" do not exist anymore and I can't find these .exe elsewhere online. Here's what I have done so far:

  1. installed tesseract from its executable from official tesseract-ocr page.
  2. installed via pip packages "wand", "PIL", "pyocr".

Now, if I do the following in Python:

from wand.image import Image from PIL import Image as PI import pyocr import pyocr.builders import io

No problem loading up these packages but pyocr.get_available_tools() gives me an empty list. I am sure this has to do with the missing installation .exe files above. Where can I find them? Is it something else that I am missing?

asked Mar 16, 2017 at 10:38

I just tried to set up pytesseract and it works ! I have windows 10 and python 2.7 installed.

all you need to do :

  1. Download Visual basic C++ from http://aka.ms/vcpython27 and install it (common installation step)
  2. Download tesseract from python via this link https://pypi.python.org/pypi/pytesseract

  3. Unizip the file.

  4. Go to the directory which contains the unizip file

  5. Run this command " python setup.py install "

  6. (Additional) to test if it's installed, go to your python shell and run this command " import pytesseract "

I hope it works !! Note pytesseract is google based OCR, it works similarly to tesseract.

answered Apr 5, 2017 at 8:11

1

Step [1] To install tesseract kindly visit

https://github.com/UB-Mannheim/tesseract/wiki

The latest installers can be downloaded from here: e.g., tesseract-ocr-setup-3.05.02-20180621.exe, tesseract-ocr-w32-setup-v4.0.0-beta.1.20180608.exe, tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe (64 bit)

Step [2] Download Microsoft Visual C++ Compiler for Python 2.7 from the link given below https://download.microsoft.com/download/7/9/6/796EF2E4-801B-4FC4-AB28-B59FBF6D907B/VCForPython27.msi

Step [3] Install pytesseract for binding for tesseract using pip

pip install pytesseract

Step [4] Furthermore you can install an image processing library in python, e.g., pillow:

pip install pillow

greetings!! you are done!! :)

answered Jul 7, 2018 at 14:01

PIP is a package manager for Python packages

  1. Open cmd run pip search "pytesseract", you can see latest version
  2. Run pip install pytesseract for latest version or pip install pytesseract==0.3.0 for version you want.
  3. In windows python cmd run import pytesseract for sure installed was successful.

answered Nov 27, 2019 at 6:56

answered Mar 22, 2018 at 8:49

Cài tesseract on windows 7

AbhishekAbhishek

3,2574 gold badges30 silver badges50 bronze badges

Tesseract-OCR là giải pháp nhận dạng ký tự quang học được HP Labs sáng tạo và giờ đây đang được phát triển bởi hãng Google, nhằm trợ giúp người dùng thu thập các ký tự trên hình ảnh. Đặc biệt, Tesseract-OCR còn có khả năng hỗ trợ thực thi nhanh qua dấu nhắc lệnh và tạo tập tin văn bản định dạng TXT để lưu các nội dung được trích xuất.

Việc chuyển các ký tự vào các hình ảnh đồ họa không phải là nhiệm vụ quá khó khăn nhưng để trích xuất các từ hay ký tự từ một tập tin hình ảnh lại khá rắc rối. Để thực hiện công việc này, người dùng cần sử dụng một công cụ đặc biệt sở hữu rất nhiều tính năng hữu ích có tên là Tesseract-OCR.

Cài tesseract on windows 7

Nhiều lựa chọn cài đặt

Trước khi bắt đầu sử dụng công cụ, người dùng cần tải Tesseract-OCR và chú ý đến quy trình cài đặt ứng dụng bởi Tesseract-OCR cung cấp rất nhiều yếu tố phụ hữu ích cần thiết khi xử lý các tài liệu bằng nhiều ngoại ngữ khác nhau.

Trong số đó, mục "Language data" (dữ liệu ngôn ngữ) cho phép người dùng chọn các ngôn ngữ muốn sử dụng và bổ sung các mô-đun phát hiện phương trình và thuật toán trong trường hợp người dùng muốn trích xuất dạng dữ liệu này.

Để chuyển đổi ảnh, PDF và tài liệu được scan sang định dạng khác, bạn có thể sử dụng phần mềm Image to OCR Converter hoạt động dựa trên công nghệ nhận diện ký tự quang học, ưu điểm của Image to OCR Converter còn cung cấp các chức năng bảo mật tài liệu thông dụng bao gồm bảo vệ bằng mật khẩu và nhúng watermark.

Không có giao diện GUI và thực thi nhanh qua Command Prompt

Ngay sau khi Tesseract-OCR được cài đặt vào hệ thống, người dùng dễ dàng khai thác các tính năng của ứng dụng qua dòng lệnh và bắt đầu sử dụng ứng dụng ngay lập tức. Khi xử lý các tập tin đích, người dùng sẽ phải áp dụng một số thông số cần thiết để thực hiện các thao tác này.

Các giá trị quan trọng nhất là các giá trị của thông số 'pagesegmode' và chủ yếu liên quan đến việc phân trang và xử lý hình ảnh.

PDF OCR cũng là phần mềm đọc file PDF hiệu quả được nhiều người sử dụng, bên cạnh đó PDF OCR còn có nhiều công cụ thay đổi font chữ, tùy chọn liên kết, tìm kiếm đoạn văn và lựa chọn thay thế... cho tài liệu của bạn.

Khả năng hoạt động nhanh và hỗ trợ đầu ra

Một trong những ưu điểm chính của Tesseract-OCR là ứng dụng có khả năng nhận diện và xử lý nhiều loại tập tin hình ảnh đồ họa. Một đặc điểm khác nữa là tốc độ xử lý của Tesseract-OCR cực kỳ nhanh chóng, đảm bảo đáp ứng nhu cầu sử dụng người dùng.

Để lưu các nội dung được trích xuất, chương trình Tesseract-OCR tạo ra các tập tin văn bản có định dạng TXT theo tên được đặt trước khi người dùng bắt đầu sử dụng tác vụ.

Tóm lại, Tesseract-OCR là công cụ dòng lệnh không mấy khó hiểu, kể cả với người dùng ít kinh nghiệm bởi Tesseract-OCR sử dụng cú pháp cực kỳ đơn giản với khả năng xử lý nhanh và chính xác hơn rất nhiều các ứng dụng có tính năng tương tự.

Các tính năng chính của Tesseract-OCR:

- Cho phép chọn ngôn ngữ muốn sử dụng.

- Bổ sung mô-đun phát hiện phương trình và thuật toán.

- Không có giao diện GUI.

- Hỗ trợ thực thi nhanh qua dấu nhắc lệnh Command Prompt.

- Tốc độ xử lý nhanh.

- Tạo tập tin văn bản định dạng TXT.