如何在 .NET 中使用 Tesseract 识别图片文字
1. 什么是 Tesseract
Tesseract 是一个强大的字符识别 (OCR) 工具。它最初由 HP 发布,现在由 Google 和学术社区共同维护和开发。 Tesseract 支持多种语言和格式,能够高效地识别图片中的文字。
2. 如何安装 Tesseract
要在 .NET 项目中使用 Tesseract,需要安装相关的 NuGet 包和基础依赖。步骤如下:
在项目中通过 NuGet 安装 Tesseract 包:
dotnet add package Tesseract
安装 SkiaSharp 来处理图片:
dotnet add package SkiaSharp
3. 训练数据从哪里下载
Tesseract 需要训练数据文件来识别图片中的文字。这些训练数据文件可以从 Tesseract OCR GitHub https://github.com/tesseract-ocr/tessdata下载。选择您需要的语言文件,并放置在项目相关目录中。
4. 如何使用 Tesseract
使用 Tesseract 识别图片中的文字,可以通过以下步骤完成:
- 创建一个 HttpClient 和 Logger ,用于下载图片和记录日志。
- 使用 SkiaSharp 来处理图片。
- 使用 Tesseract 完成 OCR 识别。
例子如下:
using SkiaSharp; using Tesseract; namespace AutoGetOrder.WebAPI.Services.TesseractService { public class TesseractOCRService { private readonly HttpClient _httpClient; private readonly ILogger_logger; public TesseractOCRService(HttpClient httpClient, ILogger logger) { _httpClient = httpClient; _logger = logger; } public async Task Do(string imageUrl) { try { byte[] imageBytes = await DownloadImageAsync(imageUrl); using (var skBitmap = SKBitmap.Decode(imageBytes)) { var processedBitmap = PreprocessImage(skBitmap); using (var pix = ConvertSKBitmapToPix(processedBitmap)) { string captchaText = RecognizeText(pix); return captchaText; } } } catch (Exception ex) { _logger.LogError(ex.ToString()); return string.Empty; } } private async Task DownloadImageAsync(string url) { return await _httpClient.GetByteArrayAsync(url); } private SKBitmap PreprocessImage(SKBitmap bitmap) { return bitmap; } private Pix ConvertSKBitmapToPix(SKBitmap skBitmap) { using (var image = SKImage.FromBitmap(skBitmap)) using (var data = image.Encode(SKEncodedImageFormat.Png, 100)) { return Pix.LoadFromMemory(data.ToArray()); } } private string RecognizeText(Pix pix) { using (var engine = new TesseractEngine(@"./Services/TesseractService", "eng", EngineMode.Default)) { using (var page = engine.Process(pix)) { return page.GetText(); } } } } }
5. Docker 环境中安装依赖
如果您在 Docker 环境中使用 Tesseract,需要确保基础依赖已经安装。参考PR https://github.com/charlesw/tesseract/issues/675 可以参考下面的 Dockerfile:
RUN apt-get update && apt-get install -y libfontconfig1 libfreetype6 libpng16-16 libjpeg62-turbo libx11-6 libxext6 libxrender1 tesseract-ocr libtesseract-dev libleptonica-dev RUN ln -s /usr/lib/x86_64-linux-gnu/libdl.so.2 /usr/lib/x86_64-linux-gnu/libdl.so WORKDIR /app/x64 RUN ln -s /usr/lib/x86_64-linux-gnu/liblept.so.5 /app/x64/libleptonica-1.82.0.so RUN ln -s /usr/lib/x86_64-linux-gnu/libtesseract.so.5 /app/x64/libtesseract50.so
这些依赖确保 Tesseract 和其依赖库在 Docker 中正常运行。
6.一个例子
识别结果
到此这篇关于在 .NET 中使用 Tesseract 识别图片文字的文章就介绍到这了,更多相关.NET Tesseract 识别图片文字内容请搜索科站长以前的文章或继续浏览下面的相关文章希望大家以后多多支持科站长!
上一篇:ASP.NET Core Web API之Token验证的实现
栏 目:ASP.NET
下一篇:.NET 9 new features-Microsoft.ML.Tokenizers 库(文本标记化功能)
本文标题:如何在 .NET 中使用 Tesseract 识别图片文字
本文地址:https://www.fushidao.cc/wangluobiancheng/3318.html
您可能感兴趣的文章
- 03-31详解如何在.NET代码中使用本地部署的Deepseek语言模型
- 02-06.net core如何使用Nacos注册中心
- 01-28使用.NET8构建一个高效的时间日期帮助类
- 01-26.NET Core GC压缩(compact_phase)底层原理解析
- 01-24在ASP.NET中读写TXT文本文件的多种方法
- 01-24在ASP.NET中读写XML数据的多种方法
- 01-24.NET轻松实现Excel转PDF的三种方法详解
- 01-23.NET9 AOT部署方案详解
- 01-23.NET NativeAOT 用法指南
- 01-23iis部署前后端分离项目全过程(Vuet前端和.NET6后端)


阅读排行
推荐教程
- 03-31详解如何在.NET代码中使用本地部署的Deepseek语言模型
- 11-23移动互联网广告有哪些模式?
- 11-22.net 应对网站访问压力的方案总结
- 11-22详解ASP.NET提取多层嵌套json数据的方法
- 11-23网站投放广告如何达到最好的效果
- 11-22.net 应对网站访问压力的方案总结
- 11-23网站打开速度慢解决办法
- 11-23草根站长为什么喜欢做门户站
- 11-22ASP.NET MVC分页问题解决
- 11-22ASP.NET编程简单实现生成静态页面的方法