Vision VNTextObservationを文字列に変換する

Question

Appleの Vision APIドキュメントを調べていると、UIImagesのテキスト検出に関連するクラスがいくつかあります。

1） class VNDetectTextRectanglesRequest

2） class VNTextObservation

彼らは文字を検出できるように見えますが、私は文字で何かをする手段がわかりません。文字が検出されたら、 NSLinguisticTagger で解釈できるものに変換するにはどうすればよいですか？

Vision の簡単な概要である投稿はこちらです。

読んでくれてありがとう。

Adrian · Accepted Answer

AppleはついにVisionを更新してOCRを実行しました。プレイグラウンドを開き、Resourcesフォルダーにいくつかのテストイメージをダンプします。私の場合、「demoDocument.jpg」と「demoLicensePlate.jpg」と呼びました。

新しいクラスはVNRecognizeTextRequestと呼ばれます。これを遊び場に捨てて旋回させます：

import Vision enum DemoImage: String { case document = "demoDocument" case licensePlate = "demoLicensePlate" } class OCRReader { func performOCR(on url: URL?, recognitionLevel: VNRequestTextRecognitionLevel) { guard let url = url else { return } let requestHandler = VNImageRequestHandler(url: url, options: [:]) let request = VNRecognizeTextRequest { (request, error) in if let error = error { print(error) return } guard let observations = request.results as? [VNRecognizedTextObservation] else { return } for currentObservation in observations { let topCandidate = currentObservation.topCandidates(1) if let recognizedText = topCandidate.first { print(recognizedText.string) } } } request.recognitionLevel = recognitionLevel try? requestHandler.perform([request]) } } func url(for image: DemoImage) -> URL? { return Bundle.main.url(forResource: image.rawValue, withExtension: "jpg") } let ocrReader = OCRReader() ocrReader.performOCR(on: url(for: .document), recognitionLevel: .fast)

詳細な議論 WWDC19からのこれがあります

brian.clear · Answer

SwiftOCR

SwiftOCRで小さなテキストセットを操作できるようになりました。

https://github.com/garnele007/SwiftOCR

使用する

https://github.com/Swift-AI/Swift-AI

neuralNet-MNISTモデルをテキスト認識に使用します。

TODO：VNTextObservation> SwiftOCR

一度接続すると、VNTextObservationを使用してその例を投稿します。

OpenCV + Tesseract OCR

OpenCV + Tesseractを使用しようとしましたが、コンパイルエラーが発生し、SwiftOCRが見つかりました。

参照：Google Vision iOS

Google Visionテキスト認識-Android sdkにはテキスト検出がありますが、iOS cocoapodもあります。したがって、最終的にiOSにテキスト認識を追加する必要があるので、注意してください。

https://developers.google.com/vision/text-overview

//修正：試してみましたが、AndroidバージョンのSDKのみがテキスト検出をサポートしています。

https://developers.google.com/vision/text-overview

リリースをサブスクライブする場合： https://libraries.io/cocoapods/GoogleMobileVision

CocoapodのiOS部分にTextDetectionが追加されたときに確認できるリリースに登録をクリックします

Dimillian · Answer

誰かがより良い解決策を持っている場合、これに自分の進歩を追加する：

画面にリージョンボックスとキャラクターボックスを正常に描画しました。 AppleのビジョンAPIは、実際には非常に高性能です。ビデオの各フレームを画像に変換し、認識機能にフィードする必要があります。カメラからピクセルバッファーを直接供給するよりもはるかに正確です。

 if #available(iOS 11.0, *) { guard let pixelBuffer = CMSampleBufferGetImageBuffer(sampleBuffer) else {return} var requestOptions:[VNImageOption : Any] = [:] if let camData = CMGetAttachment(sampleBuffer, kCMSampleBufferAttachmentKey_CameraIntrinsicMatrix, nil) { requestOptions = [.cameraIntrinsics:camData] } let imageRequestHandler = VNImageRequestHandler(cvPixelBuffer: pixelBuffer, orientation: 6, options: requestOptions) let request = VNDetectTextRectanglesRequest(completionHandler: { (request, _) in guard let observations = request.results else {print("no result"); return} let result = observations.map({$0 as? VNTextObservation}) DispatchQueue.main.async { self.previewLayer.sublayers?.removeSubrange(1...) for region in result { guard let rg = region else {continue} self.drawRegionBox(box: rg) if let boxes = region?.characterBoxes { for characterBox in boxes { self.drawTextBox(box: characterBox) } } } } }) request.reportCharacterBoxes = true try? imageRequestHandler.perform([request]) } }

今、私は実際にテキストを調整しようとしています。 Appleは、組み込みOCRモデルを提供しません。そして、私はそれを行うためにCoreMLを使用したいので、Tesseractのトレーニング済みデータモデルをCoreMLに変換しようとしています。

Tesseractモデルはここで見つけることができます： https://github.com/tesseract-ocr/tessdata 次のステップはcoremltoolsコンバーターを書くことだと思いますこれらのタイプの入力をサポートし、.coreMLファイルを出力します。

または、TesseractiOSに直接リンクして、Vision APIから取得したリージョンボックスとキャラクターボックスをフィードに入力することもできます。

DrNeurosurg · Answer

これはそれを行う方法です...

 // // ViewController.Swift // import UIKit import Vision import CoreML class ViewController: UIViewController { //HOLDS OUR INPUT var inputImage:CIImage? //RESULT FROM OVERALL RECOGNITION var recognizedWords:[String] = [String]() //RESULT FROM RECOGNITION var recognizedRegion:String = String() //OCR-REQUEST lazy var ocrRequest: VNCoreMLRequest = { do { //THIS MODEL IS TRAINED BY ME FOR FONT "Inconsolata" (Numbers 0...9 and UpperCase Characters A..Z) let model = try VNCoreMLModel(for:OCR().model) return VNCoreMLRequest(model: model, completionHandler: self.handleClassification) } catch { fatalError("cannot load model") } }() //OCR-HANDLER func handleClassification(request: VNRequest, error: Error?) { guard let observations = request.results as? [VNClassificationObservation] else {fatalError("unexpected result") } guard let best = observations.first else { fatalError("cant get best result")} self.recognizedRegion = self.recognizedRegion.appending(best.identifier) } //TEXT-DETECTION-REQUEST lazy var textDetectionRequest: VNDetectTextRectanglesRequest = { return VNDetectTextRectanglesRequest(completionHandler: self.handleDetection) }() //TEXT-DETECTION-HANDLER func handleDetection(request:VNRequest, error: Error?) { guard let observations = request.results as? [VNTextObservation] else {fatalError("unexpected result") } // EMPTY THE RESULTS self.recognizedWords = [String]() //NEEDED BECAUSE OF DIFFERENT SCALES let transform = CGAffineTransform.identity.scaledBy(x: (self.inputImage?.extent.size.width)!, y: (self.inputImage?.extent.size.height)!) //A REGION IS LIKE A "Word" for region:VNTextObservation in observations { guard let boxesIn = region.characterBoxes else { continue } //EMPTY THE RESULT FOR REGION self.recognizedRegion = "" //A "BOX" IS THE POSITION IN THE ORIGINAL IMAGE (SCALED FROM 0... 1.0) for box in boxesIn { //SCALE THE BOUNDING BOX TO PIXELS let realBoundingBox = box.boundingBox.applying(transform) //TO BE SURE guard (inputImage?.extent.contains(realBoundingBox))! else { print("invalid detected rectangle"); return} //SCALE THE POINTS TO PIXELS let topleft = box.topLeft.applying(transform) let topright = box.topRight.applying(transform) let bottomleft = box.bottomLeft.applying(transform) let bottomright = box.bottomRight.applying(transform) //LET'S CROP AND RECTIFY let charImage = inputImage? .cropped(to: realBoundingBox) .applyingFilter("CIPerspectiveCorrection", parameters: [ "inputTopLeft" : CIVector(cgPoint: topleft), "inputTopRight" : CIVector(cgPoint: topright), "inputBottomLeft" : CIVector(cgPoint: bottomleft), "inputBottomRight" : CIVector(cgPoint: bottomright) ]) //PREPARE THE HANDLER let handler = VNImageRequestHandler(ciImage: charImage!, options: [:]) //SOME OPTIONS (TO PLAY WITH..) self.ocrRequest.imageCropAndScaleOption = VNImageCropAndScaleOption.scaleFill //FEED THE CHAR-IMAGE TO OUR OCR-REQUEST - NO NEED TO SCALE IT - VISION WILL DO IT FOR US !! do { try handler.perform([self.ocrRequest]) } catch { print("Error")} } //APPEND RECOGNIZED CHARS FOR THAT REGION self.recognizedWords.append(recognizedRegion) } //THATS WHAT WE WANT - PRINT WORDS TO CONSOLE DispatchQueue.main.async { self.PrintWords(words: self.recognizedWords) } } func PrintWords(words:[String]) { // VOILA' print(recognizedWords) } func doOCR(ciImage:CIImage) { //PREPARE THE HANDLER let handler = VNImageRequestHandler(ciImage: ciImage, options:[:]) //WE NEED A BOX FOR EACH DETECTED CHARACTER self.textDetectionRequest.reportCharacterBoxes = true self.textDetectionRequest.preferBackgroundProcessing = false //FEED IT TO THE QUEUE FOR TEXT-DETECTION DispatchQueue.global(qos: .userInteractive).async { do { try handler.perform([self.textDetectionRequest]) } catch { print ("Error") } } } override func viewDidLoad() { super.viewDidLoad() // Do any additional setup after loading the view, typically from a nib. //LETS LOAD AN IMAGE FROM RESOURCE let loadedImage:UIImage = UIImage(named: "Sample1.png")! //TRY Sample2, Sample3 too //WE NEED A CIIMAGE - NOT NEEDED TO SCALE inputImage = CIImage(image:loadedImage)! //LET'S DO IT self.doOCR(ciImage: inputImage!) } override func didReceiveMemoryWarning() { super.didReceiveMemoryWarning() // Dispose of any resources that can be recreated. } }

完全なプロジェクトが見つかります here 含まれているのは訓練されたモデルです！

nathan · Answer

GitHubユーザーのおかげで、例をテストできます。 https://Gist.github.com/Koze/e59fa3098388265265e578dee6b3ce89dd8

- (void)detectWithImageURL:(NSURL *)URL { VNImageRequestHandler *handler = [[VNImageRequestHandler alloc] initWithURL:URL options:@{}]; VNDetectTextRectanglesRequest *request = [[VNDetectTextRectanglesRequest alloc] initWithCompletionHandler:^(VNRequest * _Nonnull request, NSError * _Nullable error) { if (error) { NSLog(@"%@", error); } else { for (VNTextObservation *textObservation in request.results) { // NSLog(@"%@", textObservation); // NSLog(@"%@", textObservation.characterBoxes); NSLog(@"%@", NSStringFromCGRect(textObservation.boundingBox)); for (VNRectangleObservation *rectangleObservation in textObservation.characterBoxes) { NSLog(@" |-%@", NSStringFromCGRect(rectangleObservation.boundingBox)); } } } }]; request.reportCharacterBoxes = YES; NSError *error; [handler performRequests:@[request] error:&error]; if (error) { NSLog(@"%@", error); } }

つまり、結果は、検出された各文字の境界ボックスの配列です。 Visionのセッションから収集したことから、CoreMLを使用して実際の文字を検出することになっていると思います。

推奨されるWWDC 2017の講演： Vision Framework：Core MLでの構築（まだ見終わっていない）、MNISTVisionと呼ばれる同様の例について25:50を見てください

もう1つの気の利いたアプリCoreMLを使用した手書き認識のためのMNISTモデルのトレーニングのためのKeras（Tensorflow）の使用のデモンストレーション： Github

Foti Dim · Answer

Firebase MLキットは、iOS（およびAndroid）でオンデバイス Vision API を使用して実行し、TesseractおよびSwiftOCRよりも優れています。

Andre Guerra · Answer

GoogleのTesseract OCRエンジンを使用して、画像を実際の文字列に変換しています。 cocoapodsを使用してXcodeプロジェクトに追加する必要があります。 Tesseractはテキストを含む画像を単純にフィードする場合でもOCRを実行しますが、より良い/高速に実行する方法は、検出されたテキストの長方形を使用して、実際にテキストを含む画像の一部をフィードすることです。便利になります。エンジンへのリンクは次のとおりです。 Tesseract OCR そして、テキスト検出+ OCRが既に実装されているプロジェクトの現在の段階へのリンクは次のとおりです。 Out Loud-Camera to Speech Hopeこれらはいくつかの用途があります。幸運を！

Roberto Ferraz · Answer

まだ解決策を探している人のために、私は簡単に library を書いてこれを行いました。 Vision APIとTesseractの両方を使用し、質問が説明するタスクを1つの方法で実現するために使用できます。

func sliceaAndOCR(image: UIImage, charWhitelist: String, charBlackList: String = "", completion: @escaping ((_: String, _: UIImage) -> Void))

このメソッドは、画像内のテキストを検索し、見つかった文字列と、テキストが見つかった場所を示す元の画像のスライスを返します