دورية أكاديمية

Advances and Limitations in Open Source Arabic-Script OCR: A Case Study

التفاصيل البيبلوغرافية
العنوان: Advances and Limitations in Open Source Arabic-Script OCR: A Case Study
المؤلفون: Kiessling, Benjamin, Kurin, Gennady, Miller, Matthew Thomas, Smail, Kader
المصدر: Digital Studies/le champ numérique (DSCN) Open Issue 2021 ; Digital Studies / Le champ numérique ; volume 11, issue 1 ; ISSN 1918-3666
بيانات النشر: Open Library of the Humanities
سنة النشر: 2021
المجموعة: Open Library of Humanities (OLH - via CrossRef)
مصطلحات موضوعية: Computer Science Applications, General Social Sciences, General Arts and Humanities
الوصف: This work presents an accuracy study of the open source OCR engine, Kraken, on the leading Arabic scholarly journal, al-Abhath. In contrast with other commercially available OCR engines, Kraken is shown to be capable of producing highly accurate Arabic-script OCR. The study also assesses the relative accuracy of typeface-specific and generalized models on the al-Abhath data and provides a microanalysis of the “error instances” and the contextual features that may have contributed to OCR misrecognition. Building on this analysis, the paper argues that Arabic-script OCR can be significantly improved through (1) a more systematic approach to training data production, and (2) the development of key technological components, especially multi-language models and improved line segmentation and layout analysis./Cet article présente une étude d’exactitude du moteur ROC open source, Krakan, sur la revue académique arabe de premier rang, al-Abhath. Contrairement à d’autres moteurs ROC disponibles sur le marché, Kraken se révèle être capable de produire de la ROC extrêmement exacte de l’écriture arabe. L’étude évalue aussi l’exactitude relative des modèles spécifiquement configurés à des polices et celle des modèles généralisés sur les données d’al-Abhath et fournit une microanalyse des « occurrences d’erreurs », ainsi qu’une microanalyse des éléments contextuels qui pourraient avoir contribué à la méreconnaissance ROC. S’appuyant sur cette analyse, cet article fait valoir que la ROC de l’écriture arabe peut être considérablement améliorée grâce à (1) une approche plus systématique d’entraînement de la production de données et (2) grâce au développement de composants technologiques fondamentaux, notammentl’amélioration des modèles multilingues, de la segmentation de ligne et de l’analyse de la mise en page.
نوع الوثيقة: article in journal/newspaper
اللغة: unknown
DOI: 10.16995/dscn.8094
الإتاحة: https://doi.org/10.16995/dscn.8094Test
https://www.digitalstudies.org/article/8094/galley/21559/downloadTest/
رقم الانضمام: edsbas.8C2C1F27
قاعدة البيانات: BASE