| 
    
            
         
         | 
    
    
  | 
API для распознавания текста. Хороший и бесплатный | ☑ | ||
|---|---|---|---|---|
| 
    0
    
        ИС-2    
     11.02.21 
            ✎
    09:26 
 | 
         
        Надо в автоматическом режиме распознать текст в определенных областях документа. 
 
        Есть бесплатные API для этого? Кто пользовался и чем  | 
|||
| 
    1
    
        ДенисЧ    
     11.02.21 
            ✎
    09:30 
 | 
         
        У меня девочки-операторы этим занимаются.
 
        Обычно хорошо делают. Правда, не бесплатно, за зарплату...  | 
|||
| 
    2
    
        Emery    
     11.02.21 
            ✎
    11:00 
 | 
         
        Обычно для распознавания текста используется универсальная опенсорсная библиотека компьютерного зрения OpenCV ( https://ru.wikipedia.org/wiki/OpenCV ). Имеется достаточно примеров в сети, в т.ч., на Питоне. Однако конкретную программу или скрипт придется писать самому, так как задача распознавания текста, в целом, достаточно нетривиальная.
 
        Я пробовал распознавать встроенные субтитры для ютубовских видеороликов, серии «Easy French». Алгоритм использую собственный. Общая идея. Вручную, точнее мышкой на видео, задаю область с текстом. С помощью OpenCV обрабатываю каждый кадр. Выделяю текстовую область, делаю ее черно-белой, затем с помощью хэш-кода, выделяю уникальные изображения (см. мою тему «Как группировать бинарные матрицы по степени их похожести?» в https://dxdy.ru/topic142232.html ). Их можно уже распознавать вручную либо с помощью алгоритмов, для целей машинного обучения. В любом случае, оператор работает только с уникальными данными. Далее, при достаточно накопленной базе, процесс распознавания текста становиться полностью или почти полностью автоматизированным. Однако в OpenCV есть и готовые алгоритмы для распознавания. Но их трудно понять без должной подготовки, именно поэтому я эту библиотеку использовал в основном для обработки «живого» видео. А если задействовать FFmpeg, то и без OpenCV можно обойтись. Хотя библиотека, безусловно, мощная и используется повсеместно, в т.ч. в системах ИИ.  | 
|||
| 
    3
    
        Garykom    
     гуру 
    11.02.21 
            ✎
    11:04 
 | 
         
        (0) бесплатных считай нет готовых, или платно или сиди сам готовь из полуфабрикатов     
         | 
|||
| 
    4
    
        Юрий Лазаренко    
     11.02.21 
            ✎
    11:26 
 | 
         
        CuneiForm     
         | 
|||
| 
    5
    
        acht    
     11.02.21 
            ✎
    11:28 
 | 
         
        (4) Точно. Оно даже по-моему в документооборот уже впилено, можно всю обвязку оттуда взять.     
         | 
|||
| 
    6
    
        Mikeware    
     11.02.21 
            ✎
    11:29 
 | 
         
        может, кто подкинет идею - как продетектировать наличие печати?
 
        (пока пытаюсь найти круг в области). вообще, интересная тенма с распознованием - отвлекает от СКД  | 
|||
| 
    7
    
        acht    
     11.02.21 
            ✎
    11:37 
 | 
         
        (6) Преобразование Хафа? 
 
        http://ics.khstu.ru/media/2011/N27_17.pdf  | 
|||
| 
    8
    
        Garykom    
     гуру 
    11.02.21 
            ✎
    11:44 
 | 
         
        (6) На цветном скане легко, на чб/сером сложней     
         | 
|||
| 
    9
    
        spiller26    
     11.02.21 
            ✎
    12:15 
 | 
         
        Занимаетесь ерундой, всё равно потом нужно будет оператору просматривать, что там распознавалось.
 
        Сколько я не встречал api и программ всё равно будут "грабли". 2 фактора, 1 - машинный, 2 человеческий. Своё ИИ делать и обучать.  | 
|||
| 
    10
    
        Mikeware    
     11.02.21 
            ✎
    12:22 
 | 
         
        (7) спасибо!     
         | 
|||
| 
    11
    
        Волшебник    
     11.02.21 
            ✎
    12:23 
 | 
         
        Хороший, бесплатный и быстрый? Выберите любые два!     
         | 
|||
| 
    12
    
        Вафель    
     11.02.21 
            ✎
    12:24 
 | 
         
        (10) там вроде ищут оттиск конкретной печати     
         | 
|||
| 
    13
    
        hhhh    
     11.02.21 
            ✎
    12:27 
 | 
         
        (0) подумал, что вы предлагаете. А тут облом.     
         | 
|||
| 
    14
    
        Mikeware    
     11.02.21 
            ✎
    12:30 
 | 
         
        (12) ну, кой-что применю.     
         | 
|||
| 
    15
    
        Кирпич    
     11.02.21 
            ✎
    12:51 
 | 
         
        Tesseract-OCR     
         | 
| Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |