|   |   | 
| 
 | Запилил расширение для распознавания текста, нужна оценка деятельности =) | ☑ | ||
|---|---|---|---|---|
| 0
    
        trim89 12.03.19✎ 08:41 | 
        Доброго времени суток.
 В свободное от прямых обязанностей время, сделал расширение, которое с помощью FineReader парсит сканы, pdf, а после загружает в 1с. Фишка в том, что настройку загрузки сделал очень гибкой, что позволяет загружать не только стандартные файлы (типа счет на оплату, торг-12 и прочее). Сперва протестировал у себя на отделе закупа. Они были сверх довольны, что больше не приходиться вручную вбивать особые файлы от вендера по 100 строк. Теперь вопросы сообществу. Актуальна ли такая штука в других сферах? Стоит ли развивать идею вплоть до коммерческого продукта? Может будет критика, пожелания, советы, свои идеи? https://yadi.sk/d/vmGs0w7BdT0utg В папке документация и само расширение. Заранее спасибо. | |||
| 1
    
        ПростоГен 12.03.19✎ 08:41 | 
        (0) А файнридер уже бесплатным стал?     | |||
| 2
    
        trim89 12.03.19✎ 08:42 | 
        (1) Нет, но все прекрасно знают где его достать     | |||
| 3
    
        ПростоГен 12.03.19✎ 08:43 | 
        (2) А, ну с таким подходом конечно, надо делать коммерческий продукт.     | |||
| 4
    
        Shur1cIT 12.03.19✎ 09:03 | 
        (0) уже есть бесплатные копоненты применяются в 1С Документооборот.     | |||
| 5
    
        Shur1cIT 12.03.19✎ 09:03 | 
        (4) копоненты = компоненты     | |||
| 6
    
        Garykom гуру 12.03.19✎ 09:04 | 
        (0)
 1. Расширить от платного FineReader'а в пользу других решений 2. "Ключ структуры" это замечательно, но не учтено что распознавание может быть проведено с ошибками в тексте и "Акт сверки расчетов бонуса ..." может превратиться в "Апт сварки раечетав бануса ..." 3. Самое вкусное это распознание и загрузка табличных частей - почти ничего нет в документации. Оно в натуре работает? Не верю, сам давно пробовал и проблем там выше крыше даже если выкинуть распознание сканов а брать файлы xls, dbf или html. | |||
| 7
    
        trim89 12.03.19✎ 09:04 | 
        (4) В документообороте, насколько помню, просто выделяется текст из документа для поиска этого документа. Речь а загрузке данных не идет.     | |||
| 8
    
        trim89 12.03.19✎ 09:09 | 
        (6) 1) Испробовал что можно. PUMA, tesseract, еще что то. Качество самого распознавания очень низкое
 2) Собственно, это прописано в документации. По большому счету, нужно снова настройки делать. Возможно потом развитие. 3) А что мне писать? распарсилось, настроили, загрузили. На тестовых примерах работало. Проблем много, все не опишешь. На конкретные вопросы попытаюсь ответить. | |||
| 9
    
        Garykom гуру 12.03.19✎ 09:14 | ||||
| 10
    
        Fish гуру 12.03.19✎ 09:15 | 
        (7) Так а кто мешает взять бесплатное распознавание от ДО, и уже на его основе загрузить данные? Имхо, это всяко лучше, чем с платным FineReader'ом.     | |||
| 11
    
        Garykom гуру 12.03.19✎ 09:19 | 
        Это 1.
 2. "Нечеткое сравнение строк" 3. Там до коммерческого продукта пилить и пилить. Я у себя стопарнул на определении какую подобрать правильную номенклатуру из имеющейся чтобы не плодить новую. Строки наименований номенклатуры от разных поставщиков отличаются сильно хотя это тоже самое. Задействовал все что можно вплоть до наиболее подходящего из https://tproger.ru/translations/top-machine-learning-algorithms/. Результаты некие есть но это не коробочный продукт а самопальный конструктор где кроме меня никто нифига не понимает )) | |||
| 12
    
        Shur1cIT 12.03.19✎ 09:19 | 
        (10) я понял в чем фишка, там не тупо распознование текста FineReader может распозновывать скан как документ, а не как текст те пределять где что в документе находиться     | |||
| 13
    
        trim89 12.03.19✎ 09:20 | 
        (9) они платные, насколько я понял. В чем отличие от https://cloud.ocrsdk.com?     | |||
| 14
    
        trim89 12.03.19✎ 09:21 | 
        (10) Что такое ДО?     | |||
| 15
    
        Timon1405 12.03.19✎ 09:21 | 
        (14) 1С:Документооборот     | |||
| 16
    
        trim89 12.03.19✎ 09:23 | 
        (15) Не подходит, распознование ДО не сохраняет структуру документа, поэтому сложная структура, то будет каша, из которой мало что вытянешь Во всяком случае, когда смотрел, было так.     | |||
| 17
    
        Shur1cIT 12.03.19✎ 09:24 | 
        (15) документооборот тупо распознаёт текст как текст, а не как документ.тоесть он не вернет тебе структуру документа предётся самостоятельно искать где у тебя товары где контрагент итд     | |||
| 18
    
        Garykom гуру 12.03.19✎ 09:26 | 
        Забейте на распознавание не проблема человеку отметить вручную где табличка.
 Да и заполнение шапки это наименьшая из проблем. Короче есть табличка Экселя с данными - плиз засуньте это в ТЧ документа. Причем входная табличка может быть любого формата как отправителю в голову придет. И внутри все что угодно а надо подобрать из нашей базы по справочникам. | |||
| 19
    
        trim89 12.03.19✎ 09:27 | 
        (11) Нечеткое сравнение - это хорошо, гляну накануне. По подбору, по наименованию никто и не смотрит. Если сейчас закуп загружает, то смотрится по артикулу поставщика, а они все занесены как доп реквизиты, поэтому находит.     | |||
| 20
    
        Garykom гуру 12.03.19✎ 09:27 | 
        Я еще не встретил не одного менагера который не смог бы по электронке скинуть документ в XLS формате, копию присланных бумажных.     | |||
| 21
    
        Garykom гуру 12.03.19✎ 09:30 | 
        (19) Если "артикул поставщика" запрятан внутри длинной строки наименования?
 А если артикулы сцуко повторяются и надо еще дополнительные данные анализировать чтобы знать какой выбрать, причем товары одного производителя разные перепродавцы-поставщики предлагают с разными строками наименований и по разному артикул в них запрятан. | |||
| 22
    
        trim89 12.03.19✎ 09:30 | 
        (18) Как бы да, но у меня не совсем так. На данный момент, считается что таблица не может быть прям любой любой. Есть шапка, возможно многоуровневая, под ней идут строки, это закрывает 90% всех нужд. А внутри, действительно что угодно, по этому что угодно пытаюсь информацию вытянуть.     | |||
| 23
    
        elCust 12.03.19✎ 09:31 | 
        Было бы круто распознавать ценник. К примеру в магазине сфоткал ценник, он ушел с МК на сервер, там распознался и в базу.     | |||
| 24
    
        Garykom гуру 12.03.19✎ 09:32 | 
        (22) У вас автоматизация мартышкиного труда.
 Если есть печатная форма то она откуда то взялась так? Так блин позвоните/напишите туда откуда и попросите прислать в XLS (мы сча просим а лучше в DBF или XML) | |||
| 25
    
        trim89 12.03.19✎ 09:33 | 
        (21) обычно артикул выделяется в отдельной колонке. Я не выдаю супер универсальное решение от всех проблем, на все времена, поэтому если артикул запрятан, то это плохо.     | |||
| 26
    
        trim89 12.03.19✎ 09:34 | 
        (24) К примеру, работаем с Samsung, у них с сайта выгружаются определенные данные, только в pdf. Притом портянки.     | |||
| 27
    
        Garykom гуру 12.03.19✎ 09:34 | 
        (25) Обычно ничего не выделяется к сожалению, часто артикула нет и по ключевым словам/цифрам вперед анализ проводить что это у тебя и что наиболее подходит из твоей номенклатуры.
 Короче у тебя какое то решение но слишком узкое к вашей задаче и в других условиях обычно нафик не нужное. | |||
| 28
    
        Garykom гуру 12.03.19✎ 09:35 | 
        (26) Молодцы и что PDF разобрать не смогли? Там надеюсь текст внутри а не картинки.     | |||
| 29
    
        Garykom гуру 12.03.19✎ 09:36 | 
        (26) И да думаете в Samsung не люди как менагерами работают? И там не 1С стоит в РФ ? Которая кроме как в PDF еще и в XLS умеет.     | |||
| 30
    
        trim89 12.03.19✎ 09:36 | 
        (23) Были похожие идеи, но пока до этого далеко     | |||
| 31
    
        trim89 12.03.19✎ 09:39 | 
        (29) Конкретно с сайта нельзя выгрузить другое, с манагерами говорить бесполезно, что бы формат изменить. В общем, считаете что это бесполезно, я понял.     | |||
| 32
    
        Garykom гуру 12.03.19✎ 09:40 | 
        (31) Не бесполезно а слишком узко и малоприменимо кроме как ситуациях очень похожих на вашу.     | |||
| 33
    
        Nyoko 12.03.19✎ 09:42 | 
        (31) карточку PDF из  https://egrul.nalog.ru/index.html прочитает ?     | |||
| 34
    
        trim89 12.03.19✎ 09:45 | 
        (32) не соглашусь     | |||
| 35
    
        Sysanin_1ц 12.03.19✎ 09:45 | 
        (31) Посмотри примеры реализации в 1с Гендальф и аналогичные инструменты. Раньше это было актуальней. Сейчас актуальнее переходить на электронный обмен документами. Работает быстрее и меньше проблем с настройками. Но где нибудь это еще может пригодиться. Нужно скооперироваться с бухгалтерскими конторами, им точно это нужно     | |||
| 36
    
        trim89 12.03.19✎ 09:47 | 
        (33) Не знаю, не пробовал. Не прочитает если там таблицы, где название колонок слева. На данный момент название колонок должны быть только сверху.     | |||
| 37
    
        Garykom гуру 12.03.19✎ 09:49 | 
        Для общего развития и минутка юмора (баян конечно кто в теме)
 https://ecm-journal.ru/post/Kak-otskanirovat-kamaz-bumagi.aspx «А у меня – сказа он – есть знакомый, который пишет софт для «налоговой службы», так вот он как-то рассказывал, что весной 2001 года ему сделали заказ на то, чтобы он отсканировал и распознал … ТРИ КОМНАТЫ БУМАГИ!» Тут уже выпали в осадок мы оба… | |||
| 38
    
        trim89 12.03.19✎ 09:50 | 
        (35) смотрел и гэндельф и efsol и entera. Это все не то. Они используют только шаблоны типовых документов. Какие то свои формы не загрузишь.     | |||
| 39
    
        RomaH naïve 12.03.19✎ 09:51 | 
        (0)
 про область применения - например у нас (медицина) гарантийные письма от страховых ... единственное как их к одному формату (PDF) привести - там и ворд и эксель сейчас сидит человек между почтой и МИС - открыть гарантийное - прочитать, найти пациента - прикрепить файл, скопировать ключевую инфу | |||
| 40
    
        trim89 12.03.19✎ 09:51 | 
        (35) Работает ЭДО, давно работает, но бумаги в разы больше, поэтому актуально.     | |||
| 41
    
        Garykom гуру 12.03.19✎ 09:52 | 
        (39) Я как бы на это и намекаю, что сканирование/распознавание в задаче лишнее и можно этого избежать.
 Сразу надо переходить к data mining | |||
| 42
    
        trim89 12.03.19✎ 09:57 | 
        (41) Тогда уж подскажите, есть ли в современных реалиях такой data mining, который все откроет, все найдет, все сделает, есть на русском языке и его может позволит бюджет небольшой фирмы? Если надо переходить, то давайте конкретные примеры.     | |||
| 43
    
        Garykom гуру 12.03.19✎ 10:06 | 
        (42) Нету такого, пытался сам нечто похожее сделать для вытаскивания данных из табличных документов (если документ не табличный то сначала он приводится к табличному автоматом или с помощью оператора).
 Сделать эту задачу хорошо уже близко к ИИ. | |||
| 44
    
        Юрий Лазаренко 12.03.19✎ 10:09 | 
        (2) Зачем доставать файнридер, если есть реально бесплатный https://ru.wikipedia.org/wiki/CuneiForm от Cognitive.     | |||
| 45
    
        trim89 12.03.19✎ 10:12 | 
        (44) CuneiForm тоже пробовал, качество плохое     | |||
| 46
    
        Юрий Лазаренко 12.03.19✎ 10:13 | 
        (45) А в чем именно плохое? У меня нормально распознавал.     | |||
| 47
    
        trim89 12.03.19✎ 10:16 | 
        (46) Я уже не помню, давно пробовал. Помню, что качество меня не устроило от слова совсем.     | |||
| 48
    
        Cyberhawk 12.03.19✎ 10:20 | 
        (18) ИР, загрузка табличных данных     | |||
| 49
    
        trim89 12.03.19✎ 10:50 | 
        Так как живу на дальних поступах нашей необъятной родины, то на сегодня мой дозор окончен. Завтра отвечу на сообщения.     | |||
| 50
    
        RayCon 12.03.19✎ 11:08 | 
        (0) Стукнись в скайп - расскажу, на каких рынках может быть востребовано. Кстати, вариант в (35) - один из них.
 (42) В (43) верно сказано: нет => вот тебе ещё один рынок. | |||
| 51
    
        trim89 13.03.19✎ 04:20 | 
        (50) Искал в скайп по RayCon, не нашёл, по 599660677 - тоже. Собственно как написать?     | |||
| 52
    
        trim89 13.03.19✎ 04:43 | 
        (11) Почитал, стало интересно. А какие наработки? Какие задачи решали?     | |||
| 53
    
        hhhh 13.03.19✎ 05:57 | 
        (26) файлы pdf читает обычный метод 1с ИзвлечениеТекста.
 ИзвлечениеТекста (TextExtraction) ИзвлечениеТекста (TextExtraction) Свойства: ИмяФайла (FileName) Методы: Записать (Write) ПолучитьТекст (GetText) Конструкторы: По имени файла Описание: Предназначен для извлечения текста из файлов произвольного формата. Используется только для операционных систем MS Windows NT 4.0, 2000, XP, Vista, 7 и выше. Доступность: Тонкий клиент, сервер, толстый клиент, внешнее соединение. | |||
| 54
    
        hhhh 13.03.19✎ 05:59 | 
        (53) + но к сожалению не работает на windows server. Приходится запускать на старых компах.     | |||
| 55
    
        trim89 13.03.19✎ 06:16 | 
        (54) А структуру файла сохраняет?     | |||
| 56
    
        RayCon 13.03.19✎ 11:45 | 
        (51) nicksheel     | |||
| 57
    
        Злопчинский 13.03.19✎ 16:56 | 
        (19) Посмотри на ИС в поиске "Удар по бездуховности" - там прям рабочий примерчик     | |||
| 58
    
        trim89 27.03.19✎ 06:48 | 
        Добавил нечёткий поиск, разделение по ролям. Кому интересно, качайте, смотрите.     | |||
| 59
    
        Йохохо 27.03.19✎ 07:01 | 
        (58) добавь пож инфы сколько будет стоить легально это пользовать     | |||
| 60
    
        trim89 27.03.19✎ 07:35 | 
        (59) Что касается конкретно распознавания, то это по прайсу ABBY. Так как используется преобразование картинка -> htm, то если помочь мне найти бесплатный аналог с качественным распознаванием, значит бесплатно сделаю. Что касается моей обработки, конкретные цифры не обдумывались. Пока распространяется чтобы просто понять, насколько это актуально, насколько корректно работает, что можно ещё придумать и добавить.     | |||
| 61
    
        Йохохо 27.03.19✎ 08:02 | 
        (60) у них есть какая то крутая распознавалка именно форм с шаблонами и индейцами. Если за деньги не лучше ли с ней? Актуально безусловно, но кому ты это продашь в текущем виде     | |||
| 62
    
        trim89 27.03.19✎ 08:22 | 
        (61) их крутая рспознавалка - это Flexicapture. Стоит глубоко за лям. Выгрузку в 1с нет, только в SAP. Плюс расходы на настройщика, интеграцию и прочее. Может кому-то и лучше, но небольшим фирмам тупо не по карману.
 В текущем виде продаж и не ожидается. Для допиливания под коммерческие рельсы нужны предложения, отзывы от реальных людей, которые могут посмотреть, использовать и оценить текущий прототип. | |||
| 63
    
        Йохохо 27.03.19✎ 08:36 | 
        (62) ну тогда и напиши, что надо еще 4к рур на файнридер стд, сумма небольшая, зачем мараться     | |||
| 64
    
        HeKrendel 27.03.19✎ 08:40 | 
        (0) Познакомься, 
 https://efsol.ru/manuals/zagruzka-dokumentov-nachalo-rabotyi.html Решению уже лет 10 | |||
| 65
    
        HeKrendel 27.03.19✎ 08:42 | 
        В РФ смысла нет, 5-10 лет продукту осталось жить     | |||
| 66
    
        trim89 27.03.19✎ 09:07 | 
        (63) Кому то надо, кому то не надо. при использования облака ценник другой. про сломанные копии я вообще молчу. И опять таки, тут речь не про деньги     | |||
| 67
    
        trim89 27.03.19✎ 09:10 | 
        (64) Это не совсем то. Там ограниченный набор документов, нет гибкой настройки для загрузки, насколько я знаю.     | |||
| 68
    
        trim89 27.03.19✎ 09:12 | 
        (65) В смысле апокалипсис, ядерная война и прочее???
 А если серьезно, это на уровне, нужно сейчас сносить все бенозоколонки, потому что электромобили по городу катаются. | |||
| 69
    
        HeKrendel 27.03.19✎ 09:17 | 
        (68) к 25 году все товары должны быть маркированы, ЭЦП будет у всех, нужна ли при этом бумага и принтера?     | |||
| 70
    
        trim89 27.03.19✎ 09:27 | 
        (69) Да, а ещё обещают начало колонизации марса, дешёвые компьютера с вычислительными мощностями мозга и прочее. Может это все и сбудется, но в любом случае до 25 года бумага будет точно.     | |||
| 71
    
        Мимохожий Однако 27.03.19✎ 09:37 | 
        (70)ОФФ.
 Не горячись. Понятно, что своё дитя ближе к сердцу. Однако есть и другие решения не хуже твоего. Сначала определись с критериями к программе, а потом сравнивай. Эмоции без аргументации малоэффективны. | |||
| 72
    
        trim89 27.03.19✎ 10:01 | 
        (71) Я и не горячусь. Другие решения или сильно дорогие, или сильно уступают в гибкости.     | 
| Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |