Optical Character Recognition (Оптическое распознавание символов).
В рамках поставленной задачи необходимо было разработать механизмы быстрого поиска документа по его типу, навигации среди найденных документов и их отображении. Объём документов более 0.5 Тб (нескольких десятков миллионов сканированных документов). Сложность заключалась в крайне низком качестве документов:
- документы печатались на печатных машинках (самые ранние документы датировались серединой XX века);
- на документах были следы от чашек, пятна пролитого кофе;
- большое количество документов с выгоревшей бумагой;
- много документов за время прямого использования попадало под дождь или было повреждено солёной водой;
- на многих документах были нанесены пометки карандашём или ручкой;
- бумага сворачивалась и подвергалась другим воздействиям.
Для примера, так выглядело 60% документов:
С помощью тренеровки модели нам удалось добиться высокого результата распозновавния (более 90%)