przydatne artykuły

Jak utworzyć archiwum plików PDF z możliwością przeszukiwania?

W tym tygodniu w dziale porad technicznych na Goldavelez.com - zadawajcie pytania, ludzie! - pomagamy czytelnikowi, który ma zbyt wiele ważnych artykułów, które muszą dokonać magicznego przejścia do świata cyfrowego. Przynajmniej brzmi to o wiele bardziej ekscytująco niż „optyczne rozpoznawanie znaków”, które tak naprawdę nie spływa z języka.

Czytelnik Goldavelez.com Phil pisze:

Dzięki za miłe słowa, Phil! Cieszę się, że mogę pomóc - nie z powodu pochlebstwa, ale dlatego, że twoje pytanie jest tym, o którym wielu czytelników myślało (łącznie ze mną). Mam cały wachlarz rzeczy, które chciałbym przenieść ze świata fizycznego do świata cyfrowego, dzięki czemu Marie Kondo mogę następnie zapomnieć o oryginalnych dokumentach i zdjęciach. Stosy papieru nie przynoszą mi radości.

Masz kilka opcji, które możesz wypróbować. Zacznę od oczywistego: Google. Zakładając, że tworzysz pliki PDF, prześlij swoje pliki na Dysk Google. Kliknij prawym przyciskiem myszy dowolny plik PDF, najedź kursorem myszy na „Otwórz za pomocą” i wybierz „Dokumenty Google”. Google spróbuje uruchomić OCR na twoim pliku PDF i powinieneś być w stanie zapisać wynikowy plik jako dokument. Następnie możesz przeszukiwać ten dokument (i wszelkie inne konwertowane pliki) za pośrednictwem samego Dysku.

Im więcej o tym myślę, to rozwiązanie wydaje się trochę nieeleganckie, biorąc pod uwagę, z iloma plikami trzeba pracować. Zamiast tego mogę wypróbować oprogramowanie takie jak TesseractStudio.Net - lub po prostu Tesseract OCR, jeśli nie boisz się wiersza poleceń. Powinieneś być w stanie użyć tego do tworzenia danych OCR ze swoich plików, a następnie możesz wyszukiwać je bezpośrednio za pomocą systemu Windows lub macOS. OCRmyPDF to kolejna opcja podobna do Oser Tesseract, ale znowu będziesz grać za pomocą wpisywanych poleceń, aby zastosować OCR do swoich plików. Nie ma GUI ani nie ma (bezpośredniego) wsparcia dla Windows.

Jest też Paperwork, narzędzie do katalogowania dokumentów o otwartym kodzie źródłowym, które jest dostarczane z wbudowanym OCR, co zdecydowanie rozważę, biorąc pod uwagę, że jest to kompleksowe oprogramowanie do archiwizacji, sortowania i wyszukiwania dokumentów. Wygląda na to, że może to być właśnie to, czego szukasz.

Nie korzystałem z przeglądarki PDF-XChange, ale inni zalecili ją jako opcję. Darmowa wersja spowoduje umieszczenie znaków wodnych w plikach PDF, ale może tworzyć pliki PDF z obrazów i, jeśli mam rację, dodawać OCR do wszystkich istniejących plików PDF. Warto je zbadać, nawet jeśli nie jest to idealne (bezpłatne) rozwiązanie. Podobnie, FreeOCR może robić zdjęcia lub pliki PDF, stosować OCR i eksportować wyniki jako pliki tekstowe lub dokumenty Word. Jeśli nie masz nic przeciwko przeszukiwaniu swoich archiwów w ten sposób, jest to opcja.

Jeśli chodzi o płatne rozwiązania, zawsze jest Adobe Acrobat Pro lub Foxit PhantomPDF . Oba pozwalają na dodawanie OCR do plików PDF i powinieneś być w stanie przetwarzać wszystkie swoje dokumenty jako dużą partię (lub utworzyć skrypt, który robi to z zawartością folderów). Możesz nawet być w stanie to wszystko zrobić podczas bezpłatnych prób aplikacji, jeśli nie ograniczają one możliwości ich rozpoznawania. Widziałem także, że inni z twoim konkretnym problemem odnosili sukces, używając aplikacji takiej jak PDF OCR, która może być tańszą alternatywą.

To wszystko, co mogę wymyślić z głowy (i przy odrobinie badań). Mamy nadzieję, że jedno z tych rozwiązań Ci się uda - nie kosztując niewielkiej fortuny. Odpisz i daj mi znać, która aplikacja działała najlepiej dla Ciebie!

Tech 911 Czy masz pytanie techniczne, które pomaga ci utrzymać się w nocy? Chcielibyśmy na to odpowiedzieć! E mail - z „Tech 911” w temacie.