هل لديك مستند بتنسيق PDF ترغب في استخراج النص منه؟ ماذا عن ملفات الصور للمستند الممسوح ضوئيًا الذي تريد تحويله إلى نص قابل للتحرير؟ هذه بعض المشاكل الأكثر شيوعًا التي رأيتها في مكان العمل عند التعامل مع الملفات.
في هذه المقالة ، سأتحدث عن عدة طرق مختلفة يمكنك استخدامها في محاولة استخراج النص من PDF أو من صورة. سوف تختلف نتائج الاستخراج الخاصة بك تبعا لنوع وجودة النص في PDF أو الصورة. أيضًا ، ستختلف النتائج وفقًا للأداة التي تستخدمها ، لذا من الأفضل تجربة أكبر عدد ممكن من الخيارات أدناه للحصول على أفضل النتائج.
استخراج النص من الصورة أو ملف PDF
إن أبسط وأسرع طريقة للبدء هي تجربة خدمة مستخرج نص PDF عبر الإنترنت. هذه عادةً مجانية ويمكن أن تعطيك بالضبط ما تبحث عنه دون الحاجة إلى تثبيت أي شيء على جهاز الكمبيوتر الخاص بك. وإليكم ما استعملته من نتائج جيدة للغاية وممتازة:
ExtractPDF
ExtractPDF أداة مجانية لالتقاط الصور والنصوص والخطوط من ملف PDF. القيد الوحيد هو أن الحد الأقصى لحجم ملف PDF هو 10 ميغابايت. هذا صغير نوعًا ما إذا كان لديك ملف أكبر ، فجرّب بعض الطرق الأخرى أدناه. اختر ملفك ثم انقر على زر إرسال ملف. تكون النتائج عادة سريعة جدًا ويجب أن تشاهد معاينة للنص عند النقر فوق علامة التبويب نص.
إنها أيضًا لطيفة فائدة إضافية أنه يستخرج الصور من ملف PDF أيضا ، فقط في حال كنت في حاجة إليها! بشكل عام ، تعمل الأداة عبر الإنترنت بشكل رائع ، لكنني واجهت بعض مستندات PDF التي تعطيني مخرجات مضحكة. يتم استخراج النص على ما يرام ، ولكن لسبب ما سيكون هناك فاصل سطر بعد كل كلمة! ليست مشكلة كبيرة لملف PDF قصير ، ولكن بالتأكيد مشكلة بالنسبة للملفات التي تحتوي على نصوص كثيرة. إذا حدث ذلك ، فجرّب الأداة التالية.
عادةً ما يكون OCR
OCR على الإنترنت عادةً ما يعمل في المستندات التي لم يتم تحويلها بشكل صحيح مع ExtractPDF لذلك ، من المستحسن تجربة كلتا الخدمتين لمعرفة أيهما يعطيك مخرجات أفضل. يحتوي OCR أيضًا على بعض الميزات الرائعة التي يمكن أن تكون مفيدة لأي شخص لديه ملف PDF كبير يحتاج فقط إلى تحويل النص على صفحات قليلة بدلاً من المستند بأكمله.
أول شيء تريد القيام به هو الذهاب قدما وإنشاء حساب مجاني. الأمر مزعج بعض الشيء ، ولكن إذا لم تنشئ حسابًا مجانيًا ، فسيؤدي ذلك إلى تحويل ملف PDF بشكل جزئي بدلاً من المستند بأكمله. أيضًا ، بدلاً من القدرة على تحميل مستند بحجم 5 ميغابايت فقط ، يمكنك تحميل ما يصل إلى 100 ميغابايت لكل ملف باستخدام حساب.
أولاً اختر لغة ثم اختر نوع تنسيقات الإخراج التي تريدها للملف المحول. لديك خياران ويمكنك اختيار أكثر من واحد إذا أردت. ضمن مستند Multipage، يمكنك تحديد أرقام الصفحاتثم اختيار الصفحات التي تريد تحويلها فقط. بعد ذلك ، حدد الملف وانقر على تحويل!
بعد التحويل ، سيتم نقلك إلى قسم المستندات (إذا كنت قد قمت بتسجيل الدخول) حيث يمكنك معرفة عدد الصفحات المجانية المتوفرة لديك وروابط لتحميل الملفات المحولة الخاصة بك. يبدو أنك لا تملك سوى 25 صفحة مجانًا في اليوم ، لذلك إذا كنت بحاجة إلى أكثر من ذلك ، سيكون عليك إما الانتظار قليلاً أو شراء المزيد من الصفحات.
حقق OCR على الإنترنت مهمة ممتازة في تحويل ملفات PDF الخاصة بي لأنها كانت قادرة على الحفاظ على التنسيق الفعلي للنص. في الاختبار الخاص بي ، أخذت مستند Word الذي استخدم الرموز النقطية وأحجام الخطوط المختلفة ، إلخ وقمت بتحويلها إلى PDF. ثم استخدمت OCR عبر الإنترنت لتحويله مرة أخرى إلى تنسيق Word وكان حوالي 95٪ نفس الشيء الأصلي. هذا رائع جدًا بالنسبة لي.
بالإضافة إلى ذلك ، إذا كنت تبحث عن تحويل صورة إلى نص ، فيمكن لـ OCR عبر الإنترنت القيام بذلك بنفس سهولة استخلاص النص من ملفات PDF.
مجانًا OCR عبر الإنترنت
منذ أن تحدثنا عن صورة إلى نص OCR ، دعني أذكر موقعًا جيدًا آخر يعمل جيدًا على الصور. Free OCR على الإنترنت كان جيدًا جدًا ودقيقًا جدًا عند استخلاص النص من صور الاختبار. أخذت صورتين من اي فون الخاص بي من صفحات من الكتب والنشرات وغيرها ، وفوجئت بمدى قدرتها على تحويل النص.
اختر ملفك ثم انقر فوق الزر "تحميل". في الشاشة التالية ، هناك عدة خيارات ومعاينة للصورة. يمكنك اقتصاصها إذا كنت لا تريد التعرف الضوئي على الحروف على كل شيء. ثم انقر فقط فوق الزر OCR وسوف يظهر النص المحول أسفل معاينة الصورة. كما أنه ليس لديه أي قيود ، وهو أمر رائع حقًا.
بالإضافة إلى الخدمات عبر الإنترنت ، هناك محولي PDF مجانيين أريد الإشارة إليهما في حال احتجت إلى برنامج يعمل محليًا على جهاز الكمبيوتر الخاص بك لأداء التحويلات. باستخدام الخدمات عبر الإنترنت ، ستحتاج دائمًا إلى اتصال بالإنترنت وقد لا يكون ذلك ممكنًا للجميع. ومع ذلك ، لاحظت أن جودة التحويلات من البرامج المجانية كانت أسوأ بكثير من تلك الموجودة في مواقع الويب.
A-PDF Text Extractor
A-PDF Text Extractor هي وظيفة مجانية تقوم بعمل جيد لاستخراج النص من ملفات PDF. بمجرد تنزيله وتثبيته ، انقر فوق الزر "فتح" لاختيار ملف PDF الخاص بك. ثم انقر فوق استخراج النص لبدء العملية.
سوف يطلب منك موقعًا لتخزين ملف الإخراج النصي ثم يبدأ في عملية الاستخراج. . يمكنك أيضًا النقر فوق زر الخيار، الذي يتيح لك اختيار صفحات معينة لاستخراجها ونوع الاستخراج. الخيار الثاني مثير للاهتمام لأنه يستخرج النص في تخطيطات مختلفة ، ويجدر محاولة كل ثلاثة أن نرى أي منها يمنحك أفضل إخراج.
PDF2Text Pilot
PDF2Text Pilot يقوم بعمل جيد لاستخراج النص. ليس لديها أي خيارات. يمكنك فقط إضافة ملفات أو مجلدات وتحويلها والأمل في الأفضل. عملت بشكل جيد على بعض ملفات PDF ، ولكن بالنسبة للغالبية منها ، كانت هناك العديد من المشكلات.
فقط انقر فوق إضافة ملفات ثم انقر فوق >تحويلقوي>. بمجرد اكتمال التحويل ، انقر فوق "استعراض" لفتح الملف. ستختلف المسافة بالأميال باستخدام هذا البرنامج لذا لا تتوقع الكثير.
تجدر الإشارة أيضًا إلى أنه إذا كنت في بيئة شركة أو يمكنك الحصول على نسخة من Adobe Acrobat من العمل ، فيمكنك الحصول على نتائج أفضل. من الواضح أن برنامج Acrobat ليس مجانيًا ، ولكنه يحتوي على خيارات لتحويل PDF إلى تنسيق Word و Excel و HTML. كما أنه يقوم بأفضل وظيفة للحفاظ على بنية المستند الأصلي وتحويل النص المعقد.