পিডি ব্যবহার করে স্ক্র্যাপিং

আমি এক্সএমএল প্যাকেজ সফলভাবে এইচটিএমএল সারণী আহরণের জন্য ব্যবহার করছি কিন্তু পিডিএফ এর প্রসারিত করতে চাই। পূর্ববর্তী প্রশ্নগুলির থেকে এটি একটি সাধারণ R সমাধান আছে বলে মনে হচ্ছে না তবে কোনও সাম্প্রতিক বিকাশ ঘটেছে কিনা তা নিয়ে অবাক হয়েছেন

যে ব্যর্থ, পাইথন মধ্যে কোন উপায় আছে (যা আমি একটি সম্পূর্ণ Novice) প্রাপ্ত করার জন্য এবং পিডিএফ ম্যানিপুলেট করুন যাতে আমি আর এক্স এক্সএমএল প্যাকেজের সাথে কাজ শেষ করতে পারি

10

4 উত্তর

পিডিএফ থেকে টেক্সট বের করা কঠিন, এবং প্রায় সবসময় যত্ন প্রচুর প্রয়োজন।

আমি কমান্ড লাইন সরঞ্জাম দিয়ে শুরু করব যেমন pdftotext এবং তারা কীভাবে থুতু বের হয় তা দেখুন। সমস্যা হল যে পিডিএফগুলি কোনও ক্রমে টেক্সটটি সংরক্ষণ করতে পারে, অদ্ভুত ফন্ট এনকোডিংগুলি ব্যবহার করতে পারে এবং আপনাকে নিক্ষেপ করার জন্য লিগ্যাচার অক্ষরগুলি (যুক্ত করা 'FF' এবং 'iJ' যা আপনি সঠিক টাইপসেটে দেখেছেন) ব্যবহার করতে পারেন।

pdftotext কোনো Linux সিস্টেম ইনস্টল করা যায় ...

10
যোগ
ওয়েল পিডিএফটিইক্সটটি একটি পরিষ্কার পাঠ্য পৃষ্ঠা তৈরিতে জরিমানা কাজ করে তবে আমি যা চাই তা সহজেই তৈরি করতে কোন ধরণের ফর্ম নেই। যাইহোক, ধন্যবাদ
যোগ লেখক pssguy, উৎস
যোগ লেখক pssguy, উৎস
Seconded। R তে এটি করা কোনও ব্যক্তির বিকাশ ও বজায় রাখার প্রচেষ্টাটির পক্ষে মূল্যবান নয়, যখন এমন অনেক বিকল্প রয়েছে যা R এর বাইরে অনেকগুলি ভালভাবে পরিচালিত হয়। যদি আপনাকে অনেকগুলি ফাইল করতে হয় তবে খুঁজুন ইউনিক্সের ইউটিলিটি (অথবা উইন্ডোজের জন্য জিএনইউ সংগ্রহে), অথবা কেউ হয়তো শেলের কাছে কমান্ড পাঠাতে পারে, ফাইলের নামগুলি লুটপাট করতে পারে ... এমনকি অ্যাডোবটির দীর্ঘ সময়ের জন্য একটি ভয়ানক পাঠ্য এক্সট্রাক্টর ছিল (এমনকি এখন এটি ভাল কিনা তা নিশ্চিত না) , জেরক্স একটি ভাল এক ছিল।
যোগ লেখক Iterator, উৎস
আপনি একটি প্রতিনিধি পিডিএফ ফাইল আমাদের নির্দেশ করতে পারেন?
যোগ লেখক Spacedman, উৎস
পডফটোটেক্ট চালানো পৃষ্ঠাটি উজ্জ্বল নয়, তবে পিএইচ-তে রূপান্তরিত হচ্ছে বা পিডিএফটিতে কেবলমাত্র ps2txt চালানো হচ্ছে কিছু পৃষ্ঠার শিরোনাম/পাদদেশগুলি সরানোর জন্য প্রায় নির্ভুল টেবিল তৈরি করে।
যোগ লেখক Spacedman, উৎস
আমি খুব উইন্ডোজ উপর pdftotext সঙ্গে সৌভাগ্যবান করেছি
যোগ লেখক pguardiario, উৎস

আপনার হয়ত টেক্সট খনির প্যাকেজটি পরীক্ষা করতে চান tm </কোড>। আমি মনে করি তারা তথাকথিত পাঠকদের বাস্তবায়ন করেছিল এবং পিডিএফগুলির জন্যও এটি ছিল।

5
যোগ
ধন্যবাদ। আমি ডক্স চেক। কোনোভাবে pdftotext ব্যবহার করে
যোগ লেখক pssguy, উৎস

AFAIK তথ্য বিশ্লেষণের জন্য দরকারী কিছুতে PDF টেবিলগুলি চালু করার সহজ উপায় নেই। আপনি ডেটা বিজ্ঞান টুলকিট এর ফাইলটি টেক্সট ইউটিলিটি ব্যবহার করতে পারেন (R ইন্টারফেসটি RDSTK প্যাকেজ), তারপরে ফলস্বরূপ পাঠ্যটি বিশ্লেষণ করুন। সতর্ক করা: প্যারিসিং প্রায়ই অ-তুচ্ছ।


সম্পাদনা করুন: xmlPDF.com এ PDF রূপান্তর করার একটি কার্যকর আলোচনা আছে। সংক্ষিপ্ত উত্তর সম্ভবত আপনি একটি বাণিজ্যিক সরঞ্জাম কিনতে হবে।

4
যোগ
+1 যে জন্য ধন্যবাদ। আমি আলোচনার চেক করেছি এবং ট্র্যাজেডির ABBYY পণ্যটি ডাউনলোড করার চেষ্টা করেছি কিন্তু এটি প্রস্তাবিতভাবে সেট আপ করবে না। অনুমান আমি ধ্বংস হয়
যোগ লেখক pssguy, উৎস

ট্যাবুল অ্যাপ্লিকেশন যা পিডিএফ নথি থেকে টেবিলগুলি সরাতে পারে তার একটি সহজ কমান্ড লাইন জাভা অ্যাপ্লিকেশন, ট্যাবুলা-এক্সট্রাক্টর

এই জাভা অ্যাপ্লিকেশনটিকে ট্যাবুলাইজার প্যাকেজ দ্বারা আবৃত করা হয়েছে। এটি একটি পিডিএফ ফাইলের পথটি পাস করুন এবং এটি আপনার জন্য ডেটা সারণীগুলি সরাতে এবং তাদের তথ্য হিসাবে ফিরিয়ে নেওয়ার চেষ্টা করবে।

উদাহরণস্বরূপ, যখন ডকুমেন্টস ডাটাবেস হয়ে যায় - ট্যাবুলার PDF ট্যাব এক্সট্রাক্টরের জন্য ট্যাবুলাইজার আর রেপার।

1
যোগ