ফন্ট ডকুমেন্ট-লেভেল ইনডেক্সিং, পৃষ্ঠা-স্তর ফলাফল প্রাপ্ত (dtSearch উদাহরণ সহ)

এটি একটি dtSearch- নির্দিষ্ট প্রশ্ন নয় (যেমন এটি একটি fts- ইঞ্জিন প্রশ্ন মত আরো) কিন্তু একাধিক পৃষ্ঠাগুলি গঠিত নিবন্ধন তালিকা এবং পাতার স্তরের হিট ফলাফল প্রাপ্তির একটি উপায় নিয়ে কাজ করে।

আমি googled এবং অনুসন্ধান এবং কিছুই খুঁজে পাই নি, তাই আমার প্রশ্ন:

আমরা এম বই থেকে স্ক্যান n টিিফ পাতা একটি গুচ্ছ আছে। আমরা ওসিআর-তাদের, পূর্ণ-পাঠ্য সূচকে তাদের এবং একটি অনুসন্ধান করা।

আমরা অনুসন্ধান ফলাফলগুলি বুক-লেভেল হতে চাই (যেমন অনুসন্ধানের ফলাফলে একটি বই থাকা উচিত), কিন্তু পৃষ্ঠা-স্তরে পাওয়া আইটেমগুলি পেতে সক্ষম হবেন (যাতে সফলভাবে হিট-হাইলাইট সম্পাদন করতে সক্ষম হতে পারে, যেমনটি শব্দটি কিছু কিছু পৃষ্ঠা 1, পৃষ্ঠা 2 এবং পৃষ্ঠা 7 এ পাওয়া যায়)।

এবং এখানে সমস্যা আসে:

  • যদি আমরা পৃষ্ঠাগুলির পাঠ্য সূচী করি, এক সময়ে এক এবং BookA থেকে Page1 শব্দটি Term1 এবং BookA থেকেও পৃষ্ঠাটি, Term2 শব্দটি রয়েছে টার্ম 1 এবং টার্ম 2 কোনও ফল পাওয়া যাবে না, যা স্বাভাবিক
  • যদি আমরা সমস্ত পৃষ্ঠার পাঠ্যকে এক বৃহৎ পাঠ্য ব্লকের মধ্যে সংকলন করি, তবে একই বইয়ের সমস্ত অংশীদার, আমরা সেই পৃষ্ঠাটি খুঁজে পেতে সক্ষম হব না যা পাওয়া পদটির অন্তর্গত।

DtSearch ডেস্কটপে পিডিএফ-ইন্ডেক্সিংয়ের জন্য এই ধরনের একটি বৈশিষ্ট্য রয়েছে: এটি একটি ডকুমেন্টের সকল পৃষ্ঠার পাঠ্য সূচী করতে সক্ষম, কিন্তু পৃষ্ঠাটি %% পৃষ্ঠা %% চিহ্নের সাহায্যে আঘাত করা পৃষ্ঠাটিও বলতে পারে।

আমরা সূচকের ভোজন করার জন্য একটি কাস্টম ডেটাসোর্স ব্যবহার করছি, তবে আমরা কাঙ্ক্ষিত ফলাফল অর্জন করতে ডকুমেন্টের গঠনটি নির্ধারণ করতে অক্ষম।

আপনি যদি অন্য কোনও fts ইঞ্জিন (যেমন লুসেন/স্পিনেক্স) ব্যবহার করছেন, তাহলে আপনি কীভাবে উপরের সমস্যা (আমার পুনরাবৃত্তির ঝুঁকির সাথে) মোকাবেলা করবেন:

  1. You need to index pages' content
  2. Pages are logically grouped into documents
  3. You need to obtain results by document
  4. The highlight results must contain the page number

কোন পরামর্শ জন্য আপনাকে ধন্যবাদ, জর্জ

PS: দীর্ঘ বার্তা জন্য দুঃখিত

2
যোগ সম্পাদিত
মতামত: 1

2 উত্তর

একটি dtsearch ব্যবহারকারী হিসাবে দীর্ঘ হিসাবে, আমি মনে করি আমি একটি প্যাড পিডিএফ ফাইল তৈরি এবং ইনডেক্সিং দ্বারা মূল বিষয়গুলিতে ফিরে যেতে হবে, আপনার পৃষ্ঠার একটি ocr পাঠ্য পৃষ্ঠা সংশ্লিষ্ট যা প্রতিটি পাতা।

এই ভাবে, আপনি সার্চ ইঞ্জিন প্রযুক্তি থেকে সম্পূর্ণরূপে স্বাধীন, এটি কি ভাল সুপরিচিত পিডিএফ ফরম্যাটে কি ভাল করা যাক।

আপনার সূচকের অর্থহীন একক পৃষ্ঠা নথিগুলির সাথে ওভারফ্লাভ করা হবে না, যা বইগুলির অনুসন্ধান করার সময় সবচেয়ে ভাল ফলাফলের ক্রম বের করে দেবে।

আশা করি এই সাহায্য করবে, এবং আমার ভাঙা ইংরেজি জন্য দুঃখিত

1
যোগ

একটি প্রাণবন্ত বলের দৃষ্টিভঙ্গিতে 2 টি সূচিবদ্ধ নথি থাকতে হবে:

  • পৃষ্ঠার পাঠ্য, পৃষ্ঠা নম্বর, বইটির নাম এবং পৃষ্ঠার স্তরের ডকুমেন্টের একটি পতাকার পৃষ্ঠা-স্তর ডকুমেন্ট।
  • বইয়ের পাঠ্য, বইটির নাম, এবং একটি পতাকা যা এই একটি বই-স্তরের ডকুমেন্টের সাথে বই-স্তরের নথি।

আপনি প্রথমটি শুধুমাত্র বই-স্তরের নথিতে অনুসন্ধান করে মিলবে বই খুঁজে পেতে। তারপর, আপনি মিলিত পৃষ্ঠা স্তরের নথি খুঁজে পেতে শুধুমাত্র বইয়ের জন্য পৃষ্ঠার স্তরের দস্তাবেজগুলি অনুসন্ধান করবেন। এটি আপনাকে "termx এবং termy" বই Z এ প্রদর্শিত হবে, পৃষ্ঠা 2, 47, এবং ২93 এ termX সহ, এবং পৃষ্ঠা 1, 3, 5, এবং ২93 এ উপস্থিত শব্দটিকে বলে। "

এই পদ্ধতিতে একটি দুর্নীতি হচ্ছে যে আপনি প্রতিটি পৃষ্ঠার বিষয়বস্তু দুবার দ্বাদ্বিক শেষ।

0
যোগ