ভিডিও কম্প্রেশন: অসামান্য কোসাইন রুপান্তর কি?

আমি একটি ইমেজ / ভিডিও ট্রান্সফর্মেশন কৌশল প্রয়োগ করেছি যা আলাদা কসাইন রুপান্তর। এই কৌশলটি MPEG ভিডিও এনকোডিংয়ে ব্যবহৃত হয়। আমি নিম্নলিখিত URL- এ উপস্থাপিত ধারণার উপর আমার অ্যালগরিদম ভিত্তি করে:

http://vsr.informatik.tu-chemnitz.de/~jan/MPEG/HTML/mpeg_tech.html

এখন আমি একটি কালো এবং সাদা ইমেজ একটি 8x8 বিভাগ রূপান্তর করতে পারেন, যেমন:

0140  0124  0124  0132  0130  0139  0102  0088  
0140  0123  0126  0132  0134  0134  0088  0117  
0143  0126  0126  0133  0134  0138  0081  0082  
0148  0126  0128  0136  0137  0134  0079  0130  
0147  0128  0126  0137  0138  0145  0132  0144  
0147  0131  0123  0138  0137  0140  0145  0137  
0142  0135  0122  0137  0140  0138  0143  0112  
0140  0138  0125  0137  0140  0140  0148  0143 

উপরের ডানদিকে সমস্ত গুরুত্বপূর্ণ তথ্য সঙ্গে এই একটি ইমেজ ইন। রূপান্তরিত ব্লক এই মত দেখায়:

1041  0039  -023  0044  0027  0000  0021  -019  
-050  0044  -029  0000  0009  -014  0032  -010  
0000  0000  0000  0000  -018  0010  -017  0000  
0014  -019  0010  0000  0000  0016  -012  0000  
0010  -010  0000  0000  0000  0000  0000  0000  
-016  0021  -014  0010  0000  0000  0000  0000  
0000  0000  0000  0000  0000  0000  0000  0000  
0000  0000  -010  0013  -014  0010  0000  0000  

এখন, আমি এই রূপান্তর সুবিধা গ্রহণ করতে পারেন কিভাবে জানতে প্রয়োজন? আমি একই ইমেজ (বা অন্য চিত্র) অন্য 8x8 ব্লক সনাক্ত করতে চাই যা একটি ভাল ম্যাচ প্রতিনিধিত্ব।

এছাড়াও, এই রূপান্তর আমাকে কি দেয়? কনভার্টেড ইমেজের উপরে ডানদিকে সংরক্ষিত তথ্য কেন গুরুত্বপূর্ণ?

0
ro fr hi

6 উত্তর

ডিসিটি এর ফলে ফ্রিকোয়েন্সি ডোমেইনের মূল উৎসের রূপান্তর হয়। উপরের বাঁদিকের এন্ট্রিতে "প্রশস্ততা" "বেস" ফ্রিকোয়েন্সি এবং ফ্রিকোয়েন্সি উভয় পাশে অনুভূমিক এবং উল্লম্ব অক্ষ বরাবর বৃদ্ধি করে। ডিসিটি এর ফলাফল সাধারণত স্বাভাবিক নিম্ন ফ্রিকোয়েন্সি (শীর্ষ বামে চতুর্ভুজে) এবং উচ্চ ফ্রিকোয়েন্সির কম এন্ট্রিগুলিতে amplitudes একটি সংগ্রহ। হিসাবে lassevk উল্লিখিত, এটি স্বাভাবিক এই উচ্চ ফ্রিকোয়েন্সি আউট শূন্য স্বাভাবিক হিসাবে তারা সাধারণত উত্স খুব ছোট অংশ গঠন। তবে, এর ফলে তথ্য ক্ষতিগ্রস্ত হয়। কম্প্রেশন সম্পূর্ণ করার জন্য এটি ডিসিটিড উৎসের উপর একটি লস্লেম কম্প্রেশন ব্যবহার করা স্বাভাবিক। এই যেখানে কম্প্রেশন মধ্যে আসে হিসাবে সব zeros রান প্রায় কিছু থেকে বস্তাবন্দী পেতে প্রায় কিছুই না।

অনুরূপ অঞ্চলের জন্য ডিসিটি ব্যবহার করার একটি সম্ভাব্য সুবিধা হল যে আপনি কম ফ্রিকোয়েন্সি ভ্যালু (উপরে-বাম কোণায়) একটি প্রথম পাস ম্যাচ করতে পারেন এটি আপনার সাথে মিলিত মানগুলির সংখ্যা কমিয়ে দেয়। আপনি কম ফ্রিকোয়েন্সি মান মিল খুঁজে পেতে হলে, আপনি উচ্চ ফ্রিকোয়েন্সির তুলনায় বৃদ্ধি করতে পারেন।

আশাকরি এটা সাহায্য করবে

0
যোগ

আমি সঠিকভাবে মনে করি, এই ম্যাট্রিক্স আপনি একটি ফাইল কম্প্রেশন সঙ্গে তথ্য সংরক্ষণ করতে পারবেন।

আপনি আরও নিচে পড়তে হলে, আপনি যে চূড়ান্ত ম্যাট্রিক্স থেকে পড়তে তথ্য zig-zag প্যাটার্ন পাবেন। সবচেয়ে গুরুত্বপূর্ণ তথ্য উপরের বাম কোণায় রয়েছে, এবং নিচের ডানদিকের কমপক্ষে কম গুরুত্বপূর্ণ। যেমন, যদি আপনি কিছু পয়েন্টে লেখা বন্ধ করেন এবং বাকি 0 এর মতকে বিবেচনা করেন, এমনকি যদি না থাকে তবে আপনি ছবিটির একটি লজিক্যাল পরিমাপ পাবেন।

আপনি দূরে নিক্ষেপ মান সংখ্যা ইমেজ বিশ্বস্ততা খরচ সংকোচন বৃদ্ধি।

কিন্তু আমি নিশ্চিত যে অন্য কেউ আপনাকে আরও ভাল ব্যাখ্যা দিতে পারে।

0
যোগ

এন্থনি ক্রাম্পের উত্তর আমার কাছে ভাল লাগল। তিনি ডিসিটি ফ্রিকোয়েন্সি ডোমেইনের মধ্যে তথ্য রূপান্তরের উল্লেখ হিসাবে। ডিসিটি ভিডিও কম্প্রেশনতে ব্যাপকভাবে ব্যবহৃত হয় কারণ মানুষের ভিজ্যুয়াল সিস্টেমটি উচ্চ ফ্রিকোয়েন্সির পরিবর্তনের জন্য কম সংবেদনশীল, তাই উচ্চতর ফ্রিকোয়েন্সি ভ্যালুগুলি একটি ছোট ফাইলের ফলাফলকে শূন্য করে দেয়, যার ফলে ভিডিওর গুণমানের মানুষের অনুভূতির উপর সামান্য প্রভাব থাকে।

ইমেজ তুলনা করার জন্য ডিসিটি ব্যবহারের শর্তাবলী অনুসারে, যদি আপনি উচ্চ ফ্রিকোয়েন্সির ডেটা কেটে ফেলে থাকেন এবং প্রকৃতপক্ষে অনুসন্ধান / মিলের জন্য একটি ছোট সেট ডেটা ব্যবহার করেন তবে শুধুমাত্র প্রকৃত সুবিধাটি অনুমান করুন। হারার তরঙ্গের মত কিছু ভালো চিত্র মিলছে ফলাফল দিতে পারে।

0
যোগ

আমি DCT সম্পর্কে জানি যে সবকিছু শিখেছি ডেটা কম্প্রেশন বই । তথ্য কম্প্রেশন ক্ষেত্রের একটি মহান ভূমিকা থাকার ছাড়াও, এটি একটি অধ্যায় আছে যা ক্ষতিগ্রস্ত ইমেজ কম্প্রেশন শেষে যা JPEG এবং DCT প্রবর্তন।

0
যোগ

আমি ডিজিটাল ভিডিও কম্প্রেশন - এর একটি কপি সংগ্রহ করার সুপারিশ করছি - এটা কম্প্রেশন অ্যালগরিদমগুলির একটি সত্যিই ভাল ওভারভিউ। ছবি এবং ভিডিও

0
যোগ

এই ধরনের রূপান্তরগুলি অন্তর্নিহিত ধারণা আরও সহজেই প্রথম এক এক মাত্রিক ক্ষেত্রে দেখেন। ছবিটি এখানে কয়েকটি প্রথম শর্তগুলির সাথে একটি বর্গ তরঙ্গ দেখায় একটি অসীম সিরিজ এটি দেখুন, দ্রষ্টব্য যে পদগুলির জন্য ফাংশনগুলি যোগ করা হলে, তারা বর্গক্ষেত্রের আকৃতির আনুমানিক আনুমানিক সূচনা করতে শুরু করে। আপনি যোগ আরো শর্তাবলী, ভাল আনুমানিকতা। কিন্তু, একটি নিখুঁত সংকেত থেকে সংকেত পেতে, আপনি একটি অসীম সংখ্যা পরিমান করতে হবে সংখ্যা এর কারণ হলো বর্গক্ষেত্রটি অসম্পূর্ণ। যদি আপনি সময় একটি ফাংশন হিসাবে একটি বর্গ তরঙ্গ মনে হয়, এটি শূন্য সময়ের মধ্যে -1 থেকে 1 যায়। এই ধরনের একটি জিনিস প্রতিনিধিত্ব করার জন্য একটি অসীম সিরিজ প্রয়োজন। সিরিজের পদগুলির চক্রান্তের অন্য চেহারা দেখুন। প্রথমটি লাল, দ্বিতীয় হলুদ। পরবর্তী শর্তাবলী আরো "আপ এবং নিচে" রূপান্তর আছে এই প্রতিটি শব্দ ক্রমবর্ধমান ফ্রিকোয়েন্সি থেকে। সময় একটি ফাংশন হিসাবে বর্গ তরঙ্গ সঙ্গে চড়, এবং প্রতিটি সিরিজ শব্দ ফ্রিকোয়েন্সি একটি ফাংশন আছে দুটি সমতুল্য উপস্থাপনা: সময় একটি ফাংশন এবং ফ্রিকোয়েন্সি একটি ফাংশন (1 / সময়)।

বাস্তব জগতে, কোন বর্গ তরঙ্গ আছে। শূন্য সময়ের মধ্যে কিছুই ঘটবে না অডিও সিগন্যালগুলি, উদাহরণস্বরূপ 20Hz থেকে 20KHz পর্যন্ত ব্যাপ্ত হয়, যেখানে Hz হল 1 / সময়। এই ধরনের সীমাবদ্ধ সিরিজের সাথে প্রতিনিধিত্ব করা যেতে পারে '

চিত্রের জন্য, গণিত একই, কিন্তু দুটি জিনিস ভিন্ন। প্রথমত, এটি দুটি মাত্রিক। দ্বিতীয় সময় মতামত কোন ধারণা নেই 1D অর্থে, বর্গ তরঙ্গ নিছক একটি ফাংশন যা একটি আর্গুমেন্ট যে আমরা সময় ছিল জন্য কিছু সংখ্যাসূচক মূল্য দেয় সময় ছিল। একটি (স্ট্যাটিক) ইমেজ একটি ফাংশন যা প্রতিটি সারি, কলাম indeces জন্য একটি সাংখ্যিক মান দেয়। অন্য কথায়, চিত্র একটি 2D স্থান একটি ফাংশন, একটি আয়তক্ষেত্রাকার অঞ্চল হচ্ছে যে। তার মত একটি ফাংশনটি তার আক্ষরিক ফ্রিকোয়েন্সি অনুসারে উপস্থাপন করা যেতে পারে। কোন স্পেসিক ফ্রিকোয়েন্সিটি বোঝার জন্য, একটি 8 বিট ধূসর স্তর চিত্র এবং সংলগ্ন পিক্সেলের একটি জোড়া বিবেচনা করুন। ইমেজটিতে যে সবচেয়ে আকস্মিক transistion ঘটতে পারে তা হল 0 (শব্দের কালো) থেকে ২55 (সাদা বলে) থেকে 1 পিক্সেলের দূরত্ব। এটি একটি সিরিজ উপস্থাপনা সর্বোচ্চ ফ্রিকোয়েন্সি (শেষ) শব্দ সঙ্গে সরাসরি সংশ্লিষ্ট।

চিত্রের একটি দ্বি-মাত্রিক ফোরিয়র (বা কোসাইন) রূপান্তর চিত্রের আকারের সমান আকারের একটি পরিসরে ফলাফল হিসাবে একই তথ্য প্রতিনিধিত্ব করে, যা একটি ফাংশনের ফাংশন হিসাবে নয়, তবে 1 / স্পেসের একটি ফাংশন। তথ্য সর্বোচ্চ সর্বোচ্চ সারি এবং কলাম indeces থেকে তির্যক বরাবর সর্বনিম্ন থেকে সর্বোচ্চ ফ্রিকোয়েন্সি আদেশ করা হয়। একটি উদাহরণ এখানে

চিত্র কম্প্রেশন জন্য, আপনি একটি ইমেজ রূপান্তর করতে পারেন, উচ্চ ফ্রিকোয়েন্সির সংখ্যার কিছু নম্বর বাতিল এবং বিপরীত একটি ছবিতে অবশিষ্ট বেশী রূপান্তর, যা মূল থেকে কম বিস্তারিত আছে। যদিও এটি একই আকারের একটি ইমেজ (শূন্য দ্বারা প্রতিস্থাপিত পদগুলির সঙ্গে) পুনরায় রূপান্তরিত হয়, তবে ফ্রিকোয়েন্সি ডোমেনে এটি কম স্থান দখল করে থাকে।

এটি দেখতে অন্য উপায় একটি ছোট আকারের একটি ইমেজ হ্রাস করা হয়। উদাহরণস্বরূপ, উদাহরণস্বরূপ আপনি একটি সারিতে প্রতি চারটি পিক্সেল এবং তিনটি চার সারিতে তিনটি ছুঁড়ে ফেলে একটি চিত্রের আকার কমাতে চেষ্টা করেন, তবে আপনার একটি অ্যারের 1/4 আকার থাকবে কিন্তু ছবিটি ভয়ঙ্কর হবে। বেশীরভাগ ক্ষেত্রে, এটি 2 ডি ইন্টারপোলারের সাথে সম্পন্ন করা হয়, যা বৃহত্তর চিত্রের পিক্সেলের আয়তক্ষেত্রাকার গোষ্ঠীর সংখ্যা অনুসারে নতুন পিক্সেল তৈরি করে। এইজন্য, ফ্রিকোয়েন্সি ডোমেইনে ধারাবাহিক পদগুলি ছিন্ন করাতে ইন্টারপোলেশনের একটি প্রভাব রয়েছে, কেবলমাত্র এটি গণনা করা খুব দ্রুত।

আরও কিছু করার জন্য, আমি একটি উদাহরণ হিসাবে একটি ফোরেরের রূপান্তর উল্লেখ করতে যাচ্ছি। বিষয়টির কোন ভাল আলোচনা ব্যাখ্যা করবে কিভাবে ফোরিয়র এবং কোসাইন রূপান্তর সম্পর্কিত। একটি ছবির ফুরিয়ার রূপান্তর সরাসরি হিসাবে দেখা যাবে না, কারণ এটি জটিল সংখ্যা তৈরি করা হয়। এটি ইতিমধ্যে দুই ধরনের তথ্য বিভক্ত করা হয়, সংখ্যাগুলির বাস্তব এবং কল্পনামূলক অংশ। সাধারণত, আপনি এই চিত্র বা প্লট দেখতে পাবেন। কিন্তু জটিল সংখ্যাগুলিকে তাদের মাত্রা এবং ধাপে কোণে পৃথক করার জন্য এটি আরো অর্থপূর্ণ (সাধারণত)। এই জটিল প্ল্যাটফর্মের উপর জটিল সংখ্যা নিয়ে এবং পোলার কোঅর্ডিনেটে স্যুইচ করা।

অডিও সংকেত জন্য, সম্মিলিত পাপ এবং কোসাইন ফাংশনগুলি মনে করে তাদের আর্গুমেন্টগুলি একটি ফাংশনটি পিছনে এবং পিছনে (সংকেত প্রতিনিধিত্বের একটি অংশ হিসাবে) স্থানান্তর করার জন্য একটি আবেগপূর্ণ পরিমাণ গ্রহণ করে। একটি চিত্রের জন্য, ফেজ তথ্য বর্ণনা করে যে ফ্রিকোয়েন্সি স্পেসের অন্যান্য শর্তগুলির সাথে সিরিজটির প্রত্যেকটি শব্দ স্থানান্তরিত হয়। ছবিগুলিতে, প্রান্তগুলি (আশা) তাই সুস্পষ্ট যে তারা ফ্রিকোয়েন্সি ডোমেনের সর্বনিম্ন ফ্রিকোয়েন্সি শর্ত দ্বারা চিহ্নিত। এটি আক্রমনের রূপান্তর কারণ এটি ঘটে না, কিন্তু কারণ তারা আছে অনেক লাইটার এলাকা সংলগ্ন কালো এলাকা অনেক। একটি প্রান্ত একটি এক মাত্রিক স্লাইস বিবেচনা করুন। ধূসর স্তর শূন্য তারপর সংশোধন আপ এবং সেখানে থাকে। সাইন ওয়েভকে ভিজ্যুয়ালাইজ করুন যে woud প্রথম শংসাপত্রের মেয়াদ হবে যেখানে এটি সিগনাল ট্রান্সিশন এর মিডপয়েন্ট এ পাপ (0) অতিক্রম করে। এই শব্দটির ফেজ কোণটি চিত্র স্থানটিতে একটি স্থানচ্যুতির অনুরূপ। এই একটি মহান দৃষ্টান্তটি এখানে উপলব্ধ। যদি আপনি আকৃতি খুঁজে বের করার চেষ্টা করেন এবং একটি রেফারেন্স আকৃতি করতে পারেন, তবে এটি তাদের চিনতে এক উপায়।

0
যোগ