কিভাবে একটি ওয়েব পৃষ্ঠা বাঁক বা wget?

আমি একটি রাত্রিকালীন ক্রোন কাজ করতে চাই যা আমার স্ট্যাকওভারফ্লো পৃষ্ঠাটি সংগ্রহ করে এবং আগের দিনের পৃষ্ঠা থেকে আলাদা করে নিতে পারে, তাই আমি আমার প্রশ্ন, উত্তর, র্যাঙ্কিং ইত্যাদির একটি পরিবর্তন সারাংশ দেখতে পাচ্ছি।

দুর্ভাগ্যক্রমে, আমি এই কাজ করতে কুকিজ, ইত্যাদি সঠিক সেট পেতে পারে না। কোন ধারনা?

এছাড়াও, যখন বিটা সমাপ্ত হয়, আমার স্থিতি পৃষ্ঠা লগ ইন না করেই অ্যাক্সেসযোগ্য হবে?

0
ro fr hi

5 উত্তর

আপনার স্থিতি পৃষ্ঠাটি লগইন না করেই এখন পাওয়া যায় ( লগ আউট করুন এবং এটি চেষ্টা করুন)। যখন বিটা-কুকি অক্ষম করা হয়, তখন আপনার এবং আপনার স্থিতি পৃষ্ঠাটির মধ্যে কিছুই থাকবে না।

Wget জন্য:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
0
যোগ

From Mark Harrison

এবং এখানে কি কাজ করে ...

     

কার্ল-গুলি --কুকি soba =। https://stackoverflow.com/users

এবং wget জন্য:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
0
যোগ

এবং এখানে কি কাজ করে ...

curl -s --cookie soba=. http://stackoverflow.com/users
0
যোগ

চমৎকার ধারণা :)

আমি আপনাকে wget এর ব্যবহার করেছি অনুমান

--load-cookies (filename)

একটি সামান্য সাহায্য করতে পারে কিন্তু একটি ভাল মাকড়সা পেতে সম্পূর্ণরূপে একটি ব্রাউজার অনুকরণ করার জন্য Mechanize (পার্ল বা Python) মত কিছু ব্যবহার করা সহজ হতে পারে।

0
যোগ

কুকিগুলি কাজ করতে কীভাবে কীভাবে কাজ করতে হয় তা আমি বুঝতে পারি নি, তবে আমার ব্রাউজারে লগ-ইন করা অবস্থায় আমি আমার স্থিতি পৃষ্ঠাতে পৌঁছানোর চেষ্টা করেছি, তাই আমি মনে করি স্ট্যাকওভারফ্লোটি সর্বজনীন হওয়ার পর এটি কাজ করবে।

এটি একটি আকর্ষণীয় ধারণা, কিন্তু আপনি অন্তর্নিহিত HTML কোডের diffs বাছাই করবেন না? আপনি কি এইচটিএমএল এর একটি ভিন্নতা এবং প্রকৃত কন্টেন্ট না শেষ পর্যন্ত এড়ানো একটি কৌশল আছে?

0
যোগ
যদি আমার সময় ছিল, আমি একটি সুন্দর স্যুপ (অথবা কিছু ভালো?) স্ক্রিপ্ট তৈরি করতাম ডেটা ভালভাবে আঁকড়ে ধরার জন্য, কিন্তু এখন আমি শুধু প্রয়োজন টেক্সটের লাইনগুলোকে তুলে ধরছি।
যোগ লেখক Mark Harrison, উৎস