somewhere in... blog
x
ফোনেটিক ইউনিজয় বিজয়

ক‍্যাপচা প‍্যাচাল

২১ শে জুন, ২০১৯ রাত ৯:০৪
এই পোস্টটি শেয়ার করতে চাইলে :



কম্পিউটার মাঝে মাঝে পরীক্ষা নিয়ে দেখে আমি মানুষ নাকি কোনো ঝামেলা পাকানো রোবট! এজন্য কতগুলো ছবি দিয়ে পরীক্ষা করে; ক‍্যাপচা নামক এই ছবিগুলোর সাথে আমাদের সবারই পরিচয় আছে। ছবিগুলোর মধ্যে যেগুলোতে কম্পিউটার নির্দিষ্ট জিনিসগুলো থাকবে সেগুলোতে টিক চিহ্ন দিতে হবে। টিক চিহ্ন ঠিক হওয়া মানে আমি মানুষ, রোবট না!! কখনো কখনো টিক চিহ্ন দিতে দিতে হয়রান যাই, কম্পিউটার একের পর এক ছবি দিতেই থাকে!! হয়ত বলছে ছবিগুলোতে ব্রিজ থাকলে টিক দাও, দেখা গেল, ছবির মধ্যে ব্রিজের একটুখানি অংশ এমনভাবে দৃশ‍্যমান যে, বোঝা খুবই দুঃসাধ্য। আবার কখনো বলছে সিগন্যাল লাইট দেখলে টিক দিতে, কখনো রোড সাইনে টিক দিতে। সব ছবিতেই এগুলো বোঝা বেশ কষ্টকর। ছবির পর ছবিতে টিক দিতেই থাকি; রাস্তাঘাটে দেখা যায় এমন কত কিছুর ছবি যে আসতে থাকে টিকাবার জন্য, অবশেষে একসময় কম্পিউটার সন্তুষ্ট হয়ে ঘোষণা দেয় যে আমি রোবট না! আমিও তখন বেশ সন্তুষ্ট বোধ করি, একবারও মনে হয় না যে কম্পিউটার আমাকে দিয়ে কিছু কাজ করিয়ে নিল!!

আমি একা না, লক্ষ লক্ষ মানুষ এভাবে লক্ষ লক্ষ ছবি চিহ্নিত করে চলেছেন, আর এভাবেই গুগল তার আর্টিফিশিয়াল ইন্টেলিজেন্সের (এআইর) জন্য লক্ষ লক্ষ ছবি সনাক্ত করার কাজ করিয়ে নিচ্ছে, এক্কেবারে বিনাপয়সায়! নাহলে এই সনাক্তকরণের কাজ করিয়ে নেবার জন্য গুগলকে এক বিশাল কর্মী বাহিনী নিয়োগ দিতে হত! এই সনাক্ত করা ছবিগুলো এআই বিশ্লেষণ করে, তারপর একসময় এই লাইটপোস্ট, ফুটপাত আর রাস্তার আরও অনেক জিনিসের ছবি একবারেই চিনতে পারে, একেবারে মানুষের মত করে!! এটাই তার লক্ষ্য!

আর্টিফিশিয়াল ইন্টেলিজেন্স, বা এআইকে একটা ছবি চেনাবার জন্য এত ঝামেলা কেন পোহাতে হয়? কারণ এআইর ইন্টেলিজেন্স মানুষের মতো না। মানুষের intelligence এমন যে, যেকোনো জিনিস ( বা তার ছবি) একবার দেখলেই পরে সেটা অন‍্য চেহারায় বা পরিবেশে দেখলেও সেই জিনিস বলে চিনতে পারে। যেমন ধরুন, একটা চার বছরের বাচ্চাকেও যদি একটা পাকা সাগরকলা দেখিয়ে বলা হল যে, এটা একটা কলা, এরপর থেকে যতভাবেই যতরকম কলা বা তার ছবি দেখবে, তখনই সে এটাকে কলা বলে চিনতে পারবে; কলাটা যদি দেখানো হয় আধো অন্ধকারে, কিম্বা পাকা কলার বদলে কাঁচা কলা দেখানো হয়, বা কোন অপরিণত কলা, বা সাগর কলার বদলে সবরী বা বিচি কলা, তা হলেও একজন শিশুও সেটাকে কলা বলেই চিনতে পারবে। কিন্তু আর্টিফিশিয়াল ইন্টেলিজেন্স এর ব্যাপারটা তেমন নয়। তাকে যখন একটা পাকা সাগর কলা ( ছবি)  দেখিয়ে হলো এটা কলা, তখন সে এই কলার ছবির সমস্ত বৈশিষ্ট্য তার মেমোরিতে রেখে দেবে। ( কিভাবে রাখে সে প্রসঙ্গে পরে আসছি)। এরপর যখন হুবহু একই কলার ছবি আবার দেখানো হয়, তখন বুঝতে পারে এটা পাকা সাগর কলা। কিন্তু যদি দেখানো হয় কাঁচা সাগরকলা, কিংবা পাকা সবরীকলা, বা দু'টো পাকা সাগর কলা, তাহলে এআই আর এটাকে কলা বলে চিনতে পারবে না। এআইকে কলা চেনাতে গেলে কলার হাজার হাজার ছবি এআইকে দিতে হবে, সেগুলো দেখতে দেখতে, হিসাব করতে করতে, এআই ঠিক মানুষের মতোই কলা চিনতে পারবে, একে বলে এআইর Image recognition! এই Image  recognition তার জন্য মহা কঠিন একটা ব‍্যাপার- এক ছবি থেকে আরেক ছবি সামান্য আলাদা হলেই এআই মহা ধন্দে পড়ে যায়। একটা সাদা বিড়াল ছানার ছবি এআই কে দেখানো হলে সে সাদা বিড়াল ছানা চিনে রাখতে পারবে, কিন্তু যদি সেই বিড়াল ছানার গলায় একটা ফিতা বেঁধে ছবি তুলে দেয়া হয়, তাহলে সেই ছবি দেখে এ আই আর বিড়াল ছানাকে চিনতে পারবে না!


 এআই কিভাবে ছবিকে মনে রাখে? একটা জটিল প্রক্রিয়ায়। আমরা যখন কোন ছবি দেখি, আমাদের স্মৃতিতে হুবহু সেই ছবিটা রয়ে যায়।  এআই যেভাবে ছবি দেখে সে ব্যাপারটা এমন- একটা ছবি দেখার সময় সে ছবিটাকে কিছু সংখ্যার মাধ‍্যমে প্রতিস্থাপন করে। এজন্য প্রথমে সে ছবিটার দৈর্ঘ্য ও প্রস্থ বরাবর অসংখ্য ছোট ছোট খোপ বা ডটে ভাগ করে, যাকে বলে পিক্সেল। তারপর একটা করে পিক্সেলকে লম্বালম্বি তিন ভাগে ভাগ করে, সেই পিক্সেলে থাকা রং অনুযায়ী প্রতিভাগে সংখ্যা দেয়া শুরু করে। রংকে যে সংখ্যা দিয়ে প্রতিস্থাপন করে, তার মান হয় ০ থেকে ২৫৫ পর্যন্ত।  লাল, হলুদ, নীল- এই তিনটি রং মৌলিক; বাকি সমস্ত রং তৈরি হয় এই তিনটি রঙের নানা অনুপাতের মিশ্রণে। ধরা যাক একটা পিক্সেলের রং কালো, তাহলে এই পিক্সেল সংখ্যা দিয়ে প্রতিস্থাপিত হবে এভাবে [০,০,০], মানে রঙহীন। যদি  পিক্সেলের রং সাদা হয়, তবে এআই তাকে চিনবে [২৫৫,২৫৫,২৫৫] বলে; সমস্ত রং মিলে গেলে সাদাই তো দেখায়! যদি পিক্সেলের রং ধূসর হয় তবে নাম্বার হবে ০ আর ২৫৫র মাঝামাঝি কিছু একটা, যেটা কম্পিউটার ঠিক করবে। মৌলিক তিন রং এর জন্যও কম্পিউটার সংখ্যা ঠিক করে রেখেছে, ধরা যাক এই তিনটা সংখ্যা যথাক্রমে ১০০,১৫০,২০০। যদি একটা পিক্সেল হয় পুরোপুরি লাল, তবে এআই তাকে চিনবে [১০০, ১০০,১০০]। যদি পিক্সেল হয় বেগুনি, (লাল আর নীল এর সংমিশ্রণ) তবে এআই তাকে চিনবে [১০০,০,২০০], এভাবে। বেগুনি রঙের বিভিন্ন সেডের জন্য লাল, নীলের জন্য সংখ্যার মানের তারতম্য করে সঠিক সেডটি আনবে এআই। এভাবে এআই একটা ছবিকে অনেকগুলো পিক্সেল ভাগ করে প্রতি পিক্সেলের রংকে সংখ্যা দিয়ে প্রতিস্থাপন করে এই প্রথম পর্যায়ের কাজ করল।

দ্বিতীয় পর্যায়ের কাজ শুরু হয় এরপর। এআই  প্রতি পিক্সেলের সংখ্যাগুলোকে একটা র‍্যানডম সংখ্যা দিয়ে গুন করে, গুণফলগুলোকে যোগ করে, এই গুণ আর যোগের প্রক্রিয়া অব্যাহত থাকে যতক্ষণ না একটা পূর্ণ সংখ্যা ০,১,২...এরকম পাওয়া না যায়। এই পূর্ণ সংখ্যাটাকে বলে লেবেল, এক লেবেলে একটা জিনিসের যত রকম ছবি আছে তার সমস্ত রাখা থাকে, অনেকটা ফাইলে যেভাবে অনেক কাগজ রাখা থাকে। ধরা যাক, লেবেল ১ এ কলার অনেক ছবি রাখা আছে। এখন এআইকে কলার আরেকটা ছবি দেয়া হল, সে এই ছবিটাকেও পিক্সেলে ভাগ, সংখ্যার গুণ-যোগ ইত‍্যাদি করতে থাকে যতক্ষণ না একক কোন সংখ্যা (এক্ষেত্রে ১) আসে। যদি হিসাব শেষে মান ১ হয়, তবে এটাকে লেবেল ১ এ রেখে দেবে। যদি ১ না হয়ে ১ এর কাছাকাছি কোন সংখ্যা যেমন ০.৮ হয়, তখন যেহেতু এটা ১ এর কাছাকাছি, তাই এআই ট্রায়াল আর এরর করে আবার হিসাব করতে থাকে যতক্ষণ না ফল ১ হয়। কোন পিক্সেলে কোন কোন সংখ্যা আছে, সেগুলোকে ট্রায়াল আর এররের মাধ্যমে ১ করতে যেসব গাণিতিক অপারেশন করা হয়, এআই তার তথ্যও সংরক্ষণ করে। ফলে পরবর্তীতে কলার আরো কোনো ছবি সনাক্ত করতে এই হিসাব কাজে লাগে। এভাবে এআই একটা ছবিকে কতগুলো সংখ্যা বানিয়ে তা তার মেমোরিতে জমা রাখে।

এইভাবে লেবেলে অনেক পরিমাণ ছবি ( যেমন নেপালি কলা, বাংলা কলা, গাছে কলা, টুকরিতে কলা, সুপারমার্কেটে কলা, তাজা কলা, পঁচা কলা ইত্যাদি ইত্যাদি)  জমা হবার পর সেগুলো বিশ্লেষণ করে এআই একটা কমন প‍্যাটার্ণ বের করে ফেলতে পারে, যা এই বিভিন্ন রকম কলার ছবিতে আছে। সেই প‍্যাটার্ণ বের করে ফেললেই তার কাজ শেষ, এরপর কলার যেকোনো ছবি দেখামাত্রই প‍্যাটার্ণ দেখে এআই বুঝতে পারবে যে, সেটা কলার ছবি! হয়ে গেল কলার Image recognition.

এখন এআই দিয়ে যদি একটা গাড়ি চালাতে হয়,  তবে রাস্তায় দেখা যায় এমন কয়েকশ জিনিস দেখামাত্র তাকে চিনতে হবে (বাংলাদেশে গাড়ি চালানোর জন্য অবশ্য শুধু গরু ছাগল চিনলেই চলবে); যেমন একটা ট্রাফিক লাইট চিনতে গেলে তাকে প্রথমে কয়েক হাজার ট্রাফিক লাইটের ছবি দিতে হবে, যেন এগুলোর মধ্যে কমন প‍্যাটার্ণ বের করতে পারে, যা দিয়ে মুহূর্তের মধ্যেই ট্রাফিক লাইট বলে চিনতে পারে। এখন এসব চিনতে হলে যে হাজার হাজার ছবি দরকার হয়, সেগুলোকে ক‍্যাপচা টেপচা বলে গুগল আমাদের দিয়ে তৈরি করে দিচ্ছে!! view this link

দশ বছর আগে, ২০০৯ সালে গুগল এই চালকবিহীন গাড়ি বা এআই চালিত গাড়ির প্রকল্প শুরু করে, এখন যার নাম "ওয়েইমো"। ২০১৫ সালের জুন মাসে ওয়েইমো নির্মাণ টিম ঘোষণা দেয় যে তাদের পরীক্ষামূলক গাড়ি ৭০০,০০০ মাইল পথ পাড়ি দিতে গিয়ে ২০০,০০০ স্টপ সাইন, ৬০০,০০০ ট্রাফিক লাইট আর আঠার কোটি (১৮০ মিলিয়ন) নানা ধরনের গাড়ি "দেখেছে"। view this link এআইর এই দেখার সক্ষমতা অর্জনে কিছুটা হলেও আমাদের সকলের অবদান আছে।

এআই কেবল ছবি দেখে প‍্যাটার্ণ বের করতে পারে তা নয়, আরো অনেক কিছু আছে যা থেকে সে প‍্যাটার্ণ বের করতে পারে। যেমন আমার প্রিয় ফিবোনাচ্চি সিরিজ- এআই সেটাও বের করে ফেলতে পারে, যদি তাকে শুধু প্রাথমিক একটা তথ্য যেমন এটা পূর্ণসংখ্যার একটা সিরিজ এটা বলা থাকে। অসংখ্য র‍্যানডম সংখ্যা নিয়ে চেষ্টা করার পর একসময় সে সিরিজের প্রথম সংখ্যা বের করতে সফল হয়, এরপর দ্বিতীয়, তৃতীয় আর চতুর্থ সংখ্যা বের করতে পারলেই এগুলো দিয়ে সিরিজের প‍্যাটার্ণ বের করে ফেলে, তারপর পুরো সিরিজ...

আমার কথাটি ফুরোল।

 



 


সর্বশেষ এডিট : ২১ শে জুন, ২০১৯ রাত ৯:১০
৪৪টি মন্তব্য ৪৪টি উত্তর

আপনার মন্তব্য লিখুন

ছবি সংযুক্ত করতে এখানে ড্রাগ করে আনুন অথবা কম্পিউটারের নির্ধারিত স্থান থেকে সংযুক্ত করুন (সর্বোচ্চ ইমেজ সাইজঃ ১০ মেগাবাইট)
Shore O Shore A Hrosho I Dirgho I Hrosho U Dirgho U Ri E OI O OU Ka Kha Ga Gha Uma Cha Chha Ja Jha Yon To TTho Do Dho MurdhonNo TTo Tho DDo DDho No Po Fo Bo Vo Mo Ontoshto Zo Ro Lo Talobyo Sho Murdhonyo So Dontyo So Ho Zukto Kho Doye Bindu Ro Dhoye Bindu Ro Ontosthyo Yo Khondo Tto Uniswor Bisworgo Chondro Bindu A Kar E Kar O Kar Hrosho I Kar Dirgho I Kar Hrosho U Kar Dirgho U Kar Ou Kar Oi Kar Joiner Ro Fola Zo Fola Ref Ri Kar Hoshonto Doi Bo Dari SpaceBar
এই পোস্টটি শেয়ার করতে চাইলে :
আলোচিত ব্লগ

সকলের দৃষ্টি আকর্ষন করছি - জরুরী ভিত্তিতে কিছু তথ্য প্রয়োজন।

লিখেছেন কাল্পনিক_ভালোবাসা, ১৭ ই জুলাই, ২০১৯ বিকাল ৫:৫৬

গতকাল থেকে অনেক ব্লগার দাবি করেছেন তাঁরা বাংলাদেশ থেকে কোন ধরনের কৌশল অবলম্বন ছাড়া স্বাভাবিকভাবে ব্লগে প্রবেশ করতে পারছেন। যারা বাংলাদেশ থেকে ব্লগে স্বাভাবিকভাবে প্রবেশ করতে পারছেন তারা অনুগ্রহ করে... ...বাকিটুকু পড়ুন

প্রাচীন শ্যামদেশ---- পৃথিবীর সবচেয়ে বড় উন্মুক্ত যাদুঘর

লিখেছেন জুন, ১৭ ই জুলাই, ২০১৯ সন্ধ্যা ৭:১৭


১৭৬৫ সনে উন্মত্ত বার্মিজ সৈন্যদের লাগানো আগুনে ছাই হয়ে যাওয়া আয়ুথিয়ার সানফেত প্রাসাত প্যালেস

"If man has no knowledge of the past,... ...বাকিটুকু পড়ুন

জাতির বড় বড় সমস্যাগুলো নিয়ে ভাবুন, সমাধান খুঁজুন

লিখেছেন চাঁদগাজী, ১৭ ই জুলাই, ২০১৯ রাত ৯:৫৮



এইচএসসি পরীক্ষার রেজাল্ট বের হয়েছে: ১৩ লাখ ৩৬ হাজার ছেলেমেয়ে পরীক্ষা দিয়েছিলো, ৯ লাখ ৮৯ হাজার কৃতকার্য হয়েছে, বাকী ৩ লাখ ৪৭ হাজার ফেল করেছে! যারা... ...বাকিটুকু পড়ুন

এপক্ষের বিনোদন

লিখেছেন মা.হাসান, ১৭ ই জুলাই, ২০১৯ রাত ১০:২৭


ও ছার, আমাগো কি কেরানিগঞ্জ যাওনের লাইগা বিটিছ এমবাছি থেইকা ভিসা লওন লাগবো?




কুমিল্লাও দেহি অহন ঢাকা হইবার চায়




কেউ খাবে কেউ খাবে না, তা... ...বাকিটুকু পড়ুন

দ্যা হিপোক্রেসি - নরকের কীটের সাথে সহবাস

লিখেছেন , ১৮ ই জুলাই, ২০১৯ ভোর ৬:৪৮


পর্ব -০৫

বানেছা বিবির থাকার রুমটি বেশ বড় ও পরিপাটি। রুমের ভেতর থাকার জন্য ডাবল বেড, ওয়ারড্রব, চেয়ার, টেবিল ও একটি সোফাবেডসহ সব ধরনের আসবাবপত্র দিয়ে সজ্জিত রয়েছে। আমি... ...বাকিটুকু পড়ুন

×