বাংলা টেক্সট টু স্পিচ ও বাংলা ওসিআর আলোর পথে ডিজিটাল বাংলাদেশ

এ এস এম আশিকুর রহমান অমিত

গত সংখ্যায় “তথ্য প্রযুক্তিতে প্রতিবন্ধী ব্যক্তিদের প্রবেশগম্যতা ও বাধাসমূহ” শীর্ষক লিখেছিলাম। এবার প্রযুক্তির ভিন্ন দুটি বিষয়ে আলোচনা করার চেষ্টা করছি। তবে এ প্রযুক্তি দুটি শুধু যে প্রতিবন্ধী মানুষেরই কাজে আসবে তাই নয়, দেশকে নিয়ে যাবে এক নতুন আলোর পথে। উপকৃত হবে দেশের সর্বস্তরের জনগণ। নতুনভাবে বিশ্বে পরিচিতি পাবে দেশ। এই প্রযুক্তি দু’টো হচ্ছে “বাংলা ওসিআর” এবং “বাংলা টেক্সট টু স্পিচ”।

বোঝার সুবিধার জন্যে লেখাটিকে দু’অংশে ভাগ করেছি, প্রথম অংশে থাকবে বাংলা ওসিআর, দ্বিতীয় অংশে বাংলা টেক্সট টু স্পিচ। টিম ইঞ্জিনের স্বপ্নদ্রষ্টা ও ব্যবস্থাপনা পরিচালক সামিরা জুবেরী হিমিকা এবং গবেষণা ও উন্নয়ন বিভাগের প্রধান এইচ এম শাহরিয়ারের নেতৃত্বে মোট ত্রিশ জন সফটওয়্যার আর্কিটেক্ট তাদের পরিশ্রম ও মেধার মাধ্যমে এই সফটওয়্যার দুটি তৈরি করেছেন। গবেষণা ও উন্নয়ন, প্রকৌশল সহায়তা এবং কোডিং এই তিন দলে বিভক্ত হয়ে প্রযুক্তিতে বাংলা ভাষার রেঁনেসার সূত্রপাত করল টিম ইঞ্জিন।

 

ওসিআর

 

‘অপটিক্যাল ক্যারেক্টার রিকগনিশন’ বা ‘ওসিআর’ এমন একটি সফটওয়্যার যা হাতে লিখিত, টাইপকৃত এবং ছাপার হরফের লেখাকে যন্ত্রে পাঠযোগ্য লেখায় রূপান্তর করতে পারে। ওসিআরের সুবিধা হলো, এটি ছবির অক্ষরও চিনতে পারে। ফলে ছবির অক্ষরকে স্ক্যান করে অথবা ছবি তুলে টেক্সট ফাইলে রূপান্তর করা যায়। ইংরেজিসহ কয়েকটি ভাষায় ভালো ওসিআর থাকলেও বাংলা সমর্থনযোগ্য ভালো কোনো ওসিআর এত দিন ছিল না। ‘টিম ইঞ্জিন’ এক্ষেত্রে প্রথমবারের মত সফল হয়েছে।

 

যদিও গত অক্টোবর’১৩ তে সার্ভিস ইনোভেশন ফান্ডের আওতায় বাংলা ওসিআর তৈরির জন্য ইউনাইটেড ইন্টারন্যাশনাল ইউনিভার্সিটিকে ২৩ লাখ টাকা অনুদান দেয় প্রধানমন্ত্রীর কার্যালয়ের প্রকল্প অ্যাক্সেস টু ইনফরমেশন (এটুআই) যা এখনো সফলতা পায়নি। তারও আগে ২০০৯ সালে ব্র্যাক বিশ্ববিদ্যালয়ের “সেন্টার ফর রিসার্চ অন বাংলা ল্যাক্সগুয়েজ প্রসেসিং (সিআরবিএলপি)” ওসিআর তৈরির উদ্যোগ নিলেও তাদের সফটওয়্যারটি বাংলা ভাষায় কার্যকর সুবিধা দিতে পারেনি।

বাংলা ওসিআরের গুরুত্ব কতটুকু? প্রযুক্তিতে বাংলা ভাষাকে আরো কার্যকর করতে অপরিহার্য বাংলা ওসিআর। ফলে বাংলা ভাষায় রচিত নতুন, পুরনো সব প্রকাশনা সহজে স্থায়ীভাবে সংরক্ষণ করা সম্ভব হবে। প্রতিটি উদ্ভাবনের পিছনে একটি ইতিহাস থাকে। আর আমাদের এই উদ্ভাবনের পিছনের ইতিহাসটি মোটামোটি সামাজিক কল্যাণ ও মুনাফা দুইই নিশ্চিত হয়, এমন সব প্রকল্প নিয়ে কাজ করে ‘টিমইঞ্জিন’। বাংলাদেশের উদ্যোক্তা উন্নয়ন, স্বাস্থ্যসেবা, তথ্য সরবরাহ ও বাংলা ভাষা এবং সংস্কৃতি সংরক্ষণের জন্য তিনটি ভিন্ন প্রকল্প নিয়ে এখন কাজ করছি আমরা। এসব প্রকল্পের কাজে অনলাইন লাইব্রেরি ‘অ্যানসেস্টর’ তৈরি করতে গিয়ে বাংলা ওসিআর প্রয়োজন হয়ে পড়ে আমাদের। তাই নিজেরাই বাংলা ওসিআর তৈরির সিদ্ধান্ত নিই।

 

শাহজালাল বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়ের অধ্যাপক এবং কথাসাহিত্যিক ড. মুহম্মদ জাফর ইকবাল এই ওসিআরের স্বপ্নদ্রষ্টা। তারই পরামর্শে ২০১২ সালের ডিসেম্বরে বাংলা ওসিআর তৈরির কাজ শুরু করে ‘টিম ইঞ্জিন’। সফটওয়্যার আর্কিটেক্ট এস এম আল-আমিনের নেতৃত্বে ১৫ জনের একটি দল এ প্রকল্পে কাজ করেন। সার্বক্ষণিক সহযোগিতা করেন মাননীয় অর্থমন্ত্রী আবুল মাল আবদুল মুহিত, তথ্য ও যোগাযোগ প্রযুক্তি মন্ত্রণালয়ের বর্তমানে (ডাক, টেলিযোগাযোগ ও তথ্যপ্রযুক্তি মন্ত্রণালয়ের তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ) মাননীয় মন্ত্রী আব্দুল লতিফ সিদ্দিকী, মাননীয় প্রতিমন্ত্রী মোহাম্মদ জুনায়েদ আহম্মদ পলক ও সচিব নজরুল ইসলাম খান। এ ছাড়া, টিম ইঞ্জিনের চেয়ারম্যান ড. হাসান ইমাম, অ্যামটবের মহাসচিব টি আই এম নূরুল কবির, মাইক্রোক্রাফট বাংলাদেশের স্বত্বাধিকারী ইফতেখার আবদুল হাই, ডেটা সফটের ব্যবস্থাপনা পরিচালক মাহবুব জামান, বেসিসের প্রেসিডেন্ট শামীম আহসান, আইসিটি কনসালটেন্ট সুফি ইবনে আবু বকর এবং মোঃ মোর্শেদ নানান পরামর্শ ও উৎসাহ দেন।

 

আল-আমিন সম্রাট মূলত কারিগরি বিষয়গুলো নিয়ে কাজ করেন। গবেষণা পর্যায়ে কাজ করেন প্রতিষ্ঠানটির গবেষণা ও উন্নয়ন বিভাগের প্রধান এইচ এম শাহরিয়ার। দলের অন্য সদস্যরা কোডিংয়ের কাজ করেন। বাংলা ওসিআর তৈরিতে সবচেয়ে বেশি সময় লেগেছে পরিকল্পনা পর্যায়ে। কারণ একটি পরিপূর্ণ ওসিআর তৈরিতে অন্য ইঞ্জিনের (বিশেষ সফটওয়্যার) ওপর নির্ভর করে বাংলা ওসিআর তৈরি করলে তার কার্যকারিতা কম হতো। তাই প্রথমে সম্পূর্ণভাবে ‘বাংলা ইঞ্জিন’ তৈরি করা হয়। এরপর এই ইঞ্জিনের ওপর ভিত্তি করে বাংলা ওসিআর তৈরি করা হয়েছে। প্রাথমিক পরীক্ষায় দেখা গেছে, টিম ইঞ্জিনের বাংলা ওসিআর সুতন্বীসহ ষাটের দশকে ব্যবহৃত ফন্ট স্ক্যান করেও সর্বনিম্ন ৯৪ শতাংশ পর্যন্ত সফল আউটপুট দিতে পারে। এ ছাড়া বাংলায় টাইপ করা বা লেখা একটি ইমেজকে স্ক্যান করলে ইমেজের কনটেন্ট সরাসরি ইউনিকোড ফরম্যাটে চলে আসে। ফলে এটি সহজেই ওয়েবে কিংবা ডিজিটালভাবে সংরক্ষণ করা যায়। মিনিটে তিন পৃষ্ঠা স্ক্যান করে আউটপুট দিতে পারে সফটওয়্যারটি।

 

আমাদের এই বাংলা ওসিআর ডিজিটাল বাংলাদেশকে নিয়ে যাবে আরও এক ধাপ উপরে। গণপ্রজাতন্ত্রী বাংলাদেশ সরকারের প্রধানমন্ত্রী শেখ হাসিনা আন্তঃমন্ত্রণালয়ের কার্যক্রমকে ডিজিটালাইজ করতে চেয়েছিলেন। এর একটি গুরুত্বপূর্ণ ধাপ হলো নথিপত্র প্রক্রিয়াকে ডিজিটালাইজ করা এবং পুরোনো নথিপত্রগুলো সহজে খুঁজে বের করা। সরকারের এই প্রকল্পটি ধীরগতিতে এগুবার একটি বড় কারণ ছিল বাংলা ওসিআর না থাকা যা খুব শিগগিরই সকলের জন্য উন্মুক্ত হতে যাচ্ছে।

পূর্ণাঙ্গভাবে বাংলা ওসিআর উন্মুক্ত হলে সরকারি-বেসরকারি প্রতিষ্ঠানগুলোর পুরনো-নতুন বই, নথি ডিজিটালাইজ করা যাবে। এতে এসব বই, নথি একেবারে হারিয়ে যাওয়ার হাত থেকে রক্ষা পাবে। বই, নথি, কাগজের স্তূপ থেকে ঘণ্টার পর ঘণ্টা ব্যয় করে কোনো তথ্য খুঁজে বের করতে হবে না। ওয়েবে থাকলে সার্চ দিলেই সব তথ্য পাওয়া যাবে। এ ছাড়া জাতীয় গ্রন্থাগার থেকে শুরু করে অন্য সব লাইব্রেরীকে অনলাইনে নিয়ে আসতে বাংলা ওসিআর একটি বড় মাধ্যম হিসেবে গুরুত্বপূর্ণ ভূমিকা রাখবে।

 

সরকারের পক্ষ থেকে ডিজিটাল বাংলাদেশে কাগজ ও ফাইলবিহীন যে অফিসের পরিকল্পনা   বাস্তবায়নের চেষ্টা করা হচ্ছে সেখানেও ভূমিকা রাখতে পারবে বাংলা ওসিআর। এই সফটওয়্যারের মাধ্যমে আগের সব ফাইল ডিজিটালভাবে ওয়েব সার্ভার কিংবা কম্পিউটারের হার্ডডিক্সে সংরক্ষণ করা যাবে। তাছাড়াও বাংলা ওসিআর বাজারে আসলে বাংলাদেশের দৃষ্টি প্রতিবন্ধী ব্যক্তি যারা আছেন তাদের একটি বড় ধরনের উপকার হবে। তারা বিদ্যালয়ের পাঠ্য বই হাতে পান অনেক দেরীতে। বাংলা ভাষায় ব্রেইল বই রয়েছে চাহিদার তুলনায় খুবই কম। তাছাড়া ব্রেইল বই ছাপানো অনেক ব্যয় বহুল এবং সময় সাপেক্ষ। অডিও এবং ডিজিটাল ই-বুক নেই বললেই চলে। ওসিআর ব্যবহার করে পুরনো বা নতুন বইকে ব্রেইল বইয়ে রূপান্তর খুব সহজেই করা সম্ভব এবং এতে খরচও কমে  যাবে। অডিও বুক ও ডিজিটাল ই-বুক করাও সহজ হবে। দৃষ্টি  প্রতিবন্ধী ব্যক্তিরা তাদের পছন্দানুযায়ী বই স্ক্যান করেও পড়তে পারবে। এছাড়াও টেক্সট এডিট করতে গেলে ওসিআর তাকে সাহায্য করবে।

 

 

টেক্সট টু স্পিচ

বাংলা ওসিআর তৈরী করেই টিম ইঞ্জিন থেমে নেই, হাতে নিয়েছে টেক্সট টু স্পিচ, স্পিচ টু টেক্সট, কর্পাসের মতো সময় উপযোগী বিভিন্ন ধরনের সফটওয়্যার। অক্ষর চিনে কথা বলবে কম্পিউটার আর এ প্রক্রিয়াকে কম্পিউটারের ভাষায় বলা হয় টেক্সট টু স্পিচ। বাংলা বর্ণমালা চিনে তা কন্ঠ ভাষায় রূপান্তরের জন্য “বাংলা টেক্সট টু স্পিচ” নামে একটি সফটওয়্যার উন্নয়ন করেছে টিম ইঞ্জিন। দৃষ্টি প্রতিবন্ধী মানুষের জন্য এই বাংলা টেক্সট টু স্পিচ সফটওয়্যারটির গুরুত্ব অপরিসীম। অনলাইনের অসংখ্য বিষয়বস্তু দৃষ্টি প্রতিবন্ধী ব্যক্তিদের কোনো উপকারে আসছে না। এই বিষয়বস্তুগুলোকে তাদের শোনার উপযোগী করে তুলতে বাংলা টেক্সট টু স্পিচ সফটওয়্যার প্রযুক্তিতে মাইলফলক হিসেবে কাজ করবে। দৃষ্টি প্রতিবন্ধী ব্যক্তিরা পড়াশুনা এবং গবেষণার জন্য প্রচুর বই এবং তথ্য সহজেই পাবে। এছাড়া দৃষ্টিস¤পন্ন মানুষের ক্ষেত্রে ভ্রমণের সময় বই পড়াটা কঠিন। তখন বাংলা টেক্সট টু স্পিচ সফটওয়্যারের মাধ্যমে শুনে শুনে খুব সহজেই বইটি সম্পর্কে জানতে পারবেন। এমন কী, যারা লেখাপড়ার সুযোগ পায় নি তারাও বিভিন্ন তথ্য পাবার ক্ষেত্রে টেক্সট টু স্পিচ এর সাহায্য নিতে পারবে। তাছাড়াও এটিএম বুথ, মোবাইল ফোন, টেলিভিশনসহ বিভিন্ন ধরনের প্রোগ্রামযোগ্য ডিভাইসগুলোকে টেক্সট টু স্পিচ এর সাহায্যে খুব সহজেই দৃষ্টি প্রতিবন্ধী মানুষের জন্য প্রবেশগম্য করা যাবে।

 

ব্র্যাক বিশ্ববিদ্যালয়ের সিআরবিএলপি ২০০৯ এ টেক্সট টু স্পিচও তৈরি করেছিল। তবে তাদের সফটওয়্যারটি কার্যকর টেক্সট টু স্পিচের সুবিধা দিতে পারে নি। ২০১০ সালে এটির উন্নয়নের জন্য “দৈনিক প্রথম আলো”র কাছ থেকে একুশ লক্ষ টাকার একটি অনুদান পায় ব্র্যাক বিশ্ববিদ্যালয়। সে গবেষণাও আলোর মুখ দেখে নি। ২০১১ সালের মাঝামাঝি সময়ে বিজ্ঞান ও প্রযুক্তি মন্ত্রণালয়ের আর্থিক সহযোগিতায় শাহাজালাল বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়ের কম্পিউটার বিজ্ঞান ও প্রকৌশল বিভাগ একটি টেক্সট টু স্পিচ তৈররি লক্ষ্যে গবেষণার সুযোগ পায়। কিন্তু এই সফটওয়্যারটিও দৃষ্টি প্রতিবন্ধী মানুষের আশা স¤পূর্ণরূপে পূরণ করতে পারে নি। বিভিন্ন সময় কলকাতার কিছু প্রতিষ্ঠান বাংলা টেক্সট টু স্পিচ তৈরী করার চেষ্টা করে, কিন্তু তারাও সফল হয় নি। ইংরেজী টেক্সট টু স্পিচকে প্রসেস করে বাংলা পড়ানোরও চেষ্টা করা হয়েছে, কিন্তু তাতেও রয়ে গেছে উচ্চারণগত সমস্যা। পরবর্তীতে দৃষ্টি প্রতিবন্ধী মানুষের অনুরোধে এবং দায়িত্ববোধ থেকেই টিম ইঞ্জিন বাংলা টেক্সট টু স্পিচ সফটওয়্যারটি তৈরির সিদ্ধান্ত নেয়। কারণ, বর্তমানে যেসব ইংরেজি টেক্সট টু স্পিচ সফটওয়্যার রয়েছে সেগুলোর মাধ্যমেও ‘লেখ্য বাংলা’ শোনা যায়। তবে সেটির জন্য একদিকে যেমন অনেক জটিল প্রক্রিয়ার মধ্য দিয়ে যেতে হয়। অন্যদিকে আবার টেক্সট টু স্পিচগুলো বাংলা লেখাকে ইংরেজি ভাষাভাষী মানুষের মতো করে উচ্চারণ করে, যা বোঝা খুবই কষ্টকর এবং অনেক সময় দুর্বোধ্য। কিন্তু টিম ইঞ্জিনের বাংলা টেক্সট টু স্পিচ সফটওয়্যারটি বাংলা লেখাকে শুদ্ধ উচ্চারণে পড়ে শোনাবে। এটি বাংলা অক্ষরকে শনাক্ত করতে এবং পড়তে পারে। কোথায় থামতে হবে তাও বুঝতে পারে। বাংলা টেক্সট টু স্পিচে যান্ত্রিক ভাষা নয়, বরঞ্চ অনেক বেশি ইউজার ফ্রেন্ডলি হিসেবে সফটওয়্যারটিতে হিউম্যান ভয়েস ব্যবহার করা হয়েছে। টিম ইঞ্জিনের সফটওয়্যার আর্কিটেক্ট মাসুদের নেতৃত্বে ফয়সাল, মোনা ও সাজ্জাদসহ আরও কিছু সফটওয়্যার আর্কিটেক্ট এ সফটওয়্যার তৈরি করেছেন। এতে সাউন্ড ইঞ্জিনিয়ার হিসেবে কাজ করেছেন অয়ন মিজান। উপদেষ্টা হিসেবে আছেন রুহুল আমিন সজীব।

 

বাংলা ওসিআর এবং বাংলা টেক্সট টু স্পিচ সফটওয়্যারের প্রজেক্ট কো-অর্ডিনেটর ছিলেন নাফিসা রেজা বর্ষা। আর এই দুইটি সফটওয়্যার যেন সবার উপোযোগী হয় অর্থাৎ সকলের জন্য প্রবেশগম্যতা ইস্যুতে টেকনিক্যাল এ্যাডভাইজার হিসেবে কাজ করেছি আমি আশিকুর রহমান অমিত।

বাংলা ওসিআর ও বাংলা টেক্সট টু স্পিচের পূর্ণাঙ্গ সংস্করণ মুক্ত সফটওয়্যার (ওপেন সোর্স) হিসেবে প্রকাশ করা হবে। খুব শীঘ্রই সবার জন্য উন্মুক্ত হতে যাচ্ছে সফটওয়্যার দুইটি। ফলে যে কেউ এ দু’টি সফটওয়্যারের উন্নয়নে অংশ নিতে পারবেন।

শেষে বলতে চাই, আমরা টিম ইঞ্জিন একটি পরিবারের মতো। বাংলাদেশকে আরও সামনে এগিয়ে নিয়ে যাওয়াই আমাদের এই পরিবারের লক্ষ্য। দেশের অগণিত তরুণ প্রজন্মকে ডিজিটালাইজ করার মাধ্যমে আমরা দেশকে সমৃদ্ধ করতে চাই। অতিরিক্ত অর্থ উপার্জন আমাদের কাম্য নয়। তবে সরকারি/বেসরকারি বিভিন্ন  প্রতিষ্ঠান এবং জনগণের মাঝে প্রযুক্তি খাতে নানান সমস্যার সঠিক নিরসন করাই আমাদের মূল লক্ষ্য।

 

 

টেকনিক্যাল এ্যাডভাইজার (গবেষণা ও উন্নয়ন বিভাগ)

টিম ইঞ্জিন লিমিটেড