AI doctor online 24/7: আপনি কি কল্পনা করতে পারেন যে আপনার স্মার্টফোনে এমন একটি অ্যাপ থাকবে, যা যেকোনো সময় জটিল মেডিকেল প্রশ্নের উত্তর দিতে পারে, রোগ নির্ণয় করতে পারে, এবং চিকিৎসা পরামর্শ দিতে পারে? OpenAI এই কল্পনাকে বাস্তবে পরিণত করার পথে দ্রুত এগিয়ে চলেছে। সাম্প্রতিক গবেষণা অনুসারে, OpenAI-এর উন্নত AI মডেলগুলি জটিল রোগ নির্ণয়ে মানব চিকিৎসকদের চেয়েও অধিক সঠিকতার সাথে কাজ করতে পারছে, যা স্বাস্থ্যসেবা ক্ষেত্রে একটি যুগান্তকারী পরিবর্তন আনতে চলেছে।
OpenAI-এর মেডিকেল AI মডেল: o1 থেকে o3 পর্যন্ত
হার্ভার্ড মেডিকেল স্কুল এবং স্ট্যানফোর্ড বিশ্ববিদ্যালয় দ্বারা পরিচালিত একটি গুরুত্বপূর্ণ গবেষণায় দেখা গেছে যে OpenAI-এর o1-preview AI সিস্টেম জটিল মেডিকেল কেসগুলি নির্ণয় করতে মানব চিকিৎসকদের তুলনায় উল্লেখযোগ্যভাবে ভালো পারফর্ম করেছে। এই AI সিস্টেম ৭০টি জটিল মেডিকেল কেসের মধ্যে ৮৮.৬% সঠিকভাবে রোগ নির্ণয় করতে সক্ষম হয়েছে।
o1 মডেল শুধু মেডিকেল ফিল্ডেই নয়, বরং প্রতিযোগিতামূলক প্রোগ্রামিং প্রশ্নে (কোডফোর্সেস) ৮৯তম পার্সেন্টাইলে স্থান করে নিয়েছে, মার্কিন যুক্তরাষ্ট্রের শীর্ষ ৫০০ ছাত্রের মধ্যে যুক্তরাষ্ট্র গণিত অলিম্পিয়াডে (AIME) স্থান পেয়েছে, এবং পদার্থবিজ্ঞান, জীববিজ্ঞান ও রসায়নের সমস্যাগুলিতে (GPQA) পিএইচডি স্তরের মানুষের সঠিকতাকে ছাড়িয়ে গেছে।
OpenAI-এর সর্বাধুনিক মডেল o3 আরও উন্নত পারফরম্যান্স দেখিয়েছে, যা ক্লডে ৩.৭ সনেট এবং জেমিনি ২.৫ প্রো (মার্চ ২০২৫) এর মতো অন্যান্য শক্তিশালী মডেলগুলিকে ছাড়িয়ে গেছে।
“OpenAI Wants to be a ’24/7 World-Class Doctor’ in Your Pocket” এই লক্ষ্যকে বাস্তবায়িত করার জন্য কোম্পানি আরও অগ্রগতি দেখাতে চলেছে।
HealthBench: স্বাস্থ্যসেবায় AI মডেলগুলির মূল্যায়নের নতুন মানদণ্ড
সম্প্রতি, OpenAI একটি নতুন ডাটাসেট প্রকাশ করেছে যাকে “HealthBench” বলা হচ্ছে। এটি AI মডেলগুলির স্বাস্থ্যসেবা সম্পর্কিত প্রশ্নের উত্তর দেওয়ার ক্ষমতা মূল্যায়ন করার জন্য একটি বিশেষ টুল। এই ডাটাসেট ৬০টি দেশের ২৬২ জন চিকিৎসকের সহযোগিতায় তৈরি করা হয়েছে, যাতে ৫,০০০টি বাস্তবসম্মত স্বাস্থ্য সংলাপ রয়েছে।
HealthBench-এর মূল উদ্দেশ্য হলো AI মডেলগুলি স্বাস্থ্যসেবা সম্পর্কিত প্রশ্নের উত্তর কতটা ভালোভাবে দিতে পারছে তা নির্ধারণ করা। প্রতিটি উত্তরকে চিকিৎসক-লিখিত রুব্রিক মানদণ্ডের বিপরীতে পরিমাপ করা হয়, যেখানে প্রতিটি মানদণ্ডকে চিকিৎসকের বিচারের সাথে মিলিয়ে ওজন দেওয়া হয়।
আশ্চর্যজনকভাবে, OpenAI-এর o3 রিজনিং মডেল HealthBench-এ ৬০% স্কোর করে সর্বোচ্চ পারফরম্যান্স দেখিয়েছে, তারপরে এলন মাস্কের Grok ৫৪% এবং Google-এর Gemini 2.5 Pro ৫২% স্কোর করেছে।
OpenAI Wants to be a ’24/7 World-Class Doctor’ in Your Pocket: কিভাবে কাজ করছে?
OpenAI-এর সাম্প্রতিক প্রগতি দেখাচ্ছে যে তারা এমন একটি বিশ্বস্ত হেলথকেয়ার সিস্টেম তৈরি করতে চায় যা সাধারণ মানুষের হাতে থাকবে। উদাহরণস্বরূপ, OpenAI-এর ব্লগ পোস্টে, তারা একটি পরিস্থিতি কল্পনা করেছে যেখানে একজন ৭০ বছর বয়সী প্রতিবেশী মেঝেতে শুয়ে আছে, শ্বাস নিচ্ছে কিন্তু সাড়া দিচ্ছে না। এমন পরিস্থিতিতে ব্যক্তি AI-কে জিজ্ঞাসা করে কী করা উচিত। মডেল তখন জরুরি পরিষেবায় কল করা, শ্বাস-প্রশ্বাস পরীক্ষা করা এবং শ্বাসনালী অবস্থান নিয়ন্ত্রণ করার মতো পদক্ষেপসহ একটি উত্তর প্রদান করে।
HealthBench তারপর উত্তরটিকে স্কোর করে, ব্যাখ্যা করে মডেলটি কী সঠিকভাবে উত্তর দিয়েছে এবং কীভাবে উন্নতি করা যেতে পারে। এই ক্ষেত্রে, মডেলটি ৭৭% স্কোর পেয়েছে।
আপনার পকেটে বিশ্বমানের ডাক্তার হওয়ার সম্ভাব্য সুবিধাগুলি
OpenAI Wants to be a ’24/7 World-Class Doctor’ in Your Pocket এই অবস্থা যদি বাস্তবে পরিণত হয়, তাহলে এর বেশ কিছু সুবিধা হতে পারে:
২৪/৭ স্বাস্থ্যসেবা অ্যাক্সেস: বিশেষত দূরবর্তী এলাকায় যেখানে চিকিৎসক সংকট রয়েছে, লোকেরা যেকোনো সময় প্রাথমিক স্বাস্থ্য পরামর্শ পেতে পারবে।
দ্রুত রোগ নির্ণয়: AI মডেলগুলি বিশাল ডাটাসেট বিশ্লেষণ করে দ্রুত রোগ নির্ণয় করতে পারে, যা জটিল কেসগুলিতে বিশেষ সাহায্য করতে পারে।
চিকিৎসকদের কাজের চাপ কমানো: একজন হার্ভার্ড মেডিকেল স্কুলের অধ্যাপক, ডঃ অ্যাডাম রডম্যান বলেছেন যে এখন তিনি এমন একটি অ্যাপ ব্যবহার করেন যা ১৫ সেকেন্ডের মধ্যে মেডিকেল লিটারেচার খুঁজে বের করতে পারে, যা আগে ২ ঘন্টা সময় নিত।
ত্রুটি কমানো: আইজ্যাক কোহেন, হার্ভার্ড মেডিকেল স্কুলের বায়োমেডিকেল ইনফরমেটিক্স বিভাগের চেয়ারম্যান, OpenAI-এর GPT-4 মডেলের একটি প্রাথমিক পরীক্ষায় একটি জটিল কেসে (অস্পষ্ট জননাঙ্গ সহ জন্মগ্রহণ করা শিশু) সমস্যাটি সমাধান করতে দেখেছেন, যা অভিজ্ঞ এন্ডোক্রিনোলজিস্টদেরও চ্যালেঞ্জিং মনে হতে পারে।
চ্যালেঞ্জ এবং সীমাবদ্ধতা
যদিও OpenAI Wants to be a ’24/7 World-Class Doctor’ in Your Pocket এই উচ্চাকাঙ্ক্ষা অত্যন্ত প্রতিশ্রুতিশীল, তবুও এর সামনে কিছু উল্লেখযোগ্য চ্যালেঞ্জ রয়েছে:
গতির সমস্যা: o1 মডেল অন্যান্য AI মডেলের তুলনায় ধীর। গবেষণা অনুযায়ী, চারটি মেডিকেল টাস্কে o1 আউটপুট জেনারেট করতে GPT-4 এর তুলনায় ২x এবং GPT-3.5 এর তুলনায় ৯x বেশি সময় নেয় (o1 এর জন্য ১৩.১৮ সেকেন্ড বনাম GPT-4 এর জন্য ৬.৮৯ সেকেন্ড এবং GPT-3.5 এর জন্য ১.৪১ সেকেন্ড)। জরুরী মেডিকেল পরিবেশে এই ধীরগতি একটি সমস্যা হতে পারে।
বহুভাষিক সমর্থনের অভাব: যদিও o1 মডেল বহুভাষিক প্রশ্নোত্তর কাজগুলিতে ৮৫.২% সঠিকতার সাথে অন্যান্য মডেলকে ছাড়িয়ে যায় (GPT-4 এর ৭৫.৭% এবং GPT-3.5 এর ৫৪.১% এর তুলনায়), এটি চীনা এজেন্ট বেঞ্চমার্ক AI হাসপাতালে মেডিকেল পরীক্ষা পরিস্থিতিতে GPT-4 এর তুলনায় ১.৬% কম (৪৩.৪% বনাম ৪৫.০%) করে। এটি মেডিকেল সেটিংয়ে মিশ্র ভাষার আউটপুট জেনারেশনেও সমস্যা হয়।
একটি সর্বাধিক উপযুক্ত মডেলের অভাব: যদিও o1 সাধারণত বেশিরভাগ ক্লিনিকাল ডিসিশন টাস্কে অন্যান্য LLM-গুলিকে ছাড়িয়ে যায়, কোনো একক মডেল সমস্ত মেডিকেল টাস্কে সর্বোত্তম পারফর্ম করতে পারে না। দেখা যায় যে o1 MIMIC4ED-Critical Triage ডাটাসেটে সঠিকতায় GPT-4 থেকে ৫% পিছিয়ে থাকে।
নিরাপত্তা সম্পর্কিত উদ্বেগ: চিকিৎসা ক্ষেত্রে AI-এর ব্যবহার যেখানে রোগীদের জীবন-মরণের সিদ্ধান্ত জড়িত, সেখানে নিরাপত্তা প্রশ্নগুলি অত্যন্ত গুরুত্বপূর্ণ। এই কারণেই বিশেষজ্ঞরা বাস্তব বিশ্বে ব্যাপক ক্লিনিকাল ট্রায়াল এবং উন্নত মূল্যায়ন পদ্ধতির জন্য আহ্বান জানিয়েছেন।
বাস্তব উদাহরণ: AI কীভাবে ইতিমধ্যেই জীবন বাঁচাচ্ছে
OpenAI Wants to be a ’24/7 World-Class Doctor’ in Your Pocket এই ধারণা ইতিমধ্যেই বাস্তব ফল দিচ্ছে। একটি ব্যাপকভাবে প্রচারিত ঘটনায়, একটি বাচ্চার পুনরাবৃত্ত ব্যথা তিন বছর ধরে ১৭ জন ডাক্তার দ্বারা ভুল নির্ণয় করা হয়েছিল। বাচ্চাটির মা তার মেডিকেল নোটগুলি ChatGPT-তে প্রবেশ করেন, যা একটি অবস্থার পরামর্শ দেয় যা কোনো ডাক্তারই উল্লেখ করেননি: টেথারড কর্ড সিন্ড্রোম, যেখানে মেরুদণ্ড বেকবোনের ভিতরে বেঁধে যায়। যখন রোগীটি নড়াচড়া করে, তখন মেরুদণ্ড মসৃণভাবে স্লাইড না করে টানা পড়ে, যা ব্যথা সৃষ্টি করে। এই নির্ণয়টি একজন নিউরোসার্জন দ্বারা নিশ্চিত করা হয়েছিল, যিনি পরে অ্যানাটমিকাল অ্যানোমালি সংশোধন করেছিলেন।
ভবিষ্যতের সম্ভাবনা
OpenAI-এর সাম্প্রতিক ফলাফলগুলি দেখিয়ে দিচ্ছে যে তারা ক্রমাগতভাবে বেশ কয়েকটি গুরুত্বপূর্ণ দিকে উন্নতি করছে:
ফ্রন্টিয়ার পারফরমেন্স: HealthBench অনুসারে, বিগত কয়েক মাসে OpenAI-এর ফ্রন্টিয়ার মডেলগুলি ২৮% উন্নত হয়েছে।
খরচ: উন্নত মডেলগুলি কম সম্পদের সেটিংসে সর্বাধিক প্রভাব ফেলতে পারে, কিন্তু কেবলমাত্র তারা অ্যাক্সেসযোগ্য হলেই। এপ্রিল ২০২৫-এর মডেলগুলি (o3, o4-mini, GPT-৪.১) একটি নতুন পারফরমেন্স-খরচ সীমানা নির্ধারণ করে। ছোট মডেলগুলিও সাম্প্রতিক মাসগুলিতে ব্যাপকভাবে উন্নত হয়েছে।
নির্ভরযোগ্যতা: ক্রমাগত উন্নতির সাথে সাথে, মডেলগুলি আরও নির্ভরযোগ্য হচ্ছে, যা স্বাস্থ্যসেবার মতো সংবেদনশীল ক্ষেত্রে অত্যন্ত গুরুত্বপূর্ণ।
OpenAI Wants to be a ’24/7 World-Class Doctor’ in Your Pocket – স্বাস্থ্যসেবা ক্ষেত্রে এই উচ্চাকাঙ্ক্ষা দিন দিন বাস্তবে পরিণত হচ্ছে। OpenAI-এর o1, o3 এবং অন্যান্য উন্নত মডেলগুলি ইতিমধ্যেই জটিল মেডিকেল কেসগুলিতে মানব চিকিৎসকদের তুলনায় উল্লেখযোগ্য সাফল্য দেখিয়েছে। তবে নিরাপত্তা, নির্ভরযোগ্যতা এবং বহুভাষিক সমর্থনের মতো বিষয়গুলি এখনও উন্নতি করা দরকার।
HealthBench এর মতো নতুন মূল্যায়ন টুল এবং ক্রমাগত গবেষণার মাধ্যমে, OpenAI স্বাস্থ্যসেবা ক্ষেত্রে AI-এর সম্পূর্ণ সম্ভাবনা উন্মোচন করতে অঙ্গীকারবদ্ধ। আগামী বছরগুলোতে, আমরা হয়তো এমন একটি সময় দেখতে পাব যখন আমাদের স্মার্টফোনের অ্যাপ শুধু আমাদের প্রিয় খাবারের অর্ডার দেওয়া বা সামাজিক মিডিয়ায় আপডেট দেখানোর জন্য নয়, বরং আমাদের জটিল মেডিকেল সমস্যার ডায়াগনোসিস প্রদান করবে এবং সম্ভাব্য জীবন বাঁচাতে পারবে।সত্যিকার অর্থে, আপনার পকেটে একজন বিশ্বমানের ডাক্তার রাখার সময় এসে গেছে।