برنامه ایجاد بانک جامع دیتاست های تخصصی و عمومی برای آموزش مدل های زبانی بزرگ با موفقیت به اجرا درآمد.
یکی از چالش های اصلی در اجرای پروژه های آموزش ماشین در مدل های زبانی بزرگ (LLM)، خصوصا در ایران و به زبان فارسی، عدم در دسترس بودن دیتا و دیتاست های مناسب برای آموزش ماشین است. این مشکل، برای پروژه های یادگیری ماشین در هر دو نوع مدل عمومی (غیر پزشکی) و تخصصی پزشکی وجود دارد.
گروه هوش مصنوعی فرزان در حال توسعه مدل های زبانی پزشکی به زبان فارسی است. با توجه به نیاز تیم به دیتاست های عمومی و تخصصی پزشکی به زبان فارسی، برنامه ای به منظور گردآوری داده های مورد نیاز، در دستور کار قرار گرفت که در نتیجه، یک پایگاه داده بزرگ از متون فارسی از منابع مختلف، گردآوری شد.
این مجموعه پس از غربالگری دقیق و مبتنی بر مرور کیفیت از جنبه های محتوایی، ساختاری و دانشی، سازماندهی و طبقه بندی شده است. هم اکنون حجم این پایگاه داده جامع، در حدود ۸۳ میلیارد توکن تخمین زده می شود.
این دیتاست مجموعه ای از مقالات، چکیده مقالات، کتاب های پزشکی و منابع اینرتنتی است. بخشی از این پایگاه داده، به دیتاست پرسش و پاسخ های تهیه شده اعضای گروه هوش مصنوعی فرزان، تعلق دارد که مبتنی بر هزاران پرسش و پاسخ پزشکی با هدف یادگیری ماشین جهت نحوه پاسخ به سوالات پزشکی کاربران، تهیه شده است. طراحی پرسش ها و پاسخ ها، از میان کتب مرجع معتبر پزشکی صورت گرفته است.
هم اکنون موسسه فرزان در حال برنامه ریزی و انعقاد تفاهم نامه هایی با مراکز دیگر است تا مبتنی بر پروتکل های اخلاقی استاندارد در زمینه محرمانگی اطلاعات و مدیریت بهینه داده ها در طرح های هوش مصنوعی، از این داده ها برای یادگیری ماشین و اجرای پروژه های هوش مصنوعی در زمینه آموزش مدل های زبانی بزرگ و دیگر پروژه های AI از جمله پردازش تصویر، استفاده نماید.
موسسه فرزان آماده است در چارچوب همکاری مشترک با دیگر مراکز و پژوهشگران هوش مصنوعی کشورمان، این مجموعه بزرگ و ارزشمند را جهت استفاده، در اختیار قرار دهد.
همزمان، به همت همکاران گروه هوش مصنوعی فرزان شامل پزشکان و برنامه نویسان پایتون، پپلتفورمی برای ارزیابی خودکار و استاندارد نتایج آموزش و فاین تیون مدل های زبانی بزرگ (LLM) ایجاد شده است که بزودی و پس از تکمیل و انجام آزمون های لازم، برای استفاده آزاد توسط عموم فعالان این حوزه، اطلاع رسانی و در اختیار علاقمندان قرار خواهد گرفت.
موسسه فرزان تلاش کرده با این اقدامات و به سهم خود، ضمن رفع نیازهای گروه هوش مصنوعی فرزان، به تقویت جامعه هوش مصنوعی ایران خصوصا در حوزه سلامت، یاری رساند.
نظرات ارزشمند شما