معماری فنی بومی کتابخوان هوشمند ما را مصون از تحریم‌های فناوری خارجی کرد

اتکای کامل به زیرساخت‌های داخلی و طراحی معماری فنی مستقل از سرویس‌های خارجی، زمینه‌ساز ایجاد سامانه‌ای شده است که در برابر تحریم‌های فناوری مصون مانده و کنترل کامل بر داده‌ها و کیفیت خروجی را در اختیار دارد. مدیرعامل یک سکوی هوشمندمطالعه ایرانی ضمن اشاره به این موضوع، دربارۀ سکوی توسعه یافته توسط تیم خود می‌گوید این رویکرد که با کنار گذاشتن API‌های خارجی و پیاده‌سازی تمام قابلیت‌ها به صورت بومی محقق شده، الگویی موفق از خودکفایی در حوزه هوش مصنوعی و پردازش زبان طبیعی به شمار می‌رود.

نویسنده : علی پژوهش

کد خبر : 1042009

اشتراک گذاری

همزمان با تشدید فشار‌های روانی و جنگ ترکیبی علیه ایران بر اثر تجاوز مشترک آمریکایی و صهیونی، دسترسی به منابع علمی معتبر و محتوای غنی که بتواند آرامش و دانش را همزمان به ارمغان آورد، اهمیتی راهبردی یافته است. سکو‌های دانش‌محوری که بدون وابستگی به فناوری‌های خارجی و با تکیه بر توان داخلی، دریچه‌ای به سوی علم و فرهنگ بگشایند، به ارتقای سطح دانش عمومی کمک می‌کنند و با ایجاد فضایی برای تمرکز و یادگیری عمیق، نقش مؤثری در کاهش اضطراب ناشی از هجمه‌های روانی دشمن ایفا می‌کنند.

همین موضوع دلیلی شد تا سراغ فاطمه کاکا، مدیرعامل مجموعۀ مانا علم برویم و گفتگویی با او به عنوان مدیر تیم توسعه‌دهنده سکوی هوش مصنوعی «خوندن» انجام دهیم که با بهره‌گیری از فناوری بومی، امکان مطالعه بیش از ۵ میلیون عنوان کتاب از ۱۰ زبان دنیا را برای کاربران ایرانی فراهم کرده است.

پیشینه و انگیزه ایجاد پلتفرم؛ پاسخی به یک نیاز ملی

پروژه مجموعۀ شما با چه هدفی متولد شد و چه ضرورتی باعث شد تا چنین سکویی با این حجم از منابع راه‌اندازی شود؟

پروژه ما از ضرورت دسترسی آسان دانشجویان، پژوهشگران و علاقه‌مندان به مطالعه به منابع علمی و ادبی به زبان‌های مختلف آغاز شد. مشاهده می‌کردیم که بسیاری از دانشجویان ما برای مطالعه یک کتاب تخصصی به زبان انگلیسی، ماه‌ها وقت صرف ترجمه می‌کردند. این مسئله زمان‌بر بود و کیفیت ترجمه نیز همیشه مطلوب نبود. این خلأ بزرگ، انگیزه اصلی برای طراحی پلتفرمی شد که بتواند این مسیر را هموار کند.

چالش‌های فنی در تشخیص و جداسازی اجزای صفحه

یکی از پیچیده‌ترین چالش‌های فنی پیش روی شما، تشخیص و جداسازی عناصر مختلف یک صفحه کتاب بود. این فرآیند چگونه انجام می‌شود و چه تکنولوژی‌هایی در آن به کار رفته است؟

یکی از پیچیده‌ترین چالش‌هایی که تیم توسعه با آن روبه‌رو شد، تشخیص و جداسازی قسمت‌های مختلف یک صفحه کتاب بود. هر صفحه از یک کتاب علمی یا ادبی می‌تواند حاوی عناصر کاملاً متفاوتی باشد. ما باید سیستمی طراحی می‌کردیم که بتواند سربرگ و پاورقی صفحه، جداول پیچیده اطلاعاتی، تصاویر و نمودارها، متن اصلی، کد‌های برنامه‌نویسی و فرمول‌های ریاضی را تشخیص دهد. برای مثال، در یک کتاب ریاضی ممکن است در یک صفحه، چندین معادله پیچیده، یک جدول داده، متن توضیحی و حتی کد الگوریتم وجود داشته باشد. سیستم باید هر کدام را شناسایی کرده و روش متناسب با آن عنصر را برای پردازش اعمال کند.

پس از تشخیص، مرحله جداسازی و پردازش مجزای هر بخش آغاز می‌شود. فرمول‌های ریاضی نیاز به پردازش خاص دارند تا ساختار LaTeX یا MathML آن‌ها حفظ شود. کد‌های برنامه‌نویسی نه تنها نباید ترجمه شوند، بلکه باید با syntax highlighting مناسب نمایش داده شوند. جداول باید ساختار سلولی خود را حفظ کنند و تصاویر نیز باید با کیفیت مناسب استخراج شوند. این فرآیند نیازمند ترکیب تکنیک‌های مختلف بینایی کامپیوتر، پردازش تصویر و یادگیری ماشین بوده است. ما از ترکیبی از CNN‌های سفارشی برای تشخیص نوع محتوا، OCR پیشرفته برای استخراج متن، و الگوریتم‌های تشخیص ساختار برای درنظرگیری layout صفحه استفاده کردیم.

مشکل تشخیص ترتیب خواندن در طرح‌بندی‌های پیچیده

یکی از مسائل به‌ظاهر ساده، اما بسیار پیچیده، تشخیص ترتیب صحیح خواندن در صفحات با طرح‌بندی غیرخطی است. این چالش را چگونه مدیریت کردید و وضعیت فعلی آن چگونه است؟

یکی از مسائل پیچیده‌ای که هنوز در حال حل است، تشخیص ترتیب صحیح خواندن در صفحاتی با طرح‌بندی پیچیده است. تصور کنید صفحه‌ای که دارای سه ستون متن، چندین جعبه اطلاعاتی جانبی یا پاورقی، تصاویر درون متن و حاشیه‌نویسی‌هایی در اطراف صفحه است. انسان به راحتی می‌تواند ترتیب منطقی خواندن را تشخیص دهد، اما برای ماشین این کار بسیار پیچیده است. در حال حاضر سیستم ما ۱۰۰٪ صفحات یک ستونی و حدود ۸۵٪ صفحات دو ستونی (بدون حاشیه‌نویسی) را به درستی ترتیب خواندن تشخیص می‌دهد، اما برای رسیدن به دقت ۹۵ درصد روی الگوریتم‌های جدیدی مبتنی بر Graph Neural Networks کار می‌کنیم که روابط فضایی بین عناصر صفحه را بهتر درک کنند.

چالش ترجمه انسانی و روان؛ از داده‌های آموزشی تا سبک‌های متنوع

دستیابی به ترجمه‌ای طبیعی و روان که فراتر از ترجمه خشک ماشینی باشد، چه چالش‌هایی داشت و برای حل آن چه اقداماتی انجام دادید؟

دومین چالش اصلی، دستیابی به ترجمه‌ای روان و انسانی است که فراتر از ترجمه لغت به لغت باشد. ترجمه ماشینی معمولاً جملات دستوری صحیح، اما خشک و غیرطبیعی تولید می‌کند. مخصوصاً وقتی صحبت از ترجمه متون علمی و ادبی پیچیده می‌شود، این مسئله بیشتر نمایان می‌شود. هدف ما ایجاد ترجمه‌ای است که نه تنها دقیق، بلکه طبیعی، روان و قابل فهم برای خواننده ایرانی باشد. این امر مستلزم بهینه‌سازی عمیق مدل‌ها برای ترجمه به زبان فارسی و درنظرگیری ویژگی‌های منحصر‌به‌فرد این زبان است.

تیم توسعه برای این منظور پایگاه داده‌ای شامل بیش از ۲ میلیون جفت جمله انگلیسی-فارسی از منابع علمی و ادبی معتبر جمع‌آوری کرده است. ما علاوه بر اینکه روی corpus‌های عمومی تکیه کردیم، مجموعه داده‌های تخصصی برای حوزه‌های مختلف علمی، پزشکی، مهندسی و علوم انسانی نیز تهیه کردیم. همچنین ما متوجه شدیم که یک مدل واحد نمی‌تواند برای تمام انواع متن عملکرد مطلوب داشته باشد. برای همین، مدل‌های مجزایی برای انواع مختلف محتوا تنظیم کردیم.

در این راستا، دو سبک ترجمه V۱ و V۲ طراحی شده که کاربران می‌توانند بسته به ترجیح و نیاز خود انتخاب کنند. V۱ سبکی رسمی‌تر و نزدیک‌تر به متن اصلی دارد که برای متون علمی و تحقیقاتی مناسب است. V۲ روان‌تر و طبیعی‌تر است و برای مطالعه عمومی و کتاب‌های ادبی بهتر عمل می‌کند.

چالش منابع سخت‌افزاری و معماری کاملاً داخلی

با توجه به تأکید سکوی شما بر عدم استفاده از سرویس‌های خارجی و انجام تمام پردازش‌ها روی سرور‌های داخلی، تأمین منابع سخت‌افزاری و بهینه‌سازی مصرف آن چگونه انجام شده است؟

سومین چالش اصلی، دسترسی به منابع سخت‌افزاری مناسب برای پردازش حجم بالای درخواست‌ها است. از آنجا که تمام پردازش‌ها بر روی سرور‌های داخلی انجام می‌شود و از هیچ سرویس خارجی استفاده نمی‌کنیم، نیاز به تجهیزات قدرتمندی برای اجرای همزمان مدل‌های مختلف هوش مصنوعی داریم. سکو در حال حاضر بر روی کلاستری از سرور‌ها با CPU‌های پردازنده قدرتمند و GPU‌های مخصوص یادگیری ماشین اجرا می‌شود. ما از ترکیبی از NVIDIA Tesla و RTX برای پردازش‌های سنگین مدل‌های زبانی و CPU‌های Intel Xeon برای پردازش‌های عمومی استفاده می‌کنیم.

یکی از کار‌های مهمی که انجام دادیم، بهینه‌سازی استفاده از منابع سخت‌افزاری بود. ما تکنیک‌هایی مثل Model Quantization، Dynamic Batching و Memory Pooling پیاده‌سازی کردیم تا بتوانیم با همان تجهیزات، درخواست‌های بیشتری را پردازش کنیم.

تکمیل سرویس با توانمندی بومی ما را مصون از اثر تحریم‌ کرد

چه دلایل راهبردی باعث شد تا از ابتدا بر استقلال کامل از سرویس‌های خارجی تأکید کنید و این رویکرد چه دستاورد‌ها و چالش‌هایی به همراه داشته است؟

ما از ابتدا تصمیم گرفتیم که تمام قابلیت‌ها را داخلی توسعه دهیم. این تصمیم هم به دلیل نگرانی‌های امنیتی، هم برای کنترل کامل بر کیفیت خروجی، و هم برای استقلال از تحریم‌ها و محدودیت‌های خارجی بود. این رویکرد مزایای قابل توجهی داشته است: اول اینکه کنترل کاملی بر داده‌های کاربران داریم و هیچ اطلاعاتی به خارج از کشور ارسال نمی‌شود. دوم اینکه می‌توانیم مدل‌ها را مخصوص نیاز‌های ایرانی تنظیم کنیم. سوم اینکه هزینه‌های عملیاتی قابل کنترل‌تر است. البته این رویکرد چالش‌های خاص خود را نیز داشته: ما مجبور بودیم از صفر بسیاری از قابلیت‌ها را پیاده‌سازی کنیم که در غیر این صورت می‌توانستیم از API‌های آماده استفاده کنیم. این کار زمان‌بر بود، اما نتیجه نهایی ارزشش را داشت.

فناوری‌های به‌کار رفته در بخش تجربه کاربری

در بخش طراحی تجربه کاربری، چه انتخاب‌های فنی انجام شده است تا تعامل با سکو برای کاربران روان و جذاب باشد؟

برای build و bundle کردن پروژه فرانت‌اند از ترکیب Webpack و Vite استفاده شده است. Webpack برای production build استفاده می‌شود و Vite برای development server که سرعت reload بسیار بالایی دارد. Vue.js به عنوان فریم‌ورک اصلی فرانت‌اند انتخاب شده است. دلیل انتخاب Vue نسبت به React یا Angular، منحنی یادگیری ملایم‌تر و عملکرد بهتر برای پروژه‌های SPA بود. همچنین Composition API آن برای مدیریت state پیچیده مناسب بود. برای طراحی رابط کاربری از Vuetify استفاده شده است. Vuetify مجموعه کاملی از کامپوننت‌های Material Design ارائه می‌دهد که هم زیبا هستند و هم قابلیت دسترسی خوبی دارند. ما توانستیم UI یکدست و حرفه‌ای ایجاد کنیم. پردازشگر Markdown برای نمایش محتوای تبدیل شده و Prism برای Syntax Highlighting کد‌های برنامه‌نویسی استفاده می‌شود. Prism از بیش از ۲۰۰ زبان برنامه‌نویسی پشتیبانی می‌کند و به ما این امکان را می‌دهد که کد‌ها را با فرمت مناسب نمایش دهیم.

ویژگی‌های منحصر‌به‌فرد و آمار عملکرد

سکوی توسعه یافته توسط شما چه ویژگی‌های نوآورانه‌ای دارد که آن را از سایر سرویس‌های مشابه متمایز می‌کند و آمار عملکرد آن در حال حاضر چگونه است؟

یکی از ویژگی‌های برجسته پلتفرم، دستیار هوش مصنوعی تعاملی است که می‌تواند سوالات کاربران درباره محتوای کتاب پاسخ دهد. این دستیار نه تنها می‌تواند خلاصه‌ای از مطالب ارائه دهد، بلکه قادر است سوالات تحلیلی و مفهومی نیز بپرسد تا درک کاربر از مطلب را بسنجد. همچنین امکان مشاهده همزمان متن اصلی و ترجمه یکی دیگر از نوآوری‌های این پلتفرم است. کاربران می‌توانند با کلیک بر روی هر بخش از ترجمه، متن اصلی آن را ببینند. این ویژگی مخصوصاً برای دانشجویان و پژوهشگرانی که نیاز به دقت بالا دارند، بسیار مفید است.

سکوی ما در حال حاضر به بیش از ۵ میلیون عنوان کتاب دسترسی دارد و روزانه هزاران صفحه ترجمه انجام می‌دهد. متوسط زمان ترجمه یک صفحه کتاب حدود ۷ تا ۱۵ ثانیه است و دقت ترجمه ما بر اساس ارزیابی‌های انجام شده حدود ۹۳ درصد است.

چالش‌های آینده و برنامه‌های توسعه

با توجه به پیشرفت‌های حاصل شده، اولویت‌های اصلی تیم توسعه برای آینده نزدیک چیست و چه قابلیت‌های جدیدی در دستور کار قرار دارد؟

اولویت اصلی ما در ماه‌های آینده، بهبود الگوریتم تشخیص ترتیب خواندن در طرح‌بندی‌های پیچیده است. ما در حال آزمایش مدل‌های جدیدی مبتنی بر Vision Transformer هستیم که امیدواریم دقت را در این بخش به بالای ۹۵ درصد برساند. همچنین برنامه دیگری که در دستور کار قرار دارد، افزودن زبان‌های جدید به پلتفرم است. قرار است در سال آینده ترجمه از فارسی به زبان‌های دیگر را اضافه کنیم و برای این موضوع برنامه‌ریزی کرده‌ایم. ما در حال کار بر روی ویژگی‌هایی مثل تولید خودکار سوالات امتحانی، خلاصه‌سازی هوشمند فصل‌ها، و حتی تبدیل متن به پادکست صوتی هستیم.

سکوی هوش مصنوعی کتاب و مقالات ما نمونه‌ای از توانمندی‌های فناوری داخلی در حوزه هوش مصنوعی و پردازش زبان طبیعی است. با وجود چالش‌های فنی و منابع محدود، تیمی که داریم توانسته محصولی ارائه دهد که از بسیاری جهات با نمونه‌های بین‌المللی رقابت می‌کند. استقلال از سرویس‌های خارجی، تمرکز بر نیاز‌های کاربران ایرانی، و کیفیت مطلوب ترجمه، از نقاط قوت اصلی این سکو محسوب می‌شود.

انتهای پیام/