معماری فنی بومی کتابخوان هوشمند ما را مصون از تحریمهای فناوری خارجی کرد
همزمان با تشدید فشارهای روانی و جنگ ترکیبی علیه ایران بر اثر تجاوز مشترک آمریکایی و صهیونی، دسترسی به منابع علمی معتبر و محتوای غنی که بتواند آرامش و دانش را همزمان به ارمغان آورد، اهمیتی راهبردی یافته است. سکوهای دانشمحوری که بدون وابستگی به فناوریهای خارجی و با تکیه بر توان داخلی، دریچهای به سوی علم و فرهنگ بگشایند، به ارتقای سطح دانش عمومی کمک میکنند و با ایجاد فضایی برای تمرکز و یادگیری عمیق، نقش مؤثری در کاهش اضطراب ناشی از هجمههای روانی دشمن ایفا میکنند.
همین موضوع دلیلی شد تا سراغ فاطمه کاکا، مدیرعامل مجموعۀ مانا علم برویم و گفتگویی با او به عنوان مدیر تیم توسعهدهنده سکوی هوش مصنوعی «خوندن» انجام دهیم که با بهرهگیری از فناوری بومی، امکان مطالعه بیش از ۵ میلیون عنوان کتاب از ۱۰ زبان دنیا را برای کاربران ایرانی فراهم کرده است.
پیشینه و انگیزه ایجاد پلتفرم؛ پاسخی به یک نیاز ملی
پروژه مجموعۀ شما با چه هدفی متولد شد و چه ضرورتی باعث شد تا چنین سکویی با این حجم از منابع راهاندازی شود؟
پروژه ما از ضرورت دسترسی آسان دانشجویان، پژوهشگران و علاقهمندان به مطالعه به منابع علمی و ادبی به زبانهای مختلف آغاز شد. مشاهده میکردیم که بسیاری از دانشجویان ما برای مطالعه یک کتاب تخصصی به زبان انگلیسی، ماهها وقت صرف ترجمه میکردند. این مسئله زمانبر بود و کیفیت ترجمه نیز همیشه مطلوب نبود. این خلأ بزرگ، انگیزه اصلی برای طراحی پلتفرمی شد که بتواند این مسیر را هموار کند.
چالشهای فنی در تشخیص و جداسازی اجزای صفحه
یکی از پیچیدهترین چالشهای فنی پیش روی شما، تشخیص و جداسازی عناصر مختلف یک صفحه کتاب بود. این فرآیند چگونه انجام میشود و چه تکنولوژیهایی در آن به کار رفته است؟
یکی از پیچیدهترین چالشهایی که تیم توسعه با آن روبهرو شد، تشخیص و جداسازی قسمتهای مختلف یک صفحه کتاب بود. هر صفحه از یک کتاب علمی یا ادبی میتواند حاوی عناصر کاملاً متفاوتی باشد. ما باید سیستمی طراحی میکردیم که بتواند سربرگ و پاورقی صفحه، جداول پیچیده اطلاعاتی، تصاویر و نمودارها، متن اصلی، کدهای برنامهنویسی و فرمولهای ریاضی را تشخیص دهد. برای مثال، در یک کتاب ریاضی ممکن است در یک صفحه، چندین معادله پیچیده، یک جدول داده، متن توضیحی و حتی کد الگوریتم وجود داشته باشد. سیستم باید هر کدام را شناسایی کرده و روش متناسب با آن عنصر را برای پردازش اعمال کند.
پس از تشخیص، مرحله جداسازی و پردازش مجزای هر بخش آغاز میشود. فرمولهای ریاضی نیاز به پردازش خاص دارند تا ساختار LaTeX یا MathML آنها حفظ شود. کدهای برنامهنویسی نه تنها نباید ترجمه شوند، بلکه باید با syntax highlighting مناسب نمایش داده شوند. جداول باید ساختار سلولی خود را حفظ کنند و تصاویر نیز باید با کیفیت مناسب استخراج شوند. این فرآیند نیازمند ترکیب تکنیکهای مختلف بینایی کامپیوتر، پردازش تصویر و یادگیری ماشین بوده است. ما از ترکیبی از CNNهای سفارشی برای تشخیص نوع محتوا، OCR پیشرفته برای استخراج متن، و الگوریتمهای تشخیص ساختار برای درنظرگیری layout صفحه استفاده کردیم.
مشکل تشخیص ترتیب خواندن در طرحبندیهای پیچیده
یکی از مسائل بهظاهر ساده، اما بسیار پیچیده، تشخیص ترتیب صحیح خواندن در صفحات با طرحبندی غیرخطی است. این چالش را چگونه مدیریت کردید و وضعیت فعلی آن چگونه است؟
یکی از مسائل پیچیدهای که هنوز در حال حل است، تشخیص ترتیب صحیح خواندن در صفحاتی با طرحبندی پیچیده است. تصور کنید صفحهای که دارای سه ستون متن، چندین جعبه اطلاعاتی جانبی یا پاورقی، تصاویر درون متن و حاشیهنویسیهایی در اطراف صفحه است. انسان به راحتی میتواند ترتیب منطقی خواندن را تشخیص دهد، اما برای ماشین این کار بسیار پیچیده است. در حال حاضر سیستم ما ۱۰۰٪ صفحات یک ستونی و حدود ۸۵٪ صفحات دو ستونی (بدون حاشیهنویسی) را به درستی ترتیب خواندن تشخیص میدهد، اما برای رسیدن به دقت ۹۵ درصد روی الگوریتمهای جدیدی مبتنی بر Graph Neural Networks کار میکنیم که روابط فضایی بین عناصر صفحه را بهتر درک کنند.
چالش ترجمه انسانی و روان؛ از دادههای آموزشی تا سبکهای متنوع
دستیابی به ترجمهای طبیعی و روان که فراتر از ترجمه خشک ماشینی باشد، چه چالشهایی داشت و برای حل آن چه اقداماتی انجام دادید؟
دومین چالش اصلی، دستیابی به ترجمهای روان و انسانی است که فراتر از ترجمه لغت به لغت باشد. ترجمه ماشینی معمولاً جملات دستوری صحیح، اما خشک و غیرطبیعی تولید میکند. مخصوصاً وقتی صحبت از ترجمه متون علمی و ادبی پیچیده میشود، این مسئله بیشتر نمایان میشود. هدف ما ایجاد ترجمهای است که نه تنها دقیق، بلکه طبیعی، روان و قابل فهم برای خواننده ایرانی باشد. این امر مستلزم بهینهسازی عمیق مدلها برای ترجمه به زبان فارسی و درنظرگیری ویژگیهای منحصربهفرد این زبان است.
تیم توسعه برای این منظور پایگاه دادهای شامل بیش از ۲ میلیون جفت جمله انگلیسی-فارسی از منابع علمی و ادبی معتبر جمعآوری کرده است. ما علاوه بر اینکه روی corpusهای عمومی تکیه کردیم، مجموعه دادههای تخصصی برای حوزههای مختلف علمی، پزشکی، مهندسی و علوم انسانی نیز تهیه کردیم. همچنین ما متوجه شدیم که یک مدل واحد نمیتواند برای تمام انواع متن عملکرد مطلوب داشته باشد. برای همین، مدلهای مجزایی برای انواع مختلف محتوا تنظیم کردیم.
در این راستا، دو سبک ترجمه V۱ و V۲ طراحی شده که کاربران میتوانند بسته به ترجیح و نیاز خود انتخاب کنند. V۱ سبکی رسمیتر و نزدیکتر به متن اصلی دارد که برای متون علمی و تحقیقاتی مناسب است. V۲ روانتر و طبیعیتر است و برای مطالعه عمومی و کتابهای ادبی بهتر عمل میکند.
چالش منابع سختافزاری و معماری کاملاً داخلی
با توجه به تأکید سکوی شما بر عدم استفاده از سرویسهای خارجی و انجام تمام پردازشها روی سرورهای داخلی، تأمین منابع سختافزاری و بهینهسازی مصرف آن چگونه انجام شده است؟
سومین چالش اصلی، دسترسی به منابع سختافزاری مناسب برای پردازش حجم بالای درخواستها است. از آنجا که تمام پردازشها بر روی سرورهای داخلی انجام میشود و از هیچ سرویس خارجی استفاده نمیکنیم، نیاز به تجهیزات قدرتمندی برای اجرای همزمان مدلهای مختلف هوش مصنوعی داریم. سکو در حال حاضر بر روی کلاستری از سرورها با CPUهای پردازنده قدرتمند و GPUهای مخصوص یادگیری ماشین اجرا میشود. ما از ترکیبی از NVIDIA Tesla و RTX برای پردازشهای سنگین مدلهای زبانی و CPUهای Intel Xeon برای پردازشهای عمومی استفاده میکنیم.
یکی از کارهای مهمی که انجام دادیم، بهینهسازی استفاده از منابع سختافزاری بود. ما تکنیکهایی مثل Model Quantization، Dynamic Batching و Memory Pooling پیادهسازی کردیم تا بتوانیم با همان تجهیزات، درخواستهای بیشتری را پردازش کنیم.
تکمیل سرویس با توانمندی بومی ما را مصون از اثر تحریم کرد
چه دلایل راهبردی باعث شد تا از ابتدا بر استقلال کامل از سرویسهای خارجی تأکید کنید و این رویکرد چه دستاوردها و چالشهایی به همراه داشته است؟
ما از ابتدا تصمیم گرفتیم که تمام قابلیتها را داخلی توسعه دهیم. این تصمیم هم به دلیل نگرانیهای امنیتی، هم برای کنترل کامل بر کیفیت خروجی، و هم برای استقلال از تحریمها و محدودیتهای خارجی بود. این رویکرد مزایای قابل توجهی داشته است: اول اینکه کنترل کاملی بر دادههای کاربران داریم و هیچ اطلاعاتی به خارج از کشور ارسال نمیشود. دوم اینکه میتوانیم مدلها را مخصوص نیازهای ایرانی تنظیم کنیم. سوم اینکه هزینههای عملیاتی قابل کنترلتر است. البته این رویکرد چالشهای خاص خود را نیز داشته: ما مجبور بودیم از صفر بسیاری از قابلیتها را پیادهسازی کنیم که در غیر این صورت میتوانستیم از APIهای آماده استفاده کنیم. این کار زمانبر بود، اما نتیجه نهایی ارزشش را داشت.
فناوریهای بهکار رفته در بخش تجربه کاربری
در بخش طراحی تجربه کاربری، چه انتخابهای فنی انجام شده است تا تعامل با سکو برای کاربران روان و جذاب باشد؟
برای build و bundle کردن پروژه فرانتاند از ترکیب Webpack و Vite استفاده شده است. Webpack برای production build استفاده میشود و Vite برای development server که سرعت reload بسیار بالایی دارد. Vue.js به عنوان فریمورک اصلی فرانتاند انتخاب شده است. دلیل انتخاب Vue نسبت به React یا Angular، منحنی یادگیری ملایمتر و عملکرد بهتر برای پروژههای SPA بود. همچنین Composition API آن برای مدیریت state پیچیده مناسب بود. برای طراحی رابط کاربری از Vuetify استفاده شده است. Vuetify مجموعه کاملی از کامپوننتهای Material Design ارائه میدهد که هم زیبا هستند و هم قابلیت دسترسی خوبی دارند. ما توانستیم UI یکدست و حرفهای ایجاد کنیم. پردازشگر Markdown برای نمایش محتوای تبدیل شده و Prism برای Syntax Highlighting کدهای برنامهنویسی استفاده میشود. Prism از بیش از ۲۰۰ زبان برنامهنویسی پشتیبانی میکند و به ما این امکان را میدهد که کدها را با فرمت مناسب نمایش دهیم.
ویژگیهای منحصربهفرد و آمار عملکرد
سکوی توسعه یافته توسط شما چه ویژگیهای نوآورانهای دارد که آن را از سایر سرویسهای مشابه متمایز میکند و آمار عملکرد آن در حال حاضر چگونه است؟
یکی از ویژگیهای برجسته پلتفرم، دستیار هوش مصنوعی تعاملی است که میتواند سوالات کاربران درباره محتوای کتاب پاسخ دهد. این دستیار نه تنها میتواند خلاصهای از مطالب ارائه دهد، بلکه قادر است سوالات تحلیلی و مفهومی نیز بپرسد تا درک کاربر از مطلب را بسنجد. همچنین امکان مشاهده همزمان متن اصلی و ترجمه یکی دیگر از نوآوریهای این پلتفرم است. کاربران میتوانند با کلیک بر روی هر بخش از ترجمه، متن اصلی آن را ببینند. این ویژگی مخصوصاً برای دانشجویان و پژوهشگرانی که نیاز به دقت بالا دارند، بسیار مفید است.
سکوی ما در حال حاضر به بیش از ۵ میلیون عنوان کتاب دسترسی دارد و روزانه هزاران صفحه ترجمه انجام میدهد. متوسط زمان ترجمه یک صفحه کتاب حدود ۷ تا ۱۵ ثانیه است و دقت ترجمه ما بر اساس ارزیابیهای انجام شده حدود ۹۳ درصد است.
چالشهای آینده و برنامههای توسعه
با توجه به پیشرفتهای حاصل شده، اولویتهای اصلی تیم توسعه برای آینده نزدیک چیست و چه قابلیتهای جدیدی در دستور کار قرار دارد؟
اولویت اصلی ما در ماههای آینده، بهبود الگوریتم تشخیص ترتیب خواندن در طرحبندیهای پیچیده است. ما در حال آزمایش مدلهای جدیدی مبتنی بر Vision Transformer هستیم که امیدواریم دقت را در این بخش به بالای ۹۵ درصد برساند. همچنین برنامه دیگری که در دستور کار قرار دارد، افزودن زبانهای جدید به پلتفرم است. قرار است در سال آینده ترجمه از فارسی به زبانهای دیگر را اضافه کنیم و برای این موضوع برنامهریزی کردهایم. ما در حال کار بر روی ویژگیهایی مثل تولید خودکار سوالات امتحانی، خلاصهسازی هوشمند فصلها، و حتی تبدیل متن به پادکست صوتی هستیم.
سکوی هوش مصنوعی کتاب و مقالات ما نمونهای از توانمندیهای فناوری داخلی در حوزه هوش مصنوعی و پردازش زبان طبیعی است. با وجود چالشهای فنی و منابع محدود، تیمی که داریم توانسته محصولی ارائه دهد که از بسیاری جهات با نمونههای بینالمللی رقابت میکند. استقلال از سرویسهای خارجی، تمرکز بر نیازهای کاربران ایرانی، و کیفیت مطلوب ترجمه، از نقاط قوت اصلی این سکو محسوب میشود.
انتهای پیام/