طراحی و فراگیری موتور جستجوی بومی نیاز به اجماع ملی دارد
موتورهای جستوجو در دنیای وب ۳ به یکی از پیچیدهترین و حیاتیترین سرویسهای زیرساختی تبدیل شدهاند. این سیستمها، که در نگاه اول فقط یک کادر ساده برای جستجوی متن به نظر میرسند، در پشت صحنه، تلفیقی عظیم و بینظیر از فناوریهای پیشرفته در حوزههای هوش مصنوعی، مهندسی داده و پردازشهای فوقسریع را به کار میگیرند. پیچیدگی ذاتی فرآیند درک، تحلیل و رتبهبندی محتوای بیکران وب، این سرویس را به چالشی منحصربهفرد در میان محصولات نرمافزاری جهان تبدیل کرده است.
دانستن این پیچیدگیها شاید به ما کمک کند تا دریابیم که چرا توسعۀ یک موتور جستوجوی بومی تمام و کمال بومی، کار سادهای نیست. از سوی دیگر، توسعه و نگهداری چنین سامانهای، مستلزم گردآوری و هدایت تیمی از نخبگان و متخصصان در چندین حوزه فنی به صورت همزمان است. چالشی که نه تنها در بعد فنی، بلکه در ابعاد مدیریت منابع انسانی و ایجاد هماهنگی بینرشتهای نیز خود را نشان میدهد. آناتک در این بخش از گفتوگوی خود با «محمد تولایی»، مدیر اسبق تب آل جویشگر ذرهبین به بررسی موضوع اهمیت حفظ انگیزۀ نیروی انسانی در فرآینده توسعۀ جویشگر پرداخته است که در ادامه میخوانید.
خبرنگار فناوری آناتک: چالشهای اصلی در حوزۀ نیروی انسانی موتورهای جستوجو چیست؟
از سمت نیروی انسانی، چالشهایی وجود دارد. فردی که درگیر توسعۀ موتورهای جستوجو (Search Engine) میشود، نسبت به یک پرسنل همرده و همکار که مثلاً در پیامرسانها و امثالهم فعالیت میکند، با پیچیدگیهای بسیار بیشتری روبهرو است.
خبرنگار فناوری آناتک: منظور از این پیچیدگی بیشتر چیست؟
اگر به دنیا نگاه کنید، در موتورهای جستوجو، هم هوش مصنوعی و هم مهندسی داده در بالاترین سطح خود با یکدیگر ترکیب میشوند. شما اصلاً نمونهای شبیه به چنین ترکیبی را در تعداد بسیار کمی از نرمافزارها میبینید؛ با وضوح میتوانم بگویم تقریباً در هیچ نرمافزار دیگری وجود ندارد.
در برخی جاها ممکن است هوش مصنوعی یا مهندسی داده داشته باشید، اما حجم درخواستهایی که به این سیستمها وارد میشود قابل مقایسه نیست. مثلاً در پیامرسانها و سرویسهای مشابه، با حجم بالایی از درخواست مواجه هستیم، اما در موتور جستوجو با موجودیتهایی واقعاً سنگین روبهرو هستیم.
برای مثال، همان عدد هزار fetch در ثانیه که قبلاً اشاره کردم، مربوط به کاری است که ذرهبین خزنده انجام میدهد. شما تصور کنید هر صفحه اگر ۳۰۰ لینک داشته باشد و خزنده در هر ثانیه هزار صفحه را دریافت کند، این عدد شاید برای مخاطب عادی خیلی قابل تصور نباشد، اما در عمل به معنی تحلیل ۳۰۰ هزار لینک در ثانیه است. این تحلیل هم بهصورت سطحی یا «در هوا» انجام نمیشود، بلکه با دسترسی تصادفی (Random Access) به پایگاه داده صورت میگیرد.
خبرنگار فناوری آناتک: یعنی حتی فرایند جستوجو و خوانش اطلاعاتی که مثلاً از گوگل انجام میشود هم همینقدر پیچیده است؟
بله. شما در اینجا با حدود ۳۰۰ هزار پرسوجو (Request) به یک پایگاه داده مواجه هستید. این عدد واقعاً وحشتناک است. اینکه این دادهها قبلاً دیده شدهاند یا نه، جدید هستند یا سابقهای دارند، همه جزو چالشهای دادهای این سیستم است.
از طرف دیگر، در حوزۀ هوش مصنوعی نیز با انواع مختلف دادهها مانند تصویر و متن سروکار داریم. حتی تشخیص این موضوع که در یک صفحه وب، کدام بخش مهم است و کدام بخش اهمیت ندارد، خودش یک مسئله است. وقتی کاربر جستوجو میکند، اینکه یک متن در کجای صفحه قرار گرفته باشد تعیین میکند که آیا باید به آن توجه شود یا چنین اتفاقی نیافتد. در واقع تحلیل صفحه، رندر کردن آن، اجرای جاوااسکریپتها و اینکه بتوانیم صفحه را بهدرستی بسازیم، همگی جزو این فرایند هستند.
خبرنگار فناوری آناتک: با این توضیحات، میتوان گفت موتور جستوجو شاید پیچیدهترین و قویترین سرویسی باشد که در حال حاضر در فضای وب وجود دارد؟
دقیقاً همینطور است. اگر الان توجه کنید، این سیستمها با مدلهای زبانی بزرگ (LLM ها) هم ترکیب شدهاند. البته ما هم در دورهای که در این حوزه فعال بودیم، یکی از آخرین کارهایی که میخواستیم سراغش برویم همین موضوع بود که در نهایت انجام نشد.
عرض من این است که وقتی وارد این حوزه میشوید، با یک استک بسیار سنگین مواجه هستید که نیاز دارد همۀ نیروهای متخصص را جذب کنید و آنها بهصورت همدلانه در کنار یکدیگر کار کنند. در کشوری مانند کشور ما، اگر اجماع و همافزایی وجود نداشته باشد، کار برای مدیری که میخواهد این مسئله را حل کند بسیار دشوار میشود. نکتۀ بسیار مهم دیگر در موتورهای جستوجو، بازخورد کاربران است که نقش تعیینکنندهای در موفقیت این سرویسها دارد.
انتهای پیام/