آنا گزارش می‌دهد؛

هوش مصنوعی داده‌ها را به خاطر می‌سپارد/ خطر نقض حریم خصوصی در یادگیری ماشینی

مدل‌های یادگیری ماشینی داده‌هایی را که با آنها آموزش دیده‌اند به خاطر می‌سپارند تا الگو‌ها را بیاموزند، مسئله‌ای که نگرانی‌هایی زیادی را برای حفظ حریم خصوصی افراد ایجاد می‌کند.

کد خبر : 913235

خبرگزاری علم و فناوری آنا؛ یادگیری ماشینی مرز‌ها را در چندین زمینه از جمله شخصی‌سازی پزشکی، ماشین‌های خودران و تبلیغات سفارشی جابه‌جا کرده است. با این حال، تحقیقات نشان داده است که این سیستم‌ها جنبه‌هایی از داده‌هایی را که با آنها آموزش دیده‌اند به خاطر می‌سپارند تا الگو‌ها را بیاموزند، مسئله‌ای که نگرانی‌هایی زیادی را برای حفظ حریم خصوصی افراد ایجاد می‌کند.

در آمار و یادگیری ماشین، هدف از یادگیری داده‌های گذشته، پیش‌بینی یا استنتاج جدید در مورد داده‌های آینده است. برای دستیابی به این هدف، آمارگیر یا متخصص یادگیری ماشین مدلی را برای ثبت الگو‌های مشکوک در داده‌ها انتخاب می‌کند. یک مدل با ساده‌سازی داده‌ها، یادگیری الگو‌ها و پیش‌بینی را ممکن می‌سازد.

مدل‌های پیچیده یادگیری ماشینی دارای مزایا و معایب ذاتی هستند. از جنبه‌های مثبت آن، این است که آنها می‌توانند الگو‌های بسیار پیچیده تری بیاموزند و با مجموعه داده‌های غنی‌تر برای کار‌هایی مانند تشخیص تصویر و پیش بینی اینکه یک فرد خاص چگونه به یک درمان پاسخ می‌دهد، کار کنند.

با این حال، آنها همچنین خطر تطبیق بیش از حد داده‌ها را دارند. این بدان معناست که آنها پیش‌بینی‌های دقیقی در مورد داده‌هایی که با آنها آموزش دیده‌اند انجام می‌دهند، اما شروع به یادگیری جنبه‌های اضافی داده‌ها می‌کنند که مستقیماً با کار مورد نظر مرتبط نیستند. این اتفاق منجر به ایجاد مدل‌های غیرقابل تعمیم می‌شود، به این معنی که آنها روی داده‌های جدید که از همان نوع هستند، اما دقیقاً مشابه داده‌های آموزشی نیستند، عملکرد ضعیفی دارند.

روش‌های مختلفی برای رسیدگی به خطای پیش بینی وجود دارد تا بتوان از داده‌ها چیز‌های زیادی یاد گرفت، درحالی که نگرانی‌های مربوط به حفظ حریم خصوصی قوت می‌گیرد.

الگوریتم‌های یادگیری ماشین چگونه استنباط می‌کنند؟

هر مدل تعداد مشخصی پارامتر دارد. پارامتر عنصری از مدل است که می‌تواند تغییر کند. هر پارامتر دارای یک مقدار است که مدل از داده‌های آموزشی استخراج می‌کند. پارامتر‌ها را می‌توان به‌عنوان عوامل مختلفی در نظر گرفت که می‌توانند بر روی عملکرد الگوریتم تأثیر بگذارند. در حالی که یک الگوی خط مستقیم فقط دو عامل، شیب و رهگیری دارد، مدل‌های یادگیری ماشین پارامتر‌های زیادی دارند. به عنوان مثال، مدل زبان «جی‌پی‌تی-۳» (GPT-۳) دارای ۱۷۵ میلیارد پارامتر است.

برای انتخاب پارامترها، روش‌های یادگیری ماشینی از داده‌های آموزشی با هدف به حداقل رساندن خطای پیش‌بینی در داده‌های آموزشی استفاده می‌کنند. برای مثال، اگر هدف پیش‌بینی این باشد که آیا یک فرد بر اساس سابقه پزشکی خود به یک درمان پزشکی خاص پاسخ می‌دهد یا خیر، مدل یادگیری ماشینی پیش‌بینی‌هایی درباره داده‌هایی انجام می‌دهد که توسعه‌دهندگان مدل در اختیار آن قرار داده‌اند. این مدل برای پیش‌بینی‌های نادرست جریمه می‌شود و برای پیش‌بینی‌هایی که درست هستند پاداش دریافت می‌کند که الگوریتم را به تنظیم پارامتر‌های خود و تلاش دوباره سوق می‌دهد.

برای جلوگیری از تطبیق بیش از حد داده‌های آموزشی، مدل‌های یادگیری ماشین با مجموعه داده اعتبارسنجی نیز بررسی می‌شوند. مجموعه داده اعتبارسنجی یک مجموعه داده جداگانه است که در فرآیند آموزش استفاده نمی‌شود. با بررسی عملکرد مدل یادگیری ماشین در این مجموعه داده اعتبارسنجی، توسعه‌دهندگان می‌توانند اطمینان حاصل کنند که این مدل می‌تواند یادگیری خود را فراتر از داده‌های آموزشی تعمیم دهد و از تطابق و تطبیق بیش از حد دو یا چند مجموعه داده اجتناب کند.

در حالی که این فرآیند در حصول اطمینان از عملکرد خوب مدل یادگیری ماشین موفق است، به طور مستقیم مانع از به خاطر سپردن اطلاعات در داده‌های آموزشی توسط مدل یادگیری ماشین نمی‌شود.

نگرانی‌های حریم خصوصی

به دلیل زیاد بودن تعداد پارامتر‌ها در مدل‌های یادگیری ماشین، این ظرفیت وجود دارد که روش یادگیری ماشینی برخی از داده‌هایی را که بر روی آن آموزش داده شده را به خاطر بسپارد

به دلیل زیاد بودن تعداد پارامتر‌ها در مدل‌های یادگیری ماشین، این ظرفیت وجود دارد که روش یادگیری ماشینی برخی از داده‌هایی را که بر روی آن آموزش داده شده را به خاطر بسپارد. در واقع، این یک پدیده گسترده است و کاربران می‌توانند داده‌های حفظ شده را با استفاده از پرس و جو‌هایی که برای دریافت داده‌ها طراحی شده‌اند، از مدل یادگیری ماشین استخراج کنند.

اگر داده‌های آموزشی حاوی اطلاعات حساسی مانند داده‌های پزشکی یا ژنومی باشد، حریم خصوصی افرادی که از داده‌های آنها برای آموزش مدل استفاده شده است، می‌تواند به خطر بیفتد. تحقیقات اخیر نشان داد که برای مدل‌های یادگیری ماشین لازم است جنبه‌هایی از داده‌های آموزشی را به خاطر بسپارند تا عملکرد بهینه را در حل مسائل خاص به دست آورند. این نشان می‌دهد که ممکن است یک مبادله اساسی بین عملکرد روش یادگیری ماشین و حریم خصوصی وجود داشته باشد.

مدل‌های یادگیری ماشینی همچنین امکان پیش‌بینی اطلاعات حساس را با استفاده از داده‌های به ظاهر غیر حساس فراهم می‌کنند. به عنوان مثال، «تارگت» (Target) با تجزیه و تحلیل عادات خرید مشتریانی که در ثبت نام نوزاد «تارگت» ثبت نام کرده بودند، توانست پیش بینی کند که چه مشتریانی احتمالاً باردار هستند. زمانی که مدل بر روی این مجموعه داده آموزش دید، توانست تبلیغات مربوط به بارداری را برای مشتریانی که مشکوک به بارداری بودند ارسال کند، زیرا آنها اقلامی مانند مکمل‌ها یا لوسیون‌های بدون عطر را خریداری کردند.

آیا حفاظت از حریم خصوصی در عصر هوش مصنوعی امکان پذیر است؟

در حالی که روش‌های پیشنهادی زیادی برای کاهش حافظه در روش‌های یادگیری ماشینی وجود دارد، اکثر آنها تا حد زیادی بی‌اثر بوده‌اند. در حال حاضر، امیدوارکننده‌ترین راه حل برای این مشکل، اطمینان از یک محدودیت ریاضی در خطر حریم خصوصی است.

روش پیشرفته برای حفاظت از حریم خصوصی در این مدل، حریم خصوصی افتراقی نام دارد. حریم خصوصی افتراقی مستلزم آن است که اگر داده‌های یک فرد در مجموعه داده آموزشی تغییر کند، مدل یادگیری ماشین تغییر چندانی نمی‌کند. هنگامی که یک روش با حریم خصوصی افتراقی محافظت می‌شود، هیچ حمله احتمالی نمی‌تواند حریم خصوصی آن را نقض کند.

با این حال، حتی اگر یک مدل یادگیری ماشین با استفاده از حریم خصوصی افتراقی آموزش داده شود، مانع استنتاج‌های حساس نمی‌شود. برای جلوگیری از این نقض حریم خصوصی، تمام داده‌های ارسال شده به سازمان باید محافظت شوند. این رویکرد را حریم خصوصی افتراقی محلی می‌نامند که اپل و گوگل آن را پیاده سازی کرده‌اند.

از آنجایی که حریم خصوصی افتراقی محدود می‌کند که مدل یادگیری ماشین چقدر می‌تواند به داده‌های یک فرد وابستگی داشته باشد، این مسئله از حفظ کردن داده‌ها جلوگیری می‌کند و متأسفانه، عملکرد روش‌های یادگیری ماشینی را نیز محدود می‌کند. به دلیل این مبادله، انتقاداتی در مورد مفید بودن حریم خصوصی افتراقی وجود دارد، زیرا اغلب منجر به کاهش قابل توجهی در عملکرد می‌شود.

هنگام کار با داده‌های حساس، سنجیدن پیامد‌های نشت حریم خصوصی مهم است و ممکن است لازم باشد برخی از عملکرد‌های یادگیری ماشین را قربانی کنیم تا از حریم خصوصی افرادی که داده‌های آنها مدل را آموزش داده‌اند محافظت شود

آینده چگونه خواهد بود؟

با توجه به تنش بین یادگیری استنباطی و نگرانی‌های حفظ حریم خصوصی، در نهایت یک سوال اجتماعی وجود دارد که استفاده از این روش در کدام زمینه‌ها مهم‌تر است. هنگامی که داده‌ها حاوی اطلاعات حساس نیستند، استفاده از قوی‌ترین روش‌های یادگیری ماشینی موجود آسان است.

با این حال، هنگام کار با داده‌های حساس، سنجیدن پیامد‌های نشت حریم خصوصی مهم است و ممکن است لازم باشد برخی از عملکرد‌های یادگیری ماشین را قربانی کنیم تا از حریم خصوصی افرادی که داده‌های آنها مدل را آموزش داده‌اند محافظت شود.

انتهای پیام/