هوش مصنوعی دادهها را به خاطر میسپارد/ خطر نقض حریم خصوصی در یادگیری ماشینی
خبرگزاری علم و فناوری آنا؛ یادگیری ماشینی مرزها را در چندین زمینه از جمله شخصیسازی پزشکی، ماشینهای خودران و تبلیغات سفارشی جابهجا کرده است. با این حال، تحقیقات نشان داده است که این سیستمها جنبههایی از دادههایی را که با آنها آموزش دیدهاند به خاطر میسپارند تا الگوها را بیاموزند، مسئلهای که نگرانیهایی زیادی را برای حفظ حریم خصوصی افراد ایجاد میکند.
در آمار و یادگیری ماشین، هدف از یادگیری دادههای گذشته، پیشبینی یا استنتاج جدید در مورد دادههای آینده است. برای دستیابی به این هدف، آمارگیر یا متخصص یادگیری ماشین مدلی را برای ثبت الگوهای مشکوک در دادهها انتخاب میکند. یک مدل با سادهسازی دادهها، یادگیری الگوها و پیشبینی را ممکن میسازد.
مدلهای پیچیده یادگیری ماشینی دارای مزایا و معایب ذاتی هستند. از جنبههای مثبت آن، این است که آنها میتوانند الگوهای بسیار پیچیده تری بیاموزند و با مجموعه دادههای غنیتر برای کارهایی مانند تشخیص تصویر و پیش بینی اینکه یک فرد خاص چگونه به یک درمان پاسخ میدهد، کار کنند.
با این حال، آنها همچنین خطر تطبیق بیش از حد دادهها را دارند. این بدان معناست که آنها پیشبینیهای دقیقی در مورد دادههایی که با آنها آموزش دیدهاند انجام میدهند، اما شروع به یادگیری جنبههای اضافی دادهها میکنند که مستقیماً با کار مورد نظر مرتبط نیستند. این اتفاق منجر به ایجاد مدلهای غیرقابل تعمیم میشود، به این معنی که آنها روی دادههای جدید که از همان نوع هستند، اما دقیقاً مشابه دادههای آموزشی نیستند، عملکرد ضعیفی دارند.
روشهای مختلفی برای رسیدگی به خطای پیش بینی وجود دارد تا بتوان از دادهها چیزهای زیادی یاد گرفت، درحالی که نگرانیهای مربوط به حفظ حریم خصوصی قوت میگیرد.
الگوریتمهای یادگیری ماشین چگونه استنباط میکنند؟
هر مدل تعداد مشخصی پارامتر دارد. پارامتر عنصری از مدل است که میتواند تغییر کند. هر پارامتر دارای یک مقدار است که مدل از دادههای آموزشی استخراج میکند. پارامترها را میتوان بهعنوان عوامل مختلفی در نظر گرفت که میتوانند بر روی عملکرد الگوریتم تأثیر بگذارند. در حالی که یک الگوی خط مستقیم فقط دو عامل، شیب و رهگیری دارد، مدلهای یادگیری ماشین پارامترهای زیادی دارند. به عنوان مثال، مدل زبان «جیپیتی-۳» (GPT-۳) دارای ۱۷۵ میلیارد پارامتر است.
برای انتخاب پارامترها، روشهای یادگیری ماشینی از دادههای آموزشی با هدف به حداقل رساندن خطای پیشبینی در دادههای آموزشی استفاده میکنند. برای مثال، اگر هدف پیشبینی این باشد که آیا یک فرد بر اساس سابقه پزشکی خود به یک درمان پزشکی خاص پاسخ میدهد یا خیر، مدل یادگیری ماشینی پیشبینیهایی درباره دادههایی انجام میدهد که توسعهدهندگان مدل در اختیار آن قرار دادهاند. این مدل برای پیشبینیهای نادرست جریمه میشود و برای پیشبینیهایی که درست هستند پاداش دریافت میکند که الگوریتم را به تنظیم پارامترهای خود و تلاش دوباره سوق میدهد.
برای جلوگیری از تطبیق بیش از حد دادههای آموزشی، مدلهای یادگیری ماشین با مجموعه داده اعتبارسنجی نیز بررسی میشوند. مجموعه داده اعتبارسنجی یک مجموعه داده جداگانه است که در فرآیند آموزش استفاده نمیشود. با بررسی عملکرد مدل یادگیری ماشین در این مجموعه داده اعتبارسنجی، توسعهدهندگان میتوانند اطمینان حاصل کنند که این مدل میتواند یادگیری خود را فراتر از دادههای آموزشی تعمیم دهد و از تطابق و تطبیق بیش از حد دو یا چند مجموعه داده اجتناب کند.
در حالی که این فرآیند در حصول اطمینان از عملکرد خوب مدل یادگیری ماشین موفق است، به طور مستقیم مانع از به خاطر سپردن اطلاعات در دادههای آموزشی توسط مدل یادگیری ماشین نمیشود.
نگرانیهای حریم خصوصی
به دلیل زیاد بودن تعداد پارامترها در مدلهای یادگیری ماشین، این ظرفیت وجود دارد که روش یادگیری ماشینی برخی از دادههایی را که بر روی آن آموزش داده شده را به خاطر بسپارد
به دلیل زیاد بودن تعداد پارامترها در مدلهای یادگیری ماشین، این ظرفیت وجود دارد که روش یادگیری ماشینی برخی از دادههایی را که بر روی آن آموزش داده شده را به خاطر بسپارد. در واقع، این یک پدیده گسترده است و کاربران میتوانند دادههای حفظ شده را با استفاده از پرس و جوهایی که برای دریافت دادهها طراحی شدهاند، از مدل یادگیری ماشین استخراج کنند.
اگر دادههای آموزشی حاوی اطلاعات حساسی مانند دادههای پزشکی یا ژنومی باشد، حریم خصوصی افرادی که از دادههای آنها برای آموزش مدل استفاده شده است، میتواند به خطر بیفتد. تحقیقات اخیر نشان داد که برای مدلهای یادگیری ماشین لازم است جنبههایی از دادههای آموزشی را به خاطر بسپارند تا عملکرد بهینه را در حل مسائل خاص به دست آورند. این نشان میدهد که ممکن است یک مبادله اساسی بین عملکرد روش یادگیری ماشین و حریم خصوصی وجود داشته باشد.
مدلهای یادگیری ماشینی همچنین امکان پیشبینی اطلاعات حساس را با استفاده از دادههای به ظاهر غیر حساس فراهم میکنند. به عنوان مثال، «تارگت» (Target) با تجزیه و تحلیل عادات خرید مشتریانی که در ثبت نام نوزاد «تارگت» ثبت نام کرده بودند، توانست پیش بینی کند که چه مشتریانی احتمالاً باردار هستند. زمانی که مدل بر روی این مجموعه داده آموزش دید، توانست تبلیغات مربوط به بارداری را برای مشتریانی که مشکوک به بارداری بودند ارسال کند، زیرا آنها اقلامی مانند مکملها یا لوسیونهای بدون عطر را خریداری کردند.
آیا حفاظت از حریم خصوصی در عصر هوش مصنوعی امکان پذیر است؟
در حالی که روشهای پیشنهادی زیادی برای کاهش حافظه در روشهای یادگیری ماشینی وجود دارد، اکثر آنها تا حد زیادی بیاثر بودهاند. در حال حاضر، امیدوارکنندهترین راه حل برای این مشکل، اطمینان از یک محدودیت ریاضی در خطر حریم خصوصی است.
روش پیشرفته برای حفاظت از حریم خصوصی در این مدل، حریم خصوصی افتراقی نام دارد. حریم خصوصی افتراقی مستلزم آن است که اگر دادههای یک فرد در مجموعه داده آموزشی تغییر کند، مدل یادگیری ماشین تغییر چندانی نمیکند. هنگامی که یک روش با حریم خصوصی افتراقی محافظت میشود، هیچ حمله احتمالی نمیتواند حریم خصوصی آن را نقض کند.
با این حال، حتی اگر یک مدل یادگیری ماشین با استفاده از حریم خصوصی افتراقی آموزش داده شود، مانع استنتاجهای حساس نمیشود. برای جلوگیری از این نقض حریم خصوصی، تمام دادههای ارسال شده به سازمان باید محافظت شوند. این رویکرد را حریم خصوصی افتراقی محلی مینامند که اپل و گوگل آن را پیاده سازی کردهاند.
از آنجایی که حریم خصوصی افتراقی محدود میکند که مدل یادگیری ماشین چقدر میتواند به دادههای یک فرد وابستگی داشته باشد، این مسئله از حفظ کردن دادهها جلوگیری میکند و متأسفانه، عملکرد روشهای یادگیری ماشینی را نیز محدود میکند. به دلیل این مبادله، انتقاداتی در مورد مفید بودن حریم خصوصی افتراقی وجود دارد، زیرا اغلب منجر به کاهش قابل توجهی در عملکرد میشود.
هنگام کار با دادههای حساس، سنجیدن پیامدهای نشت حریم خصوصی مهم است و ممکن است لازم باشد برخی از عملکردهای یادگیری ماشین را قربانی کنیم تا از حریم خصوصی افرادی که دادههای آنها مدل را آموزش دادهاند محافظت شود
آینده چگونه خواهد بود؟
با توجه به تنش بین یادگیری استنباطی و نگرانیهای حفظ حریم خصوصی، در نهایت یک سوال اجتماعی وجود دارد که استفاده از این روش در کدام زمینهها مهمتر است. هنگامی که دادهها حاوی اطلاعات حساس نیستند، استفاده از قویترین روشهای یادگیری ماشینی موجود آسان است.
با این حال، هنگام کار با دادههای حساس، سنجیدن پیامدهای نشت حریم خصوصی مهم است و ممکن است لازم باشد برخی از عملکردهای یادگیری ماشین را قربانی کنیم تا از حریم خصوصی افرادی که دادههای آنها مدل را آموزش دادهاند محافظت شود.
انتهای پیام/