سازوکار شبه‌واترمارک در مدل‌های زبانی بزرگ

احتمالا عکس‌هایی رو دیدید که پایینش لوگوی یک شرکت هست، یا PDFهایی که پشت متنشون اسم یک شرکت بارها نوشته شده تا کسی پرینت کرد معلوم شه صاحب اصلی کی بوده. به این کار میگن Watermark زدن. حالا شرکت‌های هوش مصنوعی می‌تونن کاری کنن که نه‌تنها توی تولید عکس و تصویر، بلکه توی تولید متن هم محصولاتشون روی پاسخ‌هاشون Watermark بزنن. یعنی متنی رو که هوش مصنوعی تولید کرده باشه، با دقت خوبی بشه گفت که واقعا دست‌ساخت انسان نیست و هوش مصنوعی چه شرکتی ساختتش. بنا به دلایلی مثل هزینه و احتمال ریزش کاربرها، فعلا این کار انجام نمیشه.

این مورد Watermark کردن به حساب نمیاد، اما اخیرا کاربرها کشف کردن که زیادی دقیق بودن هوش مصنوعی‌ها یکجورایی می‌تونه لو بده اون‌ها رو. مثال: سایت‌های خفن برای اینکه عبارتی مثل صد کیلومتر که میشه:

100 KM

توی سایتشون به هم نریزه و موقع رفتن به خط بعدی، عبارت KM از 100 جدا نشه، به‌جای فاصله‌ی معمولی، از فاصله‌ی جدانشونده (Non-breaking space) استفاده می‌کنن. این نوع فاصله به چشم آدم فاصله‌ی معمولی میاد ولی توی یونی‌کد، کد مجزایی داره. یا مثلا … رو آدما معمولا با زدن سه‌تا نقطه می‌نویسن که میشه سه‌تا کاراکتر نقطه ولی هوش مصنوعی می‌تونه … رو با یک کاراکتر (کاراکتر مخصوص خود سه‌نقطه) بنویسه. (البته خیلی از برنامه‌ها اگر سه‌نقطه رو بزنین این تبدیل رو براتون انجام میدن)

همینا باعث میشه اگر کپی‌پیست کنید و به یونی‌کد توجه نکنید یکم لو برید. مگه اگه کسی ازتون پرسید با تک تک کاراکترهایی که استفاده کردید آشنا باشید :)

منبع

سوال یا نظری دارید؟ خیلی راحت بهم پیام بدید:

پیام‌رسان سیگنال: hossein.01
رایانامه: me@hossein.me

دوست دارید مقاله‌های بیشتری مثل این ببینید؟ با RSS از فرسته‌های جدید مطلع بشید، یا اینکه عضو خبرنامه‌ی ایمیلی یا کانال تلگرام بشید.

دوست دارید همین الان مطالب مشابه بیشتری بخونید؟ آرشیو این وبلاگ حداقل 28 مقاله‌ی آماده‌ی خوندن داره. من یک لیست از مطالب باحال اینترنت هم درست کردم که چندوقت‌یکبار به‌روز میشه.

اشتباهی پیدا کردید؟ این وبلاگ تحت مجوز آزاد منتشر شده، میتونید مشکل رو توی مخزنش بهم بگید.

مرسی که خوندید ♡ مجوز آثار این وبلاگ CC BY-SA 4.0ه. مگر برای محتوایی که برای خودم نیست، یا اینکه صراحتا استفاده از مجوز دیگه‌ای رو گفته باشم.