سازوکار شبهواترمارک در مدلهای زبانی بزرگ
احتمالا عکسهایی رو دیدید که پایینش لوگوی یک شرکت هست، یا PDFهایی که پشت متنشون اسم یک شرکت بارها نوشته شده تا کسی پرینت کرد معلوم شه صاحب اصلی کی بوده. به این کار میگن Watermark زدن. حالا شرکتهای هوش مصنوعی میتونن کاری کنن که نهتنها توی تولید عکس و تصویر، بلکه توی تولید متن هم محصولاتشون روی پاسخهاشون Watermark بزنن. یعنی متنی رو که هوش مصنوعی تولید کرده باشه، با دقت خوبی بشه گفت که واقعا دستساخت انسان نیست و هوش مصنوعی چه شرکتی ساختتش. بنا به دلایلی مثل هزینه و احتمال ریزش کاربرها، فعلا این کار انجام نمیشه.
این مورد Watermark کردن به حساب نمیاد، اما اخیرا کاربرها کشف کردن که زیادی دقیق بودن هوش مصنوعیها یکجورایی میتونه لو بده اونها رو. مثال: سایتهای خفن برای اینکه عبارتی مثل صد کیلومتر که میشه:
100 KM
توی سایتشون به هم نریزه و موقع رفتن به خط بعدی، عبارت KM از 100 جدا نشه، بهجای فاصلهی معمولی، از فاصلهی جدانشونده (Non-breaking space) استفاده میکنن. این نوع فاصله به چشم آدم فاصلهی معمولی میاد ولی توی یونیکد، کد مجزایی داره. یا مثلا … رو آدما معمولا با زدن سهتا نقطه مینویسن که میشه سهتا کاراکتر نقطه ولی هوش مصنوعی میتونه … رو با یک کاراکتر (کاراکتر مخصوص خود سهنقطه) بنویسه. (البته خیلی از برنامهها اگر سهنقطه رو بزنین این تبدیل رو براتون انجام میدن)
همینا باعث میشه اگر کپیپیست کنید و به یونیکد توجه نکنید یکم لو برید. مگه اگه کسی ازتون پرسید با تک تک کاراکترهایی که استفاده کردید آشنا باشید :)