سازوکار شبه‌واترمارک در مدل‌های زبانی بزرگ

احتمالا عکس‌هایی رو دیدید که پایینش لوگوی یک شرکت هست، یا PDFهایی که پشت متنشون اسم یک شرکت بارها نوشته شده تا کسی پرینت کرد معلوم شه صاحب اصلی کی بوده. به این کار میگن Watermark زدن. حالا شرکت‌های هوش مصنوعی می‌تونن کاری کنن که نه‌تنها توی تولید عکس و تصویر، بلکه توی تولید متن هم محصولاتشون روی پاسخ‌هاشون Watermark بزنن. یعنی متنی رو که هوش مصنوعی تولید کرده باشه، با دقت خوبی بشه گفت که واقعا دست‌ساخت انسان نیست و هوش مصنوعی چه شرکتی ساختتش. بنا به دلایلی مثل هزینه و احتمال ریزش کاربرها، فعلا این کار انجام نمیشه.

این مورد Watermark کردن به حساب نمیاد، اما اخیرا کاربرها کشف کردن که زیادی دقیق بودن هوش مصنوعی‌ها یکجورایی می‌تونه لو بده اون‌ها رو. مثال: سایت‌های خفن برای اینکه عبارتی مثل صد کیلومتر که میشه:

100 KM

توی سایتشون به هم نریزه و موقع رفتن به خط بعدی، عبارت KM از 100 جدا نشه، به‌جای فاصله‌ی معمولی، از فاصله‌ی جدانشونده (Non-breaking space) استفاده می‌کنن. این نوع فاصله به چشم آدم فاصله‌ی معمولی میاد ولی توی یونی‌کد، کد مجزایی داره. یا مثلا … رو آدما معمولا با زدن سه‌تا نقطه می‌نویسن که میشه سه‌تا کاراکتر نقطه ولی هوش مصنوعی می‌تونه … رو با یک کاراکتر (کاراکتر مخصوص خود سه‌نقطه) بنویسه. (البته خیلی از برنامه‌ها اگر سه‌نقطه رو بزنین این تبدیل رو براتون انجام میدن)

همینا باعث میشه اگر کپی‌پیست کنید و به یونی‌کد توجه نکنید یکم لو برید. مگه اگه کسی ازتون پرسید با تک تک کاراکترهایی که استفاده کردید آشنا باشید :)

منبع