چگونه با تحلیل زبانشناسی قضایی مقابله کنیم
چگونه با زبانشناسی قضایی مقابله کنیم
استایلومتری سبک نوشتاری شخصی و منحصربهفرد ماست. فرقی نمیکند چه کسی باشید، سبک نوشتن شما مانند اثر انگشت، قابل شناسایی و پیگیری است. این موضوع مدتهاست که شناخته شده و شاخهای از پزشکی قانونی بر پایه آن شکل گرفته: زبانشناسی قضایی. در این حوزه، شکل خاصی از زبانشناسی قضایی که برای جرایم اینترنتی به کار میرود، "رایتپرینت" (Writeprint) نام دارد. رایتپرینت در درجه اول به شناسایی نویسنده در فضای اینترنت میپردازد، از طریق مقایسه متن مظنون با مجموعهای از نوشتههای ثابت و مشخص متعلق به نویسندگان شناختهشده. حتی بدون وجود متن مقایسهای، این تکنیک میتواند اطلاعاتی شخصی مانند جنسیت، سن و شخصیت نویسنده را ارائه دهد.
مهاجم هنگام بررسی نوشتههای شما به دنبال چه چیزی است؟
ویژگیهای واژگانی: تحلیل انتخاب واژهها
ویژگیهای نحوی: تحلیل سبک نوشتار، ساختار جمله، علائم نگارشی و استفاده از خط تیره
ویژگیهای ساختاری: تحلیل ساختار و سازماندهی متن
کلمات خاص: تحلیل واژههای مهم در زمینه نوشتار، مانند مخففها
ویژگیهای منحصربهفرد: تحلیل اشتباهات گرامری؛ این عامل از دقیقترین نشانهها برای شناسایی نویسنده است
نمونهها:
فکر میکنید مهاجمین به چنین چیزهایی توجه نمیکنند؟ دوباره فکر کنید! موارد متعددی وجود داشته که مأموران قانون با استفاده از تکنیکهای رایتپرینت توانستهاند افراد را شناسایی و محکوم کنند. مثلاً:
پرونده OxyMonster
دادههای عمومی نشان داد که ولریوس (معروف به OxyMonster) در اینستاگرام و توییتر حساب کاربری دارد. مأموران سبک نوشتاری OxyMonster را در انجمن Dream Market در نقش مدیر ارشد با سبک نوشتاری ولریوس در حسابهای عمومیاش مقایسه کردند. آنها شباهتهای زیادی در استفاده از کلمات و علائم نگارشی یافتند، از جمله: کلمه “cheers”، علامت تعجب دوتایی (!!)، استفاده مکرر از نقلقول و گاهبهگاه پستهایی به زبان فرانسوی.
از سبک نوشتاری یکسان برای فعالیتهای حساس و فعالیتهای روزمرهتان استفاده نکنید. بهخصوص به استفاده از عبارات رایج و علائم نگارشی توجه ویژهای داشته باشید. همچنین، میزان مطالبی که یک مهاجم میتواند برای مقایسه در اختیار داشته باشد را محدود کنید – دوست ندارید به خاطر یک پست سیاسی قدیمی در توییتر یا ردیتی که سالها پیش منتشر کردید به دردسر بیفتید، نه؟
مثال دیگری از کتاب American Kingpin درباره بررسی سبک نگارشی DPR (راس اولبریکت، بنیانگذار بازار تاریک Silk Road) توسط یک مأمور DEA:
برای نمونه، راس اولبریکت زیاد از کلمه “epic” استفاده میکرد که نشان میداد احتمالاً جوان است. او همچنین از شکلک لبخند بدون خط بینی “:)” استفاده میکرد، نه مدل سنتی “:-)”. اما چیزی که واقعاً متمایز بود، این بود که در انجمنهای سایت، بهجای "yes" یا "yeah"، همیشه از "yea" استفاده میکرد.
به جزئیات کوچکی که ممکن است جمع شوند دقت کنید. اگر معمولاً با “ok” پاسخ میدهید، شاید برای فعالیتهای حساس بهتر باشد از “okay” استفاده کنید.
هیچگاه از واژهها یا عبارات مربوط به فعالیتهای حساس (حتی اگر عمومی نباشند) در موقعیتهای عادی استفاده نکنید، و برعکس.
راس اولبریکت از نام “frosty” هم برای سرورهای Silk Road و هم برای اکانت یوتیوبش استفاده کرده بود – همین تطابق ساده یکی از عواملی بود که باعث شد پلیس متقاعد شود DPR همان راس اولبریکت است.
چگونه تلاشهای مهاجم را خنثی کنیم:
حجم متنهای قابل مقایسه را کاهش دهید. این موضوع با داشتن ردپای دیجیتال محدود در فعالیتهای عادیتان ارتباط مستقیم دارد.
از نرمافزارهای واژهپرداز (مانند LibreWriter) برای اصلاح غلطهای املایی و گرامری رایج خود استفاده کنید.
اصطلاحاتی را که هنگام فعالیتهای حساس به کار میبرید کاهش دهید یا تغییر دهید.
درک درستی از تأثیر هویت ساختگیتان بر سبک نوشتار داشته باشید. آیا این شخصیت جوانتر است؟ مسنتر؟ تحصیلکردهتر؟ یا کمتر تحصیلکرده؟ مثلاً اگر هویت ساختگیتان مسنتر است، شاید بهتر باشد با لحنی شبیه به سبک نوشتاری جی. آر. آر. تالکین بنویسید.
به اصطلاحات و املای واژهها دقت کنید. اگر اهل بریتانیا هستید میگویید “maths”، در حالی که در آمریکا میگویند “math”. مهم نیست چطور تلفظ میکنید، مهم این است که چنین تفاوتهایی میتوانند برای پروفایلسازی استفاده شوند.
مثال: اگر در آمریکا از کسی «rubber» بخواهید، انتظار «eraser» نداشته باشید!
به استفادهتان از شکلکها (emoticons) و ایموجیها دقت کنید. در مثال قبلی، مأمور DEA متوجه جوانبودن اولبریکت شد چون در شکلک لبخند از خط فاصله بهعنوان بینی استفاده نمیکرد.
به ساختار نگارشتان توجه کنید. آیا بعد از نقطه، دو فاصله میگذارید؟ آیا مدام از پرانتز استفاده میکنید؟ آیا از ویرگول آکسفورد (Oxford comma) استفاده میکنید؟
نمادهایی را که در نوشتهها به کار میبرید بررسی کنید. آیا از €، £ یا $ استفاده میکنید؟
برای تاریخ از “dd-mm-yyyy” استفاده میکنید یا “mm-dd-yyyy”؟
ساعت را به شکل “08:00 pm” مینویسید یا “20:00”؟
تفاوتهای زبانی چه چیزهایی درباره شما فاش میکنند؟
شکلکها (Emoticons):
روسها برای لبخند فقط از “)” استفاده میکنند، نه “:-)” یا “:)”
اسکاندیناویها از “=)” استفاده میکنند
جوانترها معمولاً از خط فاصله در شکلکها استفاده نمیکنند و فقط مینویسند “:)”
ویژگیهای ساختاری:
دو فاصله بعد از نقطه معمولاً نشاندهنده سن بالاتر است، چون در گذشته هنگام آموزش تایپ با ماشینتحریر اینطور آموزش داده میشد
تفاوت در نگارش عددها بین آمریکا و بقیه جهان:
آمریکا:
1,000.00$
اروپا:
1.000,00€
اصطلاحات، املا و نمادها:
کاملاً مشخص است که مردم در کشورهای مختلف از اصطلاحات متفاوتی استفاده میکنند. این تفاوت زمانی بیشتر به چشم میآید که از اصطلاحاتی استفاده شود که در سایر کشورها رایج نیستند. مثلاً کسی در بریتانیا از کلمه “headmaster” استفاده میکند، در حالیکه در کشورهای دیگر معادل آن “principal” است.
املا نیز مانند اصطلاحات، عاملی مهم است که کنترل آن سختتر است. مثلاً اگر بخواهید وانمود کنید اهل آمریکا هستید ولی در استرالیا زندگی میکنید، فقط یک بار نوشتن “colour” بهجای “color” کافیست تا مشخص شود چیزی درست نیست.
برخی افراد هم واژهها را به شکلی خاص مینویسند که لزوماً به منطقه خاصی مربوط نمیشود — مثلاً “axe” بهجای “ax” یا برعکس.
البته، نمادهایی که روی کیبورد استفاده میکنید هم اطلاعات زیادی را لو میدهند، مثل £ یا $.
تکنیکهایی برای جلوگیری از شناسایی نوشتاری (Writeprinting):
در اینجا چند تکنیک معرفی شده، به ترتیب کاربرد:
بررسی املا و گرامر: این کار از شناسایی مبتنی بر اشتباهات نگارشی و املایی جلوگیری میکند.
استفاده از واژهپرداز آفلاین: از نرمافزارهایی مثل LibreWriter استفاده کنید و با ابزار بررسی املا و گرامر، اشتباهاتی که هنگام تایپ مرتکب شدهاید را اصلاح کنید.
استفاده از سرویسهای آنلاین: اگر واژهپرداز در اختیار ندارید یا نمیخواهید استفاده کنید، میتوانید از سرویسهای آنلاین مثل Grammarly استفاده کنید (نیاز به ایمیل و ایجاد حساب دارد).
تکنیک ترجمه:
بعد از اصلاح املا و گرامر، از سایتها یا نرمافزارهایی مثل Google Translate (یا نسخهای با حفظ حریم خصوصی بیشتر، مثل: https://translate.metalune.xyz) استفاده کنید و متن را به چند زبان مختلف ترجمه کرده و سپس دوباره به زبان اصلی برگردانید. این رفتوبرگشتهای ترجمه، ساختار پیام شما را تغییر میدهد و شناسایی سبک نوشتاریتان را دشوارتر میسازد.
⚠️ هشدار:
مطالعهای که در این لینک آرشیو شده:
https://web.archive.org/web/20181125133942/https://www.cs.drexel.edu/~sa499/papers/adversarial_stylometry.pdf
نشان میدهد که تکنیک ترجمه برای جلوگیری از استایلومتری چندان مؤثر نیست. بنابراین این مرحله ممکن است بیفایده باشد.
جستجو و جایگزینی:
در نهایت، و البته بهصورت اختیاری، میتوانید با افزودن عمدی چند اشتباه، کمی «نمک» به نوشتهتان اضافه کنید.
ابتدا فهرستی از کلماتی تهیه کنید که معمولاً هرگز در آنها اشتباه نمیکنید؛ مثلاً کلماتی مثل “grammatical”، “symbol” یا “pronounced” (این فهرست باید شامل تعداد بیشتری کلمه باشد).
از گزینه «تصحیح خودکار» برای جایگزینی استفاده نکنید، چون ممکن است در مواقع نامناسب اصلاح انجام دهد.
در عوض، از قابلیت «جستجو و جایگزینی» (Search and Replace) استفاده کنید و این کار را بهصورت دستی برای هر واژه انجام دهید.
از گزینه “Replace All” هم استفاده نکنید و هر تغییر را دستی بررسی کنید. این اولین گام در جهت ارائه اطلاعات نادرست در برابر ردگیری زبانی است.
در مرحله بعد، فهرستی از کلماتی که بهطور مکرر در نوشتار خود استفاده میکنید تهیه کنید.
فرض کنیم شما معمولاً از شکل کوتاهشده کلمات استفاده میکنید، مثلاً همیشه مینویسید: “can’t”، “don’t”، “shouldn’t”، “won’t” یا “let’s”.
میتوانید در نرمافزاری مانند LibreWriter با استفاده از “Search and Replace” این واژهها را به شکل کاملشان جایگزین کنید:
“can’t” → “cannot”
“don’t” → “do not”
“shouldn’t” → “should not”
“won’t” → “will not”
“let’s” → “let us”
این تغییرات میتوانند سبک نوشتار شما را بهطور قابل توجهی تغییر دهند و تأثیر بزرگی در برداشت دیگران — بهویژه مهاجمین — از هویت شما بگذارند. حتی میتوانید بسیاری از کلمات را با گزینههای معادل تغییر دهید؛ مثلاً بهجای “huge” بنویسید “large”؛ البته به شرطی که این واژهها با هویت موردنظر شما همخوانی داشته باشند.
هماهنگسازی واژگان با موقعیت جغرافیایی:
حالا به این فکر کنید که انتخاب واژگانتان را با یک منطقه جغرافیایی خاص هماهنگ کنید.
مثلاً اگر در آمریکا زندگی میکنید اما میخواهید القا کنید اهل بریتانیا هستید، میتوانید از املا و واژگان مخصوص به آن منطقه استفاده کنید.
البته این کار ریسک دارد و یک اشتباه ساده میتواند همه چیز را لو بدهد.
ابتدا باید تصمیم بگیرید که میخواهید هویتتان از کجا بهنظر برسد.
مثلاً میخواهید القا کنید اهل آمریکا هستید یا بریتانیا.
در این صورت، باید اطلاعاتی از آن منطقه داشته باشید؛ نمیتوانید وانمود کنید اهل بریتانیا هستید اما هیچ چیزی از آن ندانید.
بعد از اینکه کشور یا منطقه را مشخص کردید، تفاوتهای زبانی بین دو نسخه زبانی را بررسی کنید (مثلاً تفاوتهای بین انگلیسی بریتانیایی و آمریکایی).
با کمک اینترنت، این کار بسیار آسان است — حتی صفحههای ویکیپدیا وجود دارند که این تفاوتها را لیست کردهاند.
به تفاوت املاها توجه کنید:
“metre” → “meter”
“colour” → “color”
و تفاوت در واژگان:
“boot” (صندوق عقب در بریتانیا) → “trunk”
“lorry” → “truck”
وقتی لیست این کلمات و تفاوتها را تهیه کردید، از قابلیت “Search and Replace” در ویرایشگر متن خود استفاده کنید و واژهها را بهصورت دستی تغییر دهید.
باز هم تأکید میشود: از «تصحیح خودکار» یا “Replace All” استفاده نکنید؛ چون برخی جایگزینیها ممکن است در همه زمینهها درست نباشند.
مثلاً تغییر واژه “boot” به “trunk” برای خودرو منطقی است، اما در زمینه کفشها کاملاً اشتباه خواهد بود.
توصیه نهایی:
در هنگام انجام فعالیتهای حساس، همیشه حواستان باشد که چه تایپ میکنید و چطور تایپ میکنید.
در نظر داشته باشید که اگر سبک نوشتار خود را برای حفظ ناشناسی تغییر دهید، در طول زمان ممکن است همین سبکِ جدید تبدیل به الگوی قابل شناسایی شما شود.
بعد از پایان نوشتن، حداقل یک بار متن را بازبینی کنید تا مطمئن شوید در فرآیند کار اشتباهی نکردهاید.
به خودتان اعتماد داشته باشید، اما باز هم بررسی کنید.
لینکهای تکمیلی:
Stylometry - مستندات Whonix (آرشیو): مستندات پروژه Whonix درباره استایلومتری
Forensic linguistics - ویکیپدیا (Wikiless / آرشیو): مرور کوتاه بر اصول پایه زبانشناسی قضایی
Writeprint - ویکیپدیا (Wikiless / آرشیو): مروری کوتاه و کاربردی بر زبانشناسی قضایی در تحقیقات اینترنتی
Stylometry - ویکیپدیا (Wikiless / آرشیو): معرفی اجمالی استایلومتری
Content similarity detection - ویکیپدیا (Wikiless / آرشیو): پیشنهاد میشود، اطلاعات مفیدی دارد
Author profiling - ویکیپدیا (Wikiless / آرشیو): اگر به این حوزه علاقه دارید، مطالعهاش توصیه میشود
Native-language identification - ویکیپدیا (Wikiless / آرشیو): اگر بدون استفاده از مترجم در فرومهایی با زبان غیر مادریتان فعالیت میکنید، مروری بر این صفحه داشته باشید
Computational linguistics - ویکیپدیا (Wikiless / آرشیو): فقط در صورتی مطالعه شود که علاقهمند به موضوع هستید
پرونده Gal Vallerius (OxyMonster) (آرشیو): شرح استفاده از زبانشناسی قضایی در بازداشت OxyMonster (صفحات ۱۳ تا ۱۴)
Ted Kaczynski - پس از انتشار (Wikiless / آرشیو): با وجود بهره هوشی بالا (IQ = 167)، عمدتاً با تحلیل نگارشی دستگیر شد
Matt Wixey – I'm Unique, Just Like You (BlackHat USA 2019) (آرشیو): بررسی اینکه چطور سبک نگارش میتواند برای ردیابی استفاده شود – شدیداً توصیه میشود
Matt Wixey – Betrayed by the Keyboard (DEFCON 26) (آرشیو): مشابه ارائه بالا، درباره ردیابی از طریق تحلیل نوشتار
Every ROSE Has Its Thorn – BlackHat USA 2018 (آرشیو): درباره شناسایی فریب و مهندسی اجتماعی آنلاین – ارائه همراه با چکلیست برای ارزیابی اعتمادپذیری افراد
📚 منبع: راهنمای مسافران برای ناشناسی آنلاین، نوشتهی AnonyPla – مجوز CC BY-NC 4.0