دانلود مقاله انگلیسی رایگان:مدل های زبان و همجوشی برای انتساب نویسندگی - 2019
بلافاصله پس از پرداخت دانلود کنید
دانلود مقاله انگلیسی یادگیری ماشین رایگان
  • Language models and fusion for authorship attribution Language models and fusion for authorship attribution
    Language models and fusion for authorship attribution

    سال انتشار:

    2019


    عنوان انگلیسی مقاله:

    Language models and fusion for authorship attribution


    ترجمه فارسی عنوان مقاله:

    مدل های زبان و همجوشی برای انتساب نویسندگی


    منبع:

    Sciencedirect - Elsevier - Information Processing and Management, 56 (2019) 102061: doi:10:1016/j:ipm:2019:102061


    نویسنده:

    Olga Fourkioti⁎, Symeon Symeonidis, Avi Arampatzis


    چکیده انگلیسی:

    We deal with the task of authorship attribution, i.e. identifying the author of an unknown document, proposing the use of Part Of Speech (POS) tags as features for language modeling. The experimentation is carried out on corpora untypical for the task, i.e., with documents edited by non-professional writers, such as movie reviews or tweets. The former corpus is homogeneous with respect to the topic making the task more challenging, The latter corpus, puts language models into a framework of a continuously and fast evolving language, unique and noisy writing style, and limited length of social media messages. While we find that language models based on POS tags are competitive in only one of the corpora (movie reviews), they generally provide efficiency benefits and robustness against data sparsity. Furthermore, we experiment with model fusion, where language models based on different modalities are combined. By linearly combining three language models, based on characters, words, and POS trigrams, respectively, we achieve the best generalization accuracy of 96% on movie reviews, while the combination of language models based on characters and POS trigrams provides 54% accuracy on the Twitter corpus. In fusion, POS language models are proven essential effective components.
    Keywords: Authorship attribution | Language models | Computational linguistics | Text classification | Machine learning


    سطح: متوسط
    تعداد صفحات فایل pdf انگلیسی: 13
    حجم فایل: 517 کیلوبایت

    قیمت: رایگان


    توضیحات اضافی:




اگر این مقاله را پسندیدید آن را در شبکه های اجتماعی به اشتراک بگذارید (برای به اشتراک گذاری بر روی ایکن های زیر کلیک کنید)

تعداد نظرات : 0

الزامی
الزامی
الزامی
rss مقالات ترجمه شده rss مقالات انگلیسی rss کتاب های انگلیسی rss مقالات آموزشی