類似レポート検知機能のスコアについて

WebClassでは、レポートの剽窃検知機能として、「類似レポート検知」という機能が用意されています。この機能は、提出されたレポート同士を比較して、それらの類似度をスコアとして表示することができます。

こちらのスコア算出の挙動について不可解な点があると指摘されておりましたので、今回いくつかの観点からスコアの変動について調査しました。

調査方法

  • 同じ文章にスペース・改行を入れた場合と入れない場合を比較
  • 10文字~12,000文字程度の文章をWikipediaから切り抜いて比較に使用
    • 全く違う文章・全く同じ文章それぞれで比較
    • 英語文・日本語文それぞれで比較
    • 同じ文章の繰り返しが含まれる・含まれない文章で比較(引用の多いレポートを想定)

調査結果

  1. スペース・改行はスコアに影響する。
    • 同じ文章でもスペースが抜けるだけで5~10程度スコアが低くなる
  2. テキストの長さによりスコアが変動する。(図1,2)
    • 基本はテキストが長くなるにつれスコアが下がる傾向
    • 極端にテキストが短い場合に、極端にスコアが高く
  3. 全体的に日本語文のほうが、スコアがはっきりする。
    • 違う文章のスコアが低い(図1)
    • 同じ文章のスコアが高い(図2)
  4. 同じ文章を繰り返し使うとスコアが高くなる。(図2 緑線)
    • 重複によるスコアが積み重なる?


      図1: 全く違う文章の比較


      図2: 全く同じ文章の比較

まとめ

今回の調査から、スペースや改行・文の長さ・英語文日本語文などの違いでスコアに5~10程度の変動があることが分かりました。そのため、これらの挙動を把握した上で、あるいはある程度の誤差をご承知の上ご使用されることをおすすめします。また、100文字程度以下の短い文章では異常なスコアが出ることから、この機能に使うレポートは100文字以上になっているものを対象にすることをおすすめします。(レポート課題作成時に「100文字以上」の文字数制限を付けることも可能です。)

今回の結果から、図3の「スコアの目安(旧)」にある「強い剽窃の疑いがあります」のレベルに達するのが、繰り返しが含まれるい場合や極端に文章が短い場合のみであることがかったので、このスコア区分をv11.9.0で図4のように修正しました。スコアが70程度あれば、かなり強い剽窃である可能性があるということをご留意してお使いいただければと思います。


    図3: スコアの目安(旧)


    図4: スコアの目安(新)