RESEARCH #007 · テキスト解析

その文章、どれくらい博多弁か数えてみる。

A Hakata-Dialect Likeness Score for Arbitrary Japanese Text

0 〜 100 で算出 📝 テキスト解析 貼り付けてその場で ※ 出身地は測っていません
AI自由
研究中
Abstract

要旨

文章に含まれる博多弁特有の語尾・語彙(マーカー)を辞書照合し、文章量で正規化して、博多弁ぽさを 0〜100 のスコアにする。

これは「正しい博多弁か」を判定するものではない。あくまで、その文がどれだけ博多弁の手触りを帯びているかを、粗く数値化するだけだ。標準語の文でも、県外の人が書いた文でも、同じ物差しで測れる。

「〜ばい」を1回言うと、スコアはこう動く。

Method

方法

博多弁マーカー辞書を用意し、入力テキストを走査して重み付きで合計。文の長さで正規化し、0〜100 にスケールする。テキスト解析の基盤は、allfesta の 「議事録ゼロ化AI」 の系譜を引いている。

スコア
(マーカー重み付き出現の合計 ÷ 文字数)を 0〜100 に変換(上限あり)
マーカー例
強:〜ばい/〜と?/〜やけん/〜ばってん/〜っちゃ/とっとーと/なおす(片付ける)/あとぜき 中:〜くさ/〜やん/〜しよう/〜しとう/そいぎ 弱:〜ね/〜さ ほか
正規化
長文・短文を公平に比べるため、長さあたりの密度に直す
限界
「〜たい」のように標準語と重なる語は誤検出しうる。粗い指標である
Result

結果

LINEの文面でも、スピーチ原稿でも、博多弁を書いてみた文でも貼り付けて「測定する」を押すと、博多弁ぽさスコアと、効いているマーカーの内訳が出る。

0

    // 計算はすべてこのブラウザ内で完結。テキストはどこにも送信されません。

    Conclusion

    結論

    このスコアで分かるのは、文の博多弁の濃さだけだ。書き手が福岡出身かどうかも、博多弁が上手いかどうかも、ここからは分からない。

    方言は優劣ではなく、土地の手触りだ。allfesta Labs は、こうして言葉の手触りを数字に置き換え、何が測れて何が測れないのかを、その都度はっきりさせていく。

    ※ 博多弁ぽさスコアは方言の濃度を粗く測る指標です。
    出身地・正しさ・話者の属性を判定するものではありません。
    これは allfesta Labs の研究です

    この研究の足回りは、
    本気のAI技術です。

    AI自由研究は、福岡発の AI 会社 allfesta の研究部門です。テキスト解析の基盤は、本体の「議事録ゼロ化AI」と同じ系譜で動いています。本体では、地域と行政のための実用的な AI を作っています。

    References

    ネタもと