adding builed russian suffix evresitcs
git-svn-id: https://russianmorphology.googlecode.com/svn/trunk@4 d817d54c-26ab-11de-abc9-2f7d1455ff7a
This commit is contained in:
parent
b334960f5d
commit
5214a0b7f4
121
data/igoredFrom.txt
Normal file
121
data/igoredFrom.txt
Normal file
@ -0,0 +1,121 @@
|
||||
// טלוםא
|
||||
במ C <20> לנ,טל<D798>,וה,טל
|
||||
בן C <20> לנ,טל<D798>,וה,נה
|
||||
בנ C <20> לנ,טל<D798>,וה,הע
|
||||
בס C <20> לנ,טל<D798>,וה,גם
|
||||
בע C <20> לנ,טל<D798>,וה,עג
|
||||
בף C <20> לנ,טל<D798>,וה,ןנ
|
||||
ב<EFBFBD> C <20> לנ,טל<D798>,וה,חג,נאחד
|
||||
בפ C <20> לנ,טל<D798>,לם,טל
|
||||
בץ C <20> לנ,טל<D798>,לם,נה
|
||||
בצ C <20> לנ,טל<D798>,לם,הע
|
||||
בק C <20> לנ,טל<D798>,לם,גם
|
||||
בר C <20> לנ,טל<D798>,לם,עג
|
||||
בש C <20> לנ,טל<D798>,לם,ןנ
|
||||
ב<EFBFBD> I <20> לנ,טל<D798>,0
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,0
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,וה,טל
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,וה,נה
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,וה,הע
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,וה,גם
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,וה,עג
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,וה,ןנ
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,וה,חג,נאחד
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,לם,טל
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,לם,נה
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,לם,הע
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,לם,גם
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,לם,עג
|
||||
ג<EFBFBD> E <20> לנ-זנ,טל<D798>,לם,ןנ
|
||||
המ I <20> זנ,טל<D798>,וה,טל
|
||||
הן I <20> זנ,טל<D798>,וה,נה
|
||||
הנ I <20> זנ,טל<D798>,וה,הע
|
||||
הס I <20> זנ,טל<D798>,וה,גם
|
||||
הע I <20> זנ,טל<D798>,וה,עג
|
||||
הף I <20> זנ,טל<D798>,וה,ןנ
|
||||
ה<EFBFBD> I <20> זנ,טל<D798>,וה,חג,נאחד
|
||||
הפ I <20> זנ,טל<D798>,לם,טל
|
||||
הץ I <20> זנ,טל<D798>,לם,נה
|
||||
הצ I <20> זנ,טל<D798>,לם,הע
|
||||
הק I <20> זנ,טל<D798>,לם,גם
|
||||
הר I <20> זנ,טל<D798>,לם,עג
|
||||
הש I <20> זנ,טל<D798>,לם,ןנ
|
||||
ה<EFBFBD> I <20> זנ,טל<D798>,0
|
||||
// לףזסךטו מעקוסעגא
|
||||
<EFBFBD>א Q <20> לנ,מעק,וה,טל,
|
||||
<EFBFBD>ב Q <20> לנ,מעק,וה,נה,
|
||||
<EFBFBD>ג Q <20> לנ,מעק,וה,הע,
|
||||
<EFBFBD>ד Q <20> לנ,מעק,וה,גם,
|
||||
<EFBFBD>ה Q <20> לנ,מעק,וה,עג,
|
||||
<EFBFBD>ו Q <20> לנ,מעק,וה,ןנ,
|
||||
<EFBFBD>ם Q <20> לנ,מעק,לם,טל,
|
||||
<EFBFBD>מ Q <20> לנ,מעק,לם,נה,
|
||||
<EFBFBD>ן Q <20> לנ,מעק,לם,הע,
|
||||
<EFBFBD>נ Q <20> לנ,מעק,לם,גם,
|
||||
<EFBFBD>ס Q <20> לנ,מעק,לם,עג,
|
||||
<EFBFBD>ע Q <20> לנ,מעק,לם,ןנ,
|
||||
// זוםסךטו מעקוסעגא
|
||||
<EFBFBD>ז Q <20> זנ,מעק,וה,טל,
|
||||
<EFBFBD>ח Q <20> זנ,מעק,וה,נה,
|
||||
<EFBFBD>ט Q <20> זנ,מעק,וה,הע,
|
||||
<EFBFBD>ך Q <20> זנ,מעק,וה,גם,
|
||||
<EFBFBD>כ Q <20> זנ,מעק,וה,עג,
|
||||
<EFBFBD>ל Q <20> זנ,מעק,וה,ןנ,
|
||||
<EFBFBD>ף Q <20> זנ,מעק,לם,טל,
|
||||
<EFBFBD>פ Q <20> זנ,מעק,לם,נה,
|
||||
<EFBFBD>ץ Q <20> זנ,מעק,לם,הע,
|
||||
<EFBFBD>צ Q <20> זנ,מעק,לם,גם,
|
||||
<EFBFBD>ק Q <20> זנ,מעק,לם,עג,
|
||||
<EFBFBD>ר Q <20> זנ,מעק,לם,ןנ,
|
||||
// לףזסךטו מעקוסעגא
|
||||
<EFBFBD>א Q <20> לנ,מעק,וה,טל,
|
||||
<EFBFBD>ב Q <20> לנ,מעק,וה,נה,
|
||||
<EFBFBD>ג Q <20> לנ,מעק,וה,הע,
|
||||
<EFBFBD>ד Q <20> לנ,מעק,וה,גם,
|
||||
<EFBFBD>ה Q <20> לנ,מעק,וה,עג,
|
||||
<EFBFBD>ו Q <20> לנ,מעק,וה,ןנ,
|
||||
<EFBFBD>ם Q <20> לנ,מעק,לם,טל,
|
||||
<EFBFBD>מ Q <20> לנ,מעק,לם,נה,
|
||||
<EFBFBD>ן Q <20> לנ,מעק,לם,הע,
|
||||
<EFBFBD>נ Q <20> לנ,מעק,לם,גם,
|
||||
<EFBFBD>ס Q <20> לנ,מעק,לם,עג,
|
||||
<EFBFBD>ע Q <20> לנ,מעק,לם,ןנ,
|
||||
// זוםסךטו מעקוסעגא
|
||||
<EFBFBD>ז Q <20> זנ,מעק,וה,טל,
|
||||
<EFBFBD>ח Q <20> זנ,מעק,וה,נה,
|
||||
<EFBFBD>ט Q <20> זנ,מעק,וה,הע,
|
||||
<EFBFBD>ך Q <20> זנ,מעק,וה,גם,
|
||||
<EFBFBD>כ Q <20> זנ,מעק,וה,עג,
|
||||
<EFBFBD>ל Q <20> זנ,מעק,וה,ןנ,
|
||||
<EFBFBD>ף Q <20> זנ,מעק,לם,טל,
|
||||
<EFBFBD>פ Q <20> זנ,מעק,לם,נה,
|
||||
<EFBFBD>ץ Q <20> זנ,מעק,לם,הע,
|
||||
<EFBFBD>צ Q <20> זנ,מעק,לם,גם,
|
||||
<EFBFBD>ק Q <20> זנ,מעק,לם,עג,
|
||||
<EFBFBD>ר Q <20> זנ,מעק,לם,ןנ,
|
||||
// לףזסךטו מעקוסעגא (נאחד.)
|
||||
<EFBFBD>א Q <20> לנ,מעק,נאחד,וה,טל,
|
||||
<EFBFBD>ב Q <20> לנ,מעק,נאחד,וה,נה,
|
||||
<EFBFBD>ג Q <20> לנ,מעק,נאחד,וה,הע,
|
||||
<EFBFBD>ד Q <20> לנ,מעק,נאחד,וה,גם,
|
||||
<EFBFBD>ה Q <20> לנ,מעק,נאחד,וה,עג,
|
||||
<EFBFBD>ו Q <20> לנ,מעק,נאחד,וה,ןנ,
|
||||
<EFBFBD>ם Q <20> לנ,מעק,נאחד,לם,טל,
|
||||
<EFBFBD>מ Q <20> לנ,מעק,נאחד,לם,נה,
|
||||
<EFBFBD>ן Q <20> לנ,מעק,נאחד,לם,הע,
|
||||
<EFBFBD>נ Q <20> לנ,מעק,נאחד,לם,גם,
|
||||
<EFBFBD>ס Q <20> לנ,מעק,נאחד,לם,עג,
|
||||
<EFBFBD>ע Q <20> לנ,מעק,נאחד,לם,ןנ,
|
||||
// זוםסךטו מעקוסעגא (נאחד.)
|
||||
<EFBFBD>ז Q <20> זנ,מעק,נאחד,וה,טל,
|
||||
<EFBFBD>ח Q <20> זנ,מעק,נאחד,וה,נה,
|
||||
<EFBFBD>ט Q <20> זנ,מעק,נאחד,וה,הע,
|
||||
<EFBFBD>ך Q <20> זנ,מעק,נאחד,וה,גם,
|
||||
<EFBFBD>כ Q <20> זנ,מעק,נאחד,וה,עג,
|
||||
<EFBFBD>ל Q <20> זנ,מעק,נאחד,וה,ןנ,
|
||||
<EFBFBD>ף Q <20> זנ,מעק,נאחד,לם,טל,
|
||||
<EFBFBD>פ Q <20> זנ,מעק,נאחד,לם,נה,
|
||||
<EFBFBD>ץ Q <20> זנ,מעק,נאחד,לם,הע,
|
||||
<EFBFBD>צ Q <20> זנ,מעק,נאחד,לם,גם,
|
||||
<EFBFBD>ק Q <20> זנ,מעק,נאחד,לם,עג,
|
||||
<EFBFBD>ר Q <20> זנ,מעק,נאחד,לם,ןנ,
|
@ -13,12 +13,12 @@ import java.util.*;
|
||||
import java.util.concurrent.atomic.AtomicInteger;
|
||||
|
||||
|
||||
public class SuffixResearcher {
|
||||
public class EvristicBuilder {
|
||||
public static void main(String[] args) throws IOException {
|
||||
IgnoredFormReader formReader = new IgnoredFormReader("igoredFrom.txt");
|
||||
IgnoredFormReader formReader = new IgnoredFormReader("data/igoredFrom.txt");
|
||||
Set<String> form = formReader.getIngnoredFroms();
|
||||
|
||||
DictonaryReader dictonaryReader = new DictonaryReader("morphs.mrd", form);
|
||||
DictonaryReader dictonaryReader = new DictonaryReader("dictonary/Dicts/SrcMorph/RusSrc/morphs.mrd", form);
|
||||
StatiticsCollectors statiticsCollectors = new StatiticsCollectors();
|
||||
dictonaryReader.proccess(statiticsCollectors);
|
||||
Collection<SuffixCounter> counterCollection = statiticsCollectors.getStatititics().values();
|
||||
@ -34,26 +34,6 @@ public class SuffixResearcher {
|
||||
evristic.addEvristic(((SuffixCounter) objects[i]).getSuffixEvristic());
|
||||
}
|
||||
|
||||
final AtomicInteger good = new AtomicInteger(0);
|
||||
final AtomicInteger bad = new AtomicInteger(0);
|
||||
final FileWriter writer = new FileWriter("incorret.txt");
|
||||
dictonaryReader.proccess(new WordProccessor(){
|
||||
public void proccess(WordCard wordCard) throws IOException {
|
||||
for(String wordForm:wordCard.getWordsFroms()){
|
||||
String cf = wordCard.getCanonicalFrom();
|
||||
if (evristic.getNormalForm(wordForm).equals(cf)){
|
||||
good.incrementAndGet();
|
||||
} else{
|
||||
writer.write(wordForm + " c " + cf + " f " + evristic.getNormalForm(wordForm) + "\n");
|
||||
bad.incrementAndGet();
|
||||
}
|
||||
}
|
||||
}
|
||||
});
|
||||
writer.close();
|
||||
|
||||
System.out.println("Good " + good + " Bad " + bad);
|
||||
|
||||
evristic.writeToFile("evriticsb");
|
||||
evristic.writeToFile("src/main/resources/russianSuffixesEvristics.txt");
|
||||
}
|
||||
}
|
694813
src/main/resources/russianSuffixesEvristics.txt
Normal file
694813
src/main/resources/russianSuffixesEvristics.txt
Normal file
File diff suppressed because it is too large
Load Diff
Loading…
x
Reference in New Issue
Block a user