adding builed russian suffix evresitcs
git-svn-id: https://russianmorphology.googlecode.com/svn/trunk@4 d817d54c-26ab-11de-abc9-2f7d1455ff7a
This commit is contained in:
@@ -0,0 +1,121 @@
|
|||||||
|
// טלוםא
|
||||||
|
במ C � לנ,טל�,וה,טל
|
||||||
|
בן C � לנ,טל�,וה,נה
|
||||||
|
בנ C � לנ,טל�,וה,הע
|
||||||
|
בס C � לנ,טל�,וה,גם
|
||||||
|
בע C � לנ,טל�,וה,עג
|
||||||
|
בף C � לנ,טל�,וה,ןנ
|
||||||
|
ב� C � לנ,טל�,וה,חג,נאחד
|
||||||
|
בפ C � לנ,טל�,לם,טל
|
||||||
|
בץ C � לנ,טל�,לם,נה
|
||||||
|
בצ C � לנ,טל�,לם,הע
|
||||||
|
בק C � לנ,טל�,לם,גם
|
||||||
|
בר C � לנ,טל�,לם,עג
|
||||||
|
בש C � לנ,טל�,לם,ןנ
|
||||||
|
ב� I � לנ,טל�,0
|
||||||
|
ג� E � לנ-זנ,טל�,0
|
||||||
|
ג� E � לנ-זנ,טל�,וה,טל
|
||||||
|
ג� E � לנ-זנ,טל�,וה,נה
|
||||||
|
ג� E � לנ-זנ,טל�,וה,הע
|
||||||
|
ג� E � לנ-זנ,טל�,וה,גם
|
||||||
|
ג� E � לנ-זנ,טל�,וה,עג
|
||||||
|
ג� E � לנ-זנ,טל�,וה,ןנ
|
||||||
|
ג� E � לנ-זנ,טל�,וה,חג,נאחד
|
||||||
|
ג� E � לנ-זנ,טל�,לם,טל
|
||||||
|
ג� E � לנ-זנ,טל�,לם,נה
|
||||||
|
ג� E � לנ-זנ,טל�,לם,הע
|
||||||
|
ג� E � לנ-זנ,טל�,לם,גם
|
||||||
|
ג� E � לנ-זנ,טל�,לם,עג
|
||||||
|
ג� E � לנ-זנ,טל�,לם,ןנ
|
||||||
|
המ I � זנ,טל�,וה,טל
|
||||||
|
הן I � זנ,טל�,וה,נה
|
||||||
|
הנ I � זנ,טל�,וה,הע
|
||||||
|
הס I � זנ,טל�,וה,גם
|
||||||
|
הע I � זנ,טל�,וה,עג
|
||||||
|
הף I � זנ,טל�,וה,ןנ
|
||||||
|
ה� I � זנ,טל�,וה,חג,נאחד
|
||||||
|
הפ I � זנ,טל�,לם,טל
|
||||||
|
הץ I � זנ,טל�,לם,נה
|
||||||
|
הצ I � זנ,טל�,לם,הע
|
||||||
|
הק I � זנ,טל�,לם,גם
|
||||||
|
הר I � זנ,טל�,לם,עג
|
||||||
|
הש I � זנ,טל�,לם,ןנ
|
||||||
|
ה� I � זנ,טל�,0
|
||||||
|
// לףזסךטו מעקוסעגא
|
||||||
|
�א Q � לנ,מעק,וה,טל,
|
||||||
|
�ב Q � לנ,מעק,וה,נה,
|
||||||
|
�ג Q � לנ,מעק,וה,הע,
|
||||||
|
�ד Q � לנ,מעק,וה,גם,
|
||||||
|
�ה Q � לנ,מעק,וה,עג,
|
||||||
|
�ו Q � לנ,מעק,וה,ןנ,
|
||||||
|
�ם Q � לנ,מעק,לם,טל,
|
||||||
|
�מ Q � לנ,מעק,לם,נה,
|
||||||
|
�ן Q � לנ,מעק,לם,הע,
|
||||||
|
�נ Q � לנ,מעק,לם,גם,
|
||||||
|
�ס Q � לנ,מעק,לם,עג,
|
||||||
|
�ע Q � לנ,מעק,לם,ןנ,
|
||||||
|
// זוםסךטו מעקוסעגא
|
||||||
|
�ז Q � זנ,מעק,וה,טל,
|
||||||
|
�ח Q � זנ,מעק,וה,נה,
|
||||||
|
�ט Q � זנ,מעק,וה,הע,
|
||||||
|
�ך Q � זנ,מעק,וה,גם,
|
||||||
|
�כ Q � זנ,מעק,וה,עג,
|
||||||
|
�ל Q � זנ,מעק,וה,ןנ,
|
||||||
|
�ף Q � זנ,מעק,לם,טל,
|
||||||
|
�פ Q � זנ,מעק,לם,נה,
|
||||||
|
�ץ Q � זנ,מעק,לם,הע,
|
||||||
|
�צ Q � זנ,מעק,לם,גם,
|
||||||
|
�ק Q � זנ,מעק,לם,עג,
|
||||||
|
�ר Q � זנ,מעק,לם,ןנ,
|
||||||
|
// לףזסךטו מעקוסעגא
|
||||||
|
�א Q � לנ,מעק,וה,טל,
|
||||||
|
�ב Q � לנ,מעק,וה,נה,
|
||||||
|
�ג Q � לנ,מעק,וה,הע,
|
||||||
|
�ד Q � לנ,מעק,וה,גם,
|
||||||
|
�ה Q � לנ,מעק,וה,עג,
|
||||||
|
�ו Q � לנ,מעק,וה,ןנ,
|
||||||
|
�ם Q � לנ,מעק,לם,טל,
|
||||||
|
�מ Q � לנ,מעק,לם,נה,
|
||||||
|
�ן Q � לנ,מעק,לם,הע,
|
||||||
|
�נ Q � לנ,מעק,לם,גם,
|
||||||
|
�ס Q � לנ,מעק,לם,עג,
|
||||||
|
�ע Q � לנ,מעק,לם,ןנ,
|
||||||
|
// זוםסךטו מעקוסעגא
|
||||||
|
�ז Q � זנ,מעק,וה,טל,
|
||||||
|
�ח Q � זנ,מעק,וה,נה,
|
||||||
|
�ט Q � זנ,מעק,וה,הע,
|
||||||
|
�ך Q � זנ,מעק,וה,גם,
|
||||||
|
�כ Q � זנ,מעק,וה,עג,
|
||||||
|
�ל Q � זנ,מעק,וה,ןנ,
|
||||||
|
�ף Q � זנ,מעק,לם,טל,
|
||||||
|
�פ Q � זנ,מעק,לם,נה,
|
||||||
|
�ץ Q � זנ,מעק,לם,הע,
|
||||||
|
�צ Q � זנ,מעק,לם,גם,
|
||||||
|
�ק Q � זנ,מעק,לם,עג,
|
||||||
|
�ר Q � זנ,מעק,לם,ןנ,
|
||||||
|
// לףזסךטו מעקוסעגא (נאחד.)
|
||||||
|
�א Q � לנ,מעק,נאחד,וה,טל,
|
||||||
|
�ב Q � לנ,מעק,נאחד,וה,נה,
|
||||||
|
�ג Q � לנ,מעק,נאחד,וה,הע,
|
||||||
|
�ד Q � לנ,מעק,נאחד,וה,גם,
|
||||||
|
�ה Q � לנ,מעק,נאחד,וה,עג,
|
||||||
|
�ו Q � לנ,מעק,נאחד,וה,ןנ,
|
||||||
|
�ם Q � לנ,מעק,נאחד,לם,טל,
|
||||||
|
�מ Q � לנ,מעק,נאחד,לם,נה,
|
||||||
|
�ן Q � לנ,מעק,נאחד,לם,הע,
|
||||||
|
�נ Q � לנ,מעק,נאחד,לם,גם,
|
||||||
|
�ס Q � לנ,מעק,נאחד,לם,עג,
|
||||||
|
�ע Q � לנ,מעק,נאחד,לם,ןנ,
|
||||||
|
// זוםסךטו מעקוסעגא (נאחד.)
|
||||||
|
�ז Q � זנ,מעק,נאחד,וה,טל,
|
||||||
|
�ח Q � זנ,מעק,נאחד,וה,נה,
|
||||||
|
�ט Q � זנ,מעק,נאחד,וה,הע,
|
||||||
|
�ך Q � זנ,מעק,נאחד,וה,גם,
|
||||||
|
�כ Q � זנ,מעק,נאחד,וה,עג,
|
||||||
|
�ל Q � זנ,מעק,נאחד,וה,ןנ,
|
||||||
|
�ף Q � זנ,מעק,נאחד,לם,טל,
|
||||||
|
�פ Q � זנ,מעק,נאחד,לם,נה,
|
||||||
|
�ץ Q � זנ,מעק,נאחד,לם,הע,
|
||||||
|
�צ Q � זנ,מעק,נאחד,לם,גם,
|
||||||
|
�ק Q � זנ,מעק,נאחד,לם,עג,
|
||||||
|
�ר Q � זנ,מעק,נאחד,לם,ןנ,
|
||||||
+4
-24
@@ -13,12 +13,12 @@ import java.util.*;
|
|||||||
import java.util.concurrent.atomic.AtomicInteger;
|
import java.util.concurrent.atomic.AtomicInteger;
|
||||||
|
|
||||||
|
|
||||||
public class SuffixResearcher {
|
public class EvristicBuilder {
|
||||||
public static void main(String[] args) throws IOException {
|
public static void main(String[] args) throws IOException {
|
||||||
IgnoredFormReader formReader = new IgnoredFormReader("igoredFrom.txt");
|
IgnoredFormReader formReader = new IgnoredFormReader("data/igoredFrom.txt");
|
||||||
Set<String> form = formReader.getIngnoredFroms();
|
Set<String> form = formReader.getIngnoredFroms();
|
||||||
|
|
||||||
DictonaryReader dictonaryReader = new DictonaryReader("morphs.mrd", form);
|
DictonaryReader dictonaryReader = new DictonaryReader("dictonary/Dicts/SrcMorph/RusSrc/morphs.mrd", form);
|
||||||
StatiticsCollectors statiticsCollectors = new StatiticsCollectors();
|
StatiticsCollectors statiticsCollectors = new StatiticsCollectors();
|
||||||
dictonaryReader.proccess(statiticsCollectors);
|
dictonaryReader.proccess(statiticsCollectors);
|
||||||
Collection<SuffixCounter> counterCollection = statiticsCollectors.getStatititics().values();
|
Collection<SuffixCounter> counterCollection = statiticsCollectors.getStatititics().values();
|
||||||
@@ -34,26 +34,6 @@ public class SuffixResearcher {
|
|||||||
evristic.addEvristic(((SuffixCounter) objects[i]).getSuffixEvristic());
|
evristic.addEvristic(((SuffixCounter) objects[i]).getSuffixEvristic());
|
||||||
}
|
}
|
||||||
|
|
||||||
final AtomicInteger good = new AtomicInteger(0);
|
evristic.writeToFile("src/main/resources/russianSuffixesEvristics.txt");
|
||||||
final AtomicInteger bad = new AtomicInteger(0);
|
|
||||||
final FileWriter writer = new FileWriter("incorret.txt");
|
|
||||||
dictonaryReader.proccess(new WordProccessor(){
|
|
||||||
public void proccess(WordCard wordCard) throws IOException {
|
|
||||||
for(String wordForm:wordCard.getWordsFroms()){
|
|
||||||
String cf = wordCard.getCanonicalFrom();
|
|
||||||
if (evristic.getNormalForm(wordForm).equals(cf)){
|
|
||||||
good.incrementAndGet();
|
|
||||||
} else{
|
|
||||||
writer.write(wordForm + " c " + cf + " f " + evristic.getNormalForm(wordForm) + "\n");
|
|
||||||
bad.incrementAndGet();
|
|
||||||
}
|
|
||||||
}
|
|
||||||
}
|
|
||||||
});
|
|
||||||
writer.close();
|
|
||||||
|
|
||||||
System.out.println("Good " + good + " Bad " + bad);
|
|
||||||
|
|
||||||
evristic.writeToFile("evriticsb");
|
|
||||||
}
|
}
|
||||||
}
|
}
|
||||||
File diff suppressed because it is too large
Load Diff
Reference in New Issue
Block a user