From fe855dfa519077446b6e7ce997e02348d531abfd Mon Sep 17 00:00:00 2001 From: "alexander.a.kuznetsov" Date: Mon, 13 Apr 2009 15:37:04 +0000 Subject: [PATCH] analayzer git-svn-id: https://russianmorphology.googlecode.com/svn/trunk@13 d817d54c-26ab-11de-abc9-2f7d1455ff7a --- .../RussianMorphlogyAnalayzerTest.java | 48 +++++++++++++++++++ .../morphology/analayzer/russian-text.txt | 5 ++ 2 files changed, 53 insertions(+) create mode 100644 src/test/java/org/apache/lucene/russian/morphology/analayzer/RussianMorphlogyAnalayzerTest.java create mode 100644 src/test/resources/org/apache/lucene/russian/morphology/analayzer/russian-text.txt diff --git a/src/test/java/org/apache/lucene/russian/morphology/analayzer/RussianMorphlogyAnalayzerTest.java b/src/test/java/org/apache/lucene/russian/morphology/analayzer/RussianMorphlogyAnalayzerTest.java new file mode 100644 index 0000000..899d65c --- /dev/null +++ b/src/test/java/org/apache/lucene/russian/morphology/analayzer/RussianMorphlogyAnalayzerTest.java @@ -0,0 +1,48 @@ +package org.apache.lucene.russian.morphology.analayzer; + +import junit.framework.TestCase; +import org.junit.Test; +import org.apache.lucene.analysis.TokenStream; +import org.apache.lucene.analysis.Token; + +import java.io.IOException; +import java.io.InputStream; +import java.io.BufferedReader; +import java.io.InputStreamReader; + + +public class RussianMorphlogyAnalayzerTest { + + @Test + public void shouldCorrectProccessText() throws IOException { + RussianMorphlogyAnalayzer morphlogyAnalayzer = new RussianMorphlogyAnalayzer(); + InputStream stream = this.getClass().getResourceAsStream("/org/apache/lucene/russian/morphology/analayzer/russian-text.txt"); + BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(stream,"UTF-8")); + + final Token reusableToken = new Token(); + + Token nextToken; + + + TokenStream in = morphlogyAnalayzer.tokenStream(null, bufferedReader); + for (;;) + { + nextToken = in.next(reusableToken); + + if (nextToken == null) + { + break; + } + + System.out.println(nextToken.term()); +// nextSampleToken = sample.next(reusableSampleToken); +// assertEquals( +// "Unicode", +// nextToken.term(), +// nextSampleToken == null +// ? null +// : nextSampleToken.term()); + } + + } +} diff --git a/src/test/resources/org/apache/lucene/russian/morphology/analayzer/russian-text.txt b/src/test/resources/org/apache/lucene/russian/morphology/analayzer/russian-text.txt new file mode 100644 index 0000000..ce77ba2 --- /dev/null +++ b/src/test/resources/org/apache/lucene/russian/morphology/analayzer/russian-text.txt @@ -0,0 +1,5 @@ +В условиях нарастающей пурги было сделано 4 успешных захода на посадку. После завершения облета и демонтажа оборудования +Рубен Есаян дал устную оценку эксперимента:"Все нормально, будем рекомендовать систему к внедрению". +Летом - с ноября по март - рейсы из Кейптауна (ЮАР) на станцию "Новолазаревская" (Антарктида) совершаются +примерно один раз в две недели. Туда привозят людей, питание, оборудование, ГСМ и т.д. +что-то \ No newline at end of file