More removal of $Id$ tags
[citadel.git] / citadel / modules / fulltext / ft_wordbreaker.h
1 /*
2  * Copyright (c) 2005-2009 by the citadel.org team
3  *
4  *  This program is free software; you can redistribute it and/or modify
5  *  it under the terms of the GNU General Public License as published by
6  *  the Free Software Foundation; either version 3 of the License, or
7  *  (at your option) any later version.
8  *
9  *  This program is distributed in the hope that it will be useful,
10  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
11  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12  *  GNU General Public License for more details.
13  *
14  *  You should have received a copy of the GNU General Public License
15  *  along with this program; if not, write to the Free Software
16  *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
17  */
18
19
20 /*
21  * This is an ID for the wordbreaker module.  If we do pluggable wordbreakers
22  * later on, or even if we update this one, we can use a different ID so the
23  * system knows it needs to throw away the existing index and rebuild it.
24  */
25 #define FT_WORDBREAKER_ID       0x0021
26
27 /*
28  * Minimum and maximum length of words to index
29  */
30 #define WB_MIN                  4       // nothing with 3 or less chars
31 #define WB_MAX                  40
32
33 void wordbreaker(const char *text, int *num_tokens, int **tokens);
34
35 void initialize_noise_words(void);
36 void noise_word_cleanup(void);
37
38
39 typedef struct noise_word noise_word;
40
41 struct noise_word {
42         unsigned int len;
43         char *word;
44         noise_word *next;
45 };