10a0651da6d37c953b5387fbaa168939dbd7be7d
[citadel.git] / citadel / modules / fulltext / ft_wordbreaker.h
1 /*
2  * Copyright (c) 2005-2012 by the citadel.org team
3  *
4  *  This program is open source software; you can redistribute it and/or modify
5  *  it under the terms of the GNU General Public License version 3.
6  *  
7  *  
8  *
9  *  This program is distributed in the hope that it will be useful,
10  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
11  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12  *  GNU General Public License for more details.
13  *
14  *  
15  *  
16  *  
17  */
18
19
20 /*
21  * This is an ID for the wordbreaker module.  If we do pluggable wordbreakers
22  * later on, or even if we update this one, we can use a different ID so the
23  * system knows it needs to throw away the existing index and rebuild it.
24  */
25 #define FT_WORDBREAKER_ID       0x0021
26
27 /*
28  * Minimum and maximum length of words to index
29  */
30 #define WB_MIN                  4       // nothing with 3 or less chars
31 #define WB_MAX                  40
32
33 void wordbreaker(const char *text, int *num_tokens, int **tokens);
34
35 void initialize_noise_words(void);
36 void noise_word_cleanup(void);
37
38
39 typedef struct noise_word noise_word;
40
41 struct noise_word {
42         unsigned int len;
43         char *word;
44         noise_word *next;
45 };