tools.c: bugfixes to trim functions (Phil Slack)
[citadel.git] / libcitadel / lib / tools.c
1 // A basic toolset containing miscellaneous functions for string manipluation,
2 // encoding/decoding, and a bunch of other stuff.
3 //
4 // Copyright (c) 1987-2022 by the citadel.org team
5 //
6 // This program is open source software.  Use, duplication, or disclosure
7 // is subject to the terms of the GNU General Public License, version 3.
8
9 #include <stdlib.h>
10 #include <unistd.h>
11 #include <stdio.h>
12 #include <signal.h>
13 #include <sys/types.h>
14 #include <ctype.h>
15 #include <string.h>
16 #include <sys/stat.h>
17 #include <errno.h>
18 #include <limits.h>
19
20 #if TIME_WITH_SYS_TIME
21 # include <sys/time.h>
22 # include <time.h>
23 #else
24 # if HAVE_SYS_TIME_H
25 #  include <sys/time.h>
26 # else
27 #  include <time.h>
28 # endif
29 #endif
30
31 #include "libcitadel.h"
32
33
34 #define TRUE  1
35 #define FALSE 0
36
37 typedef unsigned char byte;           // Byte type
38
39 // copy a string into a buffer of a known size. abort if we exceed the limits
40 //
41 // dest the targetbuffer
42 // src  the source string
43 // n    the size od dest
44 //
45 // returns the number of characters copied if dest is big enough, -n if not.
46 int safestrncpy(char *dest, const char *src, size_t n) {
47         int i = 0;
48
49         if (dest == NULL || src == NULL)
50         {
51                 fprintf(stderr, "safestrncpy: NULL argument\n");
52                 abort();
53         }
54
55         do {
56                 dest[i] = src[i];
57                 if (dest[i] == 0) return i;
58                 ++i;
59         } while (i<n);
60         dest[n - 1] = 0;
61         return -i;
62 }
63
64
65 // num_tokens()  -  discover number of parameters/tokens in a string
66 int num_tokens(const char *source, char tok) {
67         int count = 1;
68         const char *ptr = source;
69
70         if (source == NULL) {
71                 return (0);
72         }
73
74         while (*ptr != '\0') {
75                 if (*ptr++ == tok) {
76                         ++count;
77                 }
78         }
79         
80         return (count);
81 }
82
83
84 // extract_token() - a string tokenizer
85 // returns -1 if not found, or length of token.
86 long extract_token(char *dest, const char *source, int parmnum, char separator, int maxlen) {
87         const char *s;                  // source
88         int len = 0;                    // running total length of extracted string
89         int current_token = 0;          // token currently being processed
90
91         s = source;
92
93         if (dest == NULL) {
94                 return(-1);
95         }
96
97         dest[0] = 0;
98
99         if (s == NULL) {
100                 return(-1);
101         }
102         
103         maxlen--;
104
105         while (*s) {
106                 if (*s == separator) {
107                         ++current_token;
108                 }
109                 if ( (current_token == parmnum) && (*s != separator) && (len < maxlen) ) {
110                         dest[len] = *s;
111                         ++len;
112                 }
113                 else if ((current_token > parmnum) || (len >= maxlen)) {
114                         break;
115                 }
116                 ++s;
117         }
118
119         dest[len] = '\0';
120         if (current_token < parmnum) {
121                 return(-1);
122         }
123         return(len);
124 }
125
126
127 // remove_token() - a tokenizer that kills, maims, and destroys
128 void remove_token(char *source, int parmnum, char separator) {
129         char *d, *s;            // dest, source
130         int count = 0;
131
132         // Find desired parameter
133         d = source;
134         while (count < parmnum) {
135                 // End of string, bail!
136                 if (!*d) {
137                         d = NULL;
138                         break;
139                 }
140                 if (*d == separator) {
141                         count++;
142                 }
143                 d++;
144         }
145         if (!d) return;         // Parameter not found
146
147         // Find next parameter
148         s = d;
149         while (*s && *s != separator) {
150                 s++;
151         }
152
153         // Hack and slash
154         if (*s)
155                 strcpy(d, ++s);
156         else if (d == source)
157                 *d = 0;
158         else
159                 *--d = 0;
160 }
161
162
163 // extract_int()  -  extract an int parm without supplying a buffer
164 int extract_int(const char *source, int parmnum) {
165         char buf[32];
166         
167         if (extract_token(buf, source, parmnum, '|', sizeof buf) > 0)
168                 return(atoi(buf));
169         else
170                 return 0;
171 }
172
173
174 // extract_long()  -  extract an long parm without supplying a buffer
175 long extract_long(const char *source, int parmnum) {
176         char buf[32];
177         
178         if (extract_token(buf, source, parmnum, '|', sizeof buf) > 0)
179                 return(atol(buf));
180         else
181                 return 0;
182 }
183
184
185 // extract_unsigned_long() - extract an unsigned long parm
186 unsigned long extract_unsigned_long(const char *source, int parmnum) {
187         char buf[32];
188
189         if (extract_token(buf, source, parmnum, '|', sizeof buf) > 0)
190                 return strtoul(buf, NULL, 10);
191         else 
192                 return 0;
193 }
194
195
196 // if we send out non ascii subjects, we encode it this way.
197 char *rfc2047encode(const char *line, long length) {
198         const char *AlreadyEncoded;
199         char *result;
200         long end;
201 #define UTF8_HEADER "=?UTF-8?B?"
202
203         // check if we're already done
204         AlreadyEncoded = strstr(line, "=?");
205         if ((AlreadyEncoded != NULL) && ((strstr(AlreadyEncoded, "?B?") != NULL)|| (strstr(AlreadyEncoded, "?Q?") != NULL))) {
206                 return strdup(line);
207         }
208
209         result = (char*) malloc(sizeof(UTF8_HEADER) + 4 + length * 2);
210         strncpy (result, UTF8_HEADER, strlen (UTF8_HEADER));
211         CtdlEncodeBase64(result + strlen(UTF8_HEADER), line, length, BASE64_NO_LINEBREAKS);
212         end = strlen (result);
213         result[end]='?';
214         result[end+1]='=';
215         result[end+2]='\0';
216         return result;
217 }
218
219 // removes double slashes from pathnames
220 // allows / disallows trailing slashes
221 void StripSlashes(char *Dir, int TrailingSlash) {
222         char *a, *b;
223
224         a = b = Dir;
225
226         while (!IsEmptyStr(a)) {
227                 if (*a == '/') {
228                         while (*a == '/')
229                                 a++;
230                         *b = '/';
231                         b++;
232                 }
233                 else {
234                         *b = *a;
235                         b++; a++;
236                 }
237         }
238         if ((TrailingSlash) && (*(b - 1) != '/')){
239                 *b = '/';
240                 b++;
241         }
242         *b = '\0';
243
244 }
245
246
247 // Trim leading and trailing whitespace from a string
248 size_t string_trim(char *buf) {
249         char *first_nonspace = NULL;
250         char *last_nonspace = NULL;
251         char *ptr;
252         size_t new_len = 0;
253
254         if ((buf == NULL) || (*buf == '\0')) {
255                 return 0;
256         }
257
258         for (ptr=buf; *ptr!=0; ++ptr) {
259                 if (!isspace(*ptr)) {
260                         if (!first_nonspace) {
261                                 first_nonspace = ptr;
262                         }
263                         last_nonspace = ptr;
264                 }
265         }
266
267         if ((!first_nonspace) || (!last_nonspace)) {
268                 buf[0] = 0;
269                 return 0;
270         }
271
272         new_len = last_nonspace - first_nonspace + 1;
273         memmove(buf, first_nonspace, new_len);
274         buf[new_len] = 0;
275         return new_len;
276 }
277
278
279 // check for the presence of a character within a string (returns count)
280 // st   the string to examine
281 // ch   the char to search
282 // returns the number of times ch appears in st
283 int haschar(const char *st, int ch) {
284         const char *ptr;
285         int b;
286         b = 0;
287         ptr = st;
288         while (!IsEmptyStr(ptr))
289         {
290                 if (*ptr == ch)
291                         ++b;
292                 ptr ++;
293         }
294         return (b);
295 }
296
297
298 // Determine whether the specified message number is contained within the specified sequence set.
299 int is_msg_in_sequence_set(const char *mset, long msgnum) {
300         int num_sets;
301         int s;
302         char setstr[128], lostr[128], histr[128];
303         long lo, hi;
304
305         num_sets = num_tokens(mset, ',');
306         for (s=0; s<num_sets; ++s) {
307                 extract_token(setstr, mset, s, ',', sizeof setstr);
308
309                 extract_token(lostr, setstr, 0, ':', sizeof lostr);
310                 if (num_tokens(setstr, ':') >= 2) {
311                         extract_token(histr, setstr, 1, ':', sizeof histr);
312                         if (!strcmp(histr, "*")) {
313                                 snprintf(histr, sizeof histr, "%ld", LONG_MAX);
314                         }
315                 } 
316                 else {
317                         strcpy(histr, lostr);
318                 }
319                 lo = atol(lostr);
320                 hi = atol(histr);
321
322                 if ((msgnum >= lo) && (msgnum <= hi)) return(1);
323         }
324
325         return(0);
326 }
327
328 // Utility function to "readline" from memory
329 // start        Location in memory from which we are reading.
330 // buf          the buffer to place the string in.
331 // maxlen       Size of string buffer
332 // returns pointer to the source memory right after we stopped reading.
333 char *memreadline(char *start, char *buf, int maxlen) {
334         char ch;
335         char *ptr;
336         int len = 0;            // tally our own length to avoid strlen() delays
337
338         ptr = start;
339
340         while (1) {
341                 ch = *ptr++;
342                 if ((len + 1 < (maxlen)) && (ch != 13) && (ch != 10)) {
343                         buf[len++] = ch;
344                 }
345                 if ((ch == 10) || (ch == 0)) {
346                         buf[len] = 0;
347                         return ptr;
348                 }
349         }
350 }
351
352
353 // Utility function to "readline" from memory
354 // start        Location in memory from which we are reading.
355 // buf          the buffer to place the string in.
356 // maxlen       Size of string buffer
357 // retlen       the length of the returned string
358 // returns a pointer to the source memory right after we stopped reading.
359 char *memreadlinelen(char *start, char *buf, int maxlen, int *retlen) {
360         char ch;
361         char *ptr;
362         int len = 0;            // tally our own length to avoid strlen() delays
363
364         ptr = start;
365
366         while (1) {
367                 ch = *ptr++;
368                 if ((len + 1 < (maxlen)) && (ch != 13) && (ch != 10)) {
369                         buf[len++] = ch;
370                 }
371                 if ((ch == 10) || (ch == 0)) {
372                         buf[len] = 0;
373                         *retlen = len;
374                         return ptr;
375                 }
376         }
377 }
378
379
380 // Utility function to "readline" from memory
381 // start Location in memory from which we are reading.
382 // buf the buffer to place the string in.
383 // maxlen Size of string buffer
384 // return Pointer to the source memory right after we stopped reading.
385 const char *cmemreadline(const char *start, char *buf, int maxlen) {
386         char ch;
387         const char *ptr;
388         int len = 0;            // tally our own length to avoid strlen() delays
389
390         ptr = start;
391
392         while (1) {
393                 ch = *ptr++;
394                 if ((len + 1 < (maxlen)) && (ch != 13) && (ch != 10)) {
395                         buf[len++] = ch;
396                 }
397                 if ((ch == 10) || (ch == 0)) {
398                         buf[len] = 0;
399                         return ptr;
400                 }
401         }
402 }
403
404
405 // Utility function to "readline" from memory
406 // start Location in memory from which we are reading.
407 // buf the buffer to place the string in.
408 // maxlen Size of string buffer
409 // retlen the length of the returned string
410 // return Pointer to the source memory right after we stopped reading.
411 const char *cmemreadlinelen(const char *start, char *buf, int maxlen, int *retlen) {
412         char ch;
413         const char *ptr;
414         int len = 0;            // tally our own length to avoid strlen() delays
415
416         ptr = start;
417
418         while (1) {
419                 ch = *ptr++;
420                 if ((len + 1 < (maxlen)) && (ch != 13) && (ch != 10)) {
421                         buf[len++] = ch;
422                 }
423                 if ((ch == 10) || (ch == 0)) {
424                         buf[len] = 0;
425                         *retlen = len;
426                         return ptr;
427                 }
428         }
429 }
430
431
432 // Strip a boundarized substring out of a string (for example, remove parentheses and anything inside them).
433 int stripout(char *str, char leftboundary, char rightboundary) {
434         long lb = (-1);
435         long rb = (-1);
436
437         if (!str) {
438                 return 0;
439         }
440
441         for (int a = 0; str[a]; ++a) {
442                 if ((lb==-1) && (str[a] == leftboundary)) {
443                         lb = a;
444                 } else if (str[a] == rightboundary) {
445                         rb = a;
446                 }
447         }
448
449         if ((lb==-1) || (rb <= lb)) {
450                 return 0;
451         }
452
453         strcpy(str + lb, str + rb + 1);
454         return 1;
455 }
456
457 // Reduce a string down to a boundarized substring (for example, remove
458 // parentheses and anything outside them).
459 long stripallbut(char *str, char leftboundary, char rightboundary) {
460         long lb = (-1);
461         long rb = (-1);
462         long orig_len = 0;
463
464         if (!str) {
465                 return 0;
466         }
467
468         while (str[orig_len]) {
469                 if ((lb==-1) && (str[orig_len] == leftboundary)) {
470                         lb = orig_len;
471                 } else if (str[orig_len] == rightboundary) {
472                         rb = orig_len;
473                 }
474                 orig_len++;
475         }
476
477         if ((lb==-1) || (rb <= lb)) {
478                 return orig_len;
479         }
480
481         fflush(stderr);
482
483         long new_len = rb - lb - 1;
484         memmove(str, str + lb + 1, new_len);
485         str[new_len] = 0;
486         return new_len;
487 }
488
489 char *myfgets(char *s, int size, FILE *stream) {
490         char *ret = fgets(s, size, stream);
491         char *nl;
492
493         if (ret != NULL) {
494                 nl = strchr(s, '\n');
495
496                 if (nl != NULL)
497                         *nl = 0;
498         }
499
500         return ret;
501 }
502
503
504 // Escape a string for feeding out as a URL.
505 // outbuf the output buffer
506 // oblen the size of outbuf to sanitize
507 // strbuf the input buffer
508 void urlesc(char *outbuf, size_t oblen, char *strbuf) {
509         int a, b, c, len, eclen, olen;
510         char *ec = " +#&;`'|*?-~<>^()[]{}/$\"\\";
511
512         *outbuf = '\0';
513         len = strlen(strbuf);
514         eclen = strlen(ec);
515         olen = 0;
516         for (a = 0; a < len; ++a) {
517                 c = 0;
518                 for (b = 0; b < eclen; ++b) {
519                         if (strbuf[a] == ec[b])
520                                 c = 1;
521                 }
522                 if (c == 1) {
523                         snprintf(&outbuf[olen], oblen - olen, "%%%02x", strbuf[a]);
524                         olen += 3;
525                 }
526                 else 
527                         outbuf[olen ++] = strbuf[a];
528         }
529         outbuf[olen] = '\0';
530 }
531
532
533 // In our world, we want strcpy() to be able to work with overlapping strings.
534 #ifdef strcpy
535 #undef strcpy
536 #endif
537 char *strcpy(char *dest, const char *src) {
538         memmove(dest, src, (strlen(src) + 1) );
539         return(dest);
540 }
541
542
543 // Generate a new, globally unique UID parameter for a calendar etc. object
544 void generate_uuid(char *buf) {
545         static int seq = (-1);
546         static int no_kernel_uuid = 0;
547
548         // If we are running on Linux then we have a kernelspace uuid generator available
549
550         if (no_kernel_uuid == 0) {
551                 FILE *fp;
552                 fp = fopen("/proc/sys/kernel/random/uuid", "rb");
553                 if (fp) {
554                         int rv;
555                         rv = fread(buf, 36, 1, fp);
556                         fclose(fp);
557                         if (rv == 1) {
558                                 buf[36] = 0;
559                                 return;
560                         }
561                 }
562         }
563
564         // If the kernel didn't provide us with a uuid, we generate a pseudo-random one
565
566         no_kernel_uuid = 1;
567
568         if (seq == (-1)) {
569                 seq = (int)rand();
570         }
571         ++seq;
572         seq = (seq % 0x0FFF) ;
573
574         sprintf(buf, "%08lx-%04lx-4%03x-a%03x-%012lx",
575                 (long)time(NULL),
576                 (long)getpid(),
577                 seq,
578                 seq,
579                 (long)rand()
580         );
581 }
582
583
584 // bmstrcasestr() -- case-insensitive substring search
585 //
586 // This uses the Boyer-Moore search algorithm and is therefore quite fast.
587 // The code is roughly based on the strstr() replacement from 'tin' written
588 // by Urs Jannsen.
589 inline static char *_bmstrcasestr_len(char *text, size_t textlen, const char *pattern, size_t patlen) {
590
591         register unsigned char *p, *t;
592         register int i, j, *delta;
593         register size_t p1;
594         int deltaspace[256];
595
596         if (!text) return(NULL);
597         if (!pattern) return(NULL);
598
599         // algorithm fails if pattern is empty
600         if ((p1 = patlen) == 0)
601                 return (text);
602
603         // code below fails (whenever i is unsigned) if pattern too long
604         if (p1 > textlen)
605                 return (NULL);
606
607         // set up deltas
608         delta = deltaspace;
609         for (i = 0; i <= 255; i++)
610                 delta[i] = p1;
611         for (p = (unsigned char *) pattern, i = p1; --i > 0;)
612                 delta[tolower(*p++)] = i;
613
614         // From now on, we want patlen - 1.
615         // In the loop below, p points to the end of the pattern,
616         // t points to the end of the text to be tested against the
617         // pattern, and i counts the amount of text remaining, not
618         // including the part to be tested.
619         p1--;
620         p = (unsigned char *) pattern + p1;
621         t = (unsigned char *) text + p1;
622         i = textlen - patlen;
623         while(1) {
624                 if (tolower(p[0]) == tolower(t[0])) {
625                         if (strncasecmp ((const char *)(p - p1), (const char *)(t - p1), p1) == 0) {
626                                 return ((char *)t - p1);
627                         }
628                 }
629                 j = delta[tolower(t[0])];
630                 if (i < j)
631                         break;
632                 i -= j;
633                 t += j;
634         }
635         return (NULL);
636 }
637
638
639 /*
640  * bmstrcasestr() -- case-insensitive substring search
641  *
642  * This uses the Boyer-Moore search algorithm and is therefore quite fast.
643  * The code is roughly based on the strstr() replacement from 'tin' written
644  * by Urs Jannsen.
645  */
646 char *bmstrcasestr(char *text, const char *pattern) {
647         size_t textlen;
648         size_t patlen;
649
650         if (!text) return(NULL);
651         if (!pattern) return(NULL);
652
653         textlen = strlen (text);
654         patlen = strlen (pattern);
655
656         return _bmstrcasestr_len(text, textlen, pattern, patlen);
657 }
658
659 char *bmstrcasestr_len(char *text, size_t textlen, const char *pattern, size_t patlen) {
660         return _bmstrcasestr_len(text, textlen, pattern, patlen);
661 }
662
663
664 /*
665  * bmstrcasestr() -- case-insensitive substring search
666  *
667  * This uses the Boyer-Moore search algorithm and is therefore quite fast.
668  * The code is roughly based on the strstr() replacement from 'tin' written
669  * by Urs Jannsen.
670  */
671 inline static const char *_cbmstrcasestr_len(const char *text, size_t textlen, const char *pattern, size_t patlen) {
672
673         register unsigned char *p, *t;
674         register int i, j, *delta;
675         register size_t p1;
676         int deltaspace[256];
677
678         if (!text) return(NULL);
679         if (!pattern) return(NULL);
680
681         /* algorithm fails if pattern is empty */
682         if ((p1 = patlen) == 0)
683                 return (text);
684
685         /* code below fails (whenever i is unsigned) if pattern too long */
686         if (p1 > textlen)
687                 return (NULL);
688
689         /* set up deltas */
690         delta = deltaspace;
691         for (i = 0; i <= 255; i++)
692                 delta[i] = p1;
693         for (p = (unsigned char *) pattern, i = p1; --i > 0;)
694                 delta[tolower(*p++)] = i;
695
696         /*
697          * From now on, we want patlen - 1.
698          * In the loop below, p points to the end of the pattern,
699          * t points to the end of the text to be tested against the
700          * pattern, and i counts the amount of text remaining, not
701          * including the part to be tested.
702          */
703         p1--;
704         p = (unsigned char *) pattern + p1;
705         t = (unsigned char *) text + p1;
706         i = textlen - patlen;
707         while(1) {
708                 if (tolower(p[0]) == tolower(t[0])) {
709                         if (strncasecmp ((const char *)(p - p1), (const char *)(t - p1), p1) == 0) {
710                                 return ((char *)t - p1);
711                         }
712                 }
713                 j = delta[tolower(t[0])];
714                 if (i < j)
715                         break;
716                 i -= j;
717                 t += j;
718         }
719         return (NULL);
720 }
721
722
723 /*
724  * bmstrcasestr() -- case-insensitive substring search
725  *
726  * This uses the Boyer-Moore search algorithm and is therefore quite fast.
727  * The code is roughly based on the strstr() replacement from 'tin' written
728  * by Urs Jannsen.
729  */
730 const char *cbmstrcasestr(const char *text, const char *pattern) {
731         size_t textlen;
732         size_t patlen;
733
734         if (!text) return(NULL);
735         if (!pattern) return(NULL);
736
737         textlen = strlen (text);
738         patlen = strlen (pattern);
739
740         return _cbmstrcasestr_len(text, textlen, pattern, patlen);
741 }
742
743
744 const char *cbmstrcasestr_len(const char *text, size_t textlen, const char *pattern, size_t patlen) {
745         return _cbmstrcasestr_len(text, textlen, pattern, patlen);
746 }
747
748
749 /*
750  * Local replacement for controversial C library function that generates
751  * names for temporary files.  Included to shut up compiler warnings.
752  */
753 void CtdlMakeTempFileName(char *name, int len) {
754         int i = 0;
755
756         while (i++, i < 100) {
757                 snprintf(name, len, "/tmp/ctdl.%04lx.%04x",
758                         (long)getpid(),
759                         rand()
760                 );
761                 if (!access(name, F_OK)) {
762                         return;
763                 }
764         }
765 }
766
767
768 /*
769  * Determine whether the specified message number is contained within the specified set.
770  * Returns nonzero if the specified message number is in the specified message set string.
771  */
772 int is_msg_in_mset(const char *mset, long msgnum) {
773         int num_sets;
774         int s;
775         char setstr[SIZ], lostr[SIZ], histr[SIZ];
776         long lo, hi;
777
778         // Now set it for all specified messages.
779         num_sets = num_tokens(mset, ',');
780         for (s=0; s<num_sets; ++s) {
781                 extract_token(setstr, mset, s, ',', sizeof setstr);
782
783                 extract_token(lostr, setstr, 0, ':', sizeof lostr);
784                 if (num_tokens(setstr, ':') >= 2) {
785                         extract_token(histr, setstr, 1, ':', sizeof histr);
786                         if (!strcmp(histr, "*")) {
787                                 snprintf(histr, sizeof histr, "%ld", LONG_MAX);
788                         }
789                 }
790                 else {
791                         strcpy(histr, lostr);
792                 }
793                 lo = atol(lostr);
794                 hi = atol(histr);
795
796                 if ((msgnum >= lo) && (msgnum <= hi)) return(1);
797         }
798
799         return(0);
800 }
801
802
803 // searches for a pattern within a search string
804 // returns position in string
805 int pattern2(char *search, char *patn) {
806         int a;
807         int len, plen;
808         len = strlen (search);
809         plen = strlen (patn);
810         for (a = 0; a < len; ++a) {
811                 if (!strncasecmp(&search[a], patn, plen))
812                         return (a);
813         }
814         return (-1);
815 }
816
817
818 /*
819  * Convert all whitespace characters in a supplied string to underscores
820  */
821 void convert_spaces_to_underscores(char *str) {
822         int len;
823         int i;
824
825         if (!str) return;
826
827         len = strlen(str);
828         for (i=0; i<len; ++i) {
829                 if (isspace(str[i])) {
830                         str[i] = '_';
831                 }
832         }
833 }
834
835
836 /*
837  * check whether the provided string needs to be qp encoded or not
838  */
839 int CheckEncode(const char *pch, long len, const char *pche) {
840         if (pche == NULL)
841                 pche = pch + len;
842         while (pch < pche) {
843                 if (((unsigned char) *pch < 32) || 
844                     ((unsigned char) *pch > 126)) {
845                         return 1;
846                 }
847                 pch++;
848         }
849         return 0;
850 }
851