]> code.citadel.org Git - citadel.git/blobdiff - webcit/html2html.c
Revert "No more robots.txt, we now welcome spiders"
[citadel.git] / webcit / html2html.c
index c1c2b64a55a8283b87d92b939a6cb7c5cd114ecc..a7bb2eb5af5e3c37e7058e5e8673a7a5dcdaefa9 100644 (file)
@@ -1,20 +1,29 @@
 /*
- * $Id$
- */
-/**
- * \defgroup HTML2HTML Output an HTML message, modifying it slightly to make sure it plays nice
+ * Output an HTML message, modifying it slightly to make sure it plays nice
  * with the rest of our web framework.
- * \ingroup WebcitHttpServer
+ *
+ * Copyright (c) 2005-2010 by the citadel.org team
+ *
+ * This program is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation; either version 3 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with this program; if not, write to the Free Software
  */
-/*@{*/
+
 #include "webcit.h"
 #include "webserver.h"
 
 
-/**
- * \brief      Strip surrounding single or double quotes from a string.
- *
- * \param s    String to be stripped.
+/*
+ * Strip surrounding single or double quotes from a string.
  */
 void stripquotes(char *s)
 {
@@ -32,12 +41,12 @@ void stripquotes(char *s)
 }
 
 
-/**
- * \brief Check to see if a META tag has overridden the declared MIME character set.
+/*
+ * Check to see if a META tag has overridden the declared MIME character set.
  *
- * \param charset              Character set name (left unchanged if we don't do anything)
- * \param meta_http_equiv      Content of the "http-equiv" portion of the META tag
- * \param meta_content         Content of the "content" portion of the META tag
+ * charset             Character set name (left unchanged if we don't do anything)
+ * meta_http_equiv     Content of the "http-equiv" portion of the META tag
+ * meta_content                Content of the "content" portion of the META tag
  */
 void extract_charset_from_meta(char *charset, char *meta_http_equiv, char *meta_content)
 {
@@ -70,17 +79,19 @@ void extract_charset_from_meta(char *charset, char *meta_http_equiv, char *meta_
                        strcpy(charset, "UTF-8");
                }
 
+               /* Remove wandering punctuation */
+               if ((ptr=strchr(charset, '\"'))) *ptr = 0;
+               striplt(charset);
        }
 }
 
 
 
-/**
- * \brief Sanitize and enhance an HTML message for display.
- *        Also convert weird character sets to UTF-8 if necessary.
- *        Also fixup img src="cid:..." type inline images to fetch the image
+/*
+ * Sanitize and enhance an HTML message for display.
+ * Also convert weird character sets to UTF-8 if necessary.
+ * Also fixup img src="cid:..." type inline images to fetch the image
  *
- * \param supplied_charset the input charset as declared in the MIME headers
  */
 void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, StrBuf *Source, StrBuf *Target) {
        char buf[SIZ];
@@ -103,11 +114,11 @@ void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, St
        StrBuf *BodyArea = NULL;
 #ifdef HAVE_ICONV
        iconv_t ic = (iconv_t)(-1) ;
-       char *ibuf;                   /**< Buffer of characters to be converted */
-       char *obuf;                   /**< Buffer for converted characters      */
-       size_t ibuflen;               /**< Length of input buffer               */
-       size_t obuflen;               /**< Length of output buffer              */
-       char *osav;                   /**< Saved pointer to output buffer       */
+       char *ibuf;                   /* Buffer of characters to be converted */
+       char *obuf;                   /* Buffer for converted characters      */
+       size_t ibuflen;               /* Length of input buffer               */
+       size_t obuflen;               /* Length of output buffer              */
+       char *osav;                   /* Saved pointer to output buffer       */
 #endif
        if (Target == NULL)
                Target = WC->WBuf;
@@ -158,7 +169,7 @@ void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, St
                ++ptr;
                if ((ptr == NULL) || (ptr >= msgend)) break;
 
-               /**
+               /*
                 *  Look for META tags.  Some messages (particularly in
                 *  Asian locales) illegally declare a message's character
                 *  set in the HTML instead of in the MIME headers.  This
@@ -203,7 +214,7 @@ void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, St
                        }
                }
 
-               /**
+               /*
                 * Any of these tags cause everything up to and including
                 * the tag to be removed.
                 */     
@@ -262,7 +273,7 @@ void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, St
                        msgstart = ptr;
                }
 
-               /**
+               /*
                 * Any of these tags cause everything including and following
                 * the tag to be removed.
                 */
@@ -280,7 +291,7 @@ void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, St
                strcpy(msg, msgstart);
        }
 
-       /** Now go through the message, parsing tags as necessary. */
+       /* Now go through the message, parsing tags as necessary. */
        converted_msg = NewStrBufPlain(NULL, content_length + 8192);
 
 
@@ -324,7 +335,7 @@ void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, St
 
 #endif
 
-       /**
+       /*
         *      At this point, the message has been stripped down to
         *      only the content inside the <BODY></BODY> tags, and has
         *      been converted to UTF-8 if it was originally in a foreign
@@ -366,7 +377,7 @@ void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, St
                if (!strncasecmp(ptr, "<a href=\"mailto:", 16)) {
                        content_length += 64;
                        StrBufAppendPrintf(converted_msg,
-                                       "<a href=\"display_enter?force_room=_MAIL_&recp=");
+                                       "<a href=\"display_enter?force_room=_MAIL_?recp=");
                        ptr = &ptr[16];
                        ++alevel;
                        ++brak;
@@ -394,16 +405,28 @@ void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, St
                }
                /** Fixup <img src="cid:... ...> to fetch the mime part */
                else if (!strncasecmp(ptr, "<img ", 5)) {
-                       char* tag_end=strchr(ptr,'>');
-                       char* src=strstr(ptr, " src=\"cid:");
                        char *cid_start, *cid_end;
-                       ++brak;
+                       char* tag_end=strchr(ptr,'>');
+                       char* src;
+                       /* FIXME - handle this situation (maybe someone opened an <img cid... 
+                        * and then ended the message)
+                        */
+                       if (!tag_end) {
+                               lprintf(9, "tag_end is null and ptr is:\n");
+                               lprintf(9, "%s\n", ptr);
+                               lprintf(9, "Theoretical bytes remaining: %d\n", msgend - ptr);
+                       }
 
-                       if (src && 
-                                       (cid_start=strchr(src,':')) && 
-                                       (cid_end=strchr(cid_start,'"')) &&
-                                       (cid_end < tag_end)) {
+                       src=strstr(ptr, "src=\"cid:");
+                       ++brak;
 
+                       if (src
+                           && isspace(*(src-1))
+                               && tag_end
+                               && (cid_start=strchr(src,':'))
+                               && (cid_end=strchr(cid_start,'"'))
+                               && (cid_end < tag_end)
+                       ) {
                                /* copy tag and attributes up to src="cid: */
                                StrBufAppendBufPlain(converted_msg, ptr, src - ptr, 0);
                                cid_start++;
@@ -497,23 +520,27 @@ void output_html(const char *supplied_charset, int treat_as_wiki, int msgnum, St
                        ptr++;
                }
 
-               /**
-                * We need to know when we're inside a tag,
-                * so we don't turn things that look like URL's into
-                * links, when they're already links - or image sources.
-                */
-               if (*(ptr-1) == '<') {
-                       ++brak;
-               }
-               if (*(ptr-1) == '>') {
-                       --brak;
-                       if ((scriptlevel == 0) && (script_start_pos >= 0)) {
-                               StrBufCutRight(converted_msg, StrLength(converted_msg) - script_start_pos);
-                               script_start_pos = (-1);
+
+               if ((ptr >= msg) && (ptr <= msgend)) {
+                       /*
+                        * We need to know when we're inside a tag,
+                        * so we don't turn things that look like URL's into
+                        * links, when they're already links - or image sources.
+                        */
+                       if ((ptr > msg) && (*(ptr-1) == '<')) {
+                               ++brak;
                        }
+                       if ((ptr > msg) && (*(ptr-1) == '>')) {
+                               --brak;
+                               if ((scriptlevel == 0) && (script_start_pos >= 0)) {
+                                       StrBufCutRight(converted_msg, StrLength(converted_msg) - script_start_pos);
+                                       script_start_pos = (-1);
+                               }
+                       }
+                       if (!strncasecmp(ptr, "</A>", 3)) --alevel;
                }
-               if (!strncasecmp(ptr, "</A>", 3)) --alevel;
        }
+
        if (BodyArea != NULL) {
                StrBufAppendBufPlain(converted_msg, HKEY("</td></tr></table>"), 0);  
                FreeStrBuf(&BodyArea);
@@ -600,6 +627,8 @@ void UrlizeText(StrBuf* Target, StrBuf *Source, StrBuf *WrkBuf)
        if (TrailerLen > 0)
                StrBufAppendBufPlain(Target, end, TrailerLen, 0);
 }
+
+
 void url(char *buf, size_t bufsize)
 {
        int len, UrlLen, Offset, TrailerLen, outpos;
@@ -674,7 +703,3 @@ void url(char *buf, size_t bufsize)
        *(buf + Offset + outpos + TrailerLen) = '\0';
 }
 
-
-
-
-/*@}*/