* More addressing hacks
[citadel.git] / citadel / techdoc / hack.txt
1  hack.txt for Citadel/UX
2  (possibly a little out of date)
3    
4    Much of this document is borrowed from the original hack.doc from
5 Citadel-CP/M and Citadel-86, because many of the concepts are the same.  Hats
6 off to whoever wrote the original, for a fine document that inspired the
7 implementation of Citadel for Unix. 
8  
9    Note that this document is really out of date.  It doesn't cover anything
10 about the threaded server architecture or any of the network stuff.  What is
11 covered here is the basic architecture of the databases.
12  
13    But enough of the preamble.  Here's how Citadel/UX works :)
14   
15    Here are the major databases to be discussed:
16   
17   msgmain         The big circular file that contains message text
18   quickroom       Contains room info such as room names, stats, etc.
19   fullroom        One fullrm file per room: message numbers and pointers.
20   usersupp        Contains info for each user on the system.
21  
22    The fundamental structure of the system differs greatly from the way
23 Citadels used to work.  Citadel now depends on a record manager or database
24 manager of some sort.  Thanks to the API which is in place for connecting to
25 a data store, any record manager may be used as long as it supports the
26 storage and retrieval of large binary objects (blobs) indexed by unique keys.
27 Please see database.c for more information on data store primitives.
28  
29    The message base (MSGMAIN) is a big file of messages indexed by the message
30 number.  Messages are numbered consecutively and start with an FF (hex)
31 byte.  Except for this FF start-of-message byte, all bytes in the message
32 file have the high bit set to 0.  This means that in principle it is
33 trivial to scan through the message file and locate message N if it
34 exists, or return error.  (Complexities, as usual, crop up when we
35 try for efficiency...)
36  
37     Each room is basically just a list of message numbers.  Each time
38 we enter a new message in a room, its message number is appended to the end
39 of the list.  If an old message is to be expired, we must delete it from the
40 message base.  Reading a room is just a matter of looking up the messages
41 one by one and sending them to the client for display, printing, or whatever.
42  
43     Implementing the "new message" function is also trivial in principle:
44 we just keep track, for each caller in the userlog, of the highest-numbered
45 message which existed on the *last* call.  (Remember, message numbers are
46 simply assigned sequentially each time a message is created.  This
47 sequence is global to the entire system, not local within a room.)  If
48 we ignore all message-numbers in the room less than this, only new messages
49 will be printed.  Voila! 
50  
51  
52                 Message format on disk  (MSGMAIN)
53
54    As discussed above, each message begins with an FF byte.
55  
56    The next byte denotes whether this is an anonymous message.  The codes
57 available are MES_NORMAL, MES_ANON, or MES_AN2 (defined in citadel.h).
58  
59    The third byte is a "message type" code.  The following codes are defined:
60  0 - "Traditional" Citadel format.  Message is to be displayed "formatted."
61  1 - Plain pre-formatted ASCII text (otherwise known as text/plain)
62  4 - MIME formatted message.  The text of the message which follows is
63      expected to begin with a "Content-type:" header.
64  
65    After these three opening bytes, the remainder of
66 the message consists of a sequence of character strings.  Each string
67 begins with a type byte indicating the meaning of the string and is
68 ended with a null.  All strings are printable ASCII: in particular,
69 all numbers are in ASCII rather than binary.  This is for simplicity,
70 both in implementing the system and in implementing other code to
71 work with the system.  For instance, a database driven off Citadel archives
72 can do wildcard matching without worrying about unpacking binary data such
73 as message ID's first.  To provide later downward compatability
74 all software should be written to IGNORE fields not currently defined.
75
76                   The type bytes currently defined are:         
77
78 BYTE    Mnemonic        Comments
79
80 A       Author          Name of originator of message.
81 B       Phone number    The dialup number of the system this message
82                         originated on.  This is optional, and is only
83                         defined for helping implement C86Net gateways.
84 D       Destination     Contains name of the system this message should
85                         be sent to, for mail routing (private mail only).
86 E       Extended ID     A persistent alphanumeric Message ID used for
87                         network replication.  When a message arrives that
88                         contains an Extended ID, any existing messages which
89                         contain the same Extended ID and are *older* than this
90                         message should be deleted.  If there exist any messages
91                         with the same Extended ID that are *newer*, then this
92                         message should be dropped.
93 F       rFc821 address  For Internet mail, this is the delivery address of the
94                         message author.
95 G       Gateway domain  This field is provided solely for the implementation
96                         of C86Net gateways, and holds the C86Net domain of
97                         the system this message originated on.  Unless you're
98                         implementing such a gateway, there's no need to even
99                         bother with this field.
100 H       HumanNodeName   Human-readable name of system message originated on.
101 I       Original ID     A 32-bit integer containing the message ID on the
102                         system the message *originated* on.
103 M       Message Text    Normal ASCII, newlines seperated by CR's or LF's,
104                         null terminated as always.
105 N       Nodename        Contains node name of system message originated on.
106 O       Room            Room of origin.
107 P       Path            Complete path of message, as in the UseNet news
108                         standard.  A user should be able to send Internet mail
109                         to this path. (Note that your system name will not be
110                         tacked onto this until you're sending the message to
111                         someone else)
112 R       Recipient       Only present in Mail messages.
113 S       Special field   Only meaningful for messages being spooled over a
114                         network.  Usually means that the message isn't really
115                         a message, but rather some other network function:
116                         -> "S" followed by "FILE" (followed by a null, of
117                            course) means that the message text is actually an
118                            IGnet/Open file transfer.
119                         -> "S" followed by "CANCEL" means that this message
120                            should be deleted from the local message base once
121                            it has been replicated to all network systems.
122 T       Date/Time       A 32-bit integer containing the date and time of
123                         the message in standard UNIX format (the number
124                         of seconds since January 1, 1970 GMT).
125 U       Subject         Optional.  Developers may choose whether they wish to
126                         generate or display subject fields.  Citadel/UX does
127                         not generate them, but it does print them when found.
128   
129                         EXAMPLE
130
131 Let <FF> be a 0xFF byte, and <0> be a null (0x00) byte.  Then a message
132 which prints as...
133
134 Apr 12, 1988 23:16 From Test User In Network Test> @lifesys (Life BBS)
135 Have a nice day!
136
137  might be stored as...
138 <FF><40><0>I12345<0>Pneighbor!lifesys!test_user<0>T576918988<0>    (continued)
139 -----------|Mesg ID#|--Message Path---------------|--Date------
140
141 AThe Test User<0>ONetwork Test<0>Nlifesys<0>HLife BBS<0>MHave a nice day!<0>
142 |-----Author-----|-Room name-----|-nodename-|Human Name-|--Message text-----
143
144  Weird things can happen if fields are missing, especially if you use the
145 networker.  But basically, the date, author, room, and nodename may be in any
146 order.  But the leading fields and the message text must remain in the same
147 place.  The H field looks better when it is placed immediately after the N
148 field.
149
150                             Networking
151
152 Citadel nodes network by sharing one or more rooms. Any Citadel node
153 can choose to share messages with any other Citadel node, through the sending
154 of spool files.  The sending system takes all messages it hasn't sent yet, and
155 spools them to the recieving system, which posts them in the rooms.
156
157 Complexities arise primarily from the possibility of densely connected
158 networks: one does not wish to accumulate multiple copies of a given
159 message, which can easily happen.  Nor does one want to see old messages
160 percolating indefinitely through the system.
161
162 This problem is handled by keeping track of the path a message has taken over
163 the network, like the UseNet news system does.  When a system sends out a
164 message, it adds its own name to the bang-path in the <P> field of the
165 message.  If no path field is present, it generates one.  
166    
167 With the path present, all the networker has to do to assure that it doesn't
168 send another system a message it's already received is check the <P>ath field
169 for that system's name somewhere in the bang path.  If it's present, the system
170 has already seen the message, so we don't send it.  (Note that the current
171 implementation does not allow for "loops" in the network -- if you build your
172 net this way you will see lots of duplicate messages.)
173
174 The above discussion should make the function of the fields reasonably clear:
175
176  o  Travelling messages need to carry original message-id, system of origin,
177     date of origin, author, and path with them, to keep reproduction and
178     cycling under control.
179
180 (Uncoincidentally) the format used to transmit messages for networking
181 purposes is precisely that used on disk, except that there may be any amount
182 of garbage between the null ending a message and the <FF> starting the next
183 one.  This allows greater compatibility if slight problems crop up. The current
184 distribution includes netproc.c, which is basically a database replicator;
185 please see network.txt on its operation and functionality (if any).
186
187                         Portability issues
188  
189  At this point, all hardware-dependent stuff has been removed from the 
190 system.  On the server side, most of the OS-dependent stuff has been isolated
191 into the sysdep.c source module.  The server should compile on any POSIX
192 compliant system with a full pthreads implementation and TCP/IP support.  In
193 the future, we may try to port it to non-POSIX systems as well.
194  
195  On the client side, it's also POSIX compliant.  The client even seems to
196 build ok on non-POSIX systems with porting libraries (such as the Cygnus
197 Win32 stuff).
198   
199
200                    "Room" records (quickroom)
201  
202 The rooms are basically indices into msgmain, the message database.
203 As noted in the overview, each is essentially an array of pointers into
204 the message file.  The pointers consist of a 32-bit message ID number
205 (we will wrap around at 32 bits for these purposes).
206
207 Since messages are numbered sequentially, the
208 set of messages existing in msgmain will always form a continuous
209 sequence at any given time.
210
211 That should be enough background to tackle a full-scale room.  From citadel.h:
212
213 struct quickroom {
214         char QRname[20];                /* Max. len is 19, plus null term   */
215         char QRpasswd[10];              /* Only valid if it's a private rm  */
216         long QRroomaide;                /* User number of room aide         */
217         long QRhighest;                 /* Highest message NUMBER in room   */
218         long QRgen;                     /* Generation number of room        */
219         unsigned QRflags;               /* See flag values below            */
220         char QRdirname[15];             /* Directory name, if applicable    */
221         char QRfloor;                   /* (not yet implemented)            */
222                 };
223
224 #define QR_BUSY         1               /* Room is being updated, WAIT      */
225 #define QR_INUSE        2               /* Set if in use, clear if avail    */
226 #define QR_PRIVATE      4               /* Set for any type of private room */
227 #define QR_PASSWORDED   8               /* Set if there's a password too    */
228 #define QR_GUESSNAME    16              /* Set if it's a guessname room     */
229 #define QR_DIRECTORY    32              /* Directory room                   */
230 #define QR_UPLOAD       64              /* Allowed to upload                */
231 #define QR_DOWNLOAD     128             /* Allowed to download              */
232 #define QR_VISDIR       256             /* Visible directory                */
233 #define QR_ANONONLY     512             /* Anonymous-Only room              */
234 #define QR_ANON2        1024            /* Anonymous-Option room            */
235 #define QR_NETWORK      2048            /* Shared network room              */
236 #define QR_PREFONLY     4096            /* Preferred users only             */
237
238 [Note that all components start with "QR" for quickroom, to make sure we
239  don't accidentally use an offset in the wrong structure. Be very careful
240  also to get a meaningful sequence of components --
241  some C compilers don't check this sort of stuff either.]
242
243 QRgen handles the problem of rooms which have died and been reborn
244 under another name.  This will be clearer when we get to the userlog.
245 For now, just note that each room has a generation number which is
246 bumped by one each time it is recycled.
247
248 QRflags is just a bag of bits recording the status of the room.  The
249 defined bits are:
250
251 QR_BUSY         This is to insure that two processes don't update the same
252                 record at the same time, even though this hasn't been
253                 implemented yet.
254 QR_INUSE        1 if the room is valid, 0 if it is free for re-assignment.
255 QR_PRIVATE      1 if the room is not visible by default, 0 for public.
256 QR_PASSWORDED   1 if entry to the room requires a password.
257 QR_GUESSNAME    1 if the room can be reached by guessing the name.
258 QR_DIRECTORY    1 if the room is a window onto some disk/userspace, else 0.
259 QR_UPLOAD       1 if users can upload into this room, else 0.
260 QR_DOWNLOAD     1 if users can download from this room, else 0.
261 QR_VISDIR       1 if users are allowed to read the directory, else 0.
262 QR_ANONONLY     1 if all messages are to recieve the "****" anon header.
263 QR_ANON2        1 if the user will be asked if he/she wants an anon message.
264 QR_NETWORK      1 if this room is shared on a network, else 0.
265 QR_PREFONLY     1 if the room is only accessible to preferred users, else 0.
266
267 QRname is just an ASCII string (null-terminated, like all strings)
268 giving the name of the room.
269
270 QRdirname is meaningful only in QR_DIRECTORY rooms, in which case
271 it gives the directory name to window.
272
273 QRpasswd is the room's password, if it's a QR_PASSWORDED room. Note that
274 if QR_PASSWORDED or QR_GUESSNAME are set, you MUST also set QR_PRIVATE.
275 QR_PRIVATE by itself designates invitation-only. Do not EVER set all three
276 flags at the same time.
277
278 QRroomaide is the user number of the room's room-aide (or zero if the room
279 doesn't have a room aide). Note that if a user is deleted, his/her user number
280 is never used again, so you don't have to worry about a new user getting the
281 same user number and accidentally becoming a room-aide of one or more rooms.
282
283 The only field new to us in quickroom is QRhighest, recording the
284 most recent message in the room.  When we are searching for rooms with
285 messages a given caller hasn't seen, we can check this number
286 and avoid a whole lot of extra disk accesses.
287  
288    There used to also be a structure called "fullroom" which resided in one
289 file for each room on the system.  This has been abandoned in favour of
290 "message lists" which are variable sized and simply contain zero or more
291 message numbers.  The message numbers, in turn, point to messages on disk.
292
293                         User records (usersupp)
294
295 This is the fun one.  Get some fresh air and plug in your thinking cap
296 first.  (Time, space and complexity are the eternal software rivals.
297 We've got lots of log entries times lots of messages spread over up to nnn
298 rooms to worry about, and with multitasking, disk access time is important...
299 so perforce, we opt for complexity to keep time and space in bounds.)
300
301 To understand what is happening in the log code takes a little persistence.
302 You also have to disentangle the different activities going on and
303 tackle them one by one.
304
305  o      We want to remember some random things such as terminal screen
306         size, and automatically set them up for each caller at login.
307
308  o      We want to be able to locate all new messages, and only new
309         messages, efficiently.  Messages should stay new even if it
310         takes a caller a couple of calls to get around to them.
311
312  o      We want to remember which private rooms a given caller knows
313         about, and treat them as normal rooms.  This means mostly
314         automatically seeking out those with new messages.  (Obviously,
315         we >don't< want to do this for unknown private rooms!)  This
316         has to be secure against the periodic recycling of rooms
317         between calls.
318
319  o      We want to support private mail to a caller.
320
321  o      We want to provide some protection of this information (via
322         passwords at login) and some assurance that messages are from
323         who they purport to be from (within the system -- one shouldn't
324         be able to forge messages from established users).
325
326 Lifting another page from citadel.h gives us:
327
328 struct usersupp {                       /* User record                      */
329         int USuid;                      /* uid account is logged in under   */
330         char password[20];              /* password                         */
331         long lastseen[MAXROOMS];        /* Last message seen in each room   */
332         char generation[MAXROOMS];      /* Generation # (for private rooms) */
333         char forget[MAXROOMS];          /* Forgotten generation number      */
334         unsigned flags;                 /* See US_ flags below              */
335         int screenwidth;                /* For formatting messages          */
336         int timescalled;                /* Total number of logins           */
337         int posted;                     /* Number of messages posted (ever) */
338         char fullname[26];              /* Bulletin Board name for messages */
339         char axlevel;                   /* Access level                     */
340         long usernum;                   /* Eternal user number              */
341         long lastcall;                  /* Last time the user called        */
342                                 };
343
344 #define US_PERM         1               /* Permanent user; don't scroll off */
345 #define US_LASTOLD      16              /* Print last old message with new  */
346 #define US_EXPERT       32              /* Experienced user                 */
347 #define US_UNLISTED     64              /* Unlisted userlog entry           */
348 #define US_NOPROMPT     128             /* Don't prompt after each message  */
349 #define US_PREF         1024            /* Preferred user                   */
350  
351 Looks simple enough, doesn't it?  One topic at a time:
352
353  Random configuration parameters:
354 -screenwidth is the caller's screen width.  We format all messages to this
355 width, as best we can. flags is another bit-bag, recording whether we want
356 prompts, people who want to suppress the little automatic hints all through
357 the system, etc.
358  
359   Attachments, names & numbers:
360 -USuid is the uid the account was established under. For most users it will
361 be the same as BBSUID, but it won't be for users that logged in from the shell.
362 -fullname is the user's full login name.
363 -usernum is the user's ID number.  It is unique to the entire system:
364 once someone has a user number, it is never used again after the user is
365 deleted. This allows an easy way to numerically represent people.
366 -password is the user's password.
367 -axlevel is the user's access level, so we know who's an Aide, who's a problem
368 user, etc.  These are defined and listed in the system.
369
370   Feeping Creatures:
371 -timescalled is the number of times the user has called.
372 -posted is the number of messages the user has posted, public or private.
373
374   Misc stuff:
375 -lastcall holds the date and time (standard Unix format) the user called, so
376 we can purge people who haven't called in a given amount of time.
377
378   Finding new messages:
379 This is the most important.  Thus, it winds up being the most
380 elaborate.  Conceptually, what we would like to do is mark each
381 message with a bit after our caller has read it, so we can avoid
382 printing it out again next call.  Unfortunately, with lots of user
383 entries this would require adding lots of bits to each message... and
384 we'd wind up reading off disk lots of messages which would never
385 get printed.  So we resort to approximation and a small table.
386
387 The approximation comes in doing things at the granularity of
388 rooms rather than messages.  Messages in a given room are "new"
389 until we visit it, and "old" after we leave the room... whether
390 we read any of them or not.  This can actually be defended: anyone
391 who passes through a room without reading the contents probably just
392 isn't interested in the topic, and would just as soon not be dragged
393 back every visit and forced to read them.  Given that messages are
394 numbered sequentially, we can simply record the most recent message ID#
395 of each room as of the last time we visited it. Very simple.
396
397 Putting it all together, we can now compute whether a given room
398 has new messages for our current caller without going to the message base
399 index (fullroom) at all:
400
401  > We get the usersupp.lastseen[] for the room in question
402  > We compare this with the room's quickroom.QRhighest, which tells us
403    what the most recent message in the room is currently.
404
405
406              REMEMBERING WHICH PRIVATE ROOMS TO VISIT
407
408 This looks trivial at first glance -- just record one bit per room per
409 caller in the log records.  The problem is that rooms get recycled
410 periodically, and we'd rather not run through all the log entries each
411 time we do it.  So we adopt a kludge which should work 99% of the time.
412
413 As previously noted, each room has a generation number, which is bumped
414 by one each time it is recycled.  As not noted, this generation number
415 runs from 0 -> 127 (and then wraps around and starts over). 
416   When someone visits a room, we set usersupp.generation for the room
417 equal to that of the room.  This flags the room as being available.
418 If the room gets recycled, on our next visit the two generation numbers
419 will no longer match, and the room will no longer be available -- just
420 the result we're looking for.  (Naturally, if a room is public,
421 all this stuff is irrelevant.)
422
423 This leaves only the problem of an accidental matchup between the two
424 numbers giving someone access to a Forbidden Room.  We can't eliminate
425 this danger completely, but it can be reduced to insignificance for
426 most purposes.  (Just don't bet megabucks on the security of this system!)
427 Each time someone logs in, we set all "wrong" generation numbers to -1.
428 So the room must be recycled 127 times before an accidental matchup
429 can be achieved.  (We do this for all rooms, INUSE or dead, public
430 or private, since any of them may be reincarnated as a Forbidden Room.)
431
432 Thus, for someone to accidentally be led to a Forbidden Room, they
433 must establish an account on the system, then not call until some room
434 has been recycled 127 to 128 times, which room must be
435 reincarnated as a Forbidden Room, which someone must now call back
436 (having not scrolled off the userlog in the mean time) and read new
437 messages.  The last clause is about the only probable one in the sequence.
438 The danger of this is much less than the danger that someone will
439 simply guess the name of the room outright (if it's a guess-name room)
440 or some other human loophole.
441
442                      FORGOTTEN ROOMS
443
444   This is exactly the opposite of private rooms. When a user chooses to
445 forget a room, we put the room's generation number in usersupp.forget for
446 that room. When doing a <K>nown rooms list or a <G>oto, any matchups cause
447 the room to be skipped. Very simple.
448
449                      SUPPORTING PRIVATE MAIL
450
451    Can one have an elegant kludge?  This must come pretty close.
452  
453    Private mail is sent and recieved in the Mail> room, which otherwise
454 behaves pretty much as any other room.  To make this work, we have a
455 separate Mail> room for each user behind the scenes.  The actual room name
456 in the database looks like "0000001234.Mail" (where '1234' is the user
457 number) and it's flagged with the QR_MAILBOX flag.  The user number is
458 stripped off by the server before the name is presented to the client.
459
460    This requires a little fiddling to get things just right.  For example,
461 make_message() has to be kludged to ask for the name of the recipient
462 of the message whenever a message is entered in Mail>.  But basically
463 it works pretty well, keeping the code and user interface simple and
464 regular.
465
466
467                    PASSWORDS AND NAME VALIDATION
468  
469   This has changed a couple of times over the course of Citadel's history.  At
470 this point it's very simple, again due to the fact that record managers are
471 used for everything.    The user file (usersupp) is indexed using the user's
472 name, converted to all lower-case.  Searching for a user, then, is easy.  We
473 just lowercase the name we're looking for and query the database.  If no
474 match is found, it is assumed that the user does not exist.
475    
476   This makes it difficult to forge messages from an existing user.  (Fine
477 point: nonprinting characters are converted to printing characters, and
478 leading, trailing, and double blanks are deleted.)