Código Tux

Linux entre otras cosas.

Tokenización

20080703-CodeOfContact-tokenizer-state-machineRecuerdo cuando empezaba a programar, de eso hace ya casi treinta años, y fue con un Spectrum (no es que sea muy mayor, pero ahí queda eso). En aquel momento no imaginaba cuántos avances iba a ver dentro del mundo de la programación, teniendo en cuenta que por aquella época yo sólo soñaba con ser programador, y a estas alturas ya llevo muchos años de experiéncia dedicándome a esto. Programar entonces era sencillo. Bastaba con entender el código y lo que querías hacer y ya está.

Durante años pasé de un lenguaje de programación a otro: BASIC, Pascal, C, DataFlex… Luego empecé a centrarme en los visuales: Builder, Access, Delphi, .Net… Después entré también en el mundo de la programación web: HTML, CSS, Javascript, php… Ahora me ha dado por aprender Java, y creo que no se me da nada mal. Una de las primeras cosas que he tenido que hacer ha sido tokenizar.

Tokenizar no es más que dividir una cadena en elemento más pequeños, para poder trabajar con ellos por separado. Esos elementos más pequeños vienen a denominarse tokens. Antiguamente, al menos en lenguajes de bajo nivel como lo eran C o Pascal, había que coger la cadena y separarla en cada elemento, carácter, byte, para tratarlo por separado y determinar si era el comienzo o el fin de un token, o un token en sí mismo. Era complicado y difícil de optimizar, ya que intervenían varias líneas de código.

Actualmente, en prácticamente todos los lenguajes de programación contemporáneos, existe alguna función, en alguna librería, que nos permite realizar esto en sólo una línea. En el caso de Java se trata del método split(). Es referente a la cadena, o intrínseco a la clase String, más bien. Su uso es fácil ya que sólo depende de dos argumentos o parámetros.

No voy a explicar aquí en qué consiste, ya que sería redundar la información que ya existe al respecto en Internet, y me basta con haber aportado una mínima explicación, así que lo que voy a hacer van a ser dos cosas:

  1. Poner el enlace al lugar donde mejor se explica el uso de este método: aquí.
  2. Crear una entrada en la Wikipedia para explicar la tokenización, puesto que la entrada existe en inglés, pero no en castellano: aquí.

agosto 5, 2009 - Publicado por | Programación

Aún no hay comentarios.

Deja un comentario

Fill in your details below or click an icon to log in:

Logo de WordPress.com

You are commenting using your WordPress.com account. Log Out / Cambiar )

Twitter picture

You are commenting using your Twitter account. Log Out / Cambiar )

Facebook photo

You are commenting using your Facebook account. Log Out / Cambiar )

Connecting to %s

Seguir

Get every new post delivered to your Inbox.

Únete a otros 181 seguidores